一知智能全新语音大模型PolyVox亮相

听得懂说得像仿佛真人在交流

发布日期：2025-09-25 09:31 访问次数: 信息来源：萧山区

“语音大模型这个概念，对很多人来说都有点陌生。您能拆解一下，它和我们熟悉的AI，比如ChatGPT有什么根本不同？”

“以前像ChatGPT这样的大模型，只负责思考和生成文字，但它自己是哑巴。PolyVox是一个原生的语音大模型，在深度理解文本背后的意图、情绪和语境后，直接生成一段饱含相应情感和语气的高度自然语音。”

……

前不久，一知智能发布了一则结合PolyVox与数字人技术的视频。这则视频是两个人在自然地对话，很像企业为新产品发布准备的宣传片。其实，该视频没有任何真人参与，从声音到形象，从对话到演绎，全部由AI一体化生成，但做到了自然衔接，就像两个人真坐在一张桌子前即兴交流。

PolyVox是一知智能联合浙大自研的全新一代语音大模型。这项技术不仅能把文字转成语音，更能“入戏演绎”。一知智能相关负责人介绍，“只需要输入一段文字，就能直接得到一段多角色、多情绪、多语气的访谈视频。”

比如，在一个访谈里，能为不同角色赋予截然不同的声音与个性。这也意味着，PolyVox刷新了语音AI的技术上限，创作的门槛被打破，内容生产的效率被拉高，真正让AI的声音拥有生命力。

那么，PolyVox到底是什么？过去的语音技术，更多是“把文字念出来”。声音或许足够拟真，但它并不知道自己在表达什么，更不懂场景和人物设定。文本模型和语音模型之间也像是两条平行线，彼此独立，始终隔着一层“翻译”。

PolyVox打破了这道隔阂。它的名字也暗示了这种能力——“Poly”代表多面、多元，“Vox”是拉丁语里的声音，在技术领域常被用来指代语音。正如名字所揭示的，PolyVox是一个真正的端到端语音大模型。输入文字，它能直接生成富有情感的对话语音；输入语音，它又能立刻理解其中的语气、身份、场景信息，并实时回应。

可以说，听与说、读与写，在一个统一的模型里完成。

正是这种打通，让语音AI出现了质变。这已经不再是单纯的“会说话”，而更像是一种“会表演、会理解”的能力。比如，它能理解复杂的场景设定。当输入“两个同事在开会讨论方案”，PolyVox不仅能把他们的台词读出来，还能赋予两人完全不同的节奏和情绪，让整个对话自然得像是真人在交流。

随着语音生成能力的跨越式提升，一知的PolyVox已具备广阔的落地空间，并将在多个行业中推动体验与效率的革新。在内容创作、直播电商与数字人、游戏与虚拟世界等领域，PolyVox都能提升内容生产效率，构建沉浸式体验。

自成立之初，一知智能便始终专注于人机交互这一赛道，以自主研发为根基，坚持走在AI语音技术进化的最前沿。如今，一知智能已与浙江大学建立深度战略合作，依托顶尖学术资源，不断夯实底层技术能力，构建了从算法到产品的全链路自研体系。“这种‘产、学、研’一体化的创新机制，不仅让我们始终站在技术高地上，也使我们有能力将前沿AI研究与实际业务场景紧密结合，打造真正可用、可信、可进化的AI内容生成系统。”一知智能相关负责人说。（周珂杨静冯佳程）

扫一扫在手机打开当前页

打印本页关闭窗口

一知智能全新语音大模型PolyVox亮相

听得懂说得像 仿佛真人在交流

听得懂说得像仿佛真人在交流