一知智能全新语音大模型PolyVox亮相

听得懂说得像 仿佛真人在交流

发布日期:2025-09-25 09:31 访问次数: 信息来源:萧山区
分享:

“语音大模型这个概念,对很多人来说都有点陌生。您能拆解一下,它和我们熟悉的AI,比如ChatGPT有什么根本不同?”

“以前像ChatGPT这样的大模型,只负责思考和生成文字,但它自己是哑巴。PolyVox是一个原生的语音大模型,在深度理解文本背后的意图、情绪和语境后,直接生成一段饱含相应情感和语气的高度自然语音。”

……

前不久,一知智能发布了一则结合PolyVox与数字人技术的视频。这则视频是两个人在自然地对话,很像企业为新产品发布准备的宣传片。其实,该视频没有任何真人参与,从声音到形象,从对话到演绎,全部由AI一体化生成,但做到了自然衔接,就像两个人真坐在一张桌子前即兴交流。

PolyVox是一知智能联合浙大自研的全新一代语音大模型。这项技术不仅能把文字转成语音,更能“入戏演绎”。一知智能相关负责人介绍,“只需要输入一段文字,就能直接得到一段多角色、多情绪、多语气的访谈视频。”

比如,在一个访谈里,能为不同角色赋予截然不同的声音与个性。这也意味着,PolyVox刷新了语音AI的技术上限,创作的门槛被打破,内容生产的效率被拉高,真正让AI的声音拥有生命力。

那么,PolyVox到底是什么?过去的语音技术,更多是“把文字念出来”。声音或许足够拟真,但它并不知道自己在表达什么,更不懂场景和人物设定。文本模型和语音模型之间也像是两条平行线,彼此独立,始终隔着一层“翻译”。

PolyVox打破了这道隔阂。它的名字也暗示了这种能力——“Poly”代表多面、多元,“Vox”是拉丁语里的声音,在技术领域常被用来指代语音。正如名字所揭示的,PolyVox是一个真正的端到端语音大模型。输入文字,它能直接生成富有情感的对话语音;输入语音,它又能立刻理解其中的语气、身份、场景信息,并实时回应。

可以说,听与说、读与写,在一个统一的模型里完成。

正是这种打通,让语音AI出现了质变。这已经不再是单纯的“会说话”,而更像是一种“会表演、会理解”的能力。比如,它能理解复杂的场景设定。当输入“两个同事在开会讨论方案”,PolyVox不仅能把他们的台词读出来,还能赋予两人完全不同的节奏和情绪,让整个对话自然得像是真人在交流。

随着语音生成能力的跨越式提升,一知的PolyVox已具备广阔的落地空间,并将在多个行业中推动体验与效率的革新。在内容创作、直播电商与数字人、游戏与虚拟世界等领域,PolyVox都能提升内容生产效率,构建沉浸式体验。

自成立之初,一知智能便始终专注于人机交互这一赛道,以自主研发为根基,坚持走在AI语音技术进化的最前沿。如今,一知智能已与浙江大学建立深度战略合作,依托顶尖学术资源,不断夯实底层技术能力,构建了从算法到产品的全链路自研体系。“这种‘产、学、研’一体化的创新机制,不仅让我们始终站在技术高地上,也使我们有能力将前沿AI研究与实际业务场景紧密结合,打造真正可用、可信、可进化的AI内容生成系统。”一知智能相关负责人说。(周珂 杨静 冯佳程)



扫一扫在手机打开当前页