当前位置: 首页 » 资讯 » 科技头条 » 正文

中国造播客语音合成模型开源 可“零样本”生成川话、粤语等方言多轮对话丨预见·科技

IP属地 中国·北京 封面新闻 时间:2025-10-29 18:13:54


封面新闻记者 欧阳宏宇

具身智能进入千千万万家庭服务场景,让其能开口说方言是重要的一环。继通义、星火、混元等大模型之后,又有更多的国产语音合成模型开源,甚至可以零样板“凭空”生成方言风格语音。

记者10月29日获悉,播客语音合成模型SoulX-Podcast在近日开源。据悉,该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。

除了播客场景以外,该模型还可以在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。



据了解,SoulX-Podcast由Soul App AI团队(Soul AI Lab)开发,其技术原理借助LLM + Flow Matching的语音生成范式,由前者建模语义token,后者进一步建模声学特征。在基于LLM的语义token建模方面,其以 Qwen3-1.7B 作为基座模型,并基于原始文本模型参数进行初始化,以充分继承其语言理解能力。

基于这一技术策略后,该模型可以在零样本场景中,能高度还原参考语音的音色与风格,甚至更能根据对话语境灵活调节韵律与节奏;在多轮长时对话中,依然能保持声音的连贯与表达的真实。此外,SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成。

除中英文外,该模型还支持四川话、河南话、粤语等方言,甚至跨方言音色克隆,即可提供普通话的参考语音,生成带有四川话、河南话、粤语等方言特征的自然语音。

业内人士分析称,业界能够稳定支持多轮自然对话的开源播客生成模型相对较少,并且当场景从单人独白扩展到多人对话与长篇播客时也普遍面临问题。类似模型可赋予AI自主决策对话节奏的能力,实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

对此,其研发团队表示,未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升,并加速技术在多样化应用场景与整体生态中的融合落地,为用户带来更加沉浸、智能且富有温度的交互体验,持续提升个体的幸福感与归属感。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新