中国造播客语音合成模型开源可“零样本”生成川话、粤语等方言多轮对话丨预见·科技

IP属地中国·北京 封面新闻 时间：2025-10-29 18:13:54

封面新闻记者欧阳宏宇
具身智能进入千千万万家庭服务场景，让其能开口说方言是重要的一环。继通义、星火、混元等大模型之后，又有更多的国产语音合成模型开源，甚至可以零样板“凭空”生成方言风格语音。
记者10月29日获悉，播客语音合成模型SoulX-Podcast在近日开源。据悉，该模型是一款专为多人、多轮对话场景打造的语音生成模型，支持中、英、川、粤等多语种/方言与副语言风格，能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。
除了播客场景以外，该模型还可以在通用语音合成或克隆场景下也表现出色，带来更真实、更生动的语音体验。

据了解，SoulX-Podcast由Soul App AI团队（Soul AI Lab）开发，其技术原理借助LLM + Flow Matching的语音生成范式，由前者建模语义token，后者进一步建模声学特征。在基于LLM的语义token建模方面，其以 Qwen3-1.7B 作为基座模型，并基于原始文本模型参数进行初始化，以充分继承其语言理解能力。
基于这一技术策略后，该模型可以在零样本场景中，能高度还原参考语音的音色与风格，甚至更能根据对话语境灵活调节韵律与节奏；在多轮长时对话中，依然能保持声音的连贯与表达的真实。此外，SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成。
除中英文外，该模型还支持四川话、河南话、粤语等方言，甚至跨方言音色克隆，即可提供普通话的参考语音，生成带有四川话、河南话、粤语等方言特征的自然语音。
业内人士分析称，业界能够稳定支持多轮自然对话的开源播客生成模型相对较少，并且当场景从单人独白扩展到多人对话与长篇播客时也普遍面临问题。类似模型可赋予AI自主决策对话节奏的能力，实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。
对此，其研发团队表示，未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升，并加速技术在多样化应用场景与整体生态中的融合落地，为用户带来更加沉浸、智能且富有温度的交互体验，持续提升个体的幸福感与归属感。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

DeepSeek计划所有部门扩招一倍，还开放了一个特别岗位

携程国际化扩张的B面，全球风浪下的业绩摇摆

Rokid祝铭明回应“智能眼镜偷拍空姐”：第一时间和相关部门沟通

世界杯“名场面”，居然是AI造假？

没买世界杯，抖音划算吗？

微软当起倒爷：GPT卖给中国、DeepSeek卖给西方两头赚

全站最新

DeepSeek计划所有部门扩招一倍，还开放了一个特别岗位

携程国际化扩张的B面，全球风浪下的业绩摇摆

Rokid祝铭明回应“智能眼镜偷拍空姐”：第一时间和相关部门沟通

世界杯“名场面”，居然是AI造假？

热门推荐

DeepSeek计划所有部门扩招一倍，还开放了一个特别岗位

携程国际化扩张的B面，全球风浪下的业绩摇摆

Rokid祝铭明回应“智能眼镜偷拍空姐”：第一时间和相关部门沟通

世界杯“名场面”，居然是AI造假？

没买世界杯，抖音划算吗？

微软当起倒爷：GPT卖给中国、DeepSeek卖给西方两头赚

史诗级大重组！大众计划全球裁员10万人、连关4家德国本土工厂

当AI遇上高合规行业：金融、通信、能源的研发转型为何比想象中更快？

高端直板旗舰定价将突破万元 REDMI产品经理：下半年手机价格很恐怖

苹果多款产品二手市场同步涨价，晚买一天多花2000元

LABUBU，新品常规款破发

美团：为吸粉引流发布多篇涉外卖骑手虚假卖惨类短视频，两人被处罚

AI算力“烤”热培育钻石，金刚石散热现成长拐点业内：2027年或迎放量期

当苹果失去定价权

蛋价“退烧” 多地跌破5元区间 “火箭蛋”熄火？

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

中国造播客语音合成模型开源可“零样本”生成川话、粤语等方言多轮对话丨预见·科技

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

中国造播客语音合成模型开源 可“零样本”生成川话、粤语等方言多轮对话丨预见·科技

同类资讯

中国造播客语音合成模型开源可“零样本”生成川话、粤语等方言多轮对话丨预见·科技