通义端到端语音交互模型Fun-Audio-Chat发布

IP属地中国·北京 编辑：王婷凤凰网科技 时间：2025-12-23 20:07:11

12月23日通义大模型发布新一代端到端语音交互模型Fun-Audio-Chat。这是通义百聆语音模型系列中，首个主打“语音对语音”交互能力的模型，支持用户直接通过语音与模型进行多轮对话。
从技术指标看，该模型在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall等多项语音与多模态评测中取得当前开源模型中的领先成绩，整体性能超过多款同参数规模模型，显示出其在语音理解、生成以及对话协同上的综合能力。
Fun-Audio-Chat-8B隶属于通义百聆语音模型家族。此前，该系列已包含语音转文字模型Fun-ASR以及文字转语音模型Fun-CosyVoice3。与前两者不同，Fun-Audio-Chat-8B强调端到端语音交互能力，可直接用于语音聊天、情感陪伴、智能终端交互以及语音客服等场景。目前，该模型已同步在魔搭社区、Hugging Face及GitHub开源。
在模型训练与架构设计上，阿里云披露了两项关键技术路径。其一是Core-Cocktail 两阶段训练策略，通过分阶段引入语音与多模态能力，再与原有文本大模型参数融合微调，以降低新增能力对原有语言理解能力的影响，缓解“灾难性遗忘”问题。其二是引入多阶段、多任务的偏好对齐训练，使模型在真实语音对话中能更准确捕捉语义与情绪线索，提升对话自然度。
算力效率也是该模型的一大特点。Fun-Audio-Chat-8B采用 压缩—自回归—解压缩的双分辨率端到端架构，将音频帧率降低至约 5Hz。在保证语音质量的前提下，该设计可 节省近50%的GPU计算开销，在当前语音大模型普遍算力成本较高的背景下，具有一定工程意义。
整体来看，Fun-Audio-Chat-8B的开源，标志着通义大模型在语音交互方向进一步向“低算力、强对话”的实用化阶段推进，也为开源语音大模型在真实场景中的部署提供了新的技术参考。

标签：语音模型对话通义能力整体架构 分辨率 算力阶段开源性能科技路径问题 凤凰网 关键技术 灾难性 领先终端陪伴情感场景 同参数 线索情绪成绩智能参数文字音频解

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

谷歌I/O大会密集发布AI新品重塑搜索体验并加码编码与智能体赛道

群核科技空间智能大模型完成国家备案，加速走向产业应用

DAA价值显现！百度一季报AI业务占比首次过半，智能体成新驱动力

从5亿用户到飞天梦：汽车之家再造中国智造叙事

谷歌推出科研版Gemini，能追踪论文、写实验代码

东森集团全面拥抱AI　东森自然美与百度启动战略合作

全站最新

谷歌I/O大会密集发布AI新品重塑搜索体验并加码编码与智能体赛道

群核科技空间智能大模型完成国家备案，加速走向产业应用

DAA价值显现！百度一季报AI业务占比首次过半，智能体成新驱动力

从5亿用户到飞天梦：汽车之家再造中国智造叙事

热门推荐

谷歌I/O大会密集发布AI新品重塑搜索体验并加码编码与智能体赛道

群核科技空间智能大模型完成国家备案，加速走向产业应用

DAA价值显现！百度一季报AI业务占比首次过半，智能体成新驱动力

从5亿用户到飞天梦：汽车之家再造中国智造叙事

谷歌推出科研版Gemini，能追踪论文、写实验代码

东森集团全面拥抱AI　东森自然美与百度启动战略合作

阿里云发布“真武M890”AI芯片，公共事业部总裁：我们已全栈就绪

NUS、牛津等联合发布音视频智能综述：系统梳理大模型时代的AVI全景图

智象未来超两千亿参数图像大模型发布，公司完成新一轮亿级融资

OpenAI承诺投资逾3亿新元，在新加坡设立其海外首个应用型AI实验室

Meta大重组：裁员同时转岗 7000人将加入AI新团队

对标百万级燃油GT 雷军坦言YU7 GT定价"会有点小贵"

正式对标美国最强编程巨头 DeepSeek亲自下场做Claude竞品

英特尔陈立武：AI从训练到推理 CPU与GPU配比可升至4比1

新官上任的第二把“火”！消息称苹果硬件团队开始高管上任后第二轮重组