12月23日 通义大模型发布新一代端到端语音交互模型Fun-Audio-Chat。这是通义百聆语音模型系列中,首个主打“语音对语音”交互能力的模型,支持用户直接通过语音与模型进行多轮对话。

从技术指标看,该模型在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall等多项语音与多模态评测中取得当前开源模型中的领先成绩,整体性能超过多款同参数规模模型,显示出其在语音理解、生成以及对话协同上的综合能力。
Fun-Audio-Chat-8B隶属于通义百聆语音模型家族。此前,该系列已包含语音转文字模型Fun-ASR以及文字转语音模型Fun-CosyVoice3。与前两者不同,Fun-Audio-Chat-8B强调端到端语音交互能力,可直接用于语音聊天、情感陪伴、智能终端交互以及语音客服等场景。目前,该模型已同步在魔搭社区、Hugging Face及GitHub开源。
在模型训练与架构设计上,阿里云披露了两项关键技术路径。其一是Core-Cocktail 两阶段训练策略,通过分阶段引入语音与多模态能力,再与原有文本大模型参数融合微调,以降低新增能力对原有语言理解能力的影响,缓解“灾难性遗忘”问题。其二是引入多阶段、多任务的偏好对齐训练,使模型在真实语音对话中能更准确捕捉语义与情绪线索,提升对话自然度。
算力效率也是该模型的一大特点。Fun-Audio-Chat-8B采用 压缩—自回归—解压缩的双分辨率端到端架构,将音频帧率降低至约 5Hz。在保证语音质量的前提下,该设计可 节省近50%的GPU计算开销,在当前语音大模型普遍算力成本较高的背景下,具有一定工程意义。
整体来看,Fun-Audio-Chat-8B的开源,标志着通义大模型在语音交互方向进一步向“低算力、强对话”的实用化阶段推进,也为开源语音大模型在真实场景中的部署提供了新的技术参考。





京公网安备 11011402013531号