当前位置: 首页 » 资讯 » 科技头条 » 正文

开源语音大模型 “Step-Audio 2 mini” 发布!听得清楚、说得自然

IP属地 中国·北京 编辑:任飞扬 Chinaz 时间:2025-09-01 14:30:19

近日,阶跃星辰正式推出了最新的开源端到端语音大模型 ——Step-Audio2mini。这款模型在多个国际基准测试中表现优异,获得了 SOTA(最先进技术)成绩,令人瞩目。Step-Audio2mini 不仅在语音理解和音频生成方面能力强大,还首次将音频推理和生成统一建模,为语音识别、跨语言翻译和情感解析等多种应用场景提供了出色的解决方案。

Step-Audio2mini 的特点之一是其卓越的多模态音频理解能力。在 MMAU(多模态音频理解测试集)上,该模型以73.2的得分稳居开源语音模型的榜首。在口语对话能力的 URO Bench 测试中,无论基础赛道还是专业赛道,Step-Audio2mini 都取得了开源模型中的最高分,展现出其出色的对话理解与表达能力。

在中英互译任务中,Step-Audio2mini 也表现不俗。在 CoVoST2和 CVSS 评测集上,分别获得了39.3和29.1的高分,明显超越了 GPT-4o Audio 和其他开源语音模型。此外,该模型在语音识别方面同样出类拔萃,在开源中文测试集上的字错误率(CER)为3.19,在开源英语测试集上的词错误率(WER)为3.50,领先其他开源模型超过15%。

Step-Audio2mini 的成功离不开其创新的架构设计。该模型打破了传统的 ASR(自动语音识别)、LLM(大语言模型)和 TTS(文本转语音)的三级结构,实现了从原始音频输入到语音响应输出的直接转换,简化了架构,降低了延迟。此外,模型还引入了链式思维推理(CoT)与强化学习的联合优化技术,使其能够更好地理解情绪、语调等副语言信息,并自然地作出反应。

值得一提的是,Step-Audio2mini 还支持音频知识增强功能,能够利用外部工具进行联网搜索,解决了传统模型中的幻觉问题。这一创新不仅提升了模型的实用性,还扩展了其在多种场景中的应用潜力。

目前,Step-Audio2mini 已在 GitHub、Hugging Face 等平台上线,欢迎开发者们前去试用和贡献代码!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。