开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

IP属地中国·北京 编辑：任飞扬 Chinaz 时间：2025-09-01 14:30:19

近日，阶跃星辰正式推出了最新的开源端到端语音大模型 ——Step-Audio2mini。这款模型在多个国际基准测试中表现优异，获得了 SOTA（最先进技术）成绩，令人瞩目。Step-Audio2mini 不仅在语音理解和音频生成方面能力强大，还首次将音频推理和生成统一建模，为语音识别、跨语言翻译和情感解析等多种应用场景提供了出色的解决方案。
Step-Audio2mini 的特点之一是其卓越的多模态音频理解能力。在 MMAU（多模态音频理解测试集）上，该模型以73.2的得分稳居开源语音模型的榜首。在口语对话能力的 URO Bench 测试中，无论基础赛道还是专业赛道，Step-Audio2mini 都取得了开源模型中的最高分，展现出其出色的对话理解与表达能力。
在中英互译任务中，Step-Audio2mini 也表现不俗。在 CoVoST2和 CVSS 评测集上，分别获得了39.3和29.1的高分，明显超越了 GPT-4o Audio 和其他开源语音模型。此外，该模型在语音识别方面同样出类拔萃，在开源中文测试集上的字错误率（CER）为3.19，在开源英语测试集上的词错误率(WER)为3.50，领先其他开源模型超过15%。
Step-Audio2mini 的成功离不开其创新的架构设计。该模型打破了传统的 ASR（自动语音识别）、LLM(大语言模型)和 TTS(文本转语音)的三级结构，实现了从原始音频输入到语音响应输出的直接转换，简化了架构，降低了延迟。此外，模型还引入了链式思维推理(CoT)与强化学习的联合优化技术，使其能够更好地理解情绪、语调等副语言信息，并自然地作出反应。
值得一提的是，Step-Audio2mini 还支持音频知识增强功能，能够利用外部工具进行联网搜索，解决了传统模型中的幻觉问题。这一创新不仅提升了模型的实用性，还扩展了其在多种场景中的应用潜力。
目前，Step-Audio2mini 已在 GitHub、Hugging Face 等平台上线，欢迎开发者们前去试用和贡献代码!

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

非侵入神经调控为阿尔茨海默病提供新策略，国内外神经康复名家齐聚上海

34岁就能挑大梁！深耕“特区”三年，华理勇闯碳中和基础研究无人区

巨头股价“暴涨”！一则消息引爆

传媒业加速向数智化纵深演进，AI从辅助工具演进为新的“生产力”

OPPO致歉后，中国广告协会、武汉大学发声

不让中小企业掉队，华为坤灵品牌日全景呈现四大场景化能力

全站最新

非侵入神经调控为阿尔茨海默病提供新策略，国内外神经康复名家齐聚上海

34岁就能挑大梁！深耕“特区”三年，华理勇闯碳中和基础研究无人区

巨头股价“暴涨”！一则消息引爆

传媒业加速向数智化纵深演进，AI从辅助工具演进为新的“生产力”

热门推荐

非侵入神经调控为阿尔茨海默病提供新策略，国内外神经康复名家齐聚上海

34岁就能挑大梁！深耕“特区”三年，华理勇闯碳中和基础研究无人区

巨头股价“暴涨”！一则消息引爆

传媒业加速向数智化纵深演进，AI从辅助工具演进为新的“生产力”

韩方确认其船只在霍尔木兹海峡爆炸系遭不明飞行物体袭击

OPPO致歉后，中国广告协会、武汉大学发声

不让中小企业掉队，华为坤灵品牌日全景呈现四大场景化能力

谷歌DeepMind聘请芝大教授担任AGI经济总监：审视AI时代人的价值

俄私营航天企业拟建超轻型火箭发射场

赛力斯动力行业首创“同线共营”模式，响应时间从两天缩至小时级

忠实再现1986年款外观：Commodore 64C Ultimate复古电脑发布

暴涨358%，存储芯片背后的“隐形血液”，快藏不住了

70%涨幅领跑中概股背后：百度迎来全面价值重估

全球深渊科考航次圆满结束

邦彦技术发布邦彦云PC渠道战略 NGCC架构迈入规模复制新阶段