当前位置: 首页 » 资讯 » 科技头条 » 正文

能听懂人类“弦外之音”,阶跃星辰再开源端到端语音大模型

IP属地 中国·北京 编辑:顾雨柔 澎湃新闻 时间:2025-09-01 14:26:48

9月 1 日,“多模态卷王”阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini,在多个国际基准测试集上取得SOTA(State-of-The-Art,当前最佳水平)成绩,在大部分任务上超越GPT-4o-audio。

技术层面,Step-Audio 2 mini采用了端到端多模态架构,将语音理解、音频推理与生成统一建模,时延更低、输出更快,还能更加精准地理解副语言信息、非人声信号等语音要素。Step-Audio 2 mini首创的音频推理能力,能对情绪、语调、音乐等副语言和非语音信号进行精细理解、推理并自然回应。

同时,该模型支持语音原生的Tool Calling能力可实现联网搜索等操作,有效解决幻觉问题,并让语音模型具有知识储备和推理能力。

目前,Step-Audio 2 mini已在GitHub、Hugging Face等平台发布。(澎湃新闻记者 秦盛)

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。