当前位置: 首页 » 资讯 » 科技头条 » 正文

语音转文字新标杆:ElevenLabs 夺冠,谷歌 Gemini 凭“全能”位居次席

IP属地 中国·北京 编辑:顾雨柔 Chinaz 时间:2026-03-02 10:47:15

Artificial Analysis 近日发布了其语音转文字(Speech-to-Text)基准测试的2.0版本(AA-WER v2.0)。测试结果显示,ElevenLabs 与谷歌在音频转录领域展现出极强的统治力。

在核心的词错率(WER)指标上,ElevenLabs 推出的 Scribe v2 以 2.3% 的极低错误率位居榜首。紧随其后的是谷歌的 Gemini3Pro,错误率为 2.9%。值得注意的是,谷歌并未针对转录任务对 Gemini 进行专项训练,这一优异表现完全得益于其强大的多模态通用能力。

其他主流模型表现如下:

Mistral Voxtral Small:以 3.0% 的错误率位列第三。

谷歌 Gemini3Flash:表现稳健,错误率为 3.1%。

OpenAI Whisper Large v3:作为最受欢迎的开源模型,此次以 4.2% 的错误率排在中游位置。

垫底阵营:阿里巴巴的 Qwen3ASR Flash(5.9%)、亚马逊的 Nova2Omni(6.0%)以及 Rev AI(6.1%)在测试中排名靠后。

在专门针对语音助手指令的 AA-AgentTalk 测试中,排名格局依然稳定。ElevenLabs Scribe v2和 Google Gemini3Pro 分别以 1.6% 和 1.7% 的错误率遥遥领先,展现了在处理短促、直接的语音交互时的极高可靠性。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。