当前位置: 首页 » 资讯 » 科技头条 » 正文

多所高校实现语音大模型新突破:当AI开口说话的同时还能写代码

IP属地 中国·北京 科技行者 时间:2026-06-16 18:22:01


这项研究由多所高校及科研机构联合团队完成,论文以预印本形式于2026年5月4日发布在arXiv平台,编号为arXiv:2606.07547,有兴趣深入了解的读者可通过该编号查询完整原文。

假设你正在和一个AI语音助手交流,用说话的方式请它帮你写一段Python代码。它听完之后,嘴里流利地说着"好的,给你一个经典的二分查找实现"——但与此同时,一段完整、可以直接运行的代码也同步出现在你面前的屏幕上,就像有人边解释边写黑板一样。这不是科幻电影里的场景,而是这篇论文正在做到的事情。

这项研究的核心问题,其实可以用一句话来描述:当AI通过声音和你交流时,它有没有办法同时保留文字的能力?

二、前人走过的路,以及那条没人走的路

在这项工作之前,已经有不少研究团队尝试为语音AI引入"思考"能力。这些尝试大致分成几条路线,可以用一场音乐会来打比方:有的方案是"演出前先排练",也就是让模型先在脑子里把推理做完,再开口说话,这样虽然质量好但响应慢,而且在用户说话期间模型什么都没有做;有的方案是"边演奏边翻谱",也就是把思考和说话交织在一起,但这种思考过程用户根本看不到,仍然是隐藏在幕后的;还有一类方案专注于解决"全双工"问题,也就是让AI在说话的同时也能听用户说话,但这类系统的输出只有声音,没有文字。

这篇论文的研究团队把这些方案整理成了一张对比表,沿着四个维度衡量每个方案:能不能实现真正的全双工互动(一边说话一边还在听)?能不能输出自由格式的文字?能不能在听的时候就开始认知处理?能不能在说话的同时继续产出文字?现有的任何一个方案,都在这四个维度里至少缺一项。有的模型可以全双工但没有文字输出,有的模型有文字输出但不是全双工,有的模型在听的时候有思考但一开口说话就停止了。

没有人走过这样一条路:让文字输出成为一个始终开着的、用户可见的"第一输出通道",同时保持全双工的听和说。这就是研究团队选择开辟的方向,他们把它叫做**Listen-Write-Speak(听-写-说,简称LWS)**。

四、一套特殊的标记,让模型知道自己在干什么

Token Schema的设计思路,类比起来就像是一本有格式规范的会议记录模板。每一页(每个单元)的开头写``,然后先填入这一秒的音频内容,接着用特定的开闭标签包住这一秒的认知笔记或语音内容,最后以``收尾。

监听单元的格式是:单元开始标记,然后是10个音频词元(对应1秒的音频),然后是监听认知开始标记,接着是这一秒的可见文字内容,然后是监听认知结束标记,最后是单元结束标记。

发言单元则更复杂一些:单元开始,10个音频词元,然后是说话开始标记,接着是这一秒的口语词元,然后是语音块结束标记,随后切换到回应认知开始标记,再是这一秒的可见写作内容,最后是回应认知结束标记和单元结束标记。

研究团队特意把"听的时候写的文字"和"说的时候写的文字"用不同的标签区分开来,而不是用一个统一的标签。这背后有一个信息论上的道理:这两段文字所处的"时间位置"不同,所依赖的上下文也不同。听的时候写的内容,只能基于已经听到的音频;说的时候写的内容,除了音频还可以参考模型自己说出的话。把这两种状态明确区分开,可以让模型更清楚地知道自己当下处于哪种信息环境,从而减少下一个词的预测难度,并且避免在全双工互动中产生"时间因果污染"——也就是避免模型用还没说到的信息来影响当前的输出。

六、实验结果:四个方向的测试

研究团队在四个不同的评测维度上检验了LWS的表现。

在语音理解与推理能力方面,研究团队使用了URO-Bench——一个分理解(U)、推理(R)、口语(O)三个维度、并且区分基础和进阶难度的多语言评测集。LWS在中文进阶(Pro)部分的整体平均分拿到了84.6,是所有测试模型里最高的,显著超过GPT-4o-Audio(67.1)和GPT-Realtime(70.6)。在中文进阶的理解和推理子项上,LWS分别拿到92.5和85.9,也都是最高分。英文部分的表现相对均衡,整体处于竞争水平。更关键的是,研究团队做了两个消融实验——一个去掉了"听的时候写"的功能,一个去掉了"说的时候写"的功能——结果显示,这两项功能任何一个被去掉,模型的表现都会系统性地下降,无论是中文还是英文、基础还是进阶,LWS完整版都稳定地优于两个消融版本。训练损失曲线也显示,三条频道在联合训练过程中都平滑收敛,没有出现互相干扰或不稳定的情况。

在回应质量方面,研究团队使用了VoiceBench AlpacaEval,这是一个语音转文字的评测协议:模型接受语音输入,但被评分的是文字输出,因此直接反映的是可见写作频道的质量。LWS拿到了4.72分,超过了所有列出的开源基线(VITA-1.5拿4.21,Step-Audio拿4.13,Freeze-Omni拿4.03,GLM-4-Voice拿3.97),与GPT-4o-Audio的4.78分只差0.06。

在写说一致性方面,研究团队担心的一个潜在问题是:同时生成写的内容和说的内容,会不会出现两者互相矛盾的情况?为了量化这个风险,研究团队抽取了636个样本,用GPT-5作为裁判,判断每个样本中说出来的内容是否与写出来的内容在事实上一致。结果是636个样本里有589个通过,一致性达到92.6%,说明两个用户面向频道在绝大多数情况下是协调的,引入可见写作并没有实质性地破坏回应的连贯性。

在全双工互动能力方面,研究团队使用了Full-Duplex-Bench,这个评测集包含四种场景:停顿处理(模型应该在用户暂停时正常接话)、反馈信号(模型应该在合适的时机发出"嗯"、"对"等简短回应)、轮次交替(流畅地从听转换到说)和打断处理(用户在模型说话时插话,模型能否正常响应)。在停顿处理上,LWS在合成停顿和自然停顿两个子项上都达到了0.01的接管率,与GPT-Realtime持平,是所有测试模型里最低的(越低说明模型越不会抢话)。在轮次交替上,LWS以0.48秒的延迟实现了0.97的Candor接管率,比大型商业实时模型快很多,同时保持了有竞争力的交替质量。在打断处理上,LWS以0.65秒的延迟获得了4.02的GPT-4o质量评分,说明它在被用户打断后仍然能够给出有质量的回应。

八、这意味着什么

说到底,这篇论文提出的答案其实是一个很直接的想法:语音AI和文字AI不应该是两个分开的东西,而应该是同一个系统用不同的通道输出。声音负责流畅的对话体验,文字负责精确的、持久的、可以被检查和修改的内容。这两件事可以同时进行,而且不需要建一个全新的复杂架构,只需要给模型一套"标点规范",让它知道每一秒该往哪个频道写什么。

这种思路对于未来的人机交互方式有一定的参考意义。当你对着设备说话,不再需要在"对话体验"和"得到有用的结构化输出"之间二选一。工程师可以口头讨论需求,同时看到代码在屏幕上成形;学生可以和AI口头探讨数学题,同时看到推导步骤被写出来;会议参与者可以在讨论进行的同时,看到摘要和决策被实时记录下来。嘴巴和笔,终于可以属于同一个AI。

值得思考的一个问题是:当AI既能说又能写,而且写出来的东西看起来精心完整,用户会不会更容易把这些输出当作权威答案,从而减少自己的核查?研究团队在伦理声明部分也提到了这个担忧,他们建议在部署时对两个输出频道同步做内容审核,并明确告知用户可见写作是一种辅助性的中间输出,而非经过验证的事实。这个提醒值得记住。

有兴趣进一步了解技术细节的读者,可以通过arXiv编号2606.07547找到完整的原始论文,其中附录部分包含了完整的推理流程示例、数据构建的详细参数和所有评测的评判提示词,信息量相当丰富。

**Q&A**

Q1:Listen-Write-Speak模型和普通的语音助手有什么区别?

A:普通语音助手只能输出声音,你问它写代码,它只能把代码一个字一个字地念出来。Listen-Write-Speak在回答的同时会把完整的代码或结构化内容同步显示在屏幕上,说出来的是口语解释,写出来的是可以直接使用的精确内容,两个频道同时工作,各自做最擅长的事。

Q2:Listen-Write-Speak的"全双工"是什么意思?

A:全双工意味着模型在说话的同时,耳朵也没有关掉,还在持续监听你说的话。如果你在它回答的中途打断它,它能立刻感知到并作出反应,不像很多语音助手说话时完全"失聪",必须等它说完才能接收新的指令。这让对话更接近真实的人与人之间的交流节奏。

Q3:Listen-Write-Speak在写出来的内容和说出来的内容之间会不会出现矛盾?

A:研究团队专门测试了这个问题,在636个测试样本中,两个频道内容一致的有589个,一致率达到92.6%。也就是说绝大多数时候写的和说的是协调的,但仍有约7%的情况存在出入,因此研究团队建议部署时对两个输出都做审核,不要只看屏幕上的文字就直接使用。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。