多所高校实现语音大模型新突破：当AI开口说话的同时还能写代码

IP属地中国·北京 科技行者 时间：2026-06-16 18:22:01

这项研究由多所高校及科研机构联合团队完成，论文以预印本形式于2026年5月4日发布在arXiv平台，编号为arXiv:2606.07547，有兴趣深入了解的读者可通过该编号查询完整原文。
假设你正在和一个AI语音助手交流，用说话的方式请它帮你写一段Python代码。它听完之后，嘴里流利地说着"好的，给你一个经典的二分查找实现"——但与此同时，一段完整、可以直接运行的代码也同步出现在你面前的屏幕上，就像有人边解释边写黑板一样。这不是科幻电影里的场景，而是这篇论文正在做到的事情。
这项研究的核心问题，其实可以用一句话来描述：当AI通过声音和你交流时，它有没有办法同时保留文字的能力？
二、前人走过的路，以及那条没人走的路
在这项工作之前，已经有不少研究团队尝试为语音AI引入"思考"能力。这些尝试大致分成几条路线，可以用一场音乐会来打比方：有的方案是"演出前先排练"，也就是让模型先在脑子里把推理做完，再开口说话，这样虽然质量好但响应慢，而且在用户说话期间模型什么都没有做；有的方案是"边演奏边翻谱"，也就是把思考和说话交织在一起，但这种思考过程用户根本看不到，仍然是隐藏在幕后的；还有一类方案专注于解决"全双工"问题，也就是让AI在说话的同时也能听用户说话，但这类系统的输出只有声音，没有文字。
这篇论文的研究团队把这些方案整理成了一张对比表，沿着四个维度衡量每个方案：能不能实现真正的全双工互动（一边说话一边还在听）？能不能输出自由格式的文字？能不能在听的时候就开始认知处理？能不能在说话的同时继续产出文字？现有的任何一个方案，都在这四个维度里至少缺一项。有的模型可以全双工但没有文字输出，有的模型有文字输出但不是全双工，有的模型在听的时候有思考但一开口说话就停止了。
没有人走过这样一条路：让文字输出成为一个始终开着的、用户可见的"第一输出通道"，同时保持全双工的听和说。这就是研究团队选择开辟的方向，他们把它叫做**Listen-Write-Speak（听-写-说，简称LWS）**。
四、一套特殊的标记，让模型知道自己在干什么
Token Schema的设计思路，类比起来就像是一本有格式规范的会议记录模板。每一页（每个单元）的开头写``，然后先填入这一秒的音频内容，接着用特定的开闭标签包住这一秒的认知笔记或语音内容，最后以``收尾。
监听单元的格式是：单元开始标记，然后是10个音频词元（对应1秒的音频），然后是监听认知开始标记，接着是这一秒的可见文字内容，然后是监听认知结束标记，最后是单元结束标记。
发言单元则更复杂一些：单元开始，10个音频词元，然后是说话开始标记，接着是这一秒的口语词元，然后是语音块结束标记，随后切换到回应认知开始标记，再是这一秒的可见写作内容，最后是回应认知结束标记和单元结束标记。
研究团队特意把"听的时候写的文字"和"说的时候写的文字"用不同的标签区分开来，而不是用一个统一的标签。这背后有一个信息论上的道理：这两段文字所处的"时间位置"不同，所依赖的上下文也不同。听的时候写的内容，只能基于已经听到的音频；说的时候写的内容，除了音频还可以参考模型自己说出的话。把这两种状态明确区分开，可以让模型更清楚地知道自己当下处于哪种信息环境，从而减少下一个词的预测难度，并且避免在全双工互动中产生"时间因果污染"——也就是避免模型用还没说到的信息来影响当前的输出。
六、实验结果：四个方向的测试
研究团队在四个不同的评测维度上检验了LWS的表现。
在语音理解与推理能力方面，研究团队使用了URO-Bench——一个分理解（U）、推理（R）、口语（O）三个维度、并且区分基础和进阶难度的多语言评测集。LWS在中文进阶（Pro）部分的整体平均分拿到了84.6，是所有测试模型里最高的，显著超过GPT-4o-Audio（67.1）和GPT-Realtime（70.6）。在中文进阶的理解和推理子项上，LWS分别拿到92.5和85.9，也都是最高分。英文部分的表现相对均衡，整体处于竞争水平。更关键的是，研究团队做了两个消融实验——一个去掉了"听的时候写"的功能，一个去掉了"说的时候写"的功能——结果显示，这两项功能任何一个被去掉，模型的表现都会系统性地下降，无论是中文还是英文、基础还是进阶，LWS完整版都稳定地优于两个消融版本。训练损失曲线也显示，三条频道在联合训练过程中都平滑收敛，没有出现互相干扰或不稳定的情况。
在回应质量方面，研究团队使用了VoiceBench AlpacaEval，这是一个语音转文字的评测协议：模型接受语音输入，但被评分的是文字输出，因此直接反映的是可见写作频道的质量。LWS拿到了4.72分，超过了所有列出的开源基线（VITA-1.5拿4.21，Step-Audio拿4.13，Freeze-Omni拿4.03，GLM-4-Voice拿3.97），与GPT-4o-Audio的4.78分只差0.06。
在写说一致性方面，研究团队担心的一个潜在问题是：同时生成写的内容和说的内容，会不会出现两者互相矛盾的情况？为了量化这个风险，研究团队抽取了636个样本，用GPT-5作为裁判，判断每个样本中说出来的内容是否与写出来的内容在事实上一致。结果是636个样本里有589个通过，一致性达到92.6%，说明两个用户面向频道在绝大多数情况下是协调的，引入可见写作并没有实质性地破坏回应的连贯性。
在全双工互动能力方面，研究团队使用了Full-Duplex-Bench，这个评测集包含四种场景：停顿处理（模型应该在用户暂停时正常接话）、反馈信号（模型应该在合适的时机发出"嗯"、"对"等简短回应）、轮次交替（流畅地从听转换到说）和打断处理（用户在模型说话时插话，模型能否正常响应）。在停顿处理上，LWS在合成停顿和自然停顿两个子项上都达到了0.01的接管率，与GPT-Realtime持平，是所有测试模型里最低的（越低说明模型越不会抢话）。在轮次交替上，LWS以0.48秒的延迟实现了0.97的Candor接管率，比大型商业实时模型快很多，同时保持了有竞争力的交替质量。在打断处理上，LWS以0.65秒的延迟获得了4.02的GPT-4o质量评分，说明它在被用户打断后仍然能够给出有质量的回应。
八、这意味着什么
说到底，这篇论文提出的答案其实是一个很直接的想法：语音AI和文字AI不应该是两个分开的东西，而应该是同一个系统用不同的通道输出。声音负责流畅的对话体验，文字负责精确的、持久的、可以被检查和修改的内容。这两件事可以同时进行，而且不需要建一个全新的复杂架构，只需要给模型一套"标点规范"，让它知道每一秒该往哪个频道写什么。
这种思路对于未来的人机交互方式有一定的参考意义。当你对着设备说话，不再需要在"对话体验"和"得到有用的结构化输出"之间二选一。工程师可以口头讨论需求，同时看到代码在屏幕上成形；学生可以和AI口头探讨数学题，同时看到推导步骤被写出来；会议参与者可以在讨论进行的同时，看到摘要和决策被实时记录下来。嘴巴和笔，终于可以属于同一个AI。
值得思考的一个问题是：当AI既能说又能写，而且写出来的东西看起来精心完整，用户会不会更容易把这些输出当作权威答案，从而减少自己的核查？研究团队在伦理声明部分也提到了这个担忧，他们建议在部署时对两个输出频道同步做内容审核，并明确告知用户可见写作是一种辅助性的中间输出，而非经过验证的事实。这个提醒值得记住。
有兴趣进一步了解技术细节的读者，可以通过arXiv编号2606.07547找到完整的原始论文，其中附录部分包含了完整的推理流程示例、数据构建的详细参数和所有评测的评判提示词，信息量相当丰富。
**Q&A**
Q1：Listen-Write-Speak模型和普通的语音助手有什么区别？
A：普通语音助手只能输出声音，你问它写代码，它只能把代码一个字一个字地念出来。Listen-Write-Speak在回答的同时会把完整的代码或结构化内容同步显示在屏幕上，说出来的是口语解释，写出来的是可以直接使用的精确内容，两个频道同时工作，各自做最擅长的事。
Q2：Listen-Write-Speak的"全双工"是什么意思？
A：全双工意味着模型在说话的同时，耳朵也没有关掉，还在持续监听你说的话。如果你在它回答的中途打断它，它能立刻感知到并作出反应，不像很多语音助手说话时完全"失聪"，必须等它说完才能接收新的指令。这让对话更接近真实的人与人之间的交流节奏。
Q3：Listen-Write-Speak在写出来的内容和说出来的内容之间会不会出现矛盾？
A：研究团队专门测试了这个问题，在636个测试样本中，两个频道内容一致的有589个，一致率达到92.6%。也就是说绝大多数时候写的和说的是协调的，但仍有约7%的情况存在出入，因此研究团队建议部署时对两个输出都做审核，不要只看屏幕上的文字就直接使用。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

基点起源完成数亿元融资，以“全要素大模型”构筑工业AI新基座

中国信通院联合华为云等22家单位，筹备成立AIIA词元服务工作组

DeepSeek计划所有部门扩招一倍，还开放了一个特别岗位

携程国际化扩张的B面，全球风浪下的业绩摇摆

Rokid祝铭明回应“智能眼镜偷拍空姐”：第一时间和相关部门沟通

世界杯“名场面”，居然是AI造假？

全站最新

预售34.9万起！全新奔驰纯电GLC来袭，配置升级能否赢回市场信任？

德系混动新标杆！一汽-大众双PHEV上市，以五大标准重塑混动价值新高度

基点起源完成数亿元融资，以“全要素大模型”构筑工业AI新基座

中国信通院联合华为云等22家单位，筹备成立AIIA词元服务工作组

热门推荐

明星被替换的阴谋论，为什么永远有人信？

月薪2万吃不起的称重快餐，大规模倒闭！

省级国资入主半年后，柳州银行拟任董事长林森公开亮相

紧随苹果！微软上调Xbox主机售价：存储和内存成本已暴涨2.5倍

既生阿宝，何必阿福

豆包专业版上线：不缩免费、不抬门槛，各取所需

PTFE的“AI时刻”：从“塑料王”到算力基建的终极材料

在家上班，我的老板是机器人

优思益营销策划方被罚200万

嘉环科技回应：截至目前未与字节跳动开展实际业务合作，Seedance2.0是啥？

雷军连续7日增持金山软件，斥资约4.94亿港元持股比例升至26.18%

基点起源完成数亿元融资，以“全要素大模型”构筑工业AI新基座

中国信通院联合华为云等22家单位，筹备成立AIIA词元服务工作组

钉钉“悟空”获全球首个AI管理体系国际认证，AI治理迈入标准化新阶段

百度千帆Coding Plan停止套餐续费，7月将升级推Token Plan按量计费产品