首篇多模态大模型「音频推理」综述出炉，万字拆解四大前沿路径

IP属地中国·北京 机器之心Pro 时间：2026-06-11 22:15:40

想象这样一个惬意的周末：空调带来阵阵凉意，你靠在沙发上看书，突然耳边传来“哒哒哒”的小碎步声，接着，玄关门边传来了一阵清脆、略带急切的“呜呜”声，还伴随着爪尖轻轻扒拉木门的声响。
如果把这段音频丢进传统的语音大模型，它只会输出冷冰冰的三个字：[狗叫声]。AI 感知到了正确的音频信息，但是完全错过了这段声音里包含的灵动与期待。
当模型只是把语音转成文字，它真的“听懂”了吗？
一个具备真正智能的多模态AI助手是什么样呢？它首先要能听出小狗的声音，然后捕捉到音频里的空间感（门边传来的声音）、序列动作（碎步声和抓门声），并结合情绪（急切的“呜呜”声），快速完成一系列逻辑推演，用欢快的语调提醒你：“狗狗想出门散步啦，快带它出去玩吧！”
让AI从“冷冰冰地转录声音”到“能够听懂生活中的情绪、物理常识与逻辑”，这正是大模型社区正在经历的一场剧变：从现有的“音频感知（Audio Perception）”全面进化到“音频推理（Audio Reasoning）”。这也是大模型真正通向 AGI，成为我们生活助手的必经之路！
然而，当交互的模态从文字和图像转向声音，一个问题浮出水面：AI 能否不依赖转录的文本，直接基于声音进行推理？
这并不是一个技术细节问题。真实世界里的声音，远不只是承载文字内容的载体。说话人的语气、语速、重音、停顿、情绪、多人重叠说话、环境事件等，都可能改变推理结论。而简单粗暴地把音频转写成文字，往往会丢失这些关键信息。
音频推理不应该只是文本或视觉推理的简单迁移，而是作为多模态基础模型中的独立问题重新定义。
近日，香港中文大学团队联合多位优秀研究者，正式推出了音频推理领域的首篇全景综述。本文首次全面定义了“音频推理”的范式，系统解构了底层框架，并深度剖析了当前最受关注的四大前沿推理路径。

论文标题：A Survey of Audio Reasoning in Multimodal Foundation Models论文链接：https://arxiv.org/abs/2605.21008
本文系统整理了多模态基础模型中的音频推理研究，提出统一的问题表述与分类框架，将当前工作分为四条主线：Audio-to-Text Reasoning、Audio-to-Speech Reasoning、Audio-Visual Reasoning、Agentic Audio Reasoning，并进一步总结模型基础、数据构造、评测体系、挑战与未来方向。
更重要的是，本文强调了一个经常被忽视但极其关键的观点：音频推理的核心不是“让模型说出一段推理链”，而是让推理过程真正锚定在连续、细粒度、时间密集的声学证据上。
从“听清”到“听懂”，再到“推理决策”——这不只是当前大模型能力提升的必经之路，更是通往 AGI 的关键一环。
从感知到推理：
为什么我们需要 Audio Reasoning？

2023-2026 年，Qwen-Omni、Audio-Reasoner、Step-Audio、AudioToolAgent 等工作相继推出，音频推理正在从碎片化探索，逐步走向体系化。
多模态大模型已经从“看图说话”到“听、看、说、行动”的一体化系统。但当前研究工作仍存在明显断层：
1、现有综述通常关注音频大模型、音频理解、实时语音交互或多模态 CoT，而很少把“audio reasoning”作为中心问题单独展开。
2、音频推理仍处在高度零散阶段：不同工作分别讨论音频问答、语音交互、音视频推理、工具调用、评测基准，仍缺少一个统一的框架来解释它们之间的关系。
3、很多所谓“音频推理”任务并不真正依赖音频。部分模型可以只依赖文本提示或音频转录得到正确答案，这使得我们必须重新审视：模型是否真的在听声音？
因此，这篇综述进一步回答三个更根本的问题：
什么是音频推理？它与普通音频理解有什么区别？什么样的模型结构和训练方式才能实现真正的 acoustic-grounded reasoning？如何评估模型真正使用了声音作为证据，而不是在走文本捷径？
深层剖析音频推理四大范式

多模态大模型音频推理能力的全景分类框架
本文首次提出一个全新的音频推理分类框架，多维度解析了现有前沿音频推理模型的核心架构和指令微调策略，为该领域研究者提供了一份清晰的“技术地图”和“避坑指南”。重点剖析了四大前沿方向：
Audio-to-Text：超越转录的深层语义解析
当前大模型在纯文本推理上表现惊艳，但如何在接收音频输入时避免信息折损？本文详细探讨了模型在缺乏显式文本提示的情况下，如何直接从音频信号中提炼逻辑链条，完成深层多步推理，并突破长音频上下文理解的瓶颈。相关方法包括 inference-time CoT、SFT-based CoT 和 RL-based CoT。值得注意的是，本文讨论了一个反直觉问题：CoT 在音频中并不总是有效。一些研究发现，CoT 对简单任务有帮助，但在难题上却有可能误导模型；甚至一些音频问答能够在不听音频的情况下依靠文本线索猜对答案。这种现象证明，真正的挑战不是让模型输出
，而是让推理过程建立在真实的声学证据上。
Audio-to-Speech：端到端的声学逻辑构建
真正的智能对话不能只输出冰冷的文字。本部分聚焦于端到端交互系统，探讨模型如何在生成语音回复的同时，依然保留输入端的情感共鸣以及副语言特征，并完成复杂的声学逻辑推理（例如：听出对方的反讽语气并做出相应的反击）。传统 sequential 模式是“先听—再想—再说”，虽然逻辑完整但延迟性高。近期工作为降低用户等待时间，提出两类实时范式：在用户说话时同步推理（Thinking While Listening）；以及利用音频播放时间，预计算后续的推理和语音（Thinking While Speaking）。核心问题是如何在推理的深度和低延迟之间取得平衡。
Audio-Visual Reasoning：同时听和看，跨模态推理
听觉与视觉的联合推理是多模态领域的硬骨头。本文深度剖析了音视频联合推理的前沿解决方案，揭示了如何破解复杂场景下，声音源和视觉对象的跨模态空间与时间对齐难题。它不仅关注说话人归属，还关注音画同步、事件定位、跨模态消歧等任务。与简单拼接音频转录文本和视觉特征不同，真正的音视频推理，需要模型在时间轴上对齐两种连续信号，并判断不同模态间的证据如何互补或冲突。
Agentic Audio Reasoning：把音频推理扩展为智能体工作流
让模型学会“听指令行事”。该方向探讨了音频驱动的自主决策机制，深度剖析 Audio Agent 如何在真实物理或虚拟环境中，通过听觉信息感知状态和规划任务，并拓宽 Action 的执行边界。复杂任务往往不能靠单一模型一次性回答，需要感知、规划、工具调用、记忆、验证和反思等环节协作。论文总结了两类路线：一类是固定流程的 predefined workflow agents，另一类是由 LLM planner 动态选择 ASR、TTS、搜索、邮件、日历等工具的 dynamic tool-calling agents。

音频推理的主要范式
数据与评测：不能只看答案对不对

音频推理 Benchmark对比汇总
音频推理的前景广阔，但数据构造仍是难题。当前大规模训练数据主要来自 MMAU、VoxEval等，再由大模型构造 QA 和推理链。一些工作使用 LLM-ALM ，进一步通过协同生成、自蒸馏，或引入语速、音高、重音等声学特征，减少文本幻觉和捷径学习。
论文指出：评测音频推理能力，不能只看最终答案准确率，更重要的是判断模型是否真正使用了音频作为依据。未来 benchmark 需要减少文本捷径，覆盖语气、情绪、环境声、说话人、实时交互、长音频上下文和音视频 grounding 等更真实场景。
指路未来：研究热点在哪里？
对于想要入局“音频推理”的研究者，文章在结尾给出了极具价值的未来趋势指路：合成的音频推理数据是否可靠；模型是否存在模态幻觉和 text-surrogate reasoning；在实时语音交互中如何平衡准确性与低延迟；播客、长会议以及环境录音中的长上下文推理如何实现；音频推理能力是否能从 post-training 前移到预训练或 mid-training 阶段。
结语
传统的语音系统只关注“把声音转成文字”，而今天，真实交互、具身智能和多模态 agent场景，迫切需要下一代模型理解声音中的意图、情绪、因果和上下文。
这篇综述首次将 Audio Reasoning 作为独立研究对象系统展开，从形式化定义到模型基础，从 CoT、SFT、RL 到实时语音推理，从音视频 grounding 到 agentic workflow，再到评测与未来方向。
未来的 AI 不应只是“听见”声音，而要真正开始“听懂并思考”。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

阿里合伙人委员会批评钉钉管理方式，直言AI时代人最宝贵

Meta被抓包，当5000万台智能眼镜里藏了人脸识别

大模型6G盒子、氢电混合机器人、超声脑机接口，上交会名校走上未来产业赛道

92年“极客”陈宇森掌舵钉钉：阿里全面转向AI Agent能否押对？

仅次于OpenAI！智象未来图像生成模型评分位列全球第二

小米“寻天”SUV轮毂实拍图曝光，采用经典“米”字造型设计

全站最新

阿里合伙人委员会批评钉钉管理方式，直言AI时代人最宝贵

Meta被抓包，当5000万台智能眼镜里藏了人脸识别

大模型6G盒子、氢电混合机器人、超声脑机接口，上交会名校走上未来产业赛道

92年“极客”陈宇森掌舵钉钉：阿里全面转向AI Agent能否押对？

热门推荐

追觅旗下南京重点产业投资合伙企业拟注销

小米旗下瀚星创投等入股人工智能合伙企业

腾讯、阿里等入股脑机接口研发商阶梯医疗

武汉光谷半导体产业投资公司增资至34亿增幅240%

物产环能等在浙江成立新供应链公司注册资本1亿

杨国福旗下海南供应链管理公司增资至2亿增幅19900%

蔚来拥有超1300项专利

摩拜在沈阳成立新科技公司

沈阳低空科技公司成立

金龙鱼等在上海成立食品公司

海螺材料科技增资至5.8亿增幅约33%

交银投资等在陕西成立股权投资基金出资额10亿

星海图等在北京成立亦数智能公司

面壁科技在广西成立新公司

碧水源在汕尾成立新公司