新智元报道
NUS等联合发布音视频智能综述,系统梳理大模型时代AVI发展全貌,涵盖感知、生成与交互三大主线,揭示从单模态到跨模态的演进路径,并为未来研究与应用提供清晰方向。
最近,由新加坡国立大学(NUS)领衔,联合牛津大学、多伦多大学、UTD、HKUST、QMUL、罗切斯特大学等近10家机构共同发布了「第一份站在大基础模型视角下」对音视频智能(Audio-Visual Intelligence, AVI)做系统梳理的综述。
论文地址:https://arxiv.org/abs/2605.04045
代码链接:https://github.com/JavisVerse/Awesome-AVI
目主页:https://javisverse.github.io/
整篇论文不仅复盘了过去近十年里散落在 ASR、数字人 / 说话头(talking head)、Foley(拟音)合成、视频配音 / 音频驱动视频生成、音视频问答(AVQA)、空间音频、具身导航等十几个子方向的工作,还把它们重新组织成理解世界(Understanding the World)/ 创造世界(Creating the World)/ 与世界交互(Interacting with the World)三条主线,更像是一份「音视频版 GPT-4o / Sora」研发团队的全景速查图。
编程范式之后
「听-看-说-动」一体化
论文从一条直观的演化路径切入:从L3-Net、Wav2Lip这类「对得上 / 唇形对齐」的早期 AV 工作,到 ImageBind、AudioLDM、MusicGen 的可扩展表示,再到 MMAudio、FoleyCrafter、JavisDiT 的跨模态生成与联合音视频生成,最后落到 GPT-4o、Veo-3、Seedance 2.0、HappyHorse、Qwen-Omni、OpenVLA 这一类同时听、看、说、生成或行动的 omni / VLA 模型。
过去我们只让模型「对得上音和画」,现在的趋势正在转变——开发者更习惯于让一个backbone同时干完感知、生成与交互。
随着上下文窗口越来越长、工具调用与策略学习越来越成熟,这种范式正在悄悄改写多模态系统的搭法。
当一个模型能直接听清环境声、看懂屏幕、说出自然回应、必要时还能动手时,「音视频智能」的起点就不再是「做单一任务」,而是组织感知-推理-响应的闭环。
这类范式变化带来的冲击,比任何一次单点性能升级都更结构性。
论文开篇的演化树,把这条变化路径直接画了出来。
统一任务体系
感知 / 生成 / 交互三条主线
论文首先搭建了AVI的整体任务蓝图。
它不仅比较了通用多模态大模型与音视频专用模型的训练侧重,也梳理了每一类任务背后的语料:LibriSpeech、AudioSet、VGGSound、AVQA、SoundSpaces、AVSpeech、HDTF……这些资源共同构成了AVI模型的「音视世界知识」。
为了让模型获得跨模态理解能力,预训练中大量使用对比对齐、masked / denoising重建、token级跨模态预测等任务,让模型能处理跨帧、跨模态的复杂依赖。
同时,从CLIP / AudioCLIP到AV-HuBERT、ImageBind,再到当下主流的Decoder-only LLM + omni encoder与MoE架构,模型结构的演化也体现了对AV任务需求的不断适配。
把这些内容拼起来,你会发现:所谓「视视频智能」,并不是单点突破,而是整个训练体系长期协同演进的结果。
数据集、基准与评价指标:从单段对齐到长视频工程级
AVI 的评测体系一直比较碎片化。论文系统整理了音视频理解、生成、交互、具身智能等方向的代表性数据集、benchmark 与评价指标,按粒度从片段级、单事件,到长视频级和智能体级任务串成完整序列。
LibriSpeech、AudioSet、VGGSound、AVE、MUSIC、AVQA 仍是基础指标,但它们只反映模型的「底层听看能力」。
在更真实的多模态语境中,长视频 AV 推理、跨场景的视频配音 / 音频驱动视频生成一致性、多说话人对话理解、空间音频推理、AV 具身任务才能真正体现模型是否「理解了世界」。
论文同时介绍了LLM-as-a-Judge、多智能体评测、执行级校验、低延迟交互评测等方法,并指出FAD / FVD / CLIP / SyncNet这些代理指标在音画同步与音频不可替代性维度上的局限,使评估更接近实际部署场景。
这一部分很清楚地呈现出一个结论:模型能不能做好音视频任务,取决于它能否处理真实场景的复杂依赖,而不仅仅是几个单段benchmark上的小提升。
基础技术:让模型「既会听看,也会生成和交互」
论文对AVI的基础技术做了系统总结。
从音频与视觉表示、tokenization、跨模态对齐与融合,到VAE / GAN / Diffusion / 自回归(AR)/ Masked Autoregressive(MAR)五类生成范式,再到Encoder + LLM、LLM + Generator、统一感知生成模型(unified Encoder + LLM + Decoder)、Agentic系统与VLA模型,每一步都围绕同一个目标:让模型理解世界,而不是仅「看起来会处理音视频」。
其中一个关键点是LLM-centric的设计选择。单纯把音频特征拼到视觉模型上远远不够,模型必须理解模态之间的依赖、时间结构和任务上下文,才能在真实场景中表现稳定。
在生成能力方面,扩散 / flow matching、masked autoregressive、以及diffusion + AR的混合架构,也成为提升性能的新趋势。
强化学习与偏好对齐部分则系统比较了RLHF、DPO、reward shaping在AV生成上的表现。论文特别提到verifier与reward生态——通过更靠近「音频不可替代性 / 物理合理性 / 长程一致性 / 音画同步」的奖励信号,让模型基于真实任务效用学习正确性。
这是近两年音视频大模型质量跃迁最显著的方向之一。
三条主线怎么落地:理解世界 → 创造世界 → 与世界交互
当模型以「统一backbone」身份参与音视频流程时,AVI 的潜力被进一步放大。
论文从理解世界(音视频感知、声源定位、AVQA、跨模态检索、推理)、创造世界(视频配音、音频驱动视频生成、联合音视频生成、音画编辑)、与世界交互(音视频对话、omni-modal交互、具身智能与机器人)三条线切入,为每一步构建了对应的方法地图与代表模型。
在理解这条主线里,模型不再是「只看视频」或「只听语音」,而是要在统一表示下做对齐、grounding与推理;AV-LLM的崛起让long-form video understanding、AVQA等任务有了新的基线。

在生成这条主线里,论文指出当前最大的瓶颈不是单模态画质或音质,而是联合音视频生成中的音画同步、跨身份一致性与长时一致性。MovieGen、Veo-3、Seedance 2.0、JavisDiT,以及 HappyHorse 这类近期音视频生成模型已经能从文本或多模态条件生成带原生音轨的视频,但跨场景物理合理性、跨语义身份一致性,以及局部、可控的音画编辑,仍然是开放问题。
在交互这条主线里,从级联式ASR + LLM + TTS,到speech-native LLM(Qwen-Audio、SALMONN),再到GPT-4o / Qwen-Omni这类原生 omni-modal 实时音视频对话——模型从「被动执行单轮指令」走向「主动审视环境并实时响应」,这是一个完整的范式跃迁。
代码 / 工具 / 行动在 AVI 中的新地位
论文也探讨了AVI在更通用智能体生态中的新角色。
对很多智能体来说,音视频不只是输入或输出物,更是一种用于表达环境状态、长期记忆和行动反馈的通用通道。
这意味着未来的智能体体系,可能会越来越依赖以AV为核心能力的模型。
擅长音视频的模型在规划、工具使用、人机协作中具有天然优势,也更容易成为智能体系统的底层能力模块。
具身这条子线尤其值得关注:以SoundSpaces 一脉为起点的AV导航,叠加 OpenVLA / π0 / GR00T这类把语言、视觉、动作甚至环境声音统一到一个策略里的方向,正在让「声音」重新成为机器人感知世界不可缺的一环。
安全治理:能力越强,风险越复杂
论文把音视频大模型的安全风险拆成数据、模型与执行三个层面:包括训练数据的版权、隐私与数据合规问题、生成内容的深伪与冒名、提示攻击、多模态越狱、以及部署侧实时音视频流的滥用风险。
对应的治理手段包括数据审计、安全微调、偏好对齐、红队测试、深伪检测、水印与可溯源、运行时沙箱等机制。
随着AV模型越来越多地集成进社交、教育、医疗、机器人场景,这些安全治理能力正成为基础设施的一部分。
应用正在加速落地:AIGC、数字人、XR、机器人
论文最后回到应用层面:从短视频AIGC、配音与Foley(拟音)合成,到数字人、对话助手、AI教学、无障碍辅助、空间音频与Metaverse、再到具身机器人与智慧城市,AVI已经开始进入大量真实场景的关键环节。
随着omni模型与VLA框架不断成熟,音视频智能也正从「辅助工具」逐渐成为大模型基础设施的一部分。
未来一段时间,音视频大模型很可能继续朝意图驱动、闭环交互、原生音画同步生成的方向演化,而它在通用智能体里的角色也会越来越重要。
未来六大研究轴
论文用一张路线图把这件事讲明白:前三阶段已经把「对得上 / 感知 / 生成」的家底攒齐,当下站在交互式omni-modal与具身模型这条前沿线上,再往后两站,是因果—上下文AVI和可验证的agentic AVI。
围绕这张路线图,论文进一步把AVI接下来的研究路线总结成六条主轴,覆盖音画同步、因果事件grounding、空间音频推理、长程上下文记忆、可控生成、安全治理、水印与数据合规等关键问题:
因果事件-声源grounding:建模延迟、遮挡、画外音、多源混合下的源级、事件级与因果对齐,把音画同步推向因果可解释层面;
AV世界模型:把音视频当作几何、材质、动力学、可供性的互补证据,并以空间音频推理作为关键能力;
长程AV上下文记忆:构建流式 / 情景 / 语义多层、可选择、可溯源的 AV 记忆,而不是简单加长上下文;
因果AV干预与可控生成:让生成与编辑支持对物体、声音、身份、情绪、空间、时间的局部、因果且同步的干预;
Verifier与Reward生态:超越 FAD / FVD / CLIP / SyncNet 这类代理指标,发展面向 grounding、物理合理性、音频不可替代性与任务效用的验证器;
交互式与负责任AVI:在低延迟、隐私、版权、水印与数据合规等安全治理约束下,把AV模型变成可信赖的实时合作者。
这六条主轴和今天工业界正在做的「音视频版GPT-4o / 音视频版 Sora / 音视频版Voyager」高度对应,也是论文对未来1–3年研究方向最具体的判断。
这篇综述长文将AVI的关键模块按逻辑串联起来:从演化时间线、任务体系、技术地基、三条主线、应用版图、到未来六轴,勾勒出一张完整、系统、可实践的音视频大模型地图。
无论你关注omni模型训练、AV生成 / 编辑工具、AV智能体,还是想理解未来音视频AI的演化方向,这篇文献都值得完整读一次!
编辑:LRST
秒追ASI





京公网安备 11011402013531号