![]()
随着多模态技术和大语言模型的发展,人类与 AI 的交互关系正在从「命令 - 执行」走向真正的共生。AI 将不再只是等待人类指令再执行的工具,而是与人类共处同一时空的主动智能体。
它们像人类一样持续地感知动态环境,基于环境理解和内部目标,主动向他人发起交互(例如主动提醒「杯子要掉了」或在关键时刻主动询问「需要帮助吗」)。
同时,视觉作为现实世界最丰富、最自然的感知媒介,是主动智能体理解外部环境的核心窗口。在这种持续的外部感知和响应判断下,视频的输入特征从「离线转为在线」。
换言之,智能体所承载的视频大模型(Video-LLM),不再是整段看完再作答的离线推理系统,而应像人类一样边看边判断:在响应条件不足时保持克制,在关键证据出现时果断响应交互。
因此,在这种流式主动交互场景下,视频大模型真正棘手的,不只是「能不能看懂某一帧」,还有「该不该在这一秒开口」。然而,要把「证据是否足够」做成稳定、可泛化的决策,现有方法往往仍把视觉证据与问题语义中的响应条件藏在隐式表征里,难以做到精细对齐和对「响应时机」的深刻理解。
为了解决这一痛点,来自西北工业大学、香港科技大学、清华大学等的研究团队在 ACL 2026 上提出了一种基于证据 - 条件结构化对齐的流式视频理解主动交互框架。该方法以显式场景图(Scene Graph)为统一表示,把流式观测到的「视觉证据」与用户查询所蕴含的「响应条件」进行显式建模,并结合记忆检索与触发式提示,在无需微调的方式下完成流式「静默 / 响应」决策。
![]()
论文标题:Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding论文链接:https://arxiv.org/abs/2605.07575代码仓库:https://github.com/kadmkbl/Response-G1
主动流式交互的裂缝:当证据与条件被「藏」在隐式表征里
流式主动交互的关键难点并不只在于内容生成,还在于每一时间步都要思考一个底层的问题:当前累积的视觉证据,是否已经满足用户问题所隐含的响应条件?
一旦这个判断依赖隐式的证据 - 条件理解,模型就很容易在「相似帧」之间摇摆:视觉上几乎一样,但「该不该说」的标签却可能相反。这也是许多需要帧级标注的训练路线的方法难以泛化的根源之一。
而在无需微调的路线中,帧间差异阈值等基于规则的方法实现简单,却容易把「画面变化」误当成「语义条件满足」,从而忽略用户响应需求。另一方面,基于触发提示的方法(直接询问大模型是否在当前时刻响应)虽能更加理解响应需求,但现有工作仍未显式地构建证据与条件,对响应时机的理解缺少可核对的中间结构。
Response-G1 的切入点因此非常直接:用户问题中的响应条件往往对应一个由物体、属性与关系构成的结构化期望场景,场景图为此提供了显式的证据对齐方式,让「证据是否足够」不再依赖隐式表征,而转由可解释的中间结构进行逐项核对。
![]()
图 1. 流式视频理解中的主动机制对比
Response-G1 总览:把「时机判断」变成可解释的图对齐问题
Response-G1 将流程组织为三个彼此衔接、且都可视为「推理增强」的模块:在线查询引导的场景图生成(流式证据建模)、基于动态记忆库的场景图检索(证据 - 条件对齐),以及检索增强的流式触发决策(主动交互决策)。
框架不改变骨干视频大模型的训练目标与参数更新方式,主要通过结构化中间表示与检索上下文,把模型的「响应判断」从黑箱里往外拽半步。
在线查询引导的场景图生成:对以当前时刻为中心的流式视频片段,模型输出场景图节点(物体及其属性)与边(关系谓词),并以三元组集合形式表示。为抑制与问题无关的细节,生成提示中注入用户查询,使视频大模型优先抽取与问题相关的子结构,从而得到查询敏感、证据聚焦的图表示。
![]()
基于记忆的场景图检索:为实现细粒度的「证据 - 条件」匹配对齐,框架维护随时间增长的记忆库,存储历史时刻生成的场景图。检索时,将各图的三元组线性化为自然语言短语并拼接,同时对用户查询解析得到响应条件图及其文本表示;二者经同一文本编码器嵌入后做均值池化,以余弦相似度衡量语义相关性,并取 Top-K 子图作为对齐证据上下文。
![]()
检索增强的流式触发与回答:在每一需要决策的时间步,模型输入由视频帧嵌入、带时间戳前缀的检索场景图编码以及触发指令(例如「现在是否应该回答?仅回答 Yes/No」)共同构成。若判定为静默,则继续累积观测;若判定为响应,则在与交互决策一致的上下文中拼接原始问题,生成最终自然语言响应。
![]()
![]()
图 2. Response-G1 框架概览
实验结果:主动式大幅领先,被动式同步受益
研究团队在主流流式视频理解基准 OVO-Bench 与 StreamingBench 上开展评估,并区分主动式(模型自主决定响应时刻)与被动式(响应时刻与提问时刻一致)子任务。实现上采用 Qwen3-VL-8B 作为模型骨干,并遵循既有工作对输入分辨率与帧采样策略的设置。
实验结果显示,在主动式子任务方面,Response-G1 在开源流式视频大模型上提升显著:在 OVO-Bench 上,Response-G1 提升了12.8%;在 StreamingBench 的 PO 子任务上,提升达15.1%。在被动式子任务方面,Response-G1 也形成稳定增益。
这表明,显式场景图不仅改善「何时说」,而且在有时空推理需求的用户问题上,也有助于「说得准」。
![]()
表 1. OVO-Bench 上的性能对比(主动式子任务为 Forward Active Responding;其余子任务为被动式设定)
![]()
表 2. StreamingBench 上的性能对比(主动式子任务为 PO;其余子任务为被动式设定)
消融与流式主动交互案例
消融实验表明:(1)引入基于场景图的检索增强可同步提升主动式与被动式流式视频理解的表现,而引入时间戳的场景图编码一定程度地提升了模型的证据理解。(2)在流式视频的场景图证据在线生成阶段,「查询引导」优于「目标引导」策略,后者可能诱发模型生成不存在的场景图三元组证据并导致过早响应问题。
![]()
表 3. 消融实验(左:不同检索增强策略的有效性;右:不同证据生成引导策略的有效性)
可视化案例展示了一个需要等待证据线索逐步显露的流式视频主动交互场景(用户提问:「一个穿着红色 T 恤的男孩在离开后做了什么事情?」)。
结果表明,在时间「18:51」处,Response-G1 准确检索到与查询相关的场景图(即证据)并触发响应,而基线方法在整个视频流中均始终未能作出响应。
![]()
图 3. 流式视频主动式交互可视化案例
结语
该研究的意义在于:它把主动交互流式视频理解里难以捉摸的「时机」问题,通过显式的统一的图表示,转写为更可解释、可调试的「证据 - 条件对齐」问题。
在视频大模型逐步走向真实在线、主动交互的当下,这种结构化中间表示或许能为后续的多模态全能助手、长流式记忆与更复杂的人机协同,提供一个更可组合的底座。
作者介绍
本文作者马可(https://kadmkbl.github.io)、唐家祺(https://jqt.me),分别来自西北工业大学和香港科技大学的博士研究生,研究方向为多模态大模型与智能体。
通讯作者是西北工业大学的郭斌教授(http://guob.org),长期从事普适计算、群智感知、具身智能及智能物联网等领域的研究。





京公网安备 11011402013531号