当前位置: 首页 » 资讯 » 科技头条 » 正文

成均馆大学与延世大学联合打造最新测试让主流大模型集体"翻车"

IP属地 中国·北京 科技行者 时间:2026-05-30 00:19:17


这项由成均馆大学人工智能系与延世大学人工智能系联合主导的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.22570,感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

你有没有想过,当你闭上眼睛,单凭脑海中留下的记忆,就能回答"刚才那个路口,我是左转还是右转?"这类问题?这种在大脑中"重播"场景、理解物体位置和运动关系的能力,人类从幼儿时期就开始发展,称为"时空推理"。然而,对于如今已经能写诗、能编程、能看图回答问题的大型多模态语言模型(也就是那些能同时处理文字和图片、视频的AI大模型)来说,这种看似基础的能力,却是一道难以跨越的坎。

研究团队为此构建了一个全新的视频理解测试平台——VGenST-Bench。与以往的测试平台不同,这套系统不依赖从互联网上收集的真实视频,而是主动"制造"高度可控的测试场景,系统性地诊断当前顶尖AI模型在时空推理上的真实能力边界。测试结果颇为发人深省:即便是目前全球最强的商业大模型,在人类近乎满分的任务上,也要落后十几个百分点;而一旦题目难度升级,有些模型的表现甚至接近胡乱猜测。

一、为什么不用真实视频来测试?

在理解VGenST-Bench的创新之处之前,先要搞清楚一个问题:为什么不直接从YouTube或影视作品里抓取视频,让AI来回答问题?这不是更贴近现实吗?

现有的视频测试数据集,大多正是这样做的——从网络上收集视频,再让人工标注问题和答案。然而这种做法有三个根深蒂固的麻烦。

第一个麻烦叫做"数据污染"。现在的AI大模型在训练时吞噬了海量互联网数据,其中很可能就包含了那些被当作"测试题"的视频。就像老师把期末考题贴在了公告栏上,学生提前背过了答案,考出来的高分自然不能反映真实水平。第二个麻烦叫做"走捷径"。真实视频里存在大量规律性信息,AI可能只靠一张截图、或者只靠问题里的文字,就猜出了答案,根本不需要真正"理解"视频中的时空变化。研究者们发现,许多号称能进行时空推理的模型,其实只是在利用这些捷径,并没有真正建立起对物体运动和位置的理解。第三个麻烦叫做"场景覆盖受限"。现实中某些特定的空间尺度、视角或动态组合,在互联网视频里极为罕见,根本凑不出足够数量的测试样本。

研究团队由此提出了一条完全不同的路:与其被动地在现有数据中寻觅,不如主动设计和生成所需的测试场景。借助当前已经相当成熟的AI视频生成技术,他们能够精确指定视频里应该出现什么物体、物体应该怎么运动、摄像机应该从哪个角度拍摄,从而确保每一道测试题的答案都有明确、无歧义的唯一正解。这就像考试出题人不再从历年真题中摘录,而是专门根据考察目标从头设计新题目——每道题都精准针对某个知识点,不存在模棱两可。

二、测试场景是怎么"造"出来的?

制造这些视频测试场景,本身就是一项系统性的工程。研究团队设计了一条四步流水线,由四个相互配合的AI智能体依次完成工作。

整个流程的起点是一个"主题",也就是视频的整体风格和环境设定,例如"赛博朋克黑客的霓虹桌面"或者"精灵森林树屋走廊"。有了主题,第一个智能体——"场景图生成器"就会为这个主题构建一张结构化的场景图:场景里有哪些物体,这些物体分别是什么颜色、什么材质、扮演什么角色,它们之间的位置关系是怎样的。生成完毕后,一个"验证者"会对场景图进行严格审查,检查是否满足当前测试任务的所有约束条件。如果不符合,就把反馈意见返回给生成器,要求重新生成,直到通过为止。

通过验证的场景图,随即交给第二个智能体——"故事板生成器"。它的任务是把静态的场景图"活化"为一段时间线脚本:视频的第一帧应该呈现什么画面,接下来会发生哪些事件,每个阶段摄像机怎么运动,物体怎么变化,最终状态是什么。这个脚本必须确保一个完整看完视频的观察者,能够且只能推导出唯一一个正确答案。否则,验证者就会指出哪里存在歧义或矛盾,要求修改。

有了时间线脚本,第三个智能体——"视频生成器"开始实际制作视频。它先把脚本中第一帧的描述转化为文生图提示词,用图像生成模型渲染出一张高质量的"锚定帧",作为视频的起始画面。然后再基于这张锚定帧和完整的运动描述,调用图生视频模型,生成整段动态视频。两步走的设计有一个重要优势:锚定帧能够稳定场景中物体的外观,防止AI视频生成中常见的"物体漂移"现象——也就是视频播放一半,桌上的苹果突然变成橙子这类问题。

最后,第四个智能体——"题目生成器"根据场景图和时间线脚本,为每段视频生成配套的多选题。出题时严格遵守一张"题目类型适用矩阵",确保每种题型只在逻辑上合理的场景下出现。生成完毕后,每道基础题还会被自动扩展成三种变体,目的是测试模型在不同答题压力下的真实反应——稍后会详细介绍这三种变体的设计用意。

整条流水线生成的所有视频和题目,最终还要经过人工质量把关。研究团队招募了十二名验证员,分成两人一组负责各自的任务类型,只有两名验证员都认可的内容才会保留。视频审核阶段,验证员会剔除生成失败、场景混乱或物体漂移严重的片段;题目审核阶段,则会剔除答案模糊、可以不看视频就猜出答案,或者存在多个正确选项的题目。最终,整套数据集包含1200段视频和超过3.3万道题目。

三、测试题是怎么分类的?

为了系统覆盖时空推理的各种场景,研究团队从认知心理学借鉴了三个维度,构建了一套三维分类体系,就像用长、宽、高三个坐标轴来描述一个立体空间。

第一个维度是"空间尺度",分为三个档次。"微观尺度"对应桌面或手边的小范围物体配置,比如一张桌子上摆着几个容器,每个容器里装着不同的东西;"中观尺度"对应一个房间或走廊范围内的场景,视角通常能看到整个房间的布局;"宏观尺度"则对应需要穿越多个空间才能完整理解的大环境,比如沿着一条走廊行走,途中经过多个路牌和转弯。

第二个维度是"视角",分为两类:第一人称视角(摄像机就是行动者的眼睛,就像玩第一视角游戏)和第三人称视角(摄像机从旁观者角度俯视或平视整个场景)。

第三个维度是"场景动态性",分为静态(物体不动,只有摄像机在移动)和动态(既有摄像机运动,也有物体或角色在场景中行动)。

三个维度各自的选项相互组合,产生了3×2×2总共12种场景类别。每一种类别下,研究团队都专门设计了一个对应的推理任务。12种任务涵盖的能力范围极广,从最基础的物体属性识别,到需要整合多步空间变换的复杂推理,均有涉及。

举几个例子来说明任务的多样性。在微观-第一人称-静态类别下,任务叫"多容器属性映射":摄像机从高处俯视几个容器,看清每个容器里装的东西之后,摄像机下降到侧面角度,容器内部再也看不见——此时问模型,某个容器里装的是什么。在中观-第三人称-动态类别下,任务叫"可见性识别":场景中有一个遮挡物,两个角色分别站在遮挡物两侧,其中一个角色移动位置——问模型,移动之后,站在原地的角色能不能看见另一个角色。在宏观-第一人称-动态类别下,任务叫"相对速度识别":摄像机以固定速度向前行驶,周围有其他物体也在运动——问模型,某个特定物体相对于摄像机是在向前还是向后运动,速度更快还是更慢。

四、题目有三种"变体",专门防止AI走捷径

前面提到,每道基础多选题会被扩展成三种变体。这个设计是整套测试的点睛之笔,背后有深刻的考量。

标准的多选题有一个众所周知的问题:即便模型对视频内容完全无知,只要它擅长从选项中找规律、或者偏好某个位置的选项(比如总是倾向选B),就能刷出看起来不错的成绩。为了戳破这个假象,研究团队设计了三种变体来多角度检验模型。

第一种变体叫"虚假干扰型":在原题所有选项的基础上,额外加入一个"以上皆非"选项,但正确答案仍然存在于其他选项中。这道变体的目的是测试模型在有退路的情况下,是否还能锁定正确答案——一个不自信或投机取巧的模型会倾向于选"以上皆非"来规避风险。

第二种变体叫"替换答案型":把原题中正确答案的文字内容换成"以上皆非",其他干扰选项保持不变。此时"以上皆非"才是真正的正确答案。这道变体测试的是模型能否在没有一个选项是真正正确答案时,果断拒绝所有选项——一个靠猜测或靠语言直觉答题的模型,遇到这种情况往往会从干扰项中挑一个最"像"的,而无法识别出正确答案根本不在列表里。

第三种变体叫"开放问答型":完全去掉所有选项,只保留问题本身,要求模型直接给出答案。这是最纯粹的推理测试——没有任何选项可以参考,模型必须真正从视频中提取信息并形成判断。为了防止主观评判的偏差,这类变体的评分由另一个AI大模型(Claude Sonnet)担任裁判,判断模型的回答是否在语义上与标准答案等价。

五、题目还分了三个难度层级

除了上述三种变体,每段视频配套的题目还按照认知难度分成三个层级,研究团队把这三层分别命名为L1、L2、L3。

L1叫"视觉感知层",考察的是最基础的单帧识别能力:某个物体存在不存在、它是什么颜色、它在画面的哪个位置。这些题目只需要从视频中的某一帧截图就能回答,不需要理解运动或时间流逝。

L2叫"场景理解层",难度提升一级,需要整合来自多帧的信息。比如"摄像机整体是朝哪个方向运动的"、"哪个物体先被放进容器"、"这两个场景中出现的是同一个物体吗"。这类题目要求模型在时间维度上整合多段画面,形成对整个场景动态过程的完整理解。

L3叫"时空推理层",是最高难度,包含三种类型的高阶问题。第一类叫"视角转换":视频里只有一个角度的画面,但题目要求模型推断从另一个位置看过去会是什么样子,比如"从对面角色的视角看,现在哪个灯先亮了?"第二类叫"反事实推理":假设某个关键事件没有发生或者发生了变化,问结果会如何不同,比如"如果摄像机在路牌处向右转而不是向左转,最终会到达哪个目的地?"第三类叫"预测推理":视频结束后,场景中的物体会继续运动,问模型在视频结束后某个特定时刻,某物体相对于摄像机处于什么位置。

六、实验结果:AI在哪里聪明,在哪里"翻车"?

研究团队用这套测试平台,系统评估了15个大型多模态语言模型,其中包括几款顶尖商业模型——GPT-5.4、GPT-5.4 mini、GPT-5.4 nano、Gemini 3 Flash、Gemini 3.1 Flash-Lite,以及一批开源模型——Qwen3.5系列(4B、9B、27B参数规模)、InternVL3.5系列(4B、8B、30B参数规模)、Gemma-4系列(26B、31B参数规模),还有GLM-4.6V-Flash和Kimi-K2.6。

作为对比基准,研究团队还招募了10名来自非计算机背景的普通人参与答题,每人回答跨越12种任务的120道题目。最终,人类测试者取得了平均99.0%的惊人正确率,在每一类任务上都接近满分。

在AI模型中,表现最好的是Gemini 3 Flash,平均正确率为85.9%,与人类相差超过13个百分点。GPT-5.4紧随其后,达到82.7%。而较小规模的模型,比如GPT-5.4 nano只有56.8%,大多数开源模型的平均分集中在50%到72%之间,其中Kimi-K2.6(71.0%)和Gemma-4-31B-it(72.5%)表现相对突出,基本追平了部分商业模型。

把成绩按难度层级分开来看,模式就非常鲜明了。以GPT-5.4 mini为例,它在L1(视觉感知层)的正确率是90.2%——看起来还不错;到了L2(场景理解层),成绩降到65.3%;到了L3(时空推理层),进一步跌至36.4%,几乎和随机猜测差不多。Gemini 3 Flash虽然整体最强,L1达到96.3%,但L3也只剩69.2%,跌幅高达27个百分点。相比之下,人类测试者从L1的99.4%到L3的97.9%,仅仅下降了1.5个百分点。

这组数据揭示了一个核心问题:当前的AI大模型在"看图说话"这件事上已经相当熟练,但一旦需要从多帧画面中整合信息、在脑海中重建三维空间关系、或者进行假设性推断,能力就会急剧衰减。

三种变体的测试结果,则进一步暴露了AI的另一个软肋。标准多选题的成绩,普遍比经过"循环评估"(即对同一道题的选项进行多次轮换后综合评判)的成绩高出一截——这说明模型在答标准题时,很大程度上利用了选项位置的规律性,而不是真正理解题意。更触目惊心的是"替换答案型"变体:当正确答案从选项列表中消失,被替换成"以上皆非",几乎所有模型的成绩都出现了断崖式下跌。以InternVL3.5-8B为例,其在标准题上的正确率尚有54%,在替换答案型变体上只剩下18%。这表明模型在面对多选题时,本质上是在对各个选项进行横向比较、择优而选,而不是先独立判断"正确答案是什么"、再去选项列表中寻找匹配。一旦正确答案不在列表里,模型就束手无策,只能从剩余的干扰项中硬挑一个。

七、一个典型的推理失败案例

为了让这个问题更直观,研究者展示了一个典型的失败案例。视频内容是这样的:摄像机从一条走廊的起点出发,向前走,然后向左转,来到另一条走廊,最终停在一套盔甲面前。题目是L3级别的视角转换题:在最终位置,起点在当前朝向的哪个方位(用时钟方向表达)?

被测试的Gemini 3.1 Flash-Lite给出了一段颇为详细的推理过程。它正确识别了起点的朝向,正确识别了向左转的操作,正确判断了最终停在盔甲前方、面朝盔甲的状态。到目前为止,三步全对。但在第四步"根据以上信息判断起点的方位"时,模型犯了一个致命错误:它错误地计算了自我参照方向变换后起点的相对位置,最终给出了"4-5点钟方向(右后方)"的答案,而正确答案是"7-8点钟方向(左后方)"。

这个案例很好地说明了模型的能力瓶颈在哪里:感知和事实记忆还算可靠,但把这些事实转换为以自身为中心的三维空间推断时,就会出错。这正是人类在"你从南边走来,然后右转,现在你的左手边是哪个方向?"这类题目上比AI强得多的地方。

八、生成视频能用来做测试吗?

使用AI生成的视频来测试AI,听起来有点循环论证的味道。研究团队对此进行了专门的用户调研,请三名没有计算机视觉背景的普通人,对VGenST-Bench的视频和三个真实视频数据集(VSI-Bench、EgoExoBench、Perception Test)进行盲测比较,从"真实感"、"时间一致性"和"场景可理解性"三个维度打分,并判断每段视频是真实拍摄还是AI生成。

结果如预期:真实感方面,VGenST-Bench的视频排名最后,与最差的真实视频数据集之间还有1.25分的差距。在识别任务中,有63.3%的VGenST-Bench视频被判断为AI生成,而真实视频被误判为AI生成的比例只有12.7%到26.0%。

但关键在于,场景可理解性方面,VGenST-Bench与真实视频的差距只有0.57分,是三个维度中最小的。换句话说,尽管生成视频在外观上不够逼真,但画面传达的信息——物体在哪里、发生了什么、空间关系如何——是足够清晰可读的,完全支撑测试题的回答。研究团队的核心论点因此得到了支持:评估时空推理能力,视频不需要看起来像电影级别的真实拍摄,只需要让观察者能清楚地感知空间布局和动态过程就够了。

归根结底,VGenST-Bench做了一件听起来简单但意义深远的事:它把"AI能不能真正理解视频里的空间和时间"这个问题,从模糊的直觉变成了可以精确测量的数字。结果显示,即便是当前最强的商业AI,在这项能力上也与人类存在明显鸿沟——尤其是在需要跨越视角、进行假设推演、或者预测未来状态的高阶任务上,AI的表现令人担忧。

更值得关注的是,这套研究方法提出了一种新的思路:既然某些重要能力在真实数据中很难被精准测量,那就主动制造最合适的测试场景。随着视频生成技术的不断进步,这套流水线可以持续产生更难、覆盖更广的测试内容,而不需要推倒重来。或许在不远的将来,诊断AI的"空间智商",会像测量人类的方向感一样,成为一项标准化的常规评估。

有兴趣深入探究的读者,可通过arXiv编号2605.22570找到完整论文,其中包含每个任务的详细描述、所有模型的完整成绩表格,以及每种任务类型的视频示例和配套题目。

Q&A

Q1:VGenST-Bench和普通视频测试数据集的区别是什么?

A:普通视频测试数据集通常从互联网收集真实视频,存在数据污染(AI可能训练时见过)、场景覆盖不全、难以排除捷径等问题。VGenST-Bench则用AI视频生成技术主动"制造"测试场景,每个场景都精确控制物体位置、运动方式和答案唯一性,同时经过人工质量审核,能更准确地诊断AI的真实时空推理能力。

Q2:时空推理能力对AI来说为什么这么难?

A:现有AI大模型在单帧识别方面已经很强,但时空推理要求模型在大脑中"重播"视频、整合多帧信息、重建三维空间关系,甚至进行假设性推断。测试结果显示,从基础感知到高阶推理,AI成绩会出现断崖式下跌,跌幅高达50个百分点,而人类在同样任务上几乎不受影响,这说明两者在处理空间信息的底层机制上存在根本差异。

Q3:VGenST-Bench的测试结果对我们日常使用AI有什么影响?

A:这项测试揭示了当前AI大模型的一个重要局限——它们在需要理解"物体在哪里、往哪移动、换个角度看是什么样"这类空间问题时表现欠佳。这意味着在导航规划、机器人操控、自动驾驶感知等需要真实空间理解的应用场景中,现有模型仍需谨慎使用,不能盲目信任其对空间关系的判断。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新