北大、清华等高校联合揭开多模态大模型的感知盲区

IP属地中国·北京 编辑：苏婉清新浪财经 时间：2026-05-26 20:16:26

市场资讯
（科技行者）
这项由北京大学、清华大学、香港科技大学（广州）、浙江大学、中国科学院自动化研究所、上海交通大学、南京大学、复旦大学、南洋理工大学等十余所国内顶尖高校及快手AI团队联合开展的研究，以预印本形式发表于2026年5月，论文编号为arXiv:2605.18984，有兴趣深入了解的读者可通过该编号查询完整论文。
**AI造假视频越来越像真的，但它终究会露馅——或者说，它还会露馅吗？**
近几年，AI生成视频的技术突飞猛进。从以前那种一看就像电脑特效的粗糙画面，到如今越来越接近真实摄影机录制效果的高质量内容，AI正在快速缩小与"真实世界"之间的距离。Sora、可灵、Veo 3……这些名字背后代表着一代又一代更强大的视频生成系统，它们能够根据一段文字描述生成流畅的人物动作、真实的物理场景，甚至连光线反射和水纹涟漪都能做得有模有样。
然而，再精巧的魔术师也难免穿帮。尽管AI生成的视频越来越"好看"，但仔细观察，你仍然可能发现一些奇怪的地方：人的手指数量突然变了，水面倒影和光源方向对不上，一个人凭空出现又突然消失，火焰燃烧的方向完全违背物理常识……这些"破绽"，研究者们给它们起了一个专门的名字——**瑕疵（Artifacts）**，也就是AI生成内容特有的不真实痕迹。
正是围绕这些瑕疵，这支由多所顶尖机构组成的研究团队提出了一个关键问题：目前那些被认为具有强大视觉理解能力的多模态大模型（也就是能同时看图、看视频、理解文字的AI系统），真的能识别出这些AI生成的破绽吗？为了回答这个问题，他们构建了一个名为**Artifact-Bench**的系统性评测基准，并对19个当前最先进的多模态大模型进行了全面测试。结果令人大跌眼镜。
一、什么是"AI生成视频的瑕疵"，为什么值得专门研究
要理解这项研究，先得搞清楚这些"瑕疵"到底是什么。
把AI生成视频的过程比作一位从来没有亲身经历过真实世界的画家，他只通过看了大量照片和视频来学习"什么是真实的"。当他开始自己作画时，大多数情况下画得相当不错，但偶尔会因为对世界运作方式的理解不够透彻而犯错——比如画出五根手指的手却让食指长在大拇指位置，或者画一个人坐在椅子上但椅子的腿穿过了地板。这种"犯错"就是AI生成视频中的瑕疵。
这些瑕疵有多种形态。有的是肉眼一看就能发现的视觉问题，比如画面某个区域模糊得与其他部分格格不入，颜色曝光突然异常，或者本来应该清晰可读的文字变成了一堆乱码。有的则需要你关注前后几帧画面才能发现，比如一个球从左侧滚出画面，但下一帧它又莫名其妙地出现在右侧，中间没有任何移动的过程。还有一种更难察觉的，需要你对真实世界的物理逻辑有所了解才能识别——比如有人用灭火器朝着火源反方向喷射，或者一根木头被锯断之后又自己愈合了。
研究团队通过大量人工审查AI生成视频，反复归纳、合并、精炼，最终建立了一套**三层级的瑕疵分类体系**，包含30种具体的瑕疵类型。这套体系从宏观到微观分为三层。最顶层把所有瑕疵分成三大类：**表面瑕疵**（靠看局部画面就能发现的视觉缺陷）、**结构缺陷**（需要理解物体和场景的整体结构才能察觉）以及**时空-语义违规**（需要跨越多个画面并结合常识推理才能识别）。中间层将每大类进一步细分为若干"失败族群"，比如表面瑕疵下面有"色彩与曝光异常"、"相机与镜头失真"、"图像质量与纹理问题"等子类别。最底层则是30种可以直接用于标注和评测的具体瑕疵类型，例如"纹理不一致"、"不可逆性违规"、"生物解剖学违规"（手指数量错误就属于这类）、"反射不一致"等等。
这套分类体系的设计原则之一是"诊断性优先于互斥性"。也就是说，同一段视频可能同时出现多种瑕疵，而同一种可见的异常背后也可能涉及多个层次的问题——比如一个角色的头部在不同帧之间形状发生变化，既涉及结构上的身份变形，也涉及时间上的特征不稳定。这种多标签的设计让评测更接近真实情况。
二、测试场地怎么搭建——Artifact-Bench是如何设计出来的
有了分类体系之后，研究团队面临的下一个挑战是：怎么用它来考验那些AI模型？
他们设计了三种逐渐升难度的考题，形成一个从"粗"到"细"的评测阶梯。
第一种考题叫做**真实视频与AI生成视频分类**（简称RVAC）。这道题的形式非常直接：给模型看一段视频，问它"这段视频是AI生成的吗？"，模型只需回答"是"或"否"。为了排除内容本身的干扰（比如模型靠"这个场景不现实"来判断，而不是靠瑕疵来判断），研究团队让每段真实视频都配有一段内容相似的AI生成对照版本。这样一来，模型无法靠"这个场景很奇怪"来蒙混过关，必须真正看出视觉上的生成痕迹。
第二种考题叫做**成对视频真实感比较**（简称PVRC）。这道题更进一步：同时给出两段AI生成的视频，问模型"哪段看起来更真实？"。两段视频内容相近，但瑕疵的严重程度不同。这道题考察的不再是简单的"真假识别"，而是对"真实程度"的细粒度判断，相当于从"能不能看出破绽"升级到"能不能比较出哪个破绽更严重"。
第三种考题叫做**瑕疵识别**（简称AID），是三道题中难度最高的。给模型看一段AI生成的视频，同时提供六个可能的瑕疵选项（这六个选项全部来自那30种具体瑕疵类型），要求模型选出视频中实际存在的所有瑕疵。关键在于，正确答案可以是多个，而那些错误选项都是与正确答案"同族"或"邻近"的瑕疵类型，比如"生物解剖学违规"和"非生物结构缺失"都跟"结构问题"有关，但含义不同。模型不能靠粗略的大类判断来蒙题，必须精确区分相似但不同的瑕疵概念。
在数据来源上，研究团队使用了一个"混合策略"。真实视频来自网络公开来源，AI生成视频则覆盖了多款主流生成系统，包括快手的可灵2.5和2.1、谷歌的Veo 3、腾讯混元Video 1.5、LTX-2.3、Wan2.2等。他们还使用Gemini 3.1 Pro对视频内容生成文字描述，再用这些描述去生成对应的AI版本，确保内容相似性。对于某些在自然收集中很少见的瑕疵类型，团队专门设计了"失败导向"的生成提示词，故意引导AI生成含有该类瑕疵的视频，再人工筛选合格样本。
整套数据集最终包含1350段视频，构成1100个有效评测样本，分布在动物、人物、建筑、自然场景、动作等五大类别，涵盖20个具体场景，视频分辨率从720p到1080p不等，时长从几秒到十秒以上都有。每道题还根据瑕疵的明显程度分为三个难度等级：L1是瑕疵明显、容易识别的简单题；L2是中等难度；L3则是AI生成视频接近真实、瑕疵极其细微的硬题。
在标注质量上，团队采用了严格的人工审核流程。每段AI生成视频先由3名有经验的标注员独立审查，只有三人意见完全一致才能入库；如果有分歧，再由额外2名标注员介入复审；最终所有入库样本还需要通过2名具有丰富行业经验的专家的最终审核。难度分级同样经过类似的多人独立评级和讨论机制，确保标注的可靠性。
三、19个顶尖AI模型都考了多少分——测试结果出乎所有人预料
研究团队对19个当前最先进的多模态大模型进行了全面测试，并额外邀请了4名人类专家来完成同样的题目，作为参照基准。
先说人类专家的表现：在真实与AI生成视频分类任务中，人类专家平均正确率达到93.6%，在成对比较任务中是86.4%，在瑕疵识别任务中是80.3%，三项综合得分约为87.7分。这说明这些题目对人类来说整体可做，尽管也有一定难度。
再看这19个AI模型。
表现最好的是谷歌的Gemini 3.1 Pro，三项综合得分47.5分。在视频真实感比较任务中勉强达到了48.6%的平均正确率，在真实与AI生成分类任务中有74%的平均正确率，但在瑕疵识别任务中只有9.8%的平均正确率。而第二名Gemini 3 Flash的综合得分是43.8分。来自同一家开发公司的VideoVeritas 8B得了46分，算是开源专用模型中的最高分。
其余大多数模型的综合得分集中在33到40分之间。Qwen3-VL 32B指令版得了39.5分，是开源通用模型中的最高分。多个模型在真实与AI生成分类任务中的平均正确率徘徊在48%至52%之间——而纯随机猜测的正确率恰好是50%。换句话说，很多模型的表现基本等同于抛硬币。
瑕疵识别任务的成绩更是惨不忍睹。几乎所有19个模型的平均正确率都不超过10%，而人类专家是80.3%。这意味着，当被问到"这段视频里具体哪里有问题"时，当前最强的AI系统给出正确答案的概率不到十分之一，而人类专家可以答对八成。
专为AI生成视频检测专门训练的三个专用模型（Skyra、BusterX++、VideoVeritas）表现也并不特别突出，分别得了29.4分、36.2分和46分，并没有在所有任务上碾压通用模型，尤其是在成对比较和瑕疵识别两个任务上表现同样欠佳。
四、仅仅把模型做得更大、更"聪明"，并不能解决这个问题
测试结果还揭示了一个颇为微妙的规律：单纯扩大模型规模，或者给模型添加"思维链推理"（让模型在回答前先一步步推导），并不能稳定提升瑕疵感知能力。
以InternVL3.5系列为例，38B参数版本（参数量相当于一个拥有380亿个计算单元的大型系统）与8B版本（80亿参数）的综合得分非常接近，分别是34.7分和34.5分。参数多了将近五倍，但在这个任务上几乎没有带来明显提升。同样的现象也出现在Qwen3-VL系列中，32B版本确实比8B版本稍好，但差距并不像在其他视觉理解任务上那样悬殊。
更有趣的是"思维链推理"的效果。Qwen3-VL、MiMo-VL、Skyra等模型都提供了"指令执行版"和"深度思考版"两种变体。结果显示，在多个任务和难度等级上，"深度思考版"的成绩反而不如"普通版"。比如Qwen3-VL 8B深度思考版的综合得分是33.3分，低于普通版的36分；Skyra 7B深度思考版是32分，也低于普通版的29.4分——虽然两者差距不大，但深度思考并没有带来预期中的显著改善。
这个现象背后的原因在于，识别AI生成视频中的瑕疵与常见的视觉问答任务有本质不同。常见的视觉推理题（比如"图片中有几个人"、"描述这张图片的场景"）主要依赖对视觉内容的语义理解，而瑕疵识别需要的是**感知层面的细粒度辨别**——察觉到某一帧中某个局部区域的模糊程度与周围不一致，或者追踪一个物体在连续30帧中的形状变化。这种能力更接近于"视觉直觉"而非"文字逻辑"，仅靠堆砌参数量或增加推理步骤并不能让模型获得这种直觉。
五、AI模型"感知盲区"的两个具体案例
研究团队专门展示了两个典型的失败案例，帮助理解这些AI模型的感知盲区在哪里。
第一个案例是一段视频，画面中出现了一个桨穿透船体侧壁的场景——桨的末端插入船身，这在物理上是不可能发生的。但这个异常只发生在画面的一个很小的局部区域，大部分画面内容是正常的水面和划船动作。大多数AI模型因为在处理视频时会对视觉信息进行压缩和整体特征提取，导致这个"小破绽"被淹没在大量正常内容中，没有被"注意到"。
第二个案例是一段足球场上的视频，画面中出现了一个诡异的现象：原本只有一个足球，在某几帧中变成了两个球，然后又变回一个。要发现这个问题，必须横跨多个时间帧去比对同一区域的内容变化，而不能仅靠单帧的视觉信息。当前的多模态大模型在处理视频时通常采用稀疏帧采样（每秒只取几帧），并且更擅长理解单帧内容而非追踪跨帧的细节变化，因此这种"时间型瑕疵"很容易被漏掉。
这两个案例代表了瑕疵识别中的两大核心挑战：一是**空间细粒度**（破绽藏在局部小区域里），二是**时间连贯性**（破绽分布在多个不连续的时间帧中）。目前的AI系统在这两个维度上都存在明显短板。
六、更令人担忧的发现：AI的判断和人类的感知根本不在同一频道
或许测试中最值得关注的发现不是模型的得分，而是模型表现出来的"判断逻辑"与人类感知之间的系统性偏差。
对于人类来说，随着视频的逼真程度提高、瑕疵变得越来越隐蔽，识别难度自然上升，正确率也会相应下降。这个趋势非常稳定：在L1（明显瑕疵）、L2（中等难度）、L3（细微瑕疵）三个级别上，人类专家的成绩几乎每次都按照L1>L2>L3的顺序依次下降，反映出真实的感知能力随难度提升而受限的规律。
但AI模型的表现完全不符合这个规律。在很多情况下，模型在L2上的得分比L1还高，在L3上的得分有时又高于L2，甚至出现"越难越准确"的反常现象。这说明模型判断的依据并不是视频中的真实瑕疵，而很可能是某些与难度等级相关的"统计特征"——比如L3视频因为质量更高而具有某种特定的画面特征，而模型无意中学会了把这种画面特征与某个标签关联起来。
这个问题对于AI生成视频领域的实际应用影响极大。目前，越来越多的研究者希望用多模态大模型作为视频生成质量的自动评估工具，甚至将其纳入强化学习的"奖励信号"——简单来说，就是让AI模型来判断一段生成视频是否够好，再用这个判断来训练和改进视频生成模型。但如果这个"裁判"本身的判断依据和人类完全不同，那么被训练出来的视频生成模型就会朝着"讨好AI裁判"而非"真正提高视觉质量"的方向演化，最终产生表面上骗得过AI、但人看起来仍然怪异的视频。
说到底，这项研究揭示的是一个技术领域长期被忽视的基础性问题：多模态大模型虽然在语言理解、图像描述、视觉问答等任务上取得了令人瞩目的进展，但在"像人类一样感知图像和视频中的细微不自然之处"这个能力上，它们还差得很远。它们能告诉你"这个场景里有一个人在划船"，但未必能告诉你"这个人的桨穿进了船身"。
这个差距的根源不在于模型"不够聪明"，而在于现有的训练方式和架构设计更适合培养语义理解能力，而非感知层面的细粒度辨别能力。就像一个博览群书的学者未必能比专业画家更快发现一幅画里的透视错误——知识广度与感知精度是两种不同的能力。
Artifact-Bench的建立为这个领域提供了一个清晰的测量尺。下一步，研究者们需要在模型设计、训练数据和评测方法上进行有针对性的改进，才能真正让AI具备可靠的"慧眼"——不仅能看懂视频说了什么，还能发现视频哪里"不对劲"。
有兴趣深入了解这项研究的读者，可以通过论文编号arXiv:2605.18984查阅完整论文。
Q&A
Q1：Artifact-Bench测评基准具体是怎么评测多模态大模型识别AI生成视频能力的？
A：Artifact-Bench设计了三种逐步升级难度的考题。第一种是让模型判断一段视频是否由AI生成，只需回答是或否。第二种是给出两段AI视频，让模型判断哪段更真实。第三种也是最难的，给出一段AI视频和六个可能的瑕疵选项，要求模型选出所有实际存在的瑕疵，正确答案可能不止一个。三类题目覆盖了从粗到细的不同感知层次。
Q2：多模态大模型在识别AI生成视频瑕疵方面的主要短板是什么？
A：主要有两个短板。一是空间细粒度不足，当瑕疵只出现在画面的小局部时，模型容易忽略它。二是时间感知能力弱，当瑕疵需要比较多帧画面才能发现时，模型因为帧采样稀疏而漏掉。此外，增大模型规模或者启用"深度思考"模式并不能稳定改善这两个问题，说明这是现有架构和训练方式的结构性短板。
Q3：AI模型识别AI生成视频能力差，会有什么实际影响？
A：影响主要体现在两方面。一是用AI模型作为视频生成质量的自动评分工具时，其判断不可靠，因为它的评判标准和人类感知不一致。二是如果用它来给视频生成模型提供训练反馈信号，可能导致生成模型学会"骗过AI裁判"而非真正提升画面质量，最终产生对人来说仍然不自然的视频内容。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

马斯克自杀式开源X：让你们看看，我肚里到底有几碗粉！

聚焦WAIC｜“峰谷Token”，“虚拟细胞”……阿里巴巴多个智能体平台展区集中亮相

为什么偏偏是韩国，养出了海力士和三星？

苹果AI有啥用？Apple Intelligence这些功能就很好用

Chrome里使用火狐浏览器：Firefox in WebAssembly实验项目上线

蜂巢能源董事长杨红新：固液电池低成本量产在即，2027年目标交付7万台

全站最新

马斯克自杀式开源X：让你们看看，我肚里到底有几碗粉！

聚焦WAIC｜“峰谷Token”，“虚拟细胞”……阿里巴巴多个智能体平台展区集中亮相

为什么偏偏是韩国，养出了海力士和三星？

苹果AI有啥用？Apple Intelligence这些功能就很好用

热门推荐

七折甩卖也无人问津，九江银行年内多笔股权接连流拍

马斯克自杀式开源X：让你们看看，我肚里到底有几碗粉！

聚焦WAIC｜“峰谷Token”，“虚拟细胞”……阿里巴巴多个智能体平台展区集中亮相

为什么偏偏是韩国，养出了海力士和三星？

苹果AI有啥用？Apple Intelligence这些功能就很好用

Chrome里使用火狐浏览器：Firefox in WebAssembly实验项目上线

蜂巢能源董事长杨红新：固液电池低成本量产在即，2027年目标交付7万台

现代与SK On美国电池工厂投产，年产能35GWh可供应30万辆电动汽车

Intle 18A工艺良率达85%开始抢客户台积电神回应：这不是在711买牛奶

横跨近13年产品：丰田车体在日召回11467辆单人电动汽车COMS

安全公司曝光有黑客在GitHub建立近300个山寨仓库

雷军：70%小米车主每周行驶里程不超过400公里

巴菲特：投资Alphabet是我发起的，后悔买入过晚

价格战一触即发！奥特曼放话OpenAI降价75%：被DeepSeek等中国AI逼的

搭1.5T Hi4动力！魏牌V9X豪华家庭版Ultra上市：限时31.68万起