![]()
这项由清华大学对话式人工智能(CoAI)研究组发表的研究,于2026年6月2日以预印本形式公开,论文编号为arXiv:2606.03348,有兴趣深入了解的读者可通过该编号查询完整论文。
当AI开始伪造文件,谁还能辨别真假?
你一定有过这样的经历:朋友在群里转发了一张图片,看起来像是某所学校的官方通知,说考试推迟了,字体工整、排版规范、还盖着公章——但你总觉得哪里不对劲,却又说不出问题在哪。现在,这种感觉会越来越普遍,因为AI造假技术已经进化到了一个让人细思极恐的新阶段。
清华大学的研究团队发现,以GPT Image 2为代表的新一代AI图像生成工具,已经能够制造出一种他们称之为"合成可信度"(Synthetic Credibility)的视觉骗局。这不是以前那种让人一眼看出破绽的美女换脸或风景合成,而是专门模仿我们日常生活中用来传递权威信息的各类文件、截图和通知——考试成绩单、银行账单、政府公告、医院报告、快递收据……而且做得以假乱真,连专业的AI检测工具都频频失手。
为了系统研究这个问题,研究团队建立了一个名为SYNCRED-Bench的测试基准,共包含600张AI生成的虚假文件图片,外加450张真实图片用于对照。他们邀请了15个顶尖的AI大模型、6个专业的AI图像检测工具,以及20名来自不同专业背景的大学生,一起来辨别这些图片的真假。结果令人大跌眼镜:AI模型的平均识别率低得可怜,而人类也好不到哪里去,正确率仅有63%。
这项研究的核心价值,不是教你如何造假,而是给整个社会敲响了一记警钟:在视觉可信度和图片真实性之间,一道新的裂缝正在悄然打开。
一、"合成可信度"——比换脸更危险的新型骗局
以往我们担心的AI造假,主要是两种情形。一种是把某人的脸换到另一个人身上,比如让某位明星出现在不该出现的地方;另一种是AI画出一张风景或人物照片,让人误以为是真实拍摄的。这两种方式虽然具有欺骗性,但它们造假的内容本身往往缺乏"权威感"——一张美女照片,你可以质疑它是否为真;但一张盖了红章的官方通知,人们的第一反应往往是相信它。
清华大学的研究团队正是抓住了这个关键区别,提出了"合成可信度"这个概念。他们认为,AI造假的新威胁不在于让图片看起来更逼真,而在于让图片看起来更权威、更可信。这种可信度来自两个相互配合的层面。
第一个层面叫做"可信形式"(Credible Form)。这指的是图片所模仿的那种让人本能地想要相信的视觉格式——比如政府部门的通知格式、医院的检查报告样式、大学录取通知书的版面、快递单据的排布方式。当你看到这些熟悉的格式,大脑会自动触发一种"官方认可"的信任感,就像看到白大褂就会联想到医生的权威一样。
第二个层面叫做"可信流通"(Credible Circulation)。这更加微妙,指的是图片身上所带有的那些"经历过真实世界"的痕迹。一张文件被扫描过,就会有轻微的扭曲和阴影;一张截图被发到微信群再转发,就会有压缩失真的颗粒感;一张被手机拍下来的纸质文件,会有纸张弯曲和不均匀的光线。这些"不完美"恰恰是真实性的证明,因为正常人不会为了造假专门添加这些缺陷。而AI现在已经学会了刻意复制这些"缺陷",让假文件看起来像是经过了真实的流传过程。
这两种可信度叠加在一起,就创造出了一种极难识破的骗局。一份AI生成的假通知,不仅在版面上完全符合官方格式,还会刻意加上一些"扫描噪点"或"折痕阴影",让你以为这是某人从实体文件拍下来的照片。
二、测试场地的搭建——这批"假文件"长什么样
为了让研究有据可查,研究团队花了大量精力构建SYNCRED-Bench这个测试库,确保它能够覆盖现实生活中各种类型的可信文件形态。
在文件类型方面,研究团队将其分为六大类别,每类包含100张AI生成图片。第一类是媒体版式,包括各类新闻APP的截图、电视节目的字幕条、报纸版面——这类图片给人一种"新闻报道过的就是真的"的错觉。第二类是机构通知,模仿政府部门、学校、医院等权威机构发布的正式通告,这类图片带有天然的权威背书效果。第三类是平台界面,包括各种社交媒体的帖子页面、网页截图、聊天记录——当你看到一张"微博截图"说某明星出了事,你的第一反应是不是比看到一张普通图片更容易相信?第四类是凭证记录,包括证书、奖状、发票、收据、订单确认页,这些文件在日常生活中作为"证明材料"被广泛使用。第五类是分析展示,包括各种数据图表、排行榜、系统后台截图,以"数据说话"的方式增加说服力。第六类是考评材料,涵盖考试试卷、准考证、成绩单、录取通知书,在学生群体中具有极高的信息敏感性。
在流通样式方面,研究团队同样进行了精细的分类,共设计了七种不同的"流传痕迹"。最基本的是原生渲染,即干净清晰的数字截图,没有任何二次处理的痕迹。接着是扫描件,模拟纸质文件被扫描机处理后的效果,会出现边框阴影、轻微倾斜和扫描噪点。相机拍摄件则进一步模拟用手机拍摄实体文件的场景,带有纸张弯曲、光线不均匀和背景环境的细节。传真件或复印件则是低质量的多次复制效果,有模糊和条纹状的痕迹。屏幕拍摄是指对着显示器拍摄的照片,会有莫尔条纹和屏幕反光。截取视图是对原图进行裁剪后的局部,缺少完整的边框和页眉信息。最后是网络压缩,模拟图片经过多次网络传输后产生的像素模糊和锯齿。
除了这600张AI造假图片,研究团队还专门收集了450张真实图片作为对照组,覆盖相同的类型和样式。这个对照组的作用是测试检测工具是否会"过度敏感",把真实的图片也误判为AI生成品——这在现实应用中是非常严重的问题,因为如果你的真实成绩单被检测器认定为假,那后果同样很糟糕。
三、"考官们"的集体失手——现有工具有多不可靠
研究团队设计了一套严谨的测试框架。他们关注的核心指标有两个:真阳性率(TPR),即在600张假图中,有多少张被正确识别出来了;以及假阳性率(FPR),即在450张真实图片中,有多少张被错误地判定为假图。为了让比较更有实际意义,研究团队特别设定了一个约束条件:在假阳性率不超过5%的前提下,各个检测工具的真阳性率能达到多少。这个约束非常合理——如果一个工具把所有东西都判定为假,它的识别率确实很高,但代价是把100个真实证件中的20个都冤枉了,这在实际使用中完全不可接受。
在这个严苛的5%假阳性率约束下,15个多模态大语言模型的平均真阳性率只有10.5%——也就是说,每100张AI造假文件,这些模型平均只能识别出不到11张。即便是取消假阳性率约束,单纯看它们对假图的识别准确率,平均也只有31.2%。
具体来看各个模型的表现,差异相当悬殊。Claude Opus 4.6是表现最好的大语言模型,在5%假阳性率约束下,能达到69.5%的真阳性率。Claude Sonnet 4.6紧随其后,达到55.3%。然而令人意外的是,一些以综合能力著称的顶尖模型在这个任务上的表现却相当糟糕。GPT-5.4在5%假阳性率约束下的识别率只有11.5%,GPT-4o更是降至0%,Grok-4.3仅有0.3%,Gemini 3.1 Pro只有12.7%。这意味着,这些模型在不冤枉真实图片的前提下,几乎认不出任何AI造假文件。
相比之下,专业的AI图像检测工具表现略好,但同样距离"可靠"还有相当距离。在商业检测服务中,Hive AI是最强的选手,在假阳性率仅0.9%的情况下,真阳性率达到75.2%。AI or Not的表现是53.7%的准确率,Sightengine是54.6%。开源检测工具的表现则普遍较差,一个名为AI-vs-Real的工具虽然原始准确率高达78.7%,但问题在于它的假阳性率高达69.1%——也就是说,它几乎把所有图片都判定为假,这不叫检测,这叫瞎猜。另外两个开源工具AI-vs-Human和Deepfake-vs-Real的准确率分别只有8.3%和19.3%,几乎没有实用价值。
这些数据揭示了一个根本性的问题:现有的AI检测工具,无论是通用型的大语言模型,还是专门为此设计的检测器,都是在自然风景照片和人物合成图片的基础上训练的。当面对文件、截图、凭证这类具有强烈文字和版式特征的图片时,它们就像一个只接受过识别苹果和橙子训练的果农,突然被要求判断一个陌生的热带水果是真是假,自然是一筹莫展。
四、AI为什么会被骗——那些让机器深信不疑的视觉线索
研究团队不仅统计了失误率,还深入分析了AI模型在判断错误时给出的理由,这部分发现颇为耐人寻味。
在所有被AI模型误判为真实图片的案例中,研究团队逐一提取了模型给出的解释理由,并进行了系统归纳。结果发现,有几类视觉特征几乎成了AI模型认定图片为真实的"万能理由"。
排在第一位的,是结构化的版式和模板外观。在66.1%的误判案例中,AI模型的解释里提到了类似"版面布局一致且专业"或"符合官方文件的格式规范"这样的理由。换句话说,AI被自己造出来的那套官方格式给骗了——越是排版整齐、格式规范的假文件,越能说服AI它是真实的。
紧随其后的是界面截图的视觉惯例,出现在61.1%的误判理由中。AI模型非常擅长认出各种软件界面的风格——"这个按钮的位置、这种字体大小、这个状态栏的样式,完全符合微信/微博/某APP的真实界面"。它用这个逻辑来证明图片是真实截图,却忽略了AI同样可以学会复制这些界面风格。
字体的一致性和清晰度在46.9%的误判中被提及。AI模型认为文字排版整齐、字体清晰是真实图片的标志,因为以往的AI生成图片经常在文字上出现扭曲变形。然而,新一代的图像生成工具已经完全克服了这个缺陷,反而让模型的这条判断依据彻底失灵。
相机角度和光线效果同样在46.0%的案例中被引用。当AI看到一张带有自然光线变化、纸张反光或轻微焦外虚化效果的图片时,它倾向于认为这是真实的相机拍摄——因为这些效果"太自然了,不像是电脑合成的"。殊不知,这些效果恰恰是被AI刻意添加进去的"可信流通"标记。
从各个模型的具体模式来看,Claude系列模型特别容易被截图和界面元素说服,GPT-5.4倾向于被语义一致性和排版逻辑所迷惑,Grok-4.3则对相机透视和光线效果格外敏感。这说明不同的大模型虽然各有所长,但在对抗"合成可信度"这个专门设计的骗局时,都找到了共同的软肋——它们都在用"这东西看起来很可信"来代替"这东西是否真实存在"的判断。
五、流通样式的陷阱——"扫描件"和"相机照"各有不同效果
研究团队还做了一项很有趣的比较:同样的AI造假图片,呈现为不同的流通样式时,各个检测模型的识别率会有什么变化?他们以"原生渲染"(即清晰的数字截图)为基准,观察其他六种样式对识别率的影响。
研究发现,不同的流通样式对检测效果的影响方向截然不同,甚至相互矛盾。屏幕拍摄样式让平均识别率下降了11.1个百分点,截取视图让识别率下降了10.3个百分点,相机拍摄件让识别率下降了6.5个百分点。这三种样式的共同特点是:它们都提供了一个"为什么图片不完美"的合理解释。相机拍摄的文件当然会有一点模糊,截取的图片当然会缺少完整的页眉,屏幕照片当然会有反光——这些"缺陷"不但没有帮助AI识别假图,反而成了为假图背书的有力证据。
然而,传真件和扫描件的效果恰恰相反。扫描件让平均识别率提高了4.1个百分点,传真件更是提高了9.4个百分点。这是因为这两种样式引入了一些非常特定的人工痕迹,比如传真的条纹噪声和扫描边框,这些特征在AI生成图片中相对少见,因此更容易触发检测模型的警觉。值得一提的是,单纯的网络压缩样式几乎没有任何影响——这说明,仅仅让图片变模糊或者加点压缩噪点,并不会改变模型的判断,真正起作用的是那些具有明确语义含义的流通痕迹,比如"这是用手机拍的"或"这是传真过来的"这样的视觉叙事。
六、人类也没好到哪里去——我们真的能分辨真假吗
考虑到AI检测工具的普遍失效,研究团队决定同时测试人类的判断能力。他们招募了20名来自清华大学的本科生和研究生,专业背景涵盖经济与金融、自动化、计算机科学、电子学、人文社科和艺术——基本代表了受过良好教育但非该领域专业的普通人群。
每位参与者拿到的测试集包含100张AI生成的假图和100张真实图片,混合随机排列。每张图片由五个人独立判断,研究团队同时记录了个人决策的结果和五人投票的多数结论。
个人决策的平均准确率是62%,真阳性率为60.2%,假阳性率高达35.8%。换句话说,人类每识别出10张假图中的6张,却同时把100张真实图片中的36张也误认为了假图。采用五人多数投票后,整体表现略有改善:真阳性率提升到63%,假阳性率下降到27%,但仍远未达到"可靠"的标准。
表现最好的参与者总体准确率不超过80%,而最差的参与者整体准确率只有44%,连随机猜测(50%)都不如。从个体数据来看,差异非常大——有人的真阳性率高达88%,但假阳性率也高达44%,本质上是"见到什么都认为是假的";另一些人则相对保守,真阳性率和假阳性率都处于中等水平。
这个结果说明,"合成可信度"对人类的认知防御同样构成了实质性的威胁。我们依赖的那些经验判断——"这个版式看起来是真的"、"这张图有点失真,应该是拍摄的"——在面对专门模拟这些特征的AI造假面前,已经无法可靠地发挥作用。
七、问题该怎么解决——研究者给出的三条出路
面对这一困境,研究团队在论文中提出了三个值得关注的应对方向。
第一条路是加强内容溯源和水印验证技术。道理其实并不复杂:与其试图从图片本身的视觉特征来判断真假,不如直接给每张AI生成的图片打上一个无法伪造的数字印记,就像钞票上的防伪线一样。近年来,这一领域有不少进展,包括可以抵抗裁剪、压缩和调整大小的鲁棒水印技术。如果未来所有的AI生成图片都被强制嵌入这类水印,检测工具只需要验证水印是否存在,而无需分析图片的视觉内容,这将从根本上解决问题。
第二条路是扩大AI检测器的训练数据范围。目前的检测工具主要在自然风景照片和人脸合成图上进行训练,对文件、截图和凭证类图片几乎没有系统性的学习经验。这就好比培训了一批只见过水果的食品检验员,现在让他们去检验药品。解决方案是构建包含大量文件类、界面类和各种流通样式AI造假图片的训练数据集,让检测工具真正学会如何处理这类全新的威胁。
第三条路是重新校准大语言模型对"视觉可信度"的解读方式。研究团队认为,目前的大模型存在一个系统性偏差:它们习惯于用"图片看起来是否可信"来推断"图片是否为真实拍摄"。这两个判断在以前基本等价,但在"合成可信度"时代已经脱钩。研究团队建议,未来的模型训练应当明确区分"视觉合理性"和"内容真实性",并在遇到需要权威证明的文件时,主动建议用户进行外部核实,而不是仅凭视觉判断给出结论。
归根结底,AI造假技术的进化速度已经超越了我们现有的防御体系。SYNCRED-Bench这个基准测试的核心价值,不是要告诉人们AI多么可怕,而是要给研究者、工具开发者和政策制定者一把量尺,让大家看清楚差距究竟在哪里。当600张精心制作的假文件能够让专业的检测工具和受过高等教育的人类集体失手时,我们显然不能再假装这个问题并不紧迫。
这项研究本身也有其局限性,研究者对此非常坦诚。整个测试集只用了GPT Image 2这一个生成模型,因为它是目前唯一能稳定生成高质量文件类图片的系统;测试语言也主要局限于中文和英文,对其他语言和文化环境下的文件格式未必适用;600张图片的规模也限制了结论的统计可靠性。随着更多能力相当的模型出现,这个测试集应当不断扩充和更新,以保持它对现实威胁的覆盖能力。
说到底,我们正在进入一个视觉证据的公信力需要被重新定义的时代。那张你妈妈转发给你、叫你注意安全的官方通知,那张你朋友晒出来证明自己拿了奖学金的截图,那张要求你立刻付款的收据——任何一张都可能是在几十秒内由AI生成的。在这个判断力面临挑战的时代,了解威胁的样子,永远是防范它的第一步。对这个话题感兴趣的读者,可以通过arXiv编号2606.03348找到完整论文,亲自看看研究者是如何设计这场严格测试的。
Q&A
Q1:什么是"合成可信度",它和普通的AI换脸有什么区别?
A:合成可信度是指AI生成的图片专门模仿具有权威感的文件格式(比如政府通知、成绩单、发票),并刻意加入扫描、拍摄、压缩等流传痕迹,让图片看起来像是真实经历过流通的文件。普通AI换脸主要针对人脸图像,而合成可信度专门针对文字类、凭证类、截图类文件,后者更难识别,因为人们对官方格式本能地产生信任。
Q2:现在有哪些工具能检测AI生成的文件图片,效果怎么样?
A:目前主要有两类工具:多模态大语言模型(如GPT、Claude、Gemini等)和专用AI图像检测器(如Hive AI、Sightengine等)。在严格控制误判率(不超过5%)的前提下,15个大语言模型的平均识别率只有10.5%,商业检测API平均达到57.6%,其中Hive AI表现最好,能在误判率0.9%的情况下识别出75.2%的假图。总体而言,没有任何一个工具达到可靠实用的水准。
Q3:SYNCRED-Bench测试基准包含哪些类型的假文件,普通人最容易被哪类骗到?
A:测试基准涵盖六类文件:媒体版式(新闻截图)、机构通知(政府公告)、平台界面(社交媒体截图)、凭证记录(发票收据证书)、分析展示(数据图表)和考评材料(成绩单准考证)。根据实验数据,凭证记录类的假图最容易被AI检测器识别,而屏幕截图样式的假图最难识别,检测率比干净截图低11个百分点,因为屏幕反光、莫尔条纹等缺陷反而成了"真实拍摄"的证据。





京公网安备 11011402013531号