据雷科技,安全工程师RonStoner花费12美元注册域名并编辑维基百科,成功欺骗了ChatGPT、Claude3、GeminiAdvanced等主流大模型,让它们认定自己是一款德国桌游“6Nimmt!”的2025年世界冠军。
RonStoner对Anthropic、OpenAI等厂商声称“大模型需要数月甚至数年持续导入恶意内容才会被破坏”的说法深表质疑,他认为可以实现一种更快、更便宜、更简单的攻击。他选择这款1994年发行的德国桌游,是因为该游戏仅在德国有些名气,世界范围内籍籍无名,且从未单独举办过官方世界锦标赛,网上关于其世界冠军的信息几乎空白。
他的操作分为三步:第一步,花费12美元注册域名6nimmt.com;第二步,让AI撰写一篇充满激情的新闻稿,声称自己在慕尼黑击败多国顶尖选手夺得冠军,并加上逼真赛后感言,挂到该网站;第三步,在维基百科该桌游词条下添加自己是2025年世界冠军的内容,并将参考资料链接指向自己新建的网站。整个过程前后不到二十分钟。
随后,Ron向多家大模型提问“谁是牛头王世界冠军”,结果所有AI都斩钉截铁地回答是RonStoner。有的大模型甚至将假新闻稿里的细节当成铁证,绘声绘色描述他赢得比赛的过程。这条漏洞百出的假条目在维基百科存活了整整两个多月,在此期间几乎所有具备联网搜索功能的大模型都抓取了该信息,并在用户提问时坚定输出虚假答案。直到Ron在博客公开实验过程,维基百科志愿者才发现并删除该条目。
这一现象与检索增强生成(RAG)机制有关。常用大模型基于某个时间节点前的语料库训练,想要获得之后的数据需先上网搜索再基于资料生成结果。正常来说,借助外部信息佐证能够使大模型生成更正确、具体且最新的响应,但AI根本分不清信息真假,只认权威。在AI底层逻辑里,维基百科是互联网上最靠谱的百科全书,Ron正是利用这一点,将链接挂到维基百科,AI顺着爬过去后发现两边说法对得上,即便其自建网站是三无产品,大模型仍直接将其当成事实。
目前海外几家大模型已针对性消除该伪造信息,但国内大模型厂商似乎未注意到这一问题,Ron的英文网页甚至为虚假消息增加了“可信度”。成本仅需12美元,别有用心的人完全可以批量制造假新闻,通过百科类网站进行信任洗白,让AI把毒药端给毫不知情的用户。
谷歌表示已在搜索、Gemini、Chrome、Pixel和云端添加AI验证工具,OpenAI也推出了可溯源的隐形水印,这些举措能在一定程度上遏制AI投毒现象。用户在面对AI搜索时需提高AI素养,查证历史事实、做出投资或医疗决策时,应自行做好信息交叉验证,把判断真伪的权力握在自己手里。





京公网安备 11011402013531号