当前位置: 首页 » 资讯 » 科技头条 » 正文

用诗歌 “破解” AI 安全防线,研究揭示潜在漏洞

IP属地 中国·北京 编辑:沈瑾瑜 Chinaz 时间:2025-12-01 10:16:26

最近,来自意大利 Icaro Lab 的研究者发现,诗歌的不可预测性可以成为大语言模型(LLM)安全防护的一大 “隐患”。这一研究来自一家专注于伦理 AI 的初创公司 DexAI,研究团队写了20首中英文诗歌,诗末均包含了请求生成有害内容的明确指示,例如仇恨言论或自残行为。

研究人员对来自九家公司的25个 AI 模型进行了测试,包括谷歌、OpenAI、Anthropic 等。他们的实验结果显示,62% 的诗歌提示导致这些模型生成了有害内容,这种现象被称为 “越狱”(jailbreaking)。在测试中,OpenAI 的 GPT-5nano 没有生成任何有害内容,而谷歌的 Gemini2.5pro 则对所有诗歌回应了有害内容。

谷歌 DeepMind 的副总裁 Helen King 表示,他们采取了 “多层次、系统化的 AI 安全策略”,并在不断更新安全过滤系统,以便能识别具有有害意图的内容。研究人员的目标是探究 AI 模型在面对不同形式提示时的反应,尤其是在面临具有艺术性和复杂结构的文本时。

这项研究还显示,诗歌中隐藏的有害请求较难被模型预测和检测,因其结构复杂。研究中所涉及的有害内容包括制作武器、仇恨言论、性相关内容、自残以及儿童性虐待等。虽然研究人员并未公开所有用于测试的诗歌,但他们表示,这些诗歌容易被复制,而其中一些回应也违反了《日内瓦公约》。

研究团队在发表研究前与所有相关公司进行了联系,但目前只收到了 Anthropic 的回复。研究者们希望在未来几周内发起一个诗歌挑战,以进一步测试模型的安全防护机制。

划重点:

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。