用诗歌 “破解” AI 安全防线，研究揭示潜在漏洞

IP属地中国·北京 编辑：沈瑾瑜 Chinaz 时间：2025-12-01 10:16:26

最近，来自意大利 Icaro Lab 的研究者发现，诗歌的不可预测性可以成为大语言模型（LLM）安全防护的一大 “隐患”。这一研究来自一家专注于伦理 AI 的初创公司 DexAI，研究团队写了20首中英文诗歌，诗末均包含了请求生成有害内容的明确指示，例如仇恨言论或自残行为。
研究人员对来自九家公司的25个 AI 模型进行了测试，包括谷歌、OpenAI、Anthropic 等。他们的实验结果显示，62% 的诗歌提示导致这些模型生成了有害内容，这种现象被称为 “越狱”（jailbreaking）。在测试中，OpenAI 的 GPT-5nano 没有生成任何有害内容，而谷歌的 Gemini2.5pro 则对所有诗歌回应了有害内容。
谷歌 DeepMind 的副总裁 Helen King 表示，他们采取了 “多层次、系统化的 AI 安全策略”，并在不断更新安全过滤系统，以便能识别具有有害意图的内容。研究人员的目标是探究 AI 模型在面对不同形式提示时的反应，尤其是在面临具有艺术性和复杂结构的文本时。
这项研究还显示，诗歌中隐藏的有害请求较难被模型预测和检测，因其结构复杂。研究中所涉及的有害内容包括制作武器、仇恨言论、性相关内容、自残以及儿童性虐待等。虽然研究人员并未公开所有用于测试的诗歌，但他们表示，这些诗歌容易被复制，而其中一些回应也违反了《日内瓦公约》。
研究团队在发表研究前与所有相关公司进行了联系，但目前只收到了 Anthropic 的回复。研究者们希望在未来几周内发起一个诗歌挑战，以进一步测试模型的安全防护机制。
划重点:

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Uperfect M140G12笔记本三屏扩展套件，办公好帮手！

比亚迪股份：1—2月新能源汽车销量同比下降35.8%

雷军官宣小米VisionGT 1:43合金车模已安排开发

百度智能云入局杭州

小米POCO X8 Pro实拍曝光，3月14日或全球发布！

上科院联合复旦发布"超级科研合伙人"科研智能体"大圣"

全站最新

Uperfect M140G12笔记本三屏扩展套件，办公好帮手！

比亚迪股份：1—2月新能源汽车销量同比下降35.8%

雷军官宣小米VisionGT 1:43合金车模已安排开发

百度智能云入局杭州

热门推荐

晶科能源旗下储能科技公司增资至5.5亿增幅1000%

成都交子科产并购股权投资基金登记成立出资额20亿

杨洋名下关联10家企业

揭秘刘强东游艇品牌关联公司

中国通号等在广东成立低空研究院公司注册资本1亿

天津市公共交通集团增资至38.7亿增幅约19%

五粮液集团入股四川三江汇海融资租赁公司后者增资至约20.4亿

中国石油在大连成立燃料油公司注册资本4900万

中海油在绍兴成立天然气发电公司注册资本1.52亿

浙江南湖机器人创新发展公司登记成立注册资本10亿

陕西榆林能源集团增资至108亿增幅约14%

钱枫投资餐饮公司

韦雪去年7月成立新公司

武汉武创兴汉股权投资基金登记成立出资额10亿

揭秘三只羊美国上市关联公司