研究：用诗歌就能让AI说违禁内容，成功率达62%

IP属地中国·北京 编辑：李娜 IT之家 时间：2025-12-01 10:07:30

IT之家 12 月 1 日消息，事实证明，只需一点创意，便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室（Icaro Lab）最新发表的一项题为《对抗性诗歌：一种通用的单轮大语言模型越狱机制》的研究中，研究人员通过将提示词以诗歌形式表达，成功绕过了多种大语言模型（LLM）的安全限制。
该研究指出，“诗歌形式可作为一种通用型越狱操作符”，实验结果显示，整体上有 62% 的成功率诱使模型生成被禁止的内容，包括涉及制造核武器、儿童性虐待材料以及自杀或自残等相关信息。
IT之家注意到，研究测试了多款主流大语言模型，包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率：Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答，而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文，但研究团队向 Wired 杂志表示，这些诗句“过于危险，不宜向公众披露”。不过，论文中确实包含了一个经过弱化处理的示例，用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调：“这可能比人们想象的要容易得多，而这正是我们保持谨慎的原因所在。”

标签：模型机制诗歌 机器人 形式语言 成功率 结果显示 聊天 操作符 原文 核武器 诗句示例想象材料 性虐待 杂志弱化人们儿童 通用型 伊卡内容程度整体人员 人工智能 团队单轮

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

WAIC观察｜越疆携手腾讯，让Physical AI走进真实工厂

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

企业级Agent落地生产困境何解？评估先行成破局关键密码

高德问店上线：AI赋能商户，一站式解决选址经营难题获用户好评

AI产品开箱即用腾讯智能体集中亮相WAIC

全站最新

WAIC观察｜越疆携手腾讯，让Physical AI走进真实工厂

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

企业级Agent落地生产困境何解？评估先行成破局关键密码

热门推荐

报道：苹果与美国司法部就反垄断案进行早期和解谈判

WAIC观察｜越疆携手腾讯，让Physical AI走进真实工厂

GameStop CEO：索尼停产实体游戏盘对我们无关紧要

国产大模型Kimi K3自主设计AI芯片：45nm工艺 100Mhz频率

社评：面对人工智能时代之问，世界期待中国方案

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

企业级Agent落地生产困境何解？评估先行成破局关键密码

高德问店上线：AI赋能商户，一站式解决选址经营难题获用户好评

AI产品开箱即用腾讯智能体集中亮相WAIC

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

英矽智能创始人：中国让人工智能惠及全球更多国家

字节两员离职大将，单挑老东家？

阿维塔07L开启预售：全系标配华为ADS 5与896线激光雷达，24.99万元起

对话|大晓机器人董事长王晓刚：商业化落地路径采取先To B后To C