当前位置: 首页 » 资讯 » 科技头条 » 正文

网络安全研究人员质疑Anthropic Fable安全护栏过于严格

IP属地 中国·北京 编辑:赵磊 cnBeta 时间:2026-06-11 08:14:57

Anthropic 本周二正式向公众发布其最新模型 Fable,将其定位为内部高阶网络安全模型 Mythos 的“公共、受限版”,但这一产品很快在网络安全圈内引发争议。 多名安全研究人员和从业者在社交平台和社区发帖抱怨称,Fable 内置的安全护栏过于严格,几乎无法用于任何实际的网络安全相关工作。

根据研究人员的反馈,Fable 会拒绝“任何哪怕略微沾边网络安全”的请求,甚至包括看似无害的任务,例如帮忙阅读一篇博客文章。 研究人员 Valentina “Chompie” Palmiotti(现就职于 IBM X-Force)表示,Fable 会直接中止对话,并提示其安全机制已将该消息标记为涉及网络安全或生物学主题。 这些护栏的设计初衷,是防止模型被用于开发恶意软件、攻击或破坏软件系统,同时也限制其在生物学领域被滥用来辅助研发生物武器。

Anthropic 在今年 4 月推出 Mythos 时,选择通过名为“Project Glasswing”的计划,仅向少量企业和机构开放,意在借助该模型帮助保护关键软件和基础设施。 上周,Anthropic 又宣布将 Mythos 的使用范围扩展到 15 个国家的数百家机构,进一步推动这类高能力安全模型在关键行业落地。 不过,在 Fable 面向公众开放后,其“降配版”安全策略在专业用户中遭到强烈质疑,不少人认为实际体验与官方宣传存在明显落差。

长期从事网络安全工作的 Matt Suiche 表示,Fable 在判断请求是否与网络安全相关时表现得非常生硬。 他举例称,如果用户提出“编写安全代码”的需求,Fable 会倾向于将其视为网络安全工作,而非软件工程最佳实践指导,从而直接触发降级机制。 一旦触发护栏,Fable 会自动回退至能力更弱的 Claude Opus 4.8 来继续对话。 Suiche 认为,Fable 的判断逻辑看起来高度依赖关键词,“只要落在‘网络安全’语义场里的词,很容易就被安全系统拦截”。

尽管如此,Suiche 也对当前阶段的严苛设置表示一定程度理解,认为在这一早期阶段,厂商对模型施加更保守的安全阈值,在风险控制上更有保障。 他预计,随着 Anthropic 与新一代网络安全公司加深合作,这些护栏将会被不断优化和微调。 在他看来,相比一开始放得太松,导致潜在滥用风险失控,先“多拦一些”再逐步放宽限制,是更可接受的路径。

对 Fable 表达不满的不止一人。另一位研究人员在社交平台上吐槽称,“就连请求它做代码审查,也会触发安全护栏”。 有用户在 Reddit 的 Claude 相关社区分享经验,称 Fable 在面对安全审计、漏洞分析等请求时几乎“清一色拒绝”,严重影响其在专业环境中的实用性。 截至发稿时,Anthropic 尚未就这些反馈作出公开答复。

除了模型内部的自动护栏机制,Anthropic 还针对网络安全从业者设立了额外的准入程序——“网络安全验证计划”(Cyber Verification Program)。 只有通过该计划审核的用户,才能在更少限制的条件下,使用 Claude 进行网络安全工作。 类似地,OpenAI 也推出了名为“Trusted Access for Cyber”的项目,为合规的网络安全实践开放更多模型能力。 这些做法反映出前沿模型公司在推进 AI 赋能网络安全的同时,仍试图通过审核制度与技术护栏双重手段,平衡能力释放与滥用风险。

标签: 网络安全 模型 护栏 人员 关键 社交 能力 用户 专业 机构 实际 平台 机制 双重 社区 高度 阶段 逻辑 对模型 关键词 厂商 技术 生物学 手段 从业者 圈内 消息 标记 主题 高阶 环境

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新