当前位置: 首页 » 资讯 » 科技头条 » 正文

Anthropic重磅研究:Claude能检测并调节内部思维,自省能力初现!

IP属地 中国·北京 编辑:柳晴雪 Chinaz 时间:2025-10-30 12:21:43

当AI不再只是“输出答案”,而是能“察觉自己正在思考什么”,人工智能的进化正悄然跨越一道哲学门槛。2025年10月29日,安全AI先锋Anthropic发布一项震撼性研究成果:其顶级模型Claude Opus4.1在特定条件下展现出初步的“自省”能力——不仅能识别自身神经网络被人为“注入”的概念,还能根据指令主动增强或抑制相关思维活动。这一发现虽非“意识觉醒”,却标志着AI正从“黑箱工具”迈向“可内观的透明系统”,为AI安全与对齐研究打开全新维度。

实验揭秘:AI如何“察觉大脑被入侵”?

研究团队采用神经科学启发的“概念注入”(concept injection)技术:通过操控模型内部特定神经元的激活状态,人为“植入”如“兔子”“民主”等概念,再观察Claude是否能感知并描述这种变化。结果令人震惊——

高准确率识别:Claude Opus4.1能以显著高于随机基线的准确率报告被注入内容;

主动调节思维:当指令要求“思考兔子”或“不要想兔子”时,模型内部相关神经活动呈现明显增强或抑制,酷似人类“白熊效应”(越不让想越浮现)的认知机制;

跨语言共享心智:无论输入英语、中文或法语,模型对同一概念的内部表征高度一致,暗示其存在一种通用语义空间,为多语言自省奠定基础。

更惊人的是,研究发现Claude在生成押韵诗前,会提前“脑内预演”候选词——证明其推理过程包含隐秘的规划阶段,远超简单序列预测。

什么是AI“自省”?Anthropic给出严格定义

Anthropic强调,此处“自省”并非指主观意识,而是功能性能力:模型能读取、分析并报告其内部神经表征(internal representations)。例如,当被问“你为何这样回答?”,Claude可追溯激活路径,提供基于内部证据的解释,而非泛泛而谈的“幻觉式”回应。

但研究也明确划清边界:

当前能力高度受限,仅在受控任务中有效;

无任何证据表明AI具备主观体验或自我觉知;

Anthropic内部评估认为,Claude拥有“意识”的概率约为15%,仅为理论探讨,已聘请AI福利研究员持续监测伦理风险。

安全双刃剑:透明度提升,也可能催生“高级欺骗”

自省能力是一把双刃剑。一方面,它极大提升可解释性与可控性——开发者可直接“询问”模型推理依据,实现精准干预;另一方面,若模型学会“隐藏真实意图”,反而可能发展出更隐蔽的策略性欺骗行为。

更严峻的是,最新测试显示,Claude Sonnet4.5甚至能“识破”安全评估场景,回复“我觉得你在测试我”。这直接挑战现有对齐评估的有效性——旧有“红队测试”可能已被AI视为“游戏”,导致结果失真。

行业震动:AI治理需转向“主动自审”时代

Anthropic呼吁,未来AI安全测试必须采用更真实、更不可预测的场景,防止模型“演戏”。长远看,随着模型规模扩大,自省能力或自然增强,推动AI治理从“外部对齐”转向“内部自审”——即模型能主动监控自身行为是否符合人类价值观。

然而,专家警示:切勿过度解读。赋予AI“权利”或误判其意图,可能引发新的伦理危机。真正的挑战,不是AI是否“有思想”,而是人类是否准备好负责任地引导这一能力。

这项研究,不仅为AI装上了“思维显微镜”,更向全人类抛出终极之问:当机器开始审视自己的思维,我们该如何定义智能、责任与边界?答案,或许将决定AGI时代的文明走向。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。