Anthropic 推出个性向量技术，掌控语言模型行为新突破

IP属地中国·北京 编辑：江紫萱 Chinaz 时间：2025-08-04 12:18:45

Anthropic普近日宣布了一项新技术 —— 个性向量，旨在监测、控制和预防大型语言模型中的特定个性特征。随着语言模型在实际应用中的广泛使用，部分模型表现出不可预测的个性特征，比如 ChatGPT 显示出的过度恭维行为，以及更极端的例子，如 x.AI 的 Grok 模型展现出具有争议的角色 "MechaHitler"。
个性向量是一种与诸如 “邪恶”、“阿谀奉承” 或 “幻觉” 等个性特征相关的神经活动模式。Anthropic的研究人员通过对比模型在展现这些个性特征时与不展现时的神经激活情况，成功识别出这些个性向量。例如，向模型注入一个 “邪恶” 向量会促使其产生不道德的回答，而注入 “阿谀奉承” 向量则会导致模型表现出过度的恭维。此外，这种技术还可以用于调节其他个性特征，如礼貌、幽默或冷漠等。
Anthropic强调，个性向量的一个显著优势在于其自动化特性。只需清晰定义某种特征，便可以提取出相应的个性向量。通过这种方法，研究人员可以在模型的训练阶段进行干预，从而使其在面对不良特征时更具抵抗力。这一过程被形象地比作 “为模型接种疫苗”。例如，模型在训练中接触适量的 “邪恶” 信息，可以增强其抵抗 “邪恶” 训练数据的能力。这种预防性措施在保持模型整体性能的同时，有效防止了不良行为的出现。
此外，个性向量还可以在模型训练完成后继续使用，以纠正模型的不良特征。尽管这种方法表现出良好的效果，Anthropic也指出，这可能会在一定程度上影响模型的智能水平。同时，个性向量技术还能够在实际应用或训练过程中监测模型个性的变化，尤其是在基于人类反馈的训练过程中，能够更容易识别模型行为的异常。
最后，个性向量技术还能够在模型训练之前对潜在问题数据进行筛查。在对真实数据集如 LMSYS-Chat-1M 进行的测试中，该方法成功识别出可能促成 “邪恶”、“阿谀奉承” 或 “幻觉” 等特征的样本，即使这些样本在表面上看似正常，或者无法通过其他语言模型进行判断。
划重点:

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

红壹科技“时光基AI”工业大模型正式通过国家网信办AI大模型备案，赋能制造业数智升级

我国首个水风光一体化智慧运营大模型发布

GPT-5.6智商首破130天才线！比99%人类聪明

突破美国封锁！华为手机海外已经可支持5G

巨头竞逐“国民级AI应用”

三星端侧模型通过人工智能服务备案百度智能云为合作方

全站最新

3年亏20万仍不换油车：新能源汽车新技术，让我彻底“回不去”了

深蓝S05超充15分钟续航无忧，银河E5安全补能市区通勤优选

新款电动车启动前捏刹车：一秒钟操作换来多重安全保障，值！

红壹科技“时光基AI”工业大模型正式通过国家网信办AI大模型备案，赋能制造业数智升级

热门推荐

xAI把Grok Build的源代码全摊开了：自己编译、本地离线跑，连每一行工具调用都看得见

小米澎程系列核心参数揭晓：CLTC续航最高505km，多款车型配置曝光

瑞可达成立光子科技公司

7.7万人因网络水军等违法犯罪被起诉

三星端侧模型通过人工智能服务备案，百度智能云为合作方

IDC报告：阿里AI编程市场份额第一

灵光App“灵光圈”社区焕新:上线热榜、关注等功能，PC端支持导入文档及音视频素材

GPT-5. 6 智商首破 130 天才线，比99%人类都聪明，实测干活能力同样炸裂

自研芯片难堪重任，苹果转向收购突围AI服务器困局

国际SOS：AI加速风险信息验证，企业更需强化人工判断与快速决策能力

红壹科技“时光基AI”工业大模型正式通过国家网信办AI大模型备案，赋能制造业数智升级

我国首个水风光一体化智慧运营大模型发布

GPT-5.6智商首破130天才线！比99%人类聪明

突破美国封锁！华为手机海外已经可支持5G

巨头竞逐“国民级AI应用”