Anthropic普近日宣布了一项新技术 —— 个性向量,旨在监测、控制和预防大型语言模型中的特定个性特征。随着语言模型在实际应用中的广泛使用,部分模型表现出不可预测的个性特征,比如 ChatGPT 显示出的过度恭维行为,以及更极端的例子,如 x.AI 的 Grok 模型展现出具有争议的角色 "MechaHitler"。
个性向量是一种与诸如 “邪恶”、“阿谀奉承” 或 “幻觉” 等个性特征相关的神经活动模式。Anthropic的研究人员通过对比模型在展现这些个性特征时与不展现时的神经激活情况,成功识别出这些个性向量。例如,向模型注入一个 “邪恶” 向量会促使其产生不道德的回答,而注入 “阿谀奉承” 向量则会导致模型表现出过度的恭维。此外,这种技术还可以用于调节其他个性特征,如礼貌、幽默或冷漠等。
Anthropic强调,个性向量的一个显著优势在于其自动化特性。只需清晰定义某种特征,便可以提取出相应的个性向量。通过这种方法,研究人员可以在模型的训练阶段进行干预,从而使其在面对不良特征时更具抵抗力。这一过程被形象地比作 “为模型接种疫苗”。例如,模型在训练中接触适量的 “邪恶” 信息,可以增强其抵抗 “邪恶” 训练数据的能力。这种预防性措施在保持模型整体性能的同时,有效防止了不良行为的出现。
此外,个性向量还可以在模型训练完成后继续使用,以纠正模型的不良特征。尽管这种方法表现出良好的效果,Anthropic也指出,这可能会在一定程度上影响模型的智能水平。同时,个性向量技术还能够在实际应用或训练过程中监测模型个性的变化,尤其是在基于人类反馈的训练过程中,能够更容易识别模型行为的异常。
最后,个性向量技术还能够在模型训练之前对潜在问题数据进行筛查。在对真实数据集如 LMSYS-Chat-1M 进行的测试中,该方法成功识别出可能促成 “邪恶”、“阿谀奉承” 或 “幻觉” 等特征的样本,即使这些样本在表面上看似正常,或者无法通过其他语言模型进行判断。
划重点: