对抗训练:主动注入模拟投毒数据,训练模型识别并拒绝恶意信息(“打疫苗”)。正则化与权重约束:在损失函数中加入正则项,抑制模型对污染数据的拟合。 偏好对齐与安全微调:通过人类标注的安全数据训练奖励模型,用强…
10/31 16:58
10/31 16:56
10/31 16:55