Anthropic指出,在GPT-4o和GPT-4.1中出现了“令人担忧的滥用行为”。
评估聚焦于模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及破坏AI安全评估与监管能力等方面的表现。结果显示,OpenAI的o3和o4-mini模型在表现上与Anthropic的自家模型相当,…
他们主要关注了模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及破坏AI安全评估和监管相关能力等方面的表现。OpenAI与Anthropic的此次合作,无疑为AI安全测试领域带来了新的启示和思…
除o3外,其他测试模型在一定程度上都存在谄媚行为
大模型像外星事物,搞清楚它们在想什么很重要
07/09 12:23
07/09 12:22
07/09 12:21
07/09 12:20