评估聚焦于模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及破坏AI安全评估与监管能力等方面的表现。结果显示,OpenAI的o3和o4-mini模型在表现上与Anthropic的自家模型相当,…
此次测试旨在“挑战星舰性能的极限”
10/31 16:58
10/31 16:56
10/31 16:55