评估聚焦于模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及破坏AI安全评估与监管能力等方面的表现。结果显示,OpenAI的o3和o4-mini模型在表现上与Anthropic的自家模型相当,…
此次测试旨在“挑战星舰性能的极限”
06/25 00:17
06/25 00:16
06/25 00:15