他们主要关注了模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及破坏AI安全评估和监管相关能力等方面的表现。OpenAI与Anthropic的此次合作,无疑为AI安全测试领域带来了新的启示和思…
除o3外,其他测试模型在一定程度上都存在谄媚行为
Claude for Chrome扩展限量测试:可AI操控浏览器,帮你写邮件
你说巧不巧,就在 Sam Altman 官宣两个开源推理模型之前的半个小时,却被 Anthropic 抢先一步,发布了新模型 ClaudeOpus 4.1。 Anthropic API亚马逊云科技Amaz…
GPT-5代码排名涉作弊?被曝跳过23道难题,真实得分输给Claude!
07/09 12:20
07/09 12:19
07/09 12:18