他们主要关注了模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及破坏AI安全评估和监管相关能力等方面的表现。OpenAI与Anthropic的此次合作,无疑为AI安全测试领域带来了新的启示和思…
除o3外,其他测试模型在一定程度上都存在谄媚行为
这项技术要实现大规模应用,“还有相当长的路要走”
几年前,特斯拉彻底放弃了“摄像头+雷达”的组合方案
07/09 12:20
07/09 12:19
07/09 12:18