评估聚焦于模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及破坏AI安全评估与监管能力等方面的表现。结果显示,OpenAI的o3和o4-mini模型在表现上与Anthropic的自家模型相当,…
他们主要关注了模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及破坏AI安全评估和监管相关能力等方面的表现。OpenAI与Anthropic的此次合作,无疑为AI安全测试领域带来了新的启示和思…
除o3外,其他测试模型在一定程度上都存在谄媚行为
大模型像外星事物,搞清楚它们在想什么很重要
当一家公司在短短4年内估值从零飙升至1700亿美元,它到底做对了什么?
谷歌正在训练一款可运行在苹果服务器上的AI模型。
10/31 16:58
10/31 16:56
10/31 16:55