在已知最难的数学基准测试之一FrontierMath中,OpenAI表示,当ChatGPT智能体可以访问工具(IT之家注:如用于代码执行的终端)时,其得分为27.4%,之前的最佳分数来自o4-mini(得分…
ChatGPT智能体模型在Humanity's Last Exam(pass@1)中得分率为41.6%
07/09 12:23
07/09 12:22
07/09 12:21
07/09 12:20