AI 科学研究新基准:FrontierScience 评估模型推理能力

IP属地中国·北京 编辑：柳晴雪 Chinaz 时间：2025-12-17 16:23:35

在科学研究中，推理能力至关重要。科学家们不仅仅是回忆事实，还需提出假设、测试并修正这些假设，并在不同领域之间综合思想。随着 AI 模型能力的提升，如何评估它们在科学研究中深度推理的能力成为了一个重要问题。
最近，AI 模型在一些重大领域取得了里程碑式的成就，包括在国际数学奥林匹克和信息学奥林匹克比赛中表现优异。同时，GPT-5等先进模型正在有效加速真实的科学工作流程。研究人员利用这些系统进行跨学科的文献搜索以及复杂数学证明的工作，显著缩短了从几天或几周到几小时的研究时间。
为进一步评估 AI 在科学研究中的能力，我们推出了一个新基准 ——FrontierScience。这一基准专注于评估在物理、化学和生物等领域的专家级科学推理能力。FrontierScience 包含了数百个经过专家验证的难题，并设有两个问题追踪:奥林匹克版和研究版，旨在分别测量奥林匹克风格的科学推理能力和真实世界的科学研究能力。初步评估结果显示，GPT-5.2在 FrontierScience-Olympiad 和 Research 两个模块中的表现优于其他模型。
具体而言，GPT-5.2在奥林匹克模块中得分77%，在研究模块中得分25%。尽管目前的模型已经能够支持结构化推理的研究环节，但在开放式思维能力方面仍有待提升。当前，科学家们利用这些模型加速研究流程，但在问题框架和验证方面仍需依赖人类的判断。未来，我们将继续完善 FrontierScience 基准，并扩大其应用领域，以帮助模型成为科学发现中的可靠伙伴。
划重点:

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

腾讯×越疆：Physical AI“深圳方案”在真实产线跑通全链路落地

感知交互大模型加速落地，极豪科技三大创新方案亮相WAIC 2026

小红书赋能青年AI开发者：希望年轻人的创造力被集中看见

WAIC，我们看到这六个趋势

荣耀Robot Phone正式开启预约：8月发布

锂电池要和成品油一样交消费税了！专家称油电同权坚实一步：对电车征养路费还远吗

全站最新

腾讯×越疆：Physical AI“深圳方案”在真实产线跑通全链路落地

感知交互大模型加速落地，极豪科技三大创新方案亮相WAIC 2026

小红书赋能青年AI开发者：希望年轻人的创造力被集中看见

WAIC，我们看到这六个趋势

热门推荐

雷军现身小米汽车工厂澎程N90二排空间宽敞车门电动操作引关注

卢伟冰发文庆米家净水器11周年，800万台销量见证品质与市场认可

腾讯×越疆：Physical AI“深圳方案”在真实产线跑通全链路落地

感知交互大模型加速落地，极豪科技三大创新方案亮相WAIC 2026

小红书赋能青年AI开发者：希望年轻人的创造力被集中看见

WAIC，我们看到这六个趋势

荣耀Robot Phone正式开启预约：8月发布

锂电池要和成品油一样交消费税了！专家称油电同权坚实一步：对电车征养路费还远吗

台积电：A14制程过去三个月进展迅速，手机、AI领域客户兴趣强烈

摆脱制程依赖！东方算芯3D AI芯片DF1000首次展出：获SAIL大奖

OPPO新机PMW110入网，疑似归属Find X10系列

感知系统缺陷导致车辆冲进火场，亚马逊召回105辆Zoox无人出租车

WAIC信息爆炸！大佬们都在说什么，笔记看这里

比亚迪被白宫叫海盗，沃尔沃CEO：中国车企做对了很多事

腾讯WorkBuddy APP正式发布：鸿蒙、iOS、安卓三端同步上线