当前位置: 首页 » 资讯 » 科技头条 » 正文

AI 科学研究新基准:FrontierScience 评估模型推理能力

IP属地 中国·北京 编辑:柳晴雪 Chinaz 时间:2025-12-17 16:23:35

在科学研究中,推理能力至关重要。科学家们不仅仅是回忆事实,还需提出假设、测试并修正这些假设,并在不同领域之间综合思想。随着 AI 模型能力的提升,如何评估它们在科学研究中深度推理的能力成为了一个重要问题。

最近,AI 模型在一些重大领域取得了里程碑式的成就,包括在国际数学奥林匹克和信息学奥林匹克比赛中表现优异。同时,GPT-5等先进模型正在有效加速真实的科学工作流程。研究人员利用这些系统进行跨学科的文献搜索以及复杂数学证明的工作,显著缩短了从几天或几周到几小时的研究时间。

为进一步评估 AI 在科学研究中的能力,我们推出了一个新基准 ——FrontierScience。这一基准专注于评估在物理、化学和生物等领域的专家级科学推理能力。FrontierScience 包含了数百个经过专家验证的难题,并设有两个问题追踪:奥林匹克版和研究版,旨在分别测量奥林匹克风格的科学推理能力和真实世界的科学研究能力。初步评估结果显示,GPT-5.2在 FrontierScience-Olympiad 和 Research 两个模块中的表现优于其他模型。

具体而言,GPT-5.2在奥林匹克模块中得分77%,在研究模块中得分25%。尽管目前的模型已经能够支持结构化推理的研究环节,但在开放式思维能力方面仍有待提升。当前,科学家们利用这些模型加速研究流程,但在问题框架和验证方面仍需依赖人类的判断。未来,我们将继续完善 FrontierScience 基准,并扩大其应用领域,以帮助模型成为科学发现中的可靠伙伴。

划重点:

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。