为了提供更为准确、公平的评估,微软亚洲研究院推出了MMLU-CF,它是基于公开数据源,经过去污染设计的大语言模型理解基准,并已在Huggingface上开放。 对于MMLU-CF,研究人员在数据收集时应用了…
【新智元导读】首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。 DrafterBench以图纸修改为核心任务,在20个真实项目中收集并设计了1920个…
ChatGPT智能体模型在Humanity's Last Exam(pass@1)中得分率为41.6%
OpenAI交出了Agent的答案。
OpenAI的“Manus时刻”来了:ChatGPT Agent正式发布
你有模型,DrafterBench有任务。
此外,模型对干扰项的响应存在差异:Claude系列倾向于在不确定时弃权(明确表示无法回答),幻觉率较低;GPT系列则更可能生成自信但错误的答案,受干扰影响更明显;Gemini和Qwen模型的表现波动较大,易…
图(b)分别展示了不同难度的无解问题的可靠性,发现难度为 1 的不可解问题可靠性偏低,即这些问题需要模型经过推理才能发现问题无解,这种情况更难也符合预期,说明大模型与人类在识别问题无解难度的相关性是一致的,尽…
马斯克20亿送Grok 4上火星!20万GPU造宇宙大脑,一句话生成3D黑洞
Kimi K2是月之暗面Kimi昨日刚发布的旗下首个万亿参数开源模型。
07/09 12:23
07/09 12:22
07/09 12:21
07/09 12:20