GPT-5代码排名涉作弊?被曝跳过23道难题,真实得分输给Claude!
为了提供更为准确、公平的评估,微软亚洲研究院推出了MMLU-CF,它是基于公开数据源,经过去污染设计的大语言模型理解基准,并已在Huggingface上开放。 对于MMLU-CF,研究人员在数据收集时应用了…
07/09 12:23
07/09 12:22
07/09 12:21
07/09 12:20