支持零样本声音复刻,提升沟通自然度。
在多人会议等复杂场景中英双向翻译准确率超70%。
GR-3 操作物体的成功率从不到60%提升到超过80%。
OpenAI宣布,创造历史的模型,并非传闻中的GPT-5,而是一个全新的、实验性的模型。
为了提供更为准确、公平的评估,微软亚洲研究院推出了MMLU-CF,它是基于公开数据源,经过去污染设计的大语言模型理解基准,并已在Huggingface上开放。 对于MMLU-CF,研究人员在数据收集时应用了…
【新智元导读】首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。 DrafterBench以图纸修改为核心任务,在20个真实项目中收集并设计了1920个…
ChatGPT智能体模型在Humanity's Last Exam(pass@1)中得分率为41.6%
OpenAI交出了Agent的答案。
OpenAI的“Manus时刻”来了:ChatGPT Agent正式发布
你有模型,DrafterBench有任务。
04/01 16:41
10/31 16:58
10/31 16:56