当前位置: 首页 » 资讯 » 科技头条 » 正文

突破瓶颈!上交大与上海AI Lab携手提升多模态大模型反思能力

IP属地 中国·北京 编辑:冯璃月 Chinaz 时间:2025-10-21 12:20:06

多模态大模型(MLLM)在解决复杂问题方面逐渐展现出强大的潜力。然而,这些模型在处理复杂推理时常常显得 “耿直”,缺乏反思能力,导致在面对需要多次尝试的挑战时难以回头。为了解决这一问题,上海交通大学与上海人工智能实验室的研究团队推出了一个名为 MM-HELIX 的创新项目,旨在让 AI 学习像人类一样进行长链反思性推理。

MM-HELIX 不仅仅是一个项目,更是一个全面的生态系统。团队首先构建了一个被称为 “终极考场” 的 MM-HELIX 基准测试,以评估多模态大模型的反思推理能力。这个基准测试涉及42种高度复杂的任务,涵盖了算法、图论、谜题和策略游戏等领域。测试结果显示,即便是当前最顶尖的模型,准确率依然低迷,特别是在多模态输入下,表现更为惨淡。这一结果无疑强调了提升 AI 反思能力的重要性。

为帮助多模态大模型更好地学习反思,研究团队还打造了一个名为 MM-HELIX-100K 的数据集,包含10万个高质量样本,旨在通过 “步骤启发式响应生成”(SERG)流程来教会模型如何进行反思和复盘。此过程大幅缩短了解题时间,并有效减少了不必要的冗余思考。

此外,团队还提出了一种自适应混合策略优化算法(AHPO),作为智能导师,帮助模型在学习过程中逐渐从依赖专家指导转向自主探索。这种动态教学机制让模型在不断提高准确率的同时,也能够培养独立思考的能力。

经过这一系列创新,搭载 MM-HELIX 的 Qwen2.5-VL-7B 模型在基准测试中准确率提升了18.6%。这一进步不仅突破了原有模型的瓶颈,还展现出反思能力的强大泛化性,证明了该项目对 AI 发展的重大意义。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。