突破瓶颈！上交大与上海AI Lab携手提升多模态大模型反思能力

IP属地中国·北京 编辑：冯璃月 Chinaz 时间：2025-10-21 12:20:06

多模态大模型（MLLM）在解决复杂问题方面逐渐展现出强大的潜力。然而，这些模型在处理复杂推理时常常显得 “耿直”，缺乏反思能力，导致在面对需要多次尝试的挑战时难以回头。为了解决这一问题，上海交通大学与上海人工智能实验室的研究团队推出了一个名为 MM-HELIX 的创新项目，旨在让 AI 学习像人类一样进行长链反思性推理。
MM-HELIX 不仅仅是一个项目，更是一个全面的生态系统。团队首先构建了一个被称为 “终极考场” 的 MM-HELIX 基准测试，以评估多模态大模型的反思推理能力。这个基准测试涉及42种高度复杂的任务，涵盖了算法、图论、谜题和策略游戏等领域。测试结果显示，即便是当前最顶尖的模型，准确率依然低迷，特别是在多模态输入下，表现更为惨淡。这一结果无疑强调了提升 AI 反思能力的重要性。
为帮助多模态大模型更好地学习反思，研究团队还打造了一个名为 MM-HELIX-100K 的数据集，包含10万个高质量样本，旨在通过 “步骤启发式响应生成”（SERG）流程来教会模型如何进行反思和复盘。此过程大幅缩短了解题时间，并有效减少了不必要的冗余思考。
此外，团队还提出了一种自适应混合策略优化算法（AHPO），作为智能导师，帮助模型在学习过程中逐渐从依赖专家指导转向自主探索。这种动态教学机制让模型在不断提高准确率的同时，也能够培养独立思考的能力。
经过这一系列创新，搭载 MM-HELIX 的 Qwen2.5-VL-7B 模型在基准测试中准确率提升了18.6%。这一进步不仅突破了原有模型的瓶颈，还展现出反思能力的强大泛化性，证明了该项目对 AI 发展的重大意义。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

B站猫娘计划亮相2026WAIC，支持本地部署自主导模型

阿里发布秒悟团队版，打造企业级AI应用创作平台

妙啊！无人机直连卫星传Token

时隔9个月王宁再会库克，释放了什么信号？

清华系发布国产Token工厂：兼容10余种国产芯片，日吞吐千亿Token

DeepSeek估值，被一家安徽箱包公司给全部暴露了

全站最新

B站猫娘计划亮相2026WAIC，支持本地部署自主导模型

阿里发布秒悟团队版，打造企业级AI应用创作平台

妙啊！无人机直连卫星传Token

时隔9个月王宁再会库克，释放了什么信号？

热门推荐

B站猫娘计划亮相2026WAIC，支持本地部署自主导模型

阿里发布秒悟团队版，打造企业级AI应用创作平台

妙啊！无人机直连卫星传Token

单日暴跌28.49%、市值蒸发超2000亿港元：智谱被Kimi K3"吓崩”了？

时隔9个月王宁再会库克，释放了什么信号？

清华系发布国产Token工厂：兼容10余种国产芯片，日吞吐千亿Token

DeepSeek估值，被一家安徽箱包公司给全部暴露了

距地球约48光年，首个已知拥有大气层的类地系外行星被发现

陈震抢先晒荣耀Robot Phone真机：4D云台主摄一键启动！支持360°追踪

中国机器人保姆成真：说一句我渴了机器人主动递水

首款安卓阔折叠手机规格曝光：内7.6/外5.5屏幕

全国首张脑机接口处方开出，并成功完成植入手术

三星One UI 9版My FanCam曝光：AI智能追踪视频拍摄主体

给人形机器人当老师，撑起一个百亿市场

Kimi逼得两大巨头改变定价？奥特曼罕见认错，Claude额度重置