当前位置: 首页 » 资讯 » 科技头条 » 正文

书生・万象3.5大模型开源:多模态感知领先GPT-5,强化实际应用能力

IP属地 中国·北京 编辑:任飞扬 ITBEAR 时间:2025-09-04 04:06:38

上海人工智能实验室近期宣布了一项重大进展,其自主研发的通用多模态大模型“书生・万象”迎来了3.5版本的开源发布。此次升级,不仅强化了模型的推理能力、部署效率,还极大地提升了其通用性能。

在模型规格上,InternVL3.5提供了多达9种不同尺寸的模型供用户选择,参数范围从10亿至2410亿不等,旨在满足不同场景下的多样化需求。尤为旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU测试中取得了77.7分的高分,这一成绩在开源模型中独占鳌头。同时,该模型在多模态通用感知能力上超越了GPT-5,其文本处理能力也领先于其他主流开源多模态大模型。

与上一代产品InternVL3.0相比,InternVL3.5在多个特色任务上实现了显著提升。特别是在图形用户界面(GUI)智能体、具身空间感知以及矢量图像理解与生成等方面,其性能有了质的飞跃。上海AI实验室的研究团队在此次升级中,特别注重强化了模型的实际应用能力,使其在GUI交互、具身空间推理和矢量图形处理等多个关键场景中,实现了从“理解”到“行动”的跨越。

在GUI交互方面,InternVL3.5在ScreenSpot-v2元素定位任务中获得了92.9分的高分,超越了同类模型。同时,它还支持Windows和Ubuntu系统的自动化操作,并在WindowsAgentArena任务中大幅领先于Claude-3.7-Sonnet。在具身智能体测试中,InternVL3.5展现出了对物理空间关系的深刻理解,并具备规划导航路径的能力,在VSI-Bench测试中取得了69.5分的好成绩,超过了Gemini-2.5-Pro。在矢量图形理解与生成方面,InternVL3.5在SGP-Bench测试中刷新了开源纪录,其生成任务的FID值也优于GPT-4o和Claude-3.7-Sonnet。

InternVL3.5的跨平台能力同样令人瞩目。它能够跨Windows、Mac、Ubuntu、Android等多个平台,识别界面元素并自主执行鼠标、键盘操作,实现诸如恢复已删除文件、导出PDF、邮件添加附件等任务的自动化。这一特性使其在办公自动化、智能家居等领域具有广泛的应用前景。

InternVL3.5还具备更强的grounding能力,能够泛化到全新的复杂且小样本的具身场景中。配合抓取算法,它支持可泛化的长程物体抓取操作,为机器人的物品识别、路径规划与物理交互提供了强有力的支持。这一特性使得InternVL3.5在智能制造、仓储物流等领域具有巨大的应用潜力。

作为上海AI实验室书生大模型体系的重要组成部分,InternVL系列一直备受关注。自推出以来,其全系列模型的全网下载量已突破2300万次。此次InternVL3.5的发布,不仅进一步巩固了上海AI实验室在人工智能领域的领先地位,也为推动人工智能技术的普及和应用注入了新的动力。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。