新民晚报记者获悉,近日,上海人工智能实验室(上海AI实验室)开源通用多模态大模型书生·万象3.5(InternVL3.5),其推理能力、部署效率与通用能力全面升级。
InternVL3.5本次开源有9种尺寸的模型,参数涵盖10亿-2410亿,可满足各场景需求。其中,旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU中获77.7分,为开源模型中最高分;多模态通用感知能力超越GPT-5,文本能力领跑主流开源多模态大模型。与InternVL3.0相比,InternVL3.5在图形用户界面(GUI)智能体、具身空间感知、矢量图像理解与生成等多种特色任务上实现显著提升。
上海AI实验室透露,本次升级,研究团队重点强化了InternVL3.5面向实际应用的智能体与文本思考能力,在GUI交互、具身空间推理和矢量图形处理等多个关键场景实现从“理解”到“行动”的跨越,并得到多项权威评测验证。
可根据文字指令编辑矢量图文件。指令示例:在番茄的脸上涂一滴眼泪;左为输入,右为输出
不只是评测成绩亮眼,InternVL3.5在智能办公、机器人训练、AI for Science等实际场景中也展示出强劲实力。例如,InternVL3.5可跨Windows、Mac、Ubuntu、Android等多个平台,精确识别界面元素并自主执行鼠标、键盘操作,实现恢复已删除文件、导出PDF、邮件添加附件等任务的自动化,有效提升办公效率;在AI for Science场景中,模型可协助科研人员进行分子结构解析、材料性能预测等复杂推导。
问题:上面大方框中的纸折叠成一个正方形盒子之后,形成的箭头的形状,应该是下面A、B、C、D中的哪个?回答中间思考过程略
在架构方面,InternVL3.5的基础架构遵循了业界成熟的“ViT-MLP-LLM”范式,并创新提出视觉分辨率路由(ViR),有效解决多模态模型的视觉模块因高分辨率输入导致的效率瓶颈这一普遍性难题。科研人员解释,ViR的创新之处在于它能基于图像语义内容进行自适应计算。
另外值得一提的是,在传统的多模态模型推理部署方案中,视觉编码器和语言模型通常串行执行,部署在同一个或同一组GPU上。然而,这两部分的计算特性截然不同,视觉编码器的计算会阻塞语言模型的执行,导致GPU资源利用率低下。基于此,研究团队提出视觉—语言解耦部署(DvD)方案:将视觉编码器与语言模型分置于不同GPU,并结合BF16精度特征传输与异步流水线设计,使视觉计算与语言生成能够并行执行——这一突破不仅意味着性能上的飞跃,更成为推动高分辨率、强推理能力的多模态大模型在实际场景中落地应用的关键工程成果。
作为上海AI实验室书生大模型体系的重要组成部分,InternVL聚焦视觉模型技术的创新与突破,凭借领先性能和低算力消耗的优势,InternVL全系列全网下载量已突破2300万次。
原标题:《全面升级!书生·万象3.5发布,多模态感知能力超越GPT-5》
栏目编辑:马丹 题图东方IC 上海AI实验室 图片编辑:新民晚报 郜阳
作者:新民晚报 郜阳