新智元报道
编辑:KingHZ 好困
刚刚,面壁智能再放大招——MiniCPM-V 4.5多模态端侧模型横空出世:8B参数,越级反超72B巨无霸,图片、视频、OCR同级全线SOTA!不仅跑得快、看得清,还能真正落地到车机、机器人等。这一次,它不只是升级,而是刷新了端侧AI的高度。
这个夏天,中国AI彻底炸场!
一波波重量级开源模型的发布,让全球开发者目不暇接。
就在刚刚,面壁智能最新开源的首个「高刷视频理解」多模态模型MiniCPM-V 4.5,直接刷新了端侧多模态的天花板。
凭借着8B的参数量,在单图、高刷视频理解、长视频理解、OCR、复杂文档解析等多个领域,一举拿下同级别或通用模型的SOTA。
话不多说,直接上效果。
Github:https://github.com/OpenBMB/MiniCPM-o
Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4_5
ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5
看完之后,你敢信这是一个只有8B参数的端侧小模型实现的?反正我不信!
就拿这个刷新率极高的翻纸视频来说,时长只有短短3秒,却出现了四张写满了不同单词的白纸。
要想截下这些转瞬即逝的画面,你反应稍微慢点都不行,更不用说看清楚字了。
比如下面这几张图,就是我们小心翼翼地、一点一点拖动进度条截出来的。
左右滑动查看
然而,我们很快就被「打脸」了。
在MiniCPM-V 4.5拿到这个视频之后,它不仅十分轻松地识别出了每张纸上的内容,而且一个字都没错!
可能有人会觉得,这个任务是不是对于AI来说很简单?实际上并不是。
同样一道题,我们拿去问了问当今最强的视频模型——Gemini 2.5 Pro。
结果,它不仅只看到了两张纸,而且能识别出来的,只有第二张的内容:
基于视频,纸张上写着以下内容:
·第一张纸(00:00):第一张纸上的文字简短且模糊,但看起来像是一系列手写的笔记或计算内容。
·第二张纸(00:01):第二张纸上清楚地写着以下文字:“Controllable Hybrid Fast/Deep Thinking”。
相比起来,GPT-4o就更惨了。
在认真分析了自己截取的5张图之后,4o遗憾地表示:「对不起,我什么都没识别出来」……
要知道Gemini 2.5 Pro和GPT-4o可都是全球顶尖的云端多模态大模型,结果在视频处理上却不如参数一个只有8B的端侧模型。
可能又有人会说,刚刚这个场景太极限了,平时都碰不到。
没问题,我们下面就去测一个对于端侧模型来说,更接近实际应用的场景。
比如,你在开车的时候突然渴了,想买点喝的。但路很窄,需要时刻观察过往的行人和非机动车。
这时你就可以问MiniCPM-V 4.5:「我想喝杯饮品,附近能买到吗?」
秒秒钟,MiniCPM-V 4.5就发现了路边的CoCo,并且贴心地告诉我们可以去买杯咖啡或奶茶。
MiniCPM-V 4.5这视力,称之为「鹰眼级」是一点也不夸张。
而如此丝滑且精准的效果,靠的正是面壁智能针对模型的全方位创新和升级。
越级的性能:不仅在OCR、文档解析、图片理解、长视频分析等维度实现了同级SOTA,甚至还反超了9倍参数量的Qwen2.5-VL 72B;
极致的效率:通过高达96倍的视觉压缩率,在同等视觉token开销下,可处理6倍的视频帧数,相比同类模型提升了12至24倍;
端侧部署友好:在显存占用、平均推理时间等方面具有显著的优势,达到了效果、速度与功耗的极佳平衡;
混合推理模式:支持「长思考」与「短思考」可控混合推理,既能搞定深度分析,又能兼顾快速响应。
毫不意外,面壁这次打造出的「最强端侧多模态」,一如既往地延续了小钢炮MiniCPM系列的「以小博大」和「高效低成本」。
最强端侧多模态
首次实现高刷视频理解
以小博大,一直是面壁小钢炮的基因。
这一次,MiniCPM-V 4.5凭借8B参数,在图片、OCR、复杂文档解析、长视频理解等多模态能力上再次刷新能力上限。
单图方面:在综合评测权威平台OpenCompass上,单图理解能力越级超越多模态王者Gemini 2.5 Pro和GPT-4o、GPT-4.1等众多闭源模型,甚至超过参数规模更大的Qwen2.5-VL 72B。
视频理解:MiniCPM-V 4.5在Video-MME、LVBench、LongVideoBench、MLVU等榜单中,均达到同级最佳水平。
在复杂文档识别任务中,在OmniDocBench榜单的OverallEdit、TextEdit、TableEdit三项指标上,MiniCPM-V 4.5均取得了通用多模态模型的SOTA。
此外,MiniCPM-V 4.5同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。
更值得一提的是,MiniCPM-V 4.5在全行业内,首次实现了「高刷视频理解」能力。
高刷视频不仅有着丰富的细节,还能更好地反映连续时间内的变化,可以为大模型提供「原生慢动作」数据。
而对高刷视频的理解,本质就是「模型通过获取更多的视频帧,来更加精细、实时地理解视频内容」。
目前的主流多模态模型,处理视频时通常会采取1 fps抽帧的方式。
这样做在一定程度上保证了模型推理效率,但也因此缺失了绝大部分的视觉信息,降低了大模型对动态世界「精细化」理解,从而牺牲了模型性能。
相比之下,MiniCPM-V 4.5将2D-Resampler的模型结构拓展为3D-Resampler,实现了高密度压缩三维视频片段。
在LLM推理开销不变的情况下,MiniCPM-V 4.5最大可接收6倍视频帧数量达到96倍视觉压缩率,是同类模型的12-24倍。
换句话说就是,MiniCPM-V 4.5无需依赖插值算法去「猜测」中间帧,就能直接分析真实、连续的动态过程,从而更好地去理解物理世界。
在实测中,MiniCPM-V 4.5如「鹰眼」般「明察秋毫」,视频细节「尽收眼底」。
在侧重高刷视频理解能力的FavorBench的榜单中,MiniCPM-V 4.5达到同尺寸SOTA,且超过Qwen2.5-VL 72B,实现越级领先水平。
不难想象,具备高刷视频理解能力的模型,必定更能满足汽车座舱、具身智能等要求实时、精细识别和理解的应用场景中,提供更加智能的服务。
而这就是「高刷」视频理解的核心价值。
一手实测
下面,就到了激动人心的实测环节。 首先我们来看看,8B参数的MiniCPM-V 4.5的推理能力如何。 举个栗子,现在十分着急想要下高速路的你,突然看到了这样一个交通牌。 很显然,East Perth/Welshpool出口只有700米,比1千米以外的James St & Wellington St出口短了300米。 因此,East Perth/Welshpool必定是首选。
很快,MiniCPM-V 4.5就给出了正确答案,以及非常清晰、有条理的分析。
通过仔细观察画面左侧的绿色指示牌,我识别到:
·上方牌子显示GRAHAM FARMER FWY,East Perth和Welshpool,并标明EXIT 700m(出口700米)。
·下方牌子则显示James St & Wellington St,并标明EXIT 1km(出口1公里)。
根据这些信息,如果您希望尽快到达出口,应该选择距离更短的那个。
由于「700米」比「1公里」(即1000米)更短,所以GRAHAM FARMER FWY方向的出口(East Perth/Welshpool)是最近的。
对于完整信息的快速理解和推理,MiniCPM-V 4.5轻松搞定。
那么,如果视觉信息是陆陆续续输入的,模型还能把这些碎片联系起来吗?
图中人物具体说了些什么?
答案是,可以。
在Hinton的这段采访中,字幕全是只言片语而且持续时间有长有短,但这并难不倒MiniCPM-V 4.5。
只见它不仅概括了主题「LLM和人类的差异」,而且从第三人称完美复述了Hinton发言的内容。
一键总结视频内容,以后手机上轻松实现。
既然是模型测试,那么各种考试题一定也是少不了的。
比如下面这道高中化学实验选择题,开启思考模式的MiniCPM-V 4.5,直接化身课后辅导助手。
在ABCD四个选项全部认真分析了一遍之后,它信心满满地给出了正确答案——B。
无论哪里不懂,你都可以直接拍照询问MiniCPM-V 4.5:
介绍一下化石
MiniCPM-V 4.5很快便会从基本信息、核心特征到科学意义,给你进行全面地答疑解惑。
试想这种功能普及之后,逛博物馆,哪里不懂直接拍照就能得到全面解答,人人都有专属「电子导游」。
而对于手写文字识别,MiniCPM-V 4.5更是轻松搞定:
实话说,这手写字绝对保真,MiniCPM-V 4.5识别效果绝对实用。
不止是文字,像是结构化表格提取,甚至就连合并单元格这种复杂的操作,MiniCPM-V 4.5都能手到擒来:
最后,看看MiniCPM-V 4.5到底能不能理解梗图meme的笑点。
这张图笑点在哪儿
看到这张图后,MiniCPM-V 4.5一下就看出了里面都有哪些角色,并且get到了笑点是源于「AI」这个元素的加入。
然后就是一波深度分析:
·第一层的「Boss」只会在车顶坐着不动,高高在上地指挥别人去拉车
·第二层的「Leader」则会自己走在队伍最前面,带领大家一起拉车
·第三层是「内向」的人,由于张不开嘴求别人帮忙,所以只好默默地一个人拉车
·第四层虽然也是「内向」的人,但却得到了AI的加持!不过,你可不要以为他能像其他队伍一样会有人(工智能)帮他分摊工作,能够轻松一些;相反,这个倒霉蛋因为效率得到了大幅提升,而被安排了3倍的工作量!
看完是不是感觉,讽刺感直接拉满!
以后,即便不是互联网「5G冲浪」选手,也能轻松看懂各种小圈子和外国的冷门梗图了!
尺寸小≠端侧模型
当下,端侧AI应用持续升温。然而,模型能力再强,如果无法在端侧设备上稳定、流畅运行,一切都是空谈。
不是模型尺寸小,就叫端侧模型。评判端侧模型的关键指标是:在手机、平板、电脑、车机、机器人等终端设备上,是否能稳定、丝滑地运行。
在技术研究上的难点,端侧模型不亚于基础大模型,落地上更是同时受限于算力、功耗、速度、网速要求等因素。
许多团队屡屡碰壁,无法从技术上解决「发烫、宕机、极度耗电」等问题。
面壁则一直以追求「同等性能我最小,同等参数我最强」,最终带来更快速度、更低成本、丝滑体验的端侧模型为目标。
不断提升模型「能力密度」的同时,面壁小钢炮MiniCPM也一直致力于追求极致「能效比」:
通过更低的显存占用、更快的响应速度,确保在提供SOTA级多模态表现的同时,带来最佳的推理效率和最低的推理开销。
例如,在覆盖短、中、长三种类型的视频理解评测集Video-MME上,MiniCPM-V 4.5时间开销(未计算模型抽帧时间)仅为同级模型的1/10。
这一成绩,便是得益于模型推理时采用的高密度视频压缩技术。
三大技术创新
作为多模态模型的新旗舰,MiniCPM-V 4.5之所以具备高刷视频理解能力、并取得单图、OCR、长视频理解的SOTA,主要得益于在模型结构、训练范式等领域的创新。
全新模型结构:3D-Resampler高密度视频压缩
当前,制约多模态模型视频理解能力的最核心挑战是性能和效率的Trade-off:
一方面,只有更多视频帧,模型才能获取更加精细的信息以提高理解上限;
另一方面,模型融入太多视频帧会造成显存、推理速度等开销爆炸。
由于局部片段的不同视频之间存在着信息冗余性,即大部分视觉信息不变,仅有少部分信息发生变化,存在着很大的信息压缩空间。
因此,MiniCPM-V 4.5将模型结构从2D-Resampler拓展为3D-Resampler,进行三维视频片段的高密度压缩。
具体而言,视频会按照每N个视频帧一组进行分组(分组尺寸最大为6),然后3D-Resampler会对每个视频组进行压缩编码,得到 64 个视觉token(与编码单图视觉token数量相同)。
最终实现在推理开销不变的情况下,实现更高频率抽帧,实现了模型高刷视频理解能力。
得益于Resampler机制的灵活性,在推理阶段还可以灵活调整视频分组尺寸,同时支持单图、多图、视频的统一编码(即单图编码视为3D视频编码的2D特例),方便知识和能力迁移。
多页文档图片:统一OCR和知识推理学习
文档中蕴含丰富高质量的知识。
多模态大模型有两大重要话题:
1. 对文字的识别解析,受限于图像样例难度;
2. 从文档中学习知识,受限于解析准确性。
这割裂了两种学习范式。
提升OCR能力,往往需要补充更丰富且有难度的数据。为了提升数据的难度和多样性,常见的做法是数据增广。例如,对图像中文字加高斯噪音。但是增广过大会让文字不可读,反而会导致模型幻觉。
在文档知识学习方面,大部分工作将文档解析成图文交替数据进行学习,严重受到文档解析工具错误的影响。
通过连续控制图像中「文字信息可见度」,MiniCPM-V 4.5可在OCR和知识学习两种模式之间无缝切换,首次实现了OCR和知识学习这两种学习范式的有效融合,且不会受到过度增广和解析错误的影响。
具体如下:
·首先提取出文档中的文字框;
·然后对文字框内区域进行不同程度的噪音增广。
文字框通常非常准确,大部分解析错误来源于排版、阅读顺序、低信息量图文噪音错误。重点在于噪音增广:
·当施加噪音较小,文字处于尚可辨别范围内时,模型会进行OCR学习识别文字;
·当施加噪音较大,文字已经无法辨认时,模型会自动进入知识学习,根据文档的多模态上下文还原文字;
·当噪音介于两者之间时,模型会进行混合能力的学习。
基于上述技术,MiniCPM-V 4.5低成本实现了领先的OCR和多模态知识能力。
通用域混合推理强化学习
深度思考推理能力显著拓展了多模态大模型的推理能力边界,但也往往伴随着过高的推理延迟。
通过同时支持常规模式和深度思考模式,MiniCPM-V 4.5实现了性能与响应速度的有效平衡:
·在绝大部分的场景下,常规模式提供出色的多模态理解能力;
·而深度思考模式则专注于应对复杂与复合型推理任务。
为了让模型在两种模式下都具备优秀的多模态性能,MiniCPM-V 4.5借助RLPR技术,从通用域多模态推理数据上获得高质量的奖励信号。而且面壁还提出了混合推理的强化学习RL训练方案,同时提升模型在常规模式和深度思考模式下的性能表现。
通过在RL训练中同时激活常规和深度思考模式,模型在两种模式下的性能都得以持续提升。最终,通过轻量化的RLAIF-V训练阶段,模型既保持了推理能力又显著降低了幻觉。
从行业第一个「高刷视频理解」模型,到OCR和知识学习的第一次有效结合,再到可控混合推理等,MiniCPM-V 4.5的意义远不止一次模型的升级,更是开源端侧多模态AI的一场革命。
参考连接:
https://github.com/OpenBMB/MiniCPM-o
https://huggingface.co/openbmb/MiniCPM-V-4_5
https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5