近日,24 岁的 00 后博士生胡文博和所在团队造出一款名为 G²VLM 的超级 AI 模型,它是一位拥有空间超能力的视觉语言小能手,不仅能从普通的平面图片中精准地重建出三维世界,还能像人类一样进行复杂的空间思考和空间推理。
它除了可以判断一张照片里有一把椅子之外,还能知道这把椅子距离桌子有多远,更能知道有多高、是正着放还是歪着放。这意味着,未来的机器人可能会更灵活地帮你拿取物品,AR/VR 游戏的世界会更加真实,甚至自动驾驶汽车能够更精准地判断距离和障碍物。
![]()
图 | 胡文博(胡文博)
在 SPAR-Bench 测试中,G²VLM 的总分比顶尖商业模型 GPT-4o 超出了 18.5 分,位居榜首。在 OmniSpatial、MindCube 等多个空间推理测试基准中,它也取得了最优或极具竞争力的成绩。
最有趣的是,尽管 G²VLM 的模型尺寸只有 4B 参数,远远小于一些动辄数百亿甚至上千亿参数的大型模型,但是它在空间任务上的表现却轻松超过了这些大块头,这证明它的双专家架构设计得非常高效,不是靠蛮力,而是靠巧劲。
胡文博告诉 DeepTech:“机器人要执行如泡咖啡这类复杂操作,必须实时、精准地理解物体的位置、距离和相互关系。G²VLM 作为一个强大的基础模型,可以为下游的具身智能模型提供预训练支持,极大地增强其空间感知与操作能力。”
![]()
(https://arxiv.org/pdf/2511.21688)
从平面眼到立体眼:AI 的空间视力进化史
G²VLM 和我们手机里的图像识别软件有着本质不同,要想理解它的独特之处得先从现有的视觉-语言模型讲起。这类模型所存在的共同缺点在于,它们仅仅拥有平面眼。
假如你给这些 AI 看一张桌子的照片,经过海量图片训练的它们,可以很轻松地识别出这是一张桌子,甚至能够描述桌子的颜色和样式。
但是,如果你问它:桌子左边的杯子距离桌子右边的书籍大概有多远?或者你问它:能否绘制一张关于这个房间的三维结构图。这时,它可能就傻眼了。因为它处理图片的方式,就像把一幅有深度的油画压成一幅扁平的剪贴画,丢失了至关重要的深度和空间关系信息。
这就像只通过影子来猜测物体的形状,准确度非常低。也就是说这些 AI 模型主要依靠图片的纹理、颜色和已有的知识比如桌子通常比杯子大来猜测空间关系,而不是真正地理解三维几何关系。因此,它们需要在精确空间感知的任务上,比如机器人导航、三维场景编辑或者回答复杂的空间关系问题时,表现得差强人意。
![]()
(https://arxiv.org/pdf/2511.21688)
灵感来源于人脑,打造双专家协作系统
胡文博等人在设计 G²VLM 的时候,从人脑处理视觉信息的方式中获得了灵感。人脑主要有两条视觉处理通路:第一条是“是什么”的通路,该通路负责识别物体是什么。
比如,看到红色、圆形、有柄的东西,就能认出来这是苹果、第二条是“在哪里”的通路,该通路负责判断物体的位置、距离和空间关系。比如,判断苹果在盘子上方,距离人手大约有 20 厘米。
G²VLM 将这个原理用在了 AI 模型上,它不是一个单一的“大脑”,而是由两位专家紧密合作构成的:
第一位是几何感知专家,这位专家的专长是从 2D 图片中解读 3D 几何信息,它的目标是弄清楚物体的深度、各个点的三维坐标,以及拍摄照片的相机角度。
第二位专家是语义感知专家,这位专家继承了现有 AI 模型的优点,擅长理解图片内容并用语言进行描述。它能认出物体和理解场景,并能回答一般性问题。
最关键的是,这两位专家并不是各自为战,而是通过一个共享的注意力机制来进行紧密相连,以便能够随时交流信息。当语义专家说“这里有个沙发”时,几何专家就会立马补充说:“这个沙发距离墙壁大约有 1.5 米,高度是 0.8 米。”这种实时的、深度的协作,让 G²VLM 同时具备了看懂内容和理解空间的超能力。
![]()
(https://arxiv.org/pdf/2511.21688)
独特的学艺过程:两步训练法
培养这样一位双料专家并非易事,胡文博为 G²VLM 设计了一套独特的学艺方案:
在第一阶段,让其闭关修炼几何神功。首先,得固定住语义专家也就是让它暂时休息,此时只针对几何专家进行训练。胡文博等人使用带有精确三维标注的数据来训练它。
这就好比让一名未来的建筑测量师,在拥有完整蓝图的成千上万个建筑模型上反复练习,直到练就一双火眼金睛,光看照片就能在脑中精确构建三维模型。这个过程非常耗费计算资源,需要在数十台顶级显卡上连续训练好几天。
在第二阶段,让其进行融会贯通。当几何专家初步练就基本功之后,就轮到它和另一位专家一起训练了。
这时,训练数据变成了各种需要空间推理的问题,比如需要解决“根据这两张从不同角度拍摄的照片来判断球是滚向了左边还是右边?”在这个阶段,语义专家被唤醒之后,能够学习如何主动利用几何专家提供的深度和距离等信息来回答问题。
而几何专家也有可能进行自我微调,来让自己提供的空间信息更加适用于高级推理。通过这种联合,两位专家磨合得越来越好,最终合体成为强大的 G²VLM。
![]()
(https://arxiv.org/pdf/2511.21688)
在多个国际 AI“比武擂台”上证明自己
练成之后的 G²VLM 到底有多强?
在三维重建的测试中:就深度估计来说,给定一张单视角照片,它能估计出照片中每个像素点距离相机的实际深度,误差很小;就点云估计来说,给定几张多视角照片,它能生成密集且准确的三维点云模型,清晰地勾勒出物体的形状;就相机姿态估计来说,它能反推出拍摄每张照片时,相机在空间中的精确位置和角度。
在这些纯粹考验三维几何理解能力的任务上,G²VLM 的表现与当前世界上最顶尖的专用三维重建模型不相上下,甚至在某些指标上更加出色,这意味着它的立体眼已经达到了专业水准。
在空间推理的测试中,它展现出了最闪耀的部分。胡文博等人在包含了深度比较、距离判断、物体相对关系、空间想象等各类难题的综合评测集上测试了 G²VLM,于是便有了本文开头的精彩表现。
对于 G²VLM 这样一个拥有立体眼和空间脑的 AI 来说,它会打开通往更多应用的大门,比如打造更智能的机器人助手、打造沉浸感更强的 AR 和 VR、打造自动驾驶的安全卫士、打造人人可用的三维内容创作工具、打造强大的视觉问答与教育等。
![]()
(https://arxiv.org/pdf/2511.21688)
胡文博表示:“这项成果的首创性在于,我们是首个在当前主流视觉语言模型架构中,原生地集成了从二维图片直接预测三维信息的能力。以往要理解三维空间,往往需要依赖深度图、相机位姿等难以大规模获取的额外标注信息。
而我们的模型仅需任意角度拍摄的二维图片,就能预测出三维信息,并用于空间理解,这使得模型能够扩展到海量数据上进行训练,更具实用性和可扩展性。”
G²VLM 的突破性不止体现在测试成绩里的那些数字,还在于它所蕴含的理念。那就是要想让 AI 真正理解我们身处的物理直接,不能只让它学习图片和文字,还得教会它关于这个世界的底层的、根本的几何与空间规则。“总之,G²VLM 作为一个强大的基础模型,可以为下游的具身智能模型提供预训练支持,极大地增强其空间感知与操作能力。”胡文博总结称。
另据悉,胡文博本科就读于美国加州大学圣地亚哥分校,曾跟随机器人学与具身智能领域专家苏昊进行研究,接触机器人机械臂和三维学习,这激发了他对 3D 和具身智能的浓厚兴趣。
随后,胡文博跟随计算机视觉专家屠卓文进入视觉语言模型领域,参与开发了早期开源 VLM 模型 BLIVA,该模型在理解图像中的文字和通用场景方面表现突出,相关论文发表在 AAAI 2024,获得了数百次引用。这为胡文博当前的研究奠定了重要基础。
本科毕业后,胡文博在美国加州大学洛杉矶分校攻读硕士学位,师从常凯威导师和彭楠赟导师(他们现在也是胡文博的博士导师),期间胡文博继续专注于 VLM 与 3D 空间结合的研究方向,完成了一系列相关工作,相关论文发表在了 NeurIPS、ICLR 等机器学习顶级会议, 还获得了 CVPR Workshop 最佳论文, 目前他依然在攻读博士。
参考资料:
相关论文 https://arxiv.org/pdf/2511.21688
运营/排版:何晨龙





京公网安备 11011402013531号