李飞飞和LeCun的世界模型之争

IP属地中国·北京 编辑：李娜量子位 时间：2025-11-15 16:07:11

AGI之路，终于交汇到了世界模型的战场。
李飞飞，发布了旗下首款商用世界模型Marble；
几乎同一时间，Lecun离职Meta，准备创立自己的世界模型公司；
在此之前，谷歌旗下的世界模型Genie 3，也曾掀起业界轰动。
AI界三股大佬力量，虽然同样进军世界模型，却意味着三种截然不同的技术路线赌注——
世界模型之争
李飞飞刚刚为空间智能举大旗的万字长文发布，她旗下的创业公司World Labs，就紧锣密鼓推出了首款商用世界模型Marble。
业界普遍认为Marble有商业化潜力，是因为它生成的是持久的、可下载的3D环境。
团队表示，这种方式能显著减少场景变形和细节不一致的问题，而且还能把生成的世界导出成高斯斑点、Mesh网格，甚至直接导出视频。
更进一步，Marble还内置一个原生的AI世界编辑器Chisel，用户只需一句提示，就能按自己的想法自由改造世界。
对于做VR或游戏的开发者来说，「一句提示→直接生成3D世界→一键导出到Unity」这样的链路，非常有帮助。
然而，Hacker News的一名机器学习工程师指出，比起所谓的世界模型，Marble看起来更像是一个单纯的3D渲染模型。
这难道不就是高斯Splat模型吗？我在AI行业干了这么久，到现在都还是搞不明白「世界模型」里的「世界」究竟指什么。
Reddit网友的说法则更加直接：
用高斯散射、深度和图像修复把图片转成3D环境，确实很酷，但这就是一套3D高斯生成流水线，不是机器人的大脑。
这里的高斯泼溅，指的是近几年3D建模里最火的一类新技术。
它把一个场景表示成成千上万个漂浮在空间中的彩色模糊小斑点（也就是高斯），再把这些斑点「泼溅」到屏幕上，让它们自然融合成一张图像。
可以这么理解：高斯就像一个漂浮在三维空间里、半透明、带光晕、边缘柔软的小气泡。
单个气泡当然软乎乎的成不了形，但如果成千上万个这样的气泡聚在一起，再从不同角度渲染出来，就能组合出一幅精美的三维画面。
这样做，不需要像传统摄影测量那样走复杂的建模流程，虽然牺牲了一些精度，但速度极快，而且操作更轻松。
Marble采取的正是这样一种路径。
然而，这也意味着，Marble可能并不是大家想的那种、可以直接用于机器人训练的「世界模型」。
Marble确实构建了一个完整世界，但我们看到的其实只是一个能被渲染器直接转成像素的视图。
换句话说，它捕捉的是「表面是什么样子」，而并没有内置「这个世界为什么会这样运作」的物理规律。
这对于人来说是完全够用了，但对于机器人来说，重要的其实不是这些视觉信息，而是背后的因果结构——
比如，一放在斜坡上的球会滚下来，这对人类来说是看一眼就懂的事；
但机器人想做出类似判断，还需要质量、摩擦、速度……这些信息在Marble里根本不存在。
或许正是因为如此，在Marble自己的博客上，虽然屡屡提及「世界模型」与「导出高斯散射体、网格和视频」，但几乎完全没有提到机器人。
不过在商业化层面，Marble明显更具优势。
相比起被AI圈热议的那类、可孕育具身智能世界模型，Marble已经不是一个遥远的概念，而是一款能够立刻融入游戏开发者日常工作流程的实用工具。
但这也不禁令人有些黯然，难道那条能通往AGI的「世界模型」之路，只是个噱头吗？
当然不是。
确实存在能与机器人真正互动的世界模型，比如——LeCun的JEPA。
LeCun理解的「世界模型」，根子并不在3D图形学，而是在控制理论和认知科学。
它不需要输出漂亮的画面，因为你根本「看不到」这种世界模型。
这类世界模型的任务，不是渲染精美的像素，是让机器人能提前想几步，学会在行动前预判世界的变化。
JEPA走的正是这条路——
LeCun认为，对于AI来说，只有中间那个抽象表征才重要，模型没必要浪费算力去生成像素，只需专注于捕捉那些能用于AI决策的世界状态。
所以，这类模型虽然没法像Marble那样生成精致的3D图像，看上去不那么「惊艳」，但它更像是在训练机器人的「大脑」。
其优势在于对世界更本质的理解，因此，更适合作为机器人的健身房。
这么一对比，李飞飞和LeCun在「世界模型」上的路线几乎南辕北辙——
前者做的是一个前端资产生成器；后者则更像一个后端预测系统。
而在这二位神仙打架的中间，还站着一位科技巨头——谷歌。
今年8月，谷歌DeepMind推出了新版世界模型，这就是Genie 3。
只需一句Prompt，模型就能生成一个可交互的视频环境，用户可以在其中自由探索数分钟。
最令人印象深刻的是，Genie 3首次在这一类模型中解决了长时一致性的问题——不会再出现那种「转个身整栋楼消失」的状况。
同时，它还支持触发世界事件，比如「开始下雨」「夜幕降临」等，整个过程就像一款由模型而非传统引擎驱动的电子游戏。
不过，Genie应该更像一款「世界模型式视频生成器」。
尽管Genie 3让「世界动了起来」，它的核心仍然是视频逻辑，而非JEPA那种基于物理和因果的逻辑。
也就是说，它虽然可以生成动态画面，但也不能完全「理解」这些画面背后的物理规律。
依然可以用于机器人训练，但不如JEPA那样直击本质。
与此同时，画面质量和分辨率也有限，难以与Marble那种高精度、可导出的3D资产相提并论。
综上来看，三种「世界模型」虽然都在描绘「世界」，但理解路径完全不同，也因此各有千秋——
Marble渲染「世界长什么样」，Genie 3展示「世界怎么变」，JEPA则探究「世界的结构是什么」。
而市面上几乎所有的「世界模型」，大致也都可归入这三种范式：
世界模型金字塔
第一种：世界模型即界面
以Marble为代表，它让人们能够从文字或二维素材，直接生成可编辑、可分享的三维环境。
在这种模式下，「世界」是呈现在VR头显、显示器或电脑屏幕上的那片可供人观看与游走的空间。
第二种：世界模型即模拟器：
以Genie 3为代表，这类模型能生成连续、可控制的视频式世界，让智能体在其中反复尝试、失败、再尝试。
像SIMA 2这样的智能体，便可把这类世界当作「虚拟健身房」。
第三种：世界模型即认知框架
以JEPA为代表，这是一种高度抽象的形式，没有像前两种一样可供人欣赏的画面。
在这里，关注点不在于渲染，「世界」以潜在变量和状态转移函数的形式呈现，可以说是机器人完美的训练基地。
在智源学者赵昊看来，其实可以将三者拼装为一个「世界模型金字塔」——
自下而上依次是李飞飞、Genie 3、Lecun。
站在地面仰望这座金字塔：
越往上，模型越抽象、也越贴近AI的思维方式，因此更适合用于机器人训练与推理；
越往下，模型在外观、交互与可视化等方面对人类来说更真实，但却更难被机器人理解。

标签：世界模型 李飞飞 机器人 高斯速度视频流程旗下资产场景 金字塔 路线环境空间谷歌气泡物理 商业化 信息首款细节商用方式游戏 开发者 半透明 画面状态 可视化 形式

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

一加16参数提前揭晓：骁龙8E6 Pro+2亿主摄一加最强旗舰

华为与西部机场集团共创民航“数智解”

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

我国海水淡化日产水量超300万吨，国家级公共测试平台天津投用

阿里发布内部通知：全面禁用Claude、卸载Anthropic旗下产品

华为与西部机场集团共创民航“数智解”

全站最新

一加16参数提前揭晓：骁龙8E6 Pro+2亿主摄一加最强旗舰

华为与西部机场集团共创民航“数智解”

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

奥迪Q9霍希版路试谍照流出，2026年首发欲与迈巴赫GLS一较高下

热门推荐

一加16参数提前揭晓：骁龙8E6 Pro+2亿主摄一加最强旗舰

华为与西部机场集团共创民航“数智解”

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

虐待学员戒网瘾机构成立仅1年

长城汽车代理要返点90%？博主和品牌被同一个中间商耍了？

《燕云十六声》与《逃离塔科夫》跨界联动，7月10日“渡尘墟”玩法全新上线

我国海水淡化日产水量超300万吨，国家级公共测试平台天津投用

阿里发布内部通知：全面禁用Claude、卸载Anthropic旗下产品

华为与西部机场集团共创民航“数智解”

VS Code 的冷面孔与微软的暖钱包：别被硅谷的噪音骗了

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

韩国存储扩产、Meta出租算力--野村谈“存储两大利空”

都美竹品牌因发布虚假广告被罚

2026京东方投资者日：三大创新业务亮相开启产业与资本价值双升新篇

传统豪车“内涵”营销引热议，国产新能源崛起下豪车何去何从？