当前位置: 首页 » 资讯 » 科技头条 » 正文

关于世界模型的一切,全在这三万字里了

IP属地 中国·北京 DeepTech深科技 时间:2026-03-21 12:16:31

2026 年初,除了 OpenClaw,AI 行业最热的关键词,可能就是“世界模型”(World Models)了。

就在过去几周内,图灵奖得主Yann LeCun离开 Meta 后创办的 AMI Labs 宣布完成 10.3 亿美元种子轮融资,估值 35 亿美元,创下欧洲 AI 初创公司史上最大种子轮纪录。再往前推一个月,斯坦福大学“AI 教母”李飞飞创办的 World Labs 刚刚宣布完成 10 亿美元新一轮融资,投后估值 54 亿美元。两位 AI 巨头在三周内合计募集超过 20 亿美元,押注的都是同一件事:世界模型。

与此同时,Google DeepMind 的 Genie 3 已向美国用户开放测试,能根据文本描述生成可实时交互的虚拟世界;英国自动驾驶公司 Wayve 以 86 亿美元估值融资 12 亿美元;Physical Intelligence 为其机器人基础模型融资 6 亿美元;游戏数据公司 Medal 的衍生实验室 General Intuition 完成了 1.337 亿美元的种子轮……资本正在以罕见的速度涌入这个领域。

英伟达机器人与杰出科学家总监 Jim Fan 最近说过一句话:“很少有人理解这场转变的深远程度。遗憾的是,世界模型目前最被炒作的用途是 AI 视频生成。我有充分信心,2026 年将是大型世界模型为机器人技术和更广泛的多模态 AI 奠定真正基础的元年。”

3 月 19 日,科技博客 Not Boring 的作者 Packy McCormick 与 General Intuition CEO Pim De Witte 联合发表了一篇约两万英文字的长文,题为“World Models: Computing the Uncomputable”,系统梳理了世界模型的历史、技术路线、竞争格局与未来前景。这可能是目前公开发表的关于世界模型最完整的综述性文章。


(Not Boring)

Packy 在文中坦言,几个月前 Pim 和联合创始人 Kent Rollins 邀请他去纽约办公室看了 General Intuition 的成果,从带动作标签的游戏片段中学习预测近未来的模型,此后经过数十小时的研究,他对模型能做什么的认知发生了根本转变。Packy 说自己一直对 LLM 能否通往超级智能持怀疑态度,但世界模型让他看到了一条不同的路径:驱动超人类的、互补性的机器,去做人类做不到或不想做的事情。

在这篇文章发表的当下,世界模型领域正处于“知道大事要发生,但具体哪条路径会胜出还不清楚”的阶段。潜在方法 vs 生成式方法、VLAvs 原生世界模型 Agent、游戏数据 vs 机器人数据、推断动作 vs ground truth 动作,这些技术路线的胜负还远未决出。

可以确定的是,过去八年从“这能行吗”到“Agent 真的能在梦中学习并迁移到现实”的进展速度,让这个领域的大多数参与者都感到意外。Yann LeCun 拿着 10 亿美元赌 JEPA 会通向真正的智能,Physical Intelligence 拿着 6 亿美元赌 VLA 的工程迭代能跑赢理论上更优的架构,General Intuition 拿着 1.34 亿美元赌游戏数据是连接数字世界和物理世界的最佳桥梁。这些赌注的结果会在未来几年逐渐显现。

在那之前,世界模型研究几乎每天都在产生新的成果,GTC 上的演示还在继续,新论文还在涌现。谁在赢并不重要,重要的是这个方向本身正在快速验证一个八年前听起来还像科幻的核心命题:在梦中训练的 Agent,确实可以在醒来后做到之前做不到的事情。

需要提前说明的是,Pim De Witte 是 General Intuition 的创始人兼 CEO,他和团队对世界模型有自己的技术判断和商业立场。但这篇文章在呈现各技术路线的优劣时相当坦诚,包括对自身方法局限性的承认。

以下是对这篇博文的完整编译呈现,读者可以自行判断哪些是客观描述,哪些是立场表达。

“我昨晚想睡觉,结果大脑开始想象第二天可能遇到的所有场景,以及我会怎么应对。”


(Not Boring)

这是一种常见的体验。作为人类,我们轻松就能想象,无论是复杂的体育场、可能的浪漫邂逅,还是激烈的争论。我们想象自己在下一场曼联比赛现场,并不比想象和一个老朋友聊天更费力,尽管想象一场曼联比赛包括了模拟数千人的行为,在传统计算机和游戏引擎中,这可能需要数年时间。

想想要写怎样的代码才能描述一场曼联比赛:任何时刻,某个球迷可能举起一面随机的、自制的旗帜。整个体育场开始唱与之相关的歌。但不是所有人都会唱;有人会抱着孩子跳起来,而一对老夫妇静静地坐着,想着这可能是他们最后一次来看球,默默浸泡在每一秒的沉默里。

世界是一个意料之外的未来以某种可预测的方式展开的地方。作为人类,我们几乎能以同等的努力和差不多的时间想象所有这些场景。计算机做不到。

传统计算在这种复杂性面前无能为力,这并不奇怪。想象一下,要预测并编写每一个动作的代码,以及所有这些动作之间的交互。数学上,在传统引擎中,模拟 N 个球迷至少是一个 O(N) 或 O(N²) 的问题。每个人、每面旗帜、每把椅子、每个球,都必须被显式计算,而且它们之间的交互也需要计算。

在机器人领域,机器必须在相同的时间内对现实世界的各种情况做出反应,无论这些情况有多复杂。但在传统计算中,不同情况可能需要截然不同的模拟时间。这一直是机器人和具身 AI(embodied AI)进步的主要瓶颈。

世界模型是对这个问题的一种解决方案。

世界模型从视频中学习预测这些动态,通常还包括视频中所采取的动作。它们将那些动态的、在计算上难以大规模模拟的情况,包括像足球比赛那样随机的、依赖动作的群体行为,压缩成神经网络中的一次固定成本操作。

在世界模型中,整个体育场作为一次固定成本的前向传播(forward pass)被模拟出来。场景的复杂度不会让“引擎”在推理时指数级地慢下来,因为世界的模式已经在训练阶段被吸收进了权重(weights)。

怎么做到的?靠动作。

动作是一种预测展开中的动态的压缩形式:它们包含了在环境中推演未来状态所需的信息,直到更多动作发生并向环境注入新输入。每一个动作携带了足够的信息来预测接下来会发生什么,直到下一个动作更新画面。


(Not Boring)

这种以行动为条件(action-conditioned)的方法让模型能够交互式地学习和规划。今天,这在即使是最好的模拟引擎中也做不到,更不用说以可预测的计算成本来实现。动作帮助模型像我们一样与世界交互。

一次又一次,每一天,你观察,你计算,你决定做什么,你行动。这就是生活。在任何时刻,你收集到的关于空间和时间的所有信息,都坍缩成了你采取的那个动作。

对计算机而言,动作是绕过模拟成本的作弊码。如果人类大脑比最好的 LLM 效率高得多,那么我们可以通过观察人类如何回应环境中无数变量来几乎免费获得所有那些计算。这给了我们一种高效进行非确定性计算的方式,创造出在传统计算约束下不应该可能的模拟。

这种计算不可计算之物的能力,是我们相信世界模型将以当前模型架构无法做到的方式推动具身 AI 进步的原因。

把模型想象成梦。

你有没有做过这样一个梦:你只是站在那里看着正在发生的事情,无法干预?那就是视频模型。

现实世界不同。它会对你所做的或指示去做的事情做出回应,并预测可能发生的全部范围的事情,而不仅仅是单一最可能或最有趣的下一帧。

你有没有做过清醒梦(lucid dream)?就是那种能够在大脑生成的梦境中塑造故事走向的梦,那就是世界模型。

更规范地说,标准视频模型基于概率预测下一帧,P(x_{t+1} | x_t),而世界模型基于干预(intervention)预测下一个状态,P(s_{t+1} | s_t, a_t)。

那个 a_t(t 时刻的动作)就是魔法所在。


(Not Boring)

General Intuition 认为(并且正在看到早期迹象),世界模型是一种新的、对于需要深度时空推理的环境而言可能比 LLM 更强大的基础模型类别。像我们的现实世界这样的环境。

世界模型,这些从观察世界和其中所采取的动作中学习的系统,是一种根本性的新型基础模型。它们可以计算以前不可计算的东西。

它们的重要性将远超当前任何人的认知,因为它们提供了一条仅靠语言和代码无法达到的通往通用智能的路径。毕竟,作为人类,就是在一生中基于我们所经历、观察和学习的东西来采取行动。

停一下,你可能会对“世界模型提供了一条 LLM 无法走通的通往通用智能的路径”这个说法感到困惑,这可以理解。

世界模型最近获得了大量关注。Yann LeCun 一直对 LLM 是通往通用智能之路持怀疑态度,他刚宣布为 AMI 融资 10.3 亿美元。李飞飞的 World Labs 也融了超过 10 亿美元来追求世界模型。Google DeepMind 拥有科技行业最接近无限印钞机(互联网广告)的东西,也在押注世界模型。但我们迄今从这些投资中看到的,主要是炫酷的视频和 3D 世界。

LLM 能引用莎士比亚、解决 Erdős 问题(埃尔德什问题,是指著名匈牙利数学家保罗·埃尔德什提出的数百个数学难题和猜想,主要集中在数论、组合数学、图论和几何等领域)。世界模型看起来更像是通往元宇宙的路径,而不是通往通用智能的路径。

但世界模型还没有 LLM 的热度,部分原因是它们的定义仍然模糊。什么是世界模型?我们已经说了视频模型不符合定义。3D 空间模型也不算。话虽如此,两者都可能是通往世界模型的路径。今天驱动机器人的模型是世界模型吗?不完全是,虽然有些是,即使不是的那些也和世界模型架构共享特征。

一如既往,炒作加剧了混乱。AMI Labs 的 CEO Alexandre LeBrun 对 TechCrunch 说:“我预测世界模型将成为下一个流行词。六个月后,每家公司都会自称世界模型公司来融资。”

炒作只是一小部分。所有在这个领域构建的人都相信:世界模型是控制物理世界中机器的路径。路径的具体形态可能有差异,但所有人都相信未来要从世界模型中走过。

Agent 能在自己的梦中学习吗?

世界模型不算个新概念,而是人类最古老的想法之一。自从人类获得了思考自身在宇宙中位置的能力,我们就在思考我们的现实是否只是一个模拟。

公元前 380 年,柏拉图通过苏格拉底提出了“洞穴寓言”(译者注:出自《理想国》第七卷)。想象一些人类住在地下的洞穴里,脖子被锁链锁住,被迫盯着墙上的影子看。这些人会相信那些影子就是现实本身,而实际上它们只是现实的影子。柏拉图暗示,我们都困在洞穴里,脖子被锁着,把我们的感知误当成了真正的现实。

八十年后,中国道家哲学家庄周在“蝴蝶梦”中思考了类似的问题:从前庄周梦到自己变成了一只蝴蝶,翩翩起舞,自得其乐,不知道自己是庄周。突然醒来,分明是庄周。但他不知道,是庄周梦到自己变成了蝴蝶,还是蝴蝶梦到自己变成了庄周。(译者注:出自《庄子·齐物论》,原文:“昔者庄周梦为胡蝶,栩栩然胡蝶也,自喻适志与,不知周也。俄然觉,则蘧蘧然周也。不知周之梦为胡蝶与,胡蝶之梦为周与?周与胡蝶,则必有分矣。此之谓物化。”)

几个世纪过去,随着技术能力的进化,科幻作家加入了探问现实本质的悠久传统。Frederik Pohl 在 1955 年写了《世界地下的隧道》,Daniel F. Galouye 写了《模拟三号》(Simulacron-3),Stanislaw Lem 写了《非我仆》(Non Serviam),William Gibson 写了《神经漫游者》(Neuromancer),Neal Stephenson 写了《雪崩》(Snow Crash)。所有这些作品都用文字描绘了模拟世界。

1977 年,科幻大师 Philip K. Dick 在法国梅斯的一次演讲中自信地告诉听众:“我们生活在一个由计算机编程的现实中,我们唯一的线索就是当某个变量被改变、我们的现实发生某种变化的时候。”

大多数人对“模拟”的第一次接触可能是《黑客帝国》(The Matrix)。在原始剧本中,沃卓斯基姐妹把矩阵构想为由锁链中的人类大脑集体产生的模拟,人脑联网形成了一个神经网络。

制片方觉得“人类就是计算机”这个概念对大众来说太难理解了,于是做了一个热力学上有问题的决定,把人类变成了为模拟提供动力的电池。商业上这可能是正确的选择。黑客帝国系列全球票房接近 20 亿美元。更重要的是,它向大众引入了一个概念:一个与“真实”世界无法区分的模拟世界。

这个想法之所以抓住了我们的集体想象力,是因为它确实是那种恰到好处的诡异,而且出人意料地难以反驳。如果观察是一样的,动作是一样的,那么计算就是一样的。如果你看到的是一样的,做的也是一样的,那么你是在模拟中还是在现实中并不重要。你的大脑对两者的处理方式完全相同。Neo 在 Morpheus 唤醒他之前完全不知道自己在矩阵里。

克里斯托弗·诺兰在 2010 年上映了《盗梦空间》(Inception)(原文注:有一个意思的事是:在 Google DeepMind 的世界模型 Genie 内部负责智能体开发的团队,其名称就叫作 Inception)。

梦中梦中梦。诺兰的核心前提是,梦是一个可控的空间,可以从中提取信息,或者更重要的是,可以向其中植入信息。

但这一切都只是科幻,对吧?

1990 年,于尔根·施密德胡伯(Jürgen Schmidhuber,LSTM 之父)当时还是慕尼黑工业大学的年轻研究者,发表了《让世界可微分》(Making the World Differentiable)。这篇论文提出构建一个循环神经网络(RNN),赋予它两个任务:第一,学习预测模拟世界中接下来会发生什么;第二,用这个模拟世界来训练一个 Agent 在其中行动。


(Not Boring)

Agent 完全不需要与“真实”环境交互。它可以在模型内部学习。在梦中学习。

第二年,因“苦涩的教训”(Bitter Lesson)闻名的 Richard Sutton 也构想了一个类似的想法。在《Dyna: 一个整合学习、规划和反应的架构》中,他主张学习、规划和反应不应该是分离的系统,而应该统一在一个单一架构中。这意味着从技术上说,构建一个世界的模型、在其中练习、然后将学到的东西迁移回现实,是可能的。

两篇论文都极具远见,它们对后来的研究产生了持久影响。但在当时,两篇论文几乎就是科幻。

1990 年,全世界的计算能力大约是今天的百万亿分之一到千万亿分之一。当时全球可能只有 10 到 100 个 gigaFLOPS 的总容量。仅 2024 年一年就售出了数十 zettaFLOPS(10^22 FLOPS)的计算能力。1990 年,全球数字数据大约是 10 PB,这个体积小到连我们现在一次训练所用视频数据的 0.005% 都装不下。到 2026 年,这个体积已经爆炸式增长了 2,200 万倍,达到 221 ZB。

但技术在进步,最强大的梦不会死去。

近三十年后,2018 年 3 月,David Ha(当时在 Google Brain)和 Schmidhuber 发表了题为《世界模型》(World Models)的论文。这篇论文问了一个问题:Agent 能在自己的梦中学习吗?


(arXiv)

为了回答自己的问题,Ha 和 Schmidhuber 构建了一个有三个组件的系统:一个视觉模型(V)将原始像素观察压缩成紧凑表示,一个记忆模型(M)即循环神经网络学习预测接下来会发生什么,以及一个微小的控制器(C)仅基于 V 和 M 的输出来决定做什么。

世界模型就是 V + M:它可以接收观察并想象合理的未来。控制器就是 Agent 或策略(policy):它选择采取哪些动作。


图丨世界模型 + 智能体(arXiv)

Ha 和 Schmidhuber 在一个赛车游戏和一个第一人称射击游戏的观察数据上训练了他们的世界模型。世界模型生成了新的数字世界。然后他们让 Agent 完全在世界模型幻想出的梦境中练习。之后,他们将学到的策略迁移回实际环境。

它成功了。Agent 能够解决在现实中从未遇到过的任务。梦境足够真实。

从计算机科学的角度看,这确实让人震撼。但真的那么出人意料吗?这不就是人类导航世界的方式吗?

Ha 和 Schmidhuber 指出,人类不断在脑中运行世界模型。一个面对 100 英里时速快球的棒球击球手,必须在球的位置的视觉信号到达大脑之前就决定如何挥棒。每次击球不全是三振出局的原因,是击球手并非对现实做出反应,而是对大脑“内部世界模型”关于球将在哪里的预测做出反应。

加州大学尔湾分校认知科学教授 Donald Hoffman 把这个想法推得更远。他认为我们所有人都戴着“现实头盔”走来走去,将量子世界令人目眩的复杂性简化为一个用户友好的界面。现实太丰富了,所以我们通过一种持续的清醒梦来导航它。

这个兔子洞想挖多深都可以。但一路挖到底,都是世界模型。

Ha 和 Schmidhuber 表明,计算机或许能够像人类一样对待世界:创建模拟以根据行动预测未来状态,基于这些预测采取行动,然后更新并循环往复。

是行动,而非言语。

语言是不够的(代码也是)

来玩一个游戏。拍五次手。

现在,不要用物理动作拍手,试着仅用文字来描述拍手。双手在空间中的位置、相对位置、以皮秒为单位的变化、接触点、声音、双手靠近和分开时的样子、手掌如何挤压对方、两掌之间的空气发生了什么、你拍手时视野中看到了什么。别忘了你的手臂,它们怎么弯曲来配合拍手?记得也要精确到皮秒。

你袖子上的布料有什么反应?背景中在发生什么?你旁边的人注意到你在拍手了吗?他们怎么反应的?你有没有因为在会议中间按照一篇不该看的文章的指示拍手而被解雇?描述一下你老板额头上那根青筋,它在跳吗?

你做不到,对吧?好的,停下来。观点已经证明了。

语言是对现实一种极度有损的压缩。

语言当然重要。它是我们沟通和协调的方式。“你比我猜”这个游戏表明,要传达想法,语言可以比动作高效得多。LLM 在这个能力上很重要。但光靠语言是不够的。

代码呢?代码是一种非常精确的语言,让机器执行操作。我让 Claude“写一个双手在真实环境中拍五次的模拟代码”,生成出的结果“看起来非常痛苦”。


图丨由 Claude 生成的拍手模拟(Not Boring)

有一种信念认为,随着规模扩大,语言和代码将能够解决所有时空智能(spatial-temporal intelligence)挑战,产生通用人工智能(AGI)或超级人工智能(ASI)。有人主张代码是解决许多现实世界智能挑战的关键,因为它可以精确地指令所有物理形态。

我们不认同这个信念。基于代码的模拟是梦境的一个糟糕版本。它受规则约束,无法处理现实的随机混乱。

要了解世界,你必须与之交互。

赫尔曼·黑塞 1946 年获诺贝尔文学奖的小说《玻璃球游戏》中,读者被引入了卡斯塔利亚(Castalia),一个致力于纯粹思想的未来知识乌托邦。卡斯塔利亚的核心是一个将所有人类知识综合成单一形式语言的精密游戏,即书名所指的“玻璃球游戏”。玩家像作曲一样“作局”。一步棋可能将一首巴赫康塔塔与一个数学证明和一段孔子的文字联系起来。这个游戏是终极抽象:所有人类文化压缩成符号操作。


(Not Boring)

主角约瑟夫·克内希特升到了“玻璃球游戏大师”,这是卡斯塔利亚的最高职位。但他逐渐感到幻灭。游戏虽然优美,但它是贫瘠的。卡斯塔利亚的知识分子深度退缩进了抽象,失去了与世界的接触。他们能用非凡的优雅来表征现实,但无法在现实中行动。克内希特最终决定离开卡斯塔利亚,去做一名普通的家庭教师。他选择了混乱的、具身的、不可预测的世界,而非完美的符号世界。

大语言模型就是我们的卡斯塔利亚人。它们是符号的精湛操弄者,能在人类全部文本知识之间建立联系。它们能讨论物理学、作诗、写代码、解释棒球规则。它们真的是人类历史上最伟大的智力成就之一。

但它们完全运作在表征的领域。它们能描述拍手,但不能拍手。它们能谈论重力,但不像一个幼儿那样了解重力。幼儿通过成千上万次跌倒和踉跄,用身体学到了“下”意味着什么。

语言模型把预测下一个 token 做到了极好。唯一的问题是,token 就像柏拉图洞穴墙上的影子。你不能用编码来模拟一个真实的体育场人群,正如你不能用描述来达到那里。

现实世界是,或者说曾经是,不可计算的。

如果语言和代码这两个人类最强大的发明都不足以表征我们的世界,我们还剩什么?

答案是世界模型。

世界模型提供了一条通往 AGI 的替代路径。它们提供了一条计算今天不可计算之物的路径。它们从克内希特所追寻的那种与现实的混乱接触中学习。世界模型提供了一种高效进行非确定性计算的方式,运行在传统计算约束下不应该可能的模拟。

世界模型不是 LLM 的替代品。语言仍然是必要的;文本可以用来为世界模型设定条件,告诉它们想象什么场景、追求什么目标、给它们一个长期目标。思考和行动协同工作。但行动必须来自文本以外的地方。

约瑟夫·克内希特必须从卡斯塔利亚走下来。

真正的智能必须来自对世界的观察;来自理解动作及其后果;来自语言只能指向的那些东西。

道可道,非常道。(译注:出自《道德经》开篇,原文“道可道,非常道”。作者将其与后一句《圣经》引文并置,构成一组东西方哲学的呼应,语言能表达的终究有限,真正的智能不在文字之中。)

太初有言(In the beginning was the Word)。然后人类诞生,不完美地、不可预测地行动(译注:“In the beginning was the Word”出自《圣经·约翰福音》1:1,原文为古希腊语“Ἐν ἀρχῇ ἦν ὁ λόγος”,中文和合本译为“太初有道”。但原文作者在这里刻意利用了“Word”一词的双关,它既是《圣经》中万物之始的“道/圣言”,也是大语言模型所处理的“文字/语言”。作者的意思是:正如《圣经》叙事中“道”先于一切存在,在 AI 的发展叙事中,语言模型也先于世界模型出现;但正如人类随后以不完美的行动进入世界,世界模型也随之而来,将 AI 从纯粹的语言推向行动。此处译为“言”而非传统的“道”,以保留这层含义)。

也许事情就是这样展开的。太初有 LLM。然后世界模型诞生。

什么是世界模型?

世界模型模拟环境,并在你于其中行动时做出回应。

更准确地说,世界模型是一种交互式预测模型,在动作的条件下模拟时空环境。

LLM 预测句子中的下一个词,世界模型预测下一个状态(即当前状态的即时未来),条件是当前状态和控制输入。

更简洁地说:LLM 学习语言的结构。世界模型学习因果的结构。

这是世界模型的一个简单定义。它是准确的,但不足以理解世界模型如何工作。要理解这一点,你需要知道四件事:世界模型做什么、如何构建、为什么“动作”如此重要、以及世界模型和策略(policy)之间的关系。

想想接球时发生了什么。你的眼睛接收一个场景:投球者的手臂、飞行中的球、风、刺眼的阳光,所有这些。从这些感官数据的洪流中,你的大脑构建了一个关于正在发生什么的压缩模型,关键是,还有即将发生什么的模型。它预测球在未来几百毫秒内的轨迹。然后向你的手发送一个运动指令。你接住了球。整个循环——观察、预测、行动——在不到一秒的时间内完成,不涉及任何语言或“思考”。

世界模型在计算上做同样的事情。它接收观察(通常是视频帧,但也可以使用任何感官数据),构建环境状态的压缩内部表示,并预测该状态在响应动作时将如何变化。

它本质上是一个学习到的物理引擎,但不依赖手写方程。它不是从第一性原理计算重力、碰撞和摩擦,而是观看了重力、碰撞和摩擦数十亿次并学到了模式。

这使世界模型成为构建 Agent(即在环境中行动的 AI 系统)的强大工具。世界模型以三种方式帮助 Agent。

首先,它们充当替代训练场。Agent 可以在世界模型内部(本质上在梦中)练习,并将学到的东西迁移回现实。这对安全(有些事情不应该在真实世界中测试或训练)和成本/样本效率(真实世界数据昂贵、难以收集、数量有限)很重要。

其次,它们使更长时间跨度的规划成为可能。Agent 可以在做出承诺之前“想象”不同动作的后果,就像棋手提前想几步棋一样,只是这里的棋盘可以是任何环境或真实世界。

第三,它们为 Agent 提供了丰富的世界表征来学习行为。在世界模型的内部表征上训练的 Agent 学会“看到”世界中那些对行动有意义的特征,而不是原始像素。

出于这三个原因,世界模型的承诺是它们是通往泛化的路径。如果你能创建以现实世界的方式响应动作的世界,你就能用它们安全地、经济地、高效地训练能在任何虚拟世界或现实世界中行动的具身 Agent。

需要明确的是,这是世界模型中的核心问题:模拟环境是否足够忠实于现实,以至于你可以在其上训练并将训练迁移到真实世界,或者从一般意义上来说,你是否可以“在模拟中预训练”。越来越多的证据表明,答案是肯定的。

Allen Institute for AI(Ai2)最近发布了 MolmoBot,一个“完全在模拟中训练的开源机器人模型套件”。Ai2 说:“我们的结果表明,针对操作任务的模拟到真实的零样本迁移是可能的。”

参与该项目的普林斯顿教授和 Google DeepMind 研究者 Dhruv Shah 分享说:“在容易模拟的任务范围内,一个纯模拟训练的策略优于在数千小时真实数据上训练的最先进 VLA 模型!”


图丨 MolmoBot(arXiv)

这是一个相当惊人的发现。General Intuition 以及更广泛的世界模型领域的一个重大关注点,是扩大容易模拟的任务范围。

其工作方式如下:首先,世界模型想象出逼真的环境和未来状态,理想情况下以它们所训练的真实和虚拟世界的方式响应动作或指令。接下来,Agent 在生成的世界中被放出来训练。然后,Agent 被带回到真实环境中,在它们学到的东西上进行测试。

这就是 Ha 和 Schmidhuber 在 2018 年展示的内容,至今仍是该领域的核心承诺。

世界模型是如何构建的?

世界模型相当年轻。没有哪种单一方法或组合被证明具有绝对优势,这意味着通用世界模型的最终架构仍是一个开放问题。但训练有一些可重复的要素。

从数据开始;大量的观察数据。通常,观察与产生它们的动作配对。这种配对可以有多种方式实现。观察(通常是视频)预先收集,动作要么与之同时记录,要么在事后通过另一个模型推断。或者,模型通过自己采取动作来学习,通过与环境直接交互生成自己的观察和动作数据。

当训练数据是观察或视频时,原始帧作为一个环境随时间展开的观察。这些视频理想情况下带有产生它们的动作标签(要么是同时记录的,要么是用单独的 AI 模型推断的)。

动作提供了因果链接:某人做了什么导致环境改变了。一个游戏画面中玩家向左转、镜头移到走廊。一段驾驶录像中方向盘转动、车辆沿曲线行驶。一次遥操作中机械臂伸出、杯子移动。在每种情况下,模型看到一个前态、一个动作和一个后态。

世界模型的核心目标保持不变:给定当前状态和一个动作或指令,预测下一个状态。它看到第 t 帧和动作 a,然后尝试产生第 t+1 帧的状态。

但为所有东西预测原始像素级世界可能很昂贵,而且往往是浪费。视频帧中的大部分内容从一个时刻到下一个时刻不会改变;墙还在原地,天空还是天空。帧内的大部分细节是冗余的;天空的颜色,墙壁的纹理,都可以用更紧凑的形式描述。

所以现代世界模型涉及一个潜在空间(latent space):一种压缩的、学习到的表示,只保留最本质的信息。视觉编码器将每一帧压缩为一个紧凑向量(场景的数学指纹),模型学习预测下一个指纹来响应动作,而不是 4K 帧中的每一个像素。这就是计算效率的来源。

为了准确建模世界的演变,世界模型还必须学习表征完整的可能结果集合。这种结果的不确定性通常被称为环境的随机性(stochasticity)。世界模型必须学习应对它还不知道的东西(认识不确定性,epistemic uncertainty:例如,一个从未见过红绿灯的模型不知道黄灯之后是红灯)和固有不可知的东西(偶然不确定性,aleatoric uncertainty:像掷骰子这样的随机性,aleatoric 这个词源自拉丁语中“骰子”的意思 alea)。

即使模型已经学到了关于环境行为的所有可学的东西,接下来会发生什么几乎总有一些固有的不确定性。这与纯娱乐视频模型不同,后者只需要能预测一种常见的世界状态演化就能表现良好。

如果你用一种直接的预测方法(例如用均方误差 MSE 训练的朴素模型)来预测一辆车转弯,模型可能变得“模糊”,因为它在平均化每一个可能的结果。车可能转弯留在左车道,也可能变道到右车道。真正最小化误差的轨迹是一个不合理的结果:车留在两条车道的中间。这就是模糊性,不同的模型以不同方式处理它。

扩散模型(Diffusion models)通过逐渐向结果扩散来避免这个问题,使模型能够锁定结果分布的一个特定模式,采样出一个清晰的、合理的未来,而不是平均化所有可能性。

自回归模型(Autoregressive models)通过每个结果使用多个 token 也能处理多模态;通过逐个采样 token,确保未来的 token 预测与先前的一致。

JEPA 风格的架构则通过完全回避来解决模糊性。JEPA 在很大程度上避免显式建模那个分布,因为它从不解码回像素空间。它在一个平均化不那么灾难性的空间中运作,因为我们不期望这些模型预测帧,而是期望它们发展出对下游任务有用的表征。

这个过程的输出取决于你需要什么。如果你在构建一个可视的世界模拟器,一个你可以观看或探索的东西,你会通过视觉解码器将潜在预测解码回像素,产生合理未来的想象视频。这就是 Google DeepMind 和 World Labs 的演示看起来逼真和令人印象深刻的原因。

有很多方法用于训练世界模型。记住这一点:观察数据输入,与导致观察中所发生事情的动作配对,训练世界模型预测下一个状态;Agent 训练在这些世界中预测下一个动作。

为什么动作是终极压缩形式

这是世界模型背后的一个关键洞察:动作是终极压缩形式。

考虑当你决定向左迈步避开水坑时发生了什么。你的大脑处理了视觉场景(人行道、水坑、周围的人、路缘、驶来的公交车),预测了即时未来(水坑不会移动,公交车会驶过,身后的人会继续走),评估了选项(向左走、向右走、跳过去、接受鞋子弄湿),然后选择了一个。

一个外部观察者看不到你脑袋里面的东西,不知道你到底在想什么,不知道你在潜意识里处理什么。他们不知道你是否疲倦或是否赶时间。他们不知道你的道德准则,不知道你会怎么回答电车难题。他们不需要知道。他们看到所有那些近乎瞬时计算的输出:向左迈步。

当然,不是每个人都做出正确的决定。把视频播放下去,你也能学到后果。向左迈步,踩进一个更大的水坑。向左迈步,被一辆车蹭到。向左迈步,撞到一个婴儿车里的婴儿。通过数十亿次的观察、指令和动作,我们不仅学到了人类如何基于输入决定回应,还学到了那些决定的后果。集体世界模型学会了比任何个体都更聪明地行动。

如果你能完美地重建一个人的观察流和动作流,你就拥有了他们与现实交互的几乎完整的记录。世界模型学习的正是这个映射。它将空间和时间压缩成紧凑的表示,然后用动作来推演接下来会发生什么。这就是世界模型计算效率如此高的原因。

这也是世界模型能处理传统模拟不能处理的随机性的原因。在传统模拟引擎中,每一种可能的行为都必须被编码。如果你想让一千个球迷对进球做出逼真反应,你需要为每种类型的反应写规则。计算成本随着 Agent 数量和交互复杂度扩展。

在世界模型中,成本固定为一次神经网络传播。随机的、混乱的、人类的现实已经被烘烤进了学习到的权重中,从模型训练所用的数百万小时视频中吸收。模型不需要计算一群人应该做什么。它已经看到了人群实际做什么,并用这些信息做出概率预测。

传统计算是确定性的:已知输入、已知规则、已知输出。现实世界不是确定性的,所以世界模型甚至不尝试编码这些东西。它们观察、学习、行动,以固定的计算成本,无论场景有多复杂。

世界模型与策略

还需要做一个区分,这个区分在关于世界模型的日常讨论中经常被混淆。

世界模型是环境的模拟;它接收动作并产生预测的观察;它向你展示如果你做某事会发生什么。

策略(Policy)是在该环境中行动的 Agent 的大脑。它接收观察(通常还有指令)并产生动作;它决定做什么。

世界模型是梦。策略是做梦的人。做梦的人行动,梦境回应。梦境回应,做梦的人行动。

实际上,两者之间的关系比这个区分所暗示的更加亲密和交织。最近的研究已经在探索在世界模型基础上训练策略,或从一开始就将两者一起构建。从世界模型的权重开始,这是一个已经学会预测接下来会发生什么的系统,然后,不是训练模型预测未来帧或状态,而是训练它预测未来动作。


(Not Boring)

一个学会预测世界的系统也能更快地学会如何在其中行动。理解和行动不是两个螺栓在一起的独立技能,而是同一个技能的不同角度。至少我们的研究以及其他实验室的研究开始表明如此。

这意味着,如果你构建了一个足够好的世界模型,你也能更有效地训练一个策略来在它生成的世界中行动。

直觉和想象力原来是同一枚硬币的两面。

世界模型简史

一方面,现代世界模型的历史应该很容易总结。自 Ha 和 Schmidhuber 发表《世界模型》以来只有八年。另一方面,八年里发生了太多事。在这段时间里,该领域经历了四个浪潮。


(Not Boring)

第零浪潮(1990-1991 年)是深度学习之前的时代。研究者首次表述了 Agent 可以学习世界的内部模型并用它进行预测和规划的想法。这是 Richard Sutton 和 Dyna,Jürgen Schmidhuber 和《让世界可微分》。在我们有计算、数据或架构之前,我们有了梦想,在梦境空间中等待现实赶上来。

第一浪潮(2018-2019 年)问的是:“这真的能行吗?”

基于 Ha 和 Schmidhuber 的工作,第一个范式使用变分自编码器(VAE)来压缩帧,用循环神经网络(RNN)建模动态,并在生成的梦境中训练策略。当时的问题是在想象中学习、在梦中学习是否可行。研究者使用小模型和简单环境来生成概念验证结果。毫不夸张地说,下一个大趋势在起步阶段看起来就像个玩具。(译注:这里化用了硅谷知名投资人、a16z 合伙人 Chris Dixon 2010 年的一篇著名博文《下一个颠覆性技术在早期往往看起来像玩具》的标题)

《基于模型的 Atari 强化学习》引入了 Atari 100k 基准:SimPLe 算法能否仅用 10 万步真实环境步骤(大约两小时的游戏时间)来学习 Atari 游戏。答案是肯定的。SimPLe 学会了玩 26 个 Atari 游戏,在样本效率上击败了竞争模型。


图丨 SimPLe 内部的世界模型(Not Boring)

但它能玩得和人类一样好吗?

这是第二浪潮(2020-2022 年)的问题:“世界模型能达到人类水平吗?”

Danijar Hafner 在 Google DeepMind 开发的 DreamerV2 很快给出了答案。他们使用了循环状态空间模型(RSSM),具有离散的潜在表征,该系统维持着一个关于世界的压缩运行记忆,并随每次观察进行更新。

DreamerV2 成为第一个在 55 个游戏的 Atari 基准上达到人类水平的世界模型 Agent。它完全在想象中训练,在单块 GPU 上。

同年,另一个 DeepMind 团队在《Nature》上发表了论文,描述了 MuZero 模型。MuZero 也击败了 Atari 游戏(和 Go 等其他游戏),但采用了几乎完全相反的哲学方法。DreamerV2 生成了可观察的梦境环境并在其中训练,而 MuZero 从未生成任何可观察的东西,完全在它自己发明的抽象潜在表征中规划,而且它做得很好。

事实上它做得太好了,以至于超越了专门针对 Go 的模型。2016 年,DeepMind 的 AlphaGo 以 4 比 1 击败了人类围棋冠军李世乭。它是在大量人类专家对局加上自我博弈的基础上训练的,游戏规则是硬编码的。第二年,AlphaGoZero 在完全没有人类对局数据、只有规则的情况下通过纯自我博弈,以 100 比 0 击败了 AlphaGo。

同期,AlphaZero 将 AlphaGoZero 的方法推广到国际象棋和将棋等其他游戏,几小时内就在两者上实现了统治。然后在 2019 年,MuZero 纯粹通过观察和结果,从零开始学习了包括规则、游戏动态和价值函数在内的一切。它在 Go、国际象棋和将棋上匹配了 AlphaZero(后者知道规则),同时还泛化到了 57 个 Atari 游戏(那里“规则”甚至不是一个定义良好的概念)。

每个新模型中,人类之前硬编码的东西,包括规则、策略、位置价值,都被移除了。模型从零学习每一个。MuZero 是这个进程的终点,它完全是自主学习的产物。

MuZero 做到这一切,却从未想象过未来的棋盘状态。它想象的是隐藏状态,即它在训练期间自己发明的抽象向量,不保证与任何人类可观察或可解释的东西对应。一个人类看着 MuZero 关于“三步之后”的内部表征,完全不知道它在想什么。然而它超越了所有之前的模型。

MuZero 的成功意味着,该领域现在有了两个对立的思想流派:生成式世界模型(产生可观察的未来)和潜在世界模型(在抽象空间中预测)。从那以后,世界模型的进展在两个方向上都发生了。

在潜在一侧,2022 年 Yann LeCun 从他在 Meta 和 NYU Courant 的双重位置发表了一篇重要的立场论文,提出了一种与生成式模型根本不同的哲学——更像 MuZero 的路线:《通向自主机器智能的路径》。他的新世界模型公司 AMI 就以这篇论文命名。

LeCun 的联合嵌入预测架构(JEPA, Joint Embedding Predictive Architecture)反对完全生成像素。与 MuZero 类似,JEPA 不预测世界“看起来”会怎样,而是预测它“意味着”什么。它预测未来状态的抽象表征,刻意丢弃不可预测的视觉细节。


(arXiv)

同年,在生成式一侧,由 Vincent Micheli 和 Eloi Alonso(General Intuition 的未来联合创始人)开发的 IRIS(2022)将世界建模重新定义为在图像 token 学习词汇上的语言建模。IRIS 不使用循环状态空间模型,而是在离散视觉 token 上使用 GPT 风格的自回归 Transformer。实际上,IRIS 将语言模型的机制应用到了世界建模上。

这把 LLM 的扩展(scaling)特性直接带入了世界建模:高效的注意力机制、扩展定律,以及所有为大语言模型构建的工程基础设施,现在都可以应用于学习物理世界。IRIS 是第一个在与人类相同的可用游戏数据量(两小时)下、通过想象学习方法超过人类的模型。

先暂时搁置 JEPA,到这个时间点为止,世界模型中几乎所有工作都发生在游戏中。值得在第二和第三浪潮之间停下来,体会一下 AI 与游戏之间的特殊关系。

游戏在 AI 发展中一直扮演重要角色。Claude Shannon 1950 年的论文《编程计算机下国际象棋》是 AI 的奠基文献之一。1959 年,Arthur Samuel 的跳棋程序引入了机器学习这个概念。世界第一次意识到智能机器可以在任何事情上击败人类,是 IBM 的深蓝击败 Garry Kasparov 下国际象棋。

在 DeepMind 成为 AI 实验室之前,Demis Hassabis 是一个游戏设计师。17 岁时,他设计了商业上很成功的《主题公园》。DeepMind 的奠基性突破是 2015 年发表在《Nature》上的 DQN 论文,展示了用深度强化学习从原始像素玩 Atari 游戏。然后是 2016 年的 AlphaGo 击败世界围棋冠军,围棋曾被认为需要一种独属于人类的直觉,其可能的棋盘位置比宇宙中的原子还多。

从 AlphaGo 到 AlphaFold 的路径恰好经过了世界模型所形式化的那个洞察。Hassabis 曾说:“如果我们能模仿这些玩家的直觉,那不是太不可思议了吗?顺便一提,他们只是业余生物学家。”

General Intuition 就以 Hassabis 的这句话命名,它指向一个未来:模型驱动的研究远超像素所能描述的动态,超越游戏本身,深入我们的身体。然后 DeepMind 教会了机器折叠蛋白质。AlphaFold 为 Hassabis 和他的团队成员 John Jumper 赢得了 2024 年诺贝尔化学奖。

游戏当然很有趣。但游戏之所以不断出现,是因为游戏是唯一一个你能获得大量带标签的时空数据的领域,这些数据具有清晰的动作-结果对、一致的物理规则、明确的奖励信号,以及一个可以进行数百万次实验的可控环境。真实世界不具备这些特性。

游戏是具身 AI 的实验台。但它们只是雄心的一小部分。要让世界模型真正有用,它们需要与现实世界交互。

那就是第三浪潮(2023-2024 年),它问的是:“世界模型能真正实现交互吗?”

第一个答案来自驾驶领域。GAIA-1(2023 年)在 Wayve 开发,将 IRIS 首创的序列建模方法扩展到 90 亿参数并在真实世界驾驶视频上训练。它可以根据动作(转动方向盘)、文本提示(“雨天,高速公路”)或两者同时来生成驾驶场景。领导这项研究的 Anthony Hu 现在在 General Intuition 领导世界建模工作。

GAIA-1 确认了大家在 LLM 中观察到的扩展定律也适用于视觉世界模型。更多数据和更多参数能可预测地带来更好的表现。这不是理所当然的。它意味着前进的路径是明确的,即使成本高昂:扩大规模,模型就会变得更好。

第二年,由 General Intuition 未来的联合创始人 Eloi Alonso、Adam Jelley 和 Vincent Micheli 开发的 DIAMOND(2024 年)开辟了新的架构前沿。与之前自 IRIS 以来压缩观察到离散 token 并自回归预测的做法不同,DIAMOND 使用扩散模型直接预测未来帧。

视觉保真度有了实质性提升,而这种丰富度直接转化为更好的 Agent 表现。离散 token 丢弃的那些微妙的视觉细节,比如告诉你一个表面很滑、一扇门半开着、一个人即将改变方向的小线索,事实证明它们对决策很重要,仔细想想这并不奇怪。

值得指出的是,世界建模中许多开源进展都建立在 DIAMOND 架构之上。第一个 AI 生成的多人游戏 Multiverse 是基于 DIAMOND 的,被称为“第一个世界模型游戏引擎”的 Alakazam 也是。DIAMOND 本质上是生成式世界模型领域的 Deepseek 或 Llama。

DIAMOND 本身在 Atari 100k 上创造了新的最佳成绩,并展示了一些抓住公众想象力的东西:在反恐精英(Counter-Strike)游戏数据上训练,它从大约 87 小时的素材、在单块 GPU 上,产生了一个完全交互的、可玩的神经游戏引擎。它证明了可以实时运行一个交互式的 3D 世界模型。


(arXiv)

DIAMOND 擅长玩 Atari。Agent 玩真正的游戏并在那里收集真实数据,用这些数据训练世界模型。然后它在世界模型的合成环境中测试自己,在那里变得更好,然后回到外面进行更多真实交互。这种在 ground truth 和合成之间来回循环的方式,就是世界模型改进的方式,几乎像在清醒梦中解决问题,然后在醒来后的现实中测试它们。这就是前面提到的 Dyna 范式。

这个循环在真实世界条件下也能工作吗?答案也是肯定的。而且效果很好。

GAIA-2(2025 年 3 月)将扩散方法推向了其最雄心勃勃的应用:多摄像头自动驾驶模拟。它可以生成以自车动态、其他 Agent 轨迹、天气、一天中的时间、道路结构为条件的高分辨率环视驾驶视频。简而言之,它可以再现真实驾驶的全部复杂性。它可以模拟在真实道路上太危险或太稀有而无法收集的场景:突然的加塞、紧急制动、行人走下路缘。

GAIA-1 和 2,以及 DIAMOND,和 IRIS 一样,都是现在在 General Intuition 工作的研究者的成果。扩散或流匹配(flow-matching)模型如 GAIA-2 是团队当前研究工作的起点。

但这不是唯一的方法。

Google DeepMind 是这个领域的核心玩家之一。他们的世界模型 Genie(2024 年)是一个 110 亿参数的模型,在未标注的 2D 平台游戏互联网视频上训练。它完全从零学习了一个动作空间;没有人告诉模型控制方式是什么。给它任何图像,它就能从中生成一个可玩的世界。

OpenAI 的 Sora(2024 年,Sora 2 在 2025 年跟进)和 Google 的 Veo 3(2025 年)将视频生成推向了非凡的视觉质量,并将这些系统明确定位为“世界模拟器”。

该领域的词汇可能会变得混乱。让我们说清楚。视频生成模型产生美丽的视觉序列,但它们并不完全是我们一直在描述的那种世界模型。在这些视频中,你不能采取动作并看到环境实时回应你的干预。它们预测一个场景随时间会看起来怎样,但不试图建模因为你做了什么而发生了什么。

想想看一个驾驶电影和实际握方向盘驾驶的区别。视觉输出可能看起来相似,但底层计算根本不同。交互性,即那种采取动作并观察其后果的能力,是世界模型和一个非常令人印象深刻的视频之间的分界线。

交互性也是影响现实世界所需要的。

这是第四浪潮的核心问题,也是我们现在所处的浪潮:“模型能在真实世界中行动吗?”

也就是说:在世界模型中训练的 Agent 能否在研究环境之外工作,在真实车辆、真实机器人、真实部署中?

Comma.ai 在自动驾驶领域走了最直接的路径:他们完全在学习到的世界模型内部,即在“梦境”中,训练了一个驾驶策略,并将其部署在 openpilot 中,他们运行在真实车辆上的开源驾驶辅助系统。世界模型训练的策略优于传统模仿学习和在常规模拟器中训练的策略。这可以说是第一个由世界模型训练的 Agent 驱动的消费产品。

在机器人领域,Meta 的 V-JEPA 2 使 LeCun 的潜在预测哲学具象化。这是迄今为止最清晰的大规模概念验证。这个 12 亿参数的模型在超过一百万小时的视频上通过自监督掩码预测进行预训练:没有标签,没有文本。

第二阶段,仅在 Droid 数据集的 62 小时机器人数据上进行微调。事实证明这足以产生一个支持零样本规划的动作条件化世界模型。V-JEPA 2 在新环境中零样本部署在真实的 Franka 机械臂上执行取放任务。它完全在潜在空间中规划,不需要像素生成、任务特定训练或手工设计的奖励。而且它很快,像素空间方法需要几分钟来规划一个动作,V-JEPA 2 只需几秒。

Google DeepMind 的 SIMA 2 采取了完全不同的方法。与构建专门的世界模型不同,它微调了 Gemini 使其直接在 3D 游戏环境中作为 Agent 行动。SIMA 2 可以推理高层目标、遵循复杂的多步骤指令、与用户对话,并泛化到未见过的环境。

它代表了一种替代范式:不是构建专门的世界模型,而是利用已经嵌入在一个经过人类全部知识训练的模型中的隐式世界知识。

这是该领域的开放问题之一。这种使用大型基础模型或视频模型作为 Agent 的基础,而不是从零开始在世界模型中训练 Agent 路径,最终会胜出吗?

事实上有许多开放问题,以及几乎同样多的世界模型初创公司在尝试回答它们。

世界模型的当前格局

到了当下这个时刻,很清楚的是,才华横溢的研究者和投资者都对世界模型的潜力感到兴奋,那些大额融资轮次就是证据。

World Labs 融资 10 亿美元,估值 54 亿美元。AMI Labs 融资 10.3 亿美元,估值 35 亿美元。General Intuition 完成 1.337 亿美元种子轮。Decart 以 31 亿美元估值融资 1 亿美元。Physical Intelligence 以 56 亿美元估值融资 6 亿美元。Wayve 以 86 亿美元估值融资 12 亿美元。Google DeepMind 正在将资源倾注到 SIMA、Genie 和 Veo 中,并用它来驱动 Waymo 等计划。

不太清楚但更有趣的是,我们处于这项技术发展的这样一个节点:我们知道大事正在发生,但具体哪种方法或哪种方法组合会胜出还不确定。

世界模型有三种主要的方法类型:当前基础模型、世界模型、具身 Agent。

尽管方法不同,所有人共享同一个最终目标。最终目标是产生能泛化并在各种环境(包括现实世界)中做事的 Agent。一些 Agent 方法用 LLM 作为跳板,另一些从视频模型开始。一些 Agent 方法用世界模型作为训练环境。还有一些 Agent 直接从经验中学习。

基础模型

当前的基础模型学会了理解世界数据但不能模拟随机世界环境本身。它们处理文本、图像、视频等输入,并学会预测、生成或重建。但它们还没有给 Agent 一个行动的地方。它们不是动作条件化的。它们不回应或交互。它们是可以构建世界模型的潜在基底,或者在某些情况下是 Agent 预训练的基础。

大语言模型从惊人数量的文本中学到了世界有结构。它们知道杯子被推下去会掉,火是热的,下雨天不带伞出门会被淋湿。它们编码了大量的因果和物理知识。但这些都不是来自经验。像数字版的卡斯塔利亚人,它们阅读了关于世界的描述而非感知它。这使它们作为推理和规划的骨干极其有用,这也是为什么你会在许多 Agent 架构中找到嵌入的 LLM。

但光靠语言模型无法模拟机械臂去拿杯子时会发生什么。在世界模型的语境中,LLM 在讨论 VLA(视觉 - 语言 - 动作模型)时特别相关,后者利用了为 LLM 开发所投入的巨大研究、资本、工具和基础设施来引导能在物理世界中做事的机器人。

视频模型

没有人会把 LLM 和世界模型搞混,但很多人会把视频模型和世界模型混为一谈。这些模型在互联网上大量的视频数据上训练,自身也能产出非凡的视频。Sora 可以生成一个女人走过霓虹灯下东京街头的令人信服的镜头。Veo 3 可以渲染带同步对话的照片级场景。但你不能和它们交互。你不能在其中采取动作并看环境实时回应。它们预测场景随时间看起来怎样,但不试图建模你做什么导致了什么。

当然,界线会变得模糊。Odyssey(由自动驾驶重量级人物 Oliver Cameron 和 Jeff Hawke 创立)在构建“以视频做梦的世界模拟器”。目前它们不让你采取动作并看环境回应,但确实让你在视频播放中途通过提示来实时引导方向。界线在哪里?

无论界线在哪,这些视频模型都在变好。但视频模型并不完全是我们定义的世界模型;它们是一个跳板。Runway 从视频生成公司起步,但已得出结论,物理感知的视频生成是通向更大目标的路径。这催生了 GWM-1,它们明确标注的“通用世界模型,为实时模拟现实而构建”,它是交互式、可控、通用的。真正的价值,无论在财务上还是社会上,不会来自视频本身,而是来自将视频用作训练环境、走向控制具身系统的模型。

3D 重建和生成模型

更进一步,如果你能在视频生成模型描绘的场景中导航呢?那感觉像一个世界,对吧?

李飞飞领导的 World Labs 是这个类别中最有趣的例子。虽然 World Labs 是大多数人会与“世界模型”联系在一起的公司,但 World Labs 目前并没有在构建文章所定义的世界模型。在早期,World Labs 聚焦于沉浸式虚拟世界,但不是动作条件化的。它的第一个产品 Marble 从文本、图像、视频或 3D 布局生成和编辑持久的 3D 环境。

Marble 目前还不是交互式的,除了可以在生成的环境中移动。World Labs 自己在 Marble 产品页面上将交互性定位为未来的机会:“未来的世界模型将让人类和 Agent 都以新方式与生成的世界交互,解锁更多模拟、机器人等领域的应用场景。”不过值得注意的是,World Labs 最近已经开始探索直接生成帧而非底层 splats(高斯泼溅译注:这里的 splat 指的是Gaussian Splatting(高斯泼溅),一种 2023 年兴起的 3D 场景表示方法。它用大量 3D 高斯函数来表示场景,渲染速度快、质量高,是当前 3D 重建领域的主流技术之一。World Labs 的 Marble 产品此前基于这类 3D 表示方法,而非逐帧生成视频)的世界模型。

世界模型

现在来看真正的世界模型。世界模型是 Agent 可以行动的环境,而且它实时回应。它是一个模拟、一个梦,从观察和动作数据中学习而来,而不是手工编码的。Agent 采取动作,世界改变,Agent 观察发生了什么。重复百万次,跨越巨量多样的情况,希望你得到一个能泛化的 Agent。

关键区分在于:世界模型是动作条件化的。它根据 Agent 做了什么来预测世界接下来看起来会怎样。

直觉很简单。一个只在真实世界数据上训练的机器人见过有限的厨房、有限的杯子、有限的杯子掉落方式。把它放在一个没见过的厨房、遇到一个没见过的杯子,它就困难了。而在世界模型中训练的机器人,原则上见过无限的厨房,因为世界模型可以生成它们。在现实世界中稀有、昂贵或危险的情况,在模拟中变成常规。分布外变成了分布内。

世界模型内部有两种主要方法:潜在世界模型(Latent World Models)和生成式世界模型(Generative World Models)。

两种方法都依赖潜在状态,但生成式世界模型依赖的潜在状态是用重建目标(自编码器)设计的,这使帧预测成为可能;而潜在世界模型直接构建自预测表征。比喻一下:潜在世界模型生于黑暗并仍然活在黑暗中;生成式世界模型只是生于黑暗。

潜在世界模型

潜在世界模型是 MuZero 的后裔,但被放到了像现实世界这样的开放式、无规则环境中。

这是 Yann LeCun 当前的领域。LeCun 在 1990 年代用 LeNet 开创了现代计算机视觉架构,引入了卷积神经网络(CNN)的概念。2010 年代他倡导自监督学习,主张人工标注数百万样本无法扩展到真正的智能,模型应该从原始数据中创建自己的信号。2020 年代他领导了 JEPA 团队。

LeCun 作品中的深层线索是教模型自动从原始数据中学习有用的世界表征。潜在世界模型是这条线索中最新的、也许是终极的分支。

这种方法在哲学上是视频模型或 3D 重建模型的对立面。后者关心产生和理解每一个像素,而 JEPA 说“别费那个劲了”。JEPA 不预测像素。LeCun 的话是:“世界是不可预测的。如果你试图构建一个预测未来每一个细节的生成式模型,它会失败。JEPA 不是生成式 AI。”

JEPA 学习在抽象的压缩空间中表征视频并在那里做预测,刻意丢弃不可预测的视觉细节。这使 JEPA 在规划和表征学习方面可能非常高效。AMI Labs 就是 LeCun 赌这个方法是通向真正智能路径的产物,投资者最近用 10.3 亿美元支持了他。

LeCun 认为,看似最大的权衡——用保真度换速度——其实不是权衡。他的立场是,你丢失的细节正是你应该丢失的,试图预测每一个像素不仅昂贵而且实际上是反生产力的,模型在固有不可预测的视觉细节上浪费了容量,而不是学习真正重要的抽象因果结构。想象一下,如果你想象接球时需要模拟每一个光子,你的大脑可能会爆炸。

但还有其他权衡需要注意。一个是潜在模型更难评估。你不能看着输出直观判断它是否合理(像你对生成视频那样),它们也不能作为人在回路系统的训练场,因为人类无法在潜在空间中操作。我们需要看到世界才能在其中行动。

另一个相关的缺点是,当你无法可视化预测或解释损失时,迭代速度会变慢。人类非常擅长注意到视觉上的不对劲;我们没有进化出在预测的潜在编码中发现差异的能力。而迭代速度是现代 ML 中最重要的东西,因为现代 ML 的进步主要来自经验性搜索,而不是提前知道正确的设计。

潜在模型出于类似原因在训练上也更具挑战性。学习目标中缺乏强监督会导致坍缩(collapse)问题,JEPA 的目标是基于过去的编码预测未来的编码,但你可以用平凡的编码满足这个目标(比如把一切都设为 0,损失为 0),所以需要确保表征不会坍缩。

在创建 Agent 可以训练的环境的光谱上,一端是今天实用的,另一端是柏拉图式的理想。潜在世界模型几乎是 VLA(我们接下来会讨论)的对面,更接近研究者认为的技术上的柏拉图理想,但在今天的实践中面临真正的挑战。话虽如此,新方法如 LeJepa 正在缩小差距。


(Not Boring)

Chris Manning、Ian Goodfellow 和 Fan-Yun Sun 也加入了潜在世界模型的阵营,创立了潜在实验室 Moonlake。Manning 帮助开创了神经自然语言处理并共同创建了 GloVe。Goodfellow 发明了 GAN(生成对抗网络)。

Moonlake 的计划很有趣:生成完整的游戏环境来吸引人类玩家并收集动作标签数据,然后在语义/符号空间而非像素空间中建模世界。也就是说,他们用美丽的游戏环境吸引真实的人类玩家(因为需要人类生成动作标签数据),但一旦有了数据,就完全丢弃像素,转而在抽象表征上训练。

最终,潜在和生成式模型不应该被视为对立的。Moonlake 的混合方法就是证据。它们只是服务于不同目标。潜在世界模型由于丢弃了一些信息通常计算效率更高,在表征学习和规划方面有优势。生成式世界模型应该更通用,因为理论上它们捕获了所有视觉信息,在可解释性和泛化方面有优势。

生成式世界模型

生成式世界模型是我们所知的最接近模拟人类感知现实的东西。如果我们的世界是一个模拟,它可能是某种生成式世界模型。

这是 General Intuition 主要聚焦的范式。这也是 Google DeepMind 发布 Genie 3 时震撼世界的那个范式。

生成式世界模型产生人类可观察的、交互式的未来,你可以看到、在其中行动、从中学习。你可以看到模型认为接下来会发生什么。模型接收一个状态和一个动作,产生一个合理的下一个状态,你可以在其中再次行动。这就像你能看到并操控的梦境。

这对训练循环在很多情况下有改进作用。生成式和潜在模型都可以在想象中学习。但当视觉细节很重要,或者下游任务尚不确定时,带有所有像素级细节的生成式世界模型学习,往往表现更好。这只在生成的环境足够丰富以供学习时才有效。生成的世界越偏离现实,Agent 学到的教训越差。这正是 DIAMOND 所展示的:当生成世界中有更多细节时,Agent 更聪明。

General Intuition 在这个扩散和流匹配架构上构建,部分由现在是其联合创始人的研究者开发,他们构建了 IRIS、DIAMOND 和 GAIA-2。

Wayve 是自动驾驶领域生成式世界模型的领导者。通过使用大型潜在扩散世界模型离线做梦,他们旨在梦出在现实中需要数百万英里驾驶才能找到的边缘案例,在上面训练驾驶策略,在模拟中评估策略表现,然后将梦境经验蒸馏成一个更小的可以实时推理的车载策略。Wayve 创始人 Alex Kendall 最近展示了在日本道路上的零样本驾驶。

Decart 将生成式世界模型应用于实时生成模拟,产生响应用户动作的可玩世界。有趣的是,Decart 目前运行在英伟达 GPU 上,但计划使用 Etched 的 Sohu 芯片,这是一种为运行 Transformer 设计的定制 ASIC,可以改善延迟并运行连续推理。

Runway 也在模糊视频生成和世界生成之间的界线。Runway 联合创始人兼 CTO Anastasis Germanidis 解释了公司的进化:“要构建世界模型,我们首先需要构建一个非常好的视频模型。我们相信这是构建世界模型的正确路径,教模型直接预测像素是实现通用模拟的最佳方式。”Google DeepMind 也采取了类似方法;Genie 3 是建立在 Veo 之上的。

这些世界模型极其重要。但请记住,它们只是等式的一半。从一开始,无论是 1990 年的 Schmidhuber 还是 1991 年 Sutton 的 Dyna,计划都是用世界模型训练 Agent 在世界内部行动,然后将那些学习迁移到现实世界。

具身 Agent

我们想分享目前市面上几个主要的具身智能体案例及其各自的方法:Physical Intelligence 和其他机器人公司的 VLA(视觉-语言-动作模型)、DreamerV4 的潜空间世界模型智能体、Google Deepmind 的 Sima2 通用具身智能体,以及 General Intuition 的通用智能体方法。

Physical Intelligence 与 VLA(视觉-语言-动作模型)。现代多模态 LLM 配备了 VLM(视觉-语言模型),一个能看能读的模型。给它一张图片和一个问题,它就能产出连贯的、有依据的答案。当你给 Claude 发一张山的照片让它定位时,它就在使用 VLM。

2023 年 Google DeepMind 发表了 RT-2 论文,提出了一个方案:取一个理解场景和该做什么的 VLM,然后加上一个动作头(action head),将人类语言指令翻译成机器人理解的指令,比如改变位置或旋转。从那时起,VLA 成为机器人领域的主导范式,效果出人意料地好。


图丨 Google RT-2(Google)

其他所有范式都在说:“图像、视频、空间和动作与文字有本质不同。我们需要用不同于生成文字的模型的方式来训练和架构生成它们的模型。”VLA 说:“这可能是对的!那些方法可能在柏拉图式理想上更好。但在实践中这不重要,因为视觉 - 语言模型的基础设施和数据遥遥领先。”

Not Boring 之前关于机器人的文章中,Standard Bots 的 Evan Beard 写了一个“辛辣观点”:我们使用语言模型基础设施不是因为它是机器人的完美架构,而是因为我们作为一个物种,已经将数万亿美元和无数工程时间投入到了构建 LLM 基础设施中。复用这台机器太诱人了。

当然这种方法有挑战:机器人领域的成功迄今严重依赖扩散式控制;LLM 是自回归和基于 token 的,容错空间更小;物理动作不能干净地映射到 token。此外,与世界模型相比,VLA 需要收集大量真实世界机器人数据;它们在分布外的泛化似乎不太好。

尽管如此,Physical Intelligence(π)已经用 VLA 押注走得很远了。他们的第一个通用策略 π₀继承了互联网规模预训练的语义知识和视觉理解,在 7 个不同机器人平台的 68 个独特任务上训练,比如叠衣服、收拾碗碟、布线、组装箱子、装杂货,所有这些都需要真实世界中的灵巧操作。

后续的 π₀.5 在新环境中表现更好。π*₀.6 表明机器人可以从经验中学习并随时间改进。最近的“具有长短期记忆的 VLA”则展示了机器人可以清理整个厨房、为食谱准备食材、烤芝士三明治。带记忆的机器人在第一次失败后会尝试不同方法。

MEM 没有改变底层架构。大部分参数仍然在语言骨干中,动作头仍然在推理之后。但 Physical Intelligence 的存在提出了一个迷人的问题:这些架构限制在实践中真的重要吗?

如果说潜在世界模型在“柏拉图式←→实用主义”光谱的一端,VLA 就在另一端。

Pi 至今能够通过工程手段绕过架构限制来制造越来越有能力的机器人。他们的进步没有放缓,似乎在加速。

这是有历史先例的赌注。理想的技术,那些技术上优越的解决方案,并不总是赢家。这是 W. Brian Arthur 1989 年论文《竞争性技术、递增回报与历史事件的锁定》的关键启示。市场常常收敛于最先被采用的技术,因为采用创造了递增回报。这也是 Sara Hooker 2020 年论文《硬件彩票》的要点:“一个研究想法获胜是因为它适合当时可用的软件和硬件,而不是因为这个想法优于替代研究方向。”

从外部看,Pi 的策略似乎是乘着 Transformer 架构的递增回报,试图在世界模型特定架构获得牵引力之前用 VLA 创造路径依赖,赢得自己的“硬件彩票”。它们不是唯一做这个赌注的公司。Skild,最接近的直接竞争者,也在 VLA 上构建。

最近,据《华尔街日报》报道,前 OpenAI 首席研究官 Bob McGrew 正在为他的新公司 Arda 以 7 亿美元估值融资 7,000 万美元,描述听起来至少涉及 VLM 和 VLA:开发 AI 和软件平台,包括一个可以分析工厂车间视频并用它来训练机器人自主运行工厂的视频模型。

我个人不认为 VLA 和世界模型真的在竞争。它们试图从不同方向达到在物理世界中行动。VLA 是语言优先的,世界模型是视频-动作优先的。两者可能会趋同,都成为解决方案的一部分。

DreamerV4——潜在世界模型 Agent。

潜在方法对 Agent 训练有天然的优雅。因为潜在世界模型在压缩的抽象空间中运作,Agent 的规划和策略学习可以非常高效地发生,不需要像素生成。Agent 基本上通过思考来练习。

典型例子是 Google DeepMind 的 Danijar Hafner 开发的 Dreamer。Dreamer 的洞察很优雅:如果你有一个足够好的潜在世界模型,训练期间完全不需要触碰真实环境。Agent 完全在潜在空间中想象动作序列及其后果,接收奖励信号,更新策略,全程没有一次真实世界交互。当它最终进入真实环境时,它已经知道该做什么了。

Dreamer 在从游戏到连续控制到机器人的广泛任务中取得了不错的成绩。据 The Information 最近报道,Hafner 和 Wilson Yan 正在筹集 1 亿美元建立一家名为 Embo 的世界模型公司。

挑战在于,Agent 学到的行为只和潜在表征一样好。如果世界模型的抽象编码遗漏了某些因果上重要的东西,比如决定机器人是否打滑的地板纹理,或决定物体能否被抓取的精确角度,Agent 不会知道要关注它,因为模型没有编码它。垃圾进,垃圾出,但垃圾是看不见的。

SIMA 2——基于 VLM 骨干的通用具身 Agent

Google DeepMind 在 2025 年 11 月发布了 SIMA 2。它将 Gemini 骨干与在 3D 游戏环境中训练的世界模型相结合,赋予 Agent 对语言的理解(可以接收和推理目标)以及执行目标的时空理解。

与 VLA 不同的是“公民身份”(citizenship)的方向。在 VLA 中,语言是一等公民,图像是二等公民。在配备世界模型的 Agent 中,视频是一等公民,动作从一开始就被引入,训练数据直接对齐我们寻找的下游行为。Agent 的基本能力是时空的。如果你告诉它需要做什么,它知道如何在世界中移动去做。

SIMA 2 可以独立玩游戏,可以学习、推理和改进。它玩得越多就越好,不仅在它玩过的游戏中,而且在任何游戏中。它甚至能在任何生成的世界中玩,即使从未见过。Google DeepMind 认为这是“朝着创造能在任何地方帮助完成任何任务的 AI 迈出的一步,包括有朝一日在现实世界中”。

General Intuition——从动作和世界模型出发的通用 Agent

与 Google DeepMind 类似,General Intuition 也相信通用 Agent 将在具身系统如何运作以做有用的事情方面发挥重要作用。

首先创建梦境。然后让 Agent 在其中奔跑。让它们玩耍、犯错、学习、获胜。然后将那些学习迁移到其他梦境,甚至迁移到真实世界。

回想《黑客帝国》。当 Neo 需要学功夫时,他插入了一个虚拟道场,在一个优于“真实世界”的训练环境中与 Morpheus 对练。之后?“I know Kung Fu。”世界模型就是虚拟道场。Neo 就是 Agent。

这是 Ha 和 Schmidhuber 八年前提出的问题:Agent 能在自己的梦中学习吗?

在非常短的时间内,这个领域已经有了答案:能,只要你拥有动作标签数据(或能获得它)。

到目前为止写到的每一种方法最终都撞上同一面墙:需要更好的数据。视频很丰富,但它缺乏深度。它没有动作标签。没有知道什么动作导致了我们看到的东西,视频数据就像柏拉图洞穴墙上的影子。

Yann LeCun 可能是对的,你可以推断动作。但任何使用推断动作的人都有单独的扩展定律要考虑:推断动作本身需要计算、时间和注意力。虽然推断动作可能在基准测试上看起来不错,但在边缘案例上会严重挣扎。即使推断得好的动作也只是某人实际所做的近似:有些东西在视频中根本看不到,比如从驾驶舱着陆时移动方向舵。提示:如果你不做,你会坠机。这就是为什么 ground truth 至关重要。

在 General Intuition 之前,是 Medal

之前谈到了游戏在 AI 发展中的重要性。除了 AlphaGo 和深蓝这些有意使用游戏的案例,还有更丰富的游戏与 AI 之间偶然联系的历史。

英伟达是你可能知道的例子。Jensen 于 1993 年创立英伟达为游戏制作实时图形芯片。1999 年发布第一个“图形处理单元”(GPU)GeForce 256。几年后研究者开始用 GPU 做神经网络实验。2007 年英伟达发布 CUDA。2009 年斯坦福三位研究者展示 GPU 可以将深度学习的无监督学习加速 70-100 倍。


图丨 GeForce 256(Nvdia)

2012 年 AlexNet 团队用 GPU 在 ImageNet 竞赛中碾压对手。一年内深度学习界全部切换到 GPU。然后比特币矿工开始用 GPU,然后是以太坊矿工,直到以太坊转向 PoS,留下 GPU 过剩。同月加密货币见顶,英伟达股价也跌了 66%,直到 OpenAI 发布 ChatGPT,此后英伟达市值增长了 10 倍到今天的 4.4 万亿美元。

谁能预测到这一切?

13 岁时我自学了逆向工程,学会编程来构建一个私人 RuneScape 服务器。RuneScape 开发者从游戏中移除了荒野和自由交易功能,我想把它加回来,所以学会了逆向工程。到 18 岁时这个业务年收入约 150 万美元,但因为成年后要承担法律责任我不得不关闭。

赚了足够的钱后,我 19 岁加入了无国界医生组织(MSF),待了三年从事埃博拉和人道主义地图工作。在 Google Crisis Response 待了一段时间,然后我对游戏的热情又回来了。

2018 年,我和之前构建 RuneScape 服务器的同事一起做了一个叫 Get Wrecked 的游戏,获得了大量注册但很快流失玩家,竞技游戏需要足够的玩家流动性。为了解决这个问题,他们构建了一个在平台上观看游戏片段的功能。片段平台 Medal 在 Rocket League subreddit 上爆红。下载量太大了,很快就清楚这才是更大的机会。游戏从未发布。Medal 一直在增长。今天,全球玩家每年向 Medal 上传超过 10 亿个游戏片段。

这是一个构建世界模型和策略的绝佳数据集,而且不是计划出来的。

Medal 的上传量与 YouTube 相当。玩家每天上传数百万个片段,跨越数万个环境,已经由玩家亲手筛选出高光时刻和意外事件。换句话说,他们分享的是他们认为值得分享的内容:最佳表现、最疯狂的遭遇、最惊险的瞬间。

Medal 数据有 YouTube 数据所没有的东西。它附带了社交网络的元数据(浏览量、点赞、评论),更重要的是,游戏内动作。Medal 只在本地机器上记录游戏动作,只存储游戏内动作名称(比如“前进”)而不是按下的按键。

每个片段都有玩家看到的确切内容,以及随之而来的确切玩家动作,使用的是与当前控制机器人相同的许多系统。来自游戏的帧还有一个好处:信息完整。与真实世界视频不同(你需要做姿态估计来推断人类看到了什么,这本身是一个有损过程),在游戏中,录制的内容和你看到的永远一致。

这给了他们数万亿个玩家运行“观察、预测、行动”循环的例子。这是智能的基础,整个过程没有信息损失。


(Not Boring)

关于数据

还有一个重要区分需要厘清。人们把“数字的”和“合成的”混为一谈,但真正的区分不在于数据生成的环境,而在于数据本身。

物理世界中可以有合成数据(比如波士顿动力和其他机器人公司在人工建造的环境中训练的那些),数字世界中也可以有人类 ground truth 数据。Medal 的游戏数据是“数字环境中的人类 ground truth 数据”,捕获的是真实的人类反应,是“观察→预测→行动”循环。


(Not Boring)

最接近的类比是 GitHub 数据。它捕获了人类工程师编码的历史,被用来训练出了能比人类编码更好的机器。问题是这个想法在计算机之外是否也能工作。General Intuition 相信(并正在看到迹象),从游戏数据中学习可以迁移到物理世界。

游戏被证明是学习智能的完美训练场。它们包含数千个模拟世界,具备物理、策略、合作、文本、界面使用、竞争和长时间跨度规划。它们足够复杂到需要直觉,又足够结构化到可以大规模学习。

仅靠物理世界数据无法达到学习通用智能所需的多样性或规模。LLM 缺乏关于动态和原子的数据。但游戏充当了理想的中介:数字世界的比特与物理世界的原子之间的桥梁。

不过也存在威胁。LeCun 认为,如果你足够擅长推断动作,每个视频都是动作标签数据。长期来看这可能是对的,但今天极其不实用。

一切都是权衡。最优路径可能在 VLA 今天所处的位置(最实用但最不优雅的方案)和 AMI 有朝一日可能到达的位置之间的某个地方。一切归结于你对数据的态度。

数据是任何想解决具身 AI 的公司面临的核心问题。General Intuition 相信他们的数据集是通用模型数据问题最优雅的答案。

对于通用模型,可以在几乎任何可想象的真实世界情况中直觉式、自发式地驱动具身 AI 的模型,问题不仅仅是你能获得多少数据。在把数据扔给问题之前,你需要理解你的迁移曲线(transfer curves)。

小步、大跃和迁移曲线

Not Boring 之前关于机器人的文章写过,构建经济上可行的具身 AI 有两种方法:小步(Small Step)或大跃(Giant Leap)。Standard Bots 追求小步方法:在现场边赚钱边学习,一个用例接一个用例。他们跨越许多不同的行业和任务收集多样的真实世界数据。

General Intuition 和 Standard Bots 从光谱的两端来到同一个问题。


(Not Boring)

General Intuition 试图从数字端解决泛化:赌注是游戏数据将产生关于物理和动作的广泛先验。Standard Bots 试图从物理端解决泛化:赌注是真实世界部署将产生关于操作和工业任务的广泛先验。

这两种方法是互补的。GI 的世界模型可以成为 Standard Bots 后训练的起点。GI 提供在数字环境中观察到的数据上训练的基础模型(可扩展且经济地收集),Standard Bots 用他们有偿收集的特定用例数据进行后训练。

General Intuition 认为更具挑战性的方法是收集大量数据然后希望它泛化到分布外任务。通用模型需要太多跨越太多情况的数据,无法全部通过付费让人演示任务来收集。

此外,同一领域的更多数据不会自动教模型处理它从未见过的情况。在预训练阶段,并非所有数据都是平等的。我还没有遇到一个构建通用机器人模型的人,能指出扩展定律证明他们可以仅通过添加更多数据来解决分布外用例。

这些扩展定律还不存在。

据 General Intuition 目前所知,有三种不同的迁移曲线决定世界模型是否能泛化到新的物理环境。它们目前还不太被理解,但可以命名为:输入模态迁移、传感器迁移和环境迁移。

第一种是输入模态迁移:策略在物理系统的自由度之间泛化得如何?对于一个具有 20 到 60 个自由度的人形机器人来说,这条曲线很陡。手指运动不独立于手臂。从游戏手柄训练然后期望它干净地迁移到 20 自由度的人形手,这在研究层面是一个没有扩展定律支撑的赌注。

第二种是传感器迁移:如果工作负载需要专门的物理传感器(触觉反馈、本体感受、深度),需要多少传感器特定数据才能让模型可靠地推理?特斯拉明确地解决了这个问题,花了多年弄清楚在完全放弃 LiDAR 芯片之前需要多少 LiDAR 数据。

第三种是环境迁移:当环境变得更复杂、更随机、更多人时,表现如何衰退?在一个有千人的体育场中预测正确动作,比在空旷场地上困难得多。复杂度不是线性扩展的。

这三条曲线相互作用。在你能映射它们之前,你无法知道你实际需要多少什么类型的数据,也就无法证明大规模去收集数据的资本支出合理性。

General Intuition 的赌注是坍缩这个问题。通过聚焦游戏控制器输入,他们将输入模态迁移减少为一条已经解决的曲线,他们有数十亿个人类使用控制器的片段。这消除了一个未知数。通过聚焦基于视觉的输入而非专业传感器,他们消除了第二个未知数。

几乎每个物理系统都配备了类似游戏控制器的输入模态,包括方向盘、键盘鼠标和实际的游戏控制器。大多数都很直接。即使人形机器人也配备了它们。挑战只是如果自由度超过控制器能做的,迁移会更差。所以人形机器人在路线图上更靠后,但他们认为没有物理限制表明不能围绕接口限制进行构建。

简而言之:如果你可以用游戏控制器控制几乎任何物理系统,而 General Intuition 拥有世界上最多的“玩家使用控制器采取动作时会发生什么”的数据,他们的 Agent 应该能够控制几乎任何物理系统。

唯一剩下的问题是关于环境迁移:在梦中训练的 Agent 能在现实中操作吗?

世界模型的超人类未来

在 General Intuition 位于纽约和日内瓦的办公室里,过去的几周充满了疯狂与惊喜。我们在这里写到的一切都比预期的效果更好。和其他人一样,我们正在增强一种信念:在梦中训练的 Agent 可以在现实中操作。

为什么世界模型能迁移?

观察-预测-行动循环是因果结构系统一般如何工作的一种抽象。一旦世界模型通过多样的游戏集看到了 N 个世界的变体,只需要少量微调就能理解第 N+1 个对应真实世界的变体的动态。

世界模型学习建模现实的因果关系。如果这种因果关系在足够基本的层面被理解,世界模型就应该能泛化到新场景。

General Intuition 的目标是让具身 AI 理解世界,让他们的模型在任何环境中控制机器,包括现实世界。他们的目标是为机器人带来一个突破时刻,突然之间,进步显而易见,模型易于使用。

这个突破不会看起来像 LLM 的突破。LLM 因为开始像人类一样跟我们对话而变得主流。我们不希望机器只是做人类做的事。事实上,机器的意义在于做人类做不到的事,赋予我们超能力。

机器人不需要长得像我们才能为我们工作。人形机器人作为形态因素在很大程度上是基于一个假设选择的:它们有最多的数据可以从互联网上的人类视频中学习。

如果你不需要那些视频,如果你可以直接从各种具身形态的电子游戏动作中学习,而且只需要少得多的数据就能迁移到现实,那个假设就不成立了。机器人的未来应该由更简单、更便宜的系统塑造:只具有与实际工作匹配的自由度的机器。

人类身体是一个不可思议的通用平台,但对于任何特定任务来说,它很少是最优(或最具成本效益)的形式。与其复制我们的解剖结构,不如镜像我们已经本能使用的接口:操纵杆、方向盘、游戏手柄和键盘。这些工具是几十年迭代的产物,将人类意图压缩成一个干净的、通用的动作空间,就像语言对思想所做的那样。

General Intuition 还在积极研究模拟,最终将使他们的系统超越目前用像素描述的一切,延伸到所有受因果关系支配的东西。他们使用的方法非常通用。这还很遥远,但是必要的一步。

如果我们能建模三维性、物理和时间及其交互,那么在超人类的宏观和微观尺度上操纵这些领域的能力就在地平线上了。前方还有大量工作。今天没有人能够模拟一个生物细胞,更不用说由 10^30 个细胞组成的生态系统。但 Pim 说令他着迷的是,我们不需要映射现实的所有细节。我们只需要观察那些细节如何体现在动作中,并用那些动作来预测接下来会发生什么,一遍又一遍。

构建这些模型也伴随着巨大的责任,这是我非常严肃对待的事情。


(Not Boring)

我来自最容易受到 AI 位移影响的一代人;我的一半童年朋友找不到工作。我正在花大量时间探索如何在这场转变中带上我的社区和我这一代人。例如,像特斯拉一样,Medal 拥有超过 100 亿美元的全球硬件基础设施,GPU、CPU,插着电,有散热,由超过 1,500 万用户驱动。

我们正在积极探索让社区分享即将到来的东西的方式,例如通过让用户的 GPU 提供推理服务来产生收入,或从我们的游戏设备进行遥操作。如果通用智能的需求接近我们的预期,这可能是我们这一代人所见过的最大经济顺风。

这些现在只是我的梦想。但有一天,它们不再只是梦想。有一天,我们把无聊的问题留给超级智能,这样我们就可以从游戏设备上探索星空或深海,梦想下一个独属于人类的、最有趣的、不无聊的事情。

参考资料:

https://www.notboring.co/p/world-models#footnote-3-191268033

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。