文 | 划重点KeyPoints
11月24日,斯坦福大学教授、World Labs创始人李飞飞参加播客访谈,详细阐述了她对空间智能(Spatial Intelligence)的构想,并讨论她与杨立昆在世界模型(World Models)上的不同观点流派问题。
在世界模型的构建上,李飞飞与前Meta首席科学家杨立昆(Yann LeCun)的理念常被外界视为两种流派。杨立昆倾向于让模型学习世界的抽象“隐式表征”,而不必还原每一帧像素;而李飞飞的Marble则力求从抽象的内部表征中产生显式表征,明确输出可视化的3D世界。
李飞飞并不认为两者是对立关系,她表示如果最终要构建一个通用的世界模型,隐式表征和显式表征最终都是必要的。World Labs采用的是“刻意为之”的显式输出,因为其商业目标服务于游戏开发、视觉特效和建筑设计等领域的人类创作者,他们的日常工作需要一个可视化的、可交互的3D输出结果。但在模型内部,RTFM同样包含隐式表征。她认为,未来的架构将是两者的混合体。
作为World Labs的创始人,李飞飞在访谈中透露了公司的首个产品Marble,以及其背后的技术底座“实时帧模型”(RTFM)。与单纯生成视频的模型不同,Marble致力于生成具有一致性和持久性的3D空间,其模型不仅是多模态的,支持文本、图像、视频甚至粗略的3D布局作为输入,更重要的是它试图在推理过程中保持物体一致性。
她说,目前的LLM主要通过海量的文本数据学习,虽然语言模型令人惊叹,但人类大量的知识是无法仅通过语言捕捉的。为了构建真正的通用人工智能,AI必须走出文本的限制,通过视觉和行动去体验物理世界。人类的学习过程本质上是具身(Embodied)的,我们在没有语言的情况下与世界大量互动,感知光线、触觉、重力和空间关系。
当被问及目前的AI是否真正“理解”物理世界时,李飞飞认为,目前大多数生成式视频中展现的水流或树木摆动,并非基于牛顿力学计算,而是基于海量数据的统计学涌现。虽然AI可能通过数据拟合出运动定律,但要达到爱因斯坦提出相对论那种层面的抽象,目前的Transformer架构尚未展现出足够的证据。
对于技术的演进速度,李飞飞认为在五年内,我们有望看到AI在理解物理世界方面取得重大进展。她描绘了一个基于“多重宇宙”(Multiverse)的未来图景:通过大幅降低3D内容生成的门槛,人类可以低成本地创造出无数个平行世界,这些数字平行世界将成为人类物理体验的无限延伸,重塑娱乐、教育、远程协作以及科学探索等多个领域场景。
1. 空间智能是核心
仅靠语言不足以构建通用人工智能(AGI)。人类大量智能(如空间推理、急救反应)是非语言的。AI必须获得“空间智能”(Spatial Intelligence),要像生物一样,拥有深度感知的空间能力,建立起看、做和想象之间的完整闭环。
2.世界模型的新范式
World Labs 的核心产品 Marble 与普通视频生成模型的最大区别在于“物体恒常性”(Object Permanence)。在 Marble 生成的世界里,当你转身再转回来,背后的物体依然存在且保持原状,而不是像梦境一样随机变形。
李飞飞团队提出了“实时帧模型”(RTFM),其目标是在单张 H100 GPU 的算力约束下,实现高效的 3D 空间推理。这是为了构建一个在几何上一致、在时间上持久的“数字容器”,为未来能够理解物理法则的 AI 打下地基。
3. 与杨立昆和而不同
杨立昆主张世界模型要做抽象理解的“隐式表征”,李飞飞的Marble则力求从抽象的内部表征中产生显式表征。李飞飞认为隐式表征和显式表征最终必须融合,但目前 World Labs 刻意选择输出显式 3D 表征,目的是赋能人类。
未来的AI 不应只是一个黑盒,而应成为游戏开发者、建筑师和艺术家的“神经空间引擎”(Neural Spatial Engine)。它融合了传统物理引擎(如Unreal)的确定性规则和生成式 AI 的统计创造力,让普通人也能瞬间构建复杂的 3D 交互世界。
4. 视觉领域的“Next Token”难题
语言模型有完美的“预测下一个Token”作为目标函数。但在视觉领域,“预测下一帧”虽然强大但并不完美,因为它将三维世界压缩为二维,丢失了结构信息。寻找视觉领域的“通用任务函数”仍是未解之谜。
5. AI目前还不懂物理
AI生成的物理现象(如重力、碰撞)多源于统计规律的模仿,而非对物理定律的因果理解。现有的Transformer架构可能难以产生如“相对论”般的高级抽象,未来五年,行业需要寻找一种新的架构突破,让 AI 从统计相关性跨越到真正的因果逻辑和物理推理。
以下为李飞飞访谈实录:
主持人:欢迎收听本期播客。在这一集中,我很荣幸再次与人工智能先驱李飞飞博士对话。几年前我曾在播客上邀请过飞飞,我也推荐大家去听那一期节目。
在今天的对话中,我们将探讨她关于“世界模型”(World Models)的见解以及“空间智能”(Spatial Intelligence)的重要性——这些都是打造真正理解现实世界并能与之互动的 AI 的关键要素。虽然大型语言模型(LLMs)已经非常惊人,但大量(甚至大部分)人类知识并未被文字所捕捉。为了实现更广义的人工智能,模型需要亲身体验世界,或者至少通过视频来学习。我们还讨论了她的创业公司 World Labs 以及他们的第一个产品 Marble。Marble 可以从模型的内部表征生成令人难以置信的复杂 3D 空间。
1. 从计算机视觉到空间智能的演进
主持人:我想先把话题从Marble 和你们那个能生成一致且持久的、供观众漫游的 3D 世界的新模型上移开,多谈谈你为什么把重点放在世界模型和空间智能上。为什么这是超越单纯语言学习的必要条件?
另外,你的方法与杨立昆的方法有何不同?你现在的世界模型工作,究竟是你过去在环境智能(Ambient Intelligence)工作的延伸,还是平行的另一条路线?
李飞飞:过去几年我一直思考的空间智能工作,实际上是我整个计算机视觉职业生涯重点的延续。
我之所以强调“空间智能”,是因为我们的技术已经发展到了这样一个阶段:其复杂程度和深层能力已经不再停留在仅仅“盯着”一张图像的层面,甚至不仅仅是简单的视频理解。现在的核心是深度感知的空间,这与机器人学、具身智能(Embodied AI)以及环境智能都紧密相连。从这个角度看,这确实是我在计算机视觉与 AI 领域职业生涯的自然延伸。
主持人:正如你和其他许多人所指出的,语言模型是从以文本编码的人类知识中学习的,但那只是人类知识的一个非常有限的子集。人类的学习是通过在没有语言的情况下与世界大量互动获得的。因此,如果我们要超越当前这些虽然了不起但仍有局限的大型语言模型,开发出能对世界有更直接体验、能更直接从世界中学习的模型就显得尤为重要。
谈到具体方法,以Marble 为例,你的做法是将模型学到的世界内部表征提取出来,并创建一个与之对应的外在视觉现实。而杨立昆的方法主要是建立内部表征,让模型能够学习运动物理定律之类的东西。这之间有平行关系吗?这两种方法是互补的,还是有重叠?
李飞飞:首先,我不会把自己和杨立昆对立起来。我认为我们在智力上处于同一个连续体中,只是对空间智能和世界建模采取了不同的切入点。
如果你读过我最近发表的那篇关于“空间智能”的长文(我称之为宣言),我在这一点上说得很清楚。我认为,如果最终要构建一个通用的、全能的世界模型,隐式表征(Implicit Representation)和某种程度的显式表征(Explicit Representation)最终可能都是必要的,尤其是在输出层。
例如,World Labs 目前的世界模型 Marble 确实会显式地输出 3D 表征,但在模型内部,它同时也包含隐式表征。老实说,我认为这两者最终都是不可或缺的。
在输入模态方面也是如此。是的,从视频中学习非常重要,毕竟整个世界可以看作是大量连续帧的输入。但真正的智能,无论是对于动物还是机器,不仅仅是被动观看。它还涉及到动作、互动的具身体验,以及触觉、声音、气味、物理力(Physical Forces)、温度等。因此,我认为这在本质上是深度多模态的(Deeply Multimodal)。
Marble 作为一个模型只是第一步。在我们几天前发布的那篇技术报告中,我们要表达得相当明确:多模态既是一种学习范式,也是一种输入范式。目前学术界对此有很多讨论,这也展示了该领域正处于早期且令人兴奋的阶段。可以说,我们在确切的模型架构和表征方式上的探索还远未结束。
2. 超越文本:多模态输入与学习范式
主持人:在你那个世界模型中,输入主要是视频吗?
李飞飞:如果你体验过Marble,你会发现我们的世界模型输入是相当多模态的。你可以只使用纯文本,也可以使用一张或多张图像,可以处理视频,甚至可以输入粗略的 3D 布局(比如盒子或体素)。它是多模态的,而且我认为随着我们的推进,这方面的能力会进一步加深。
文本只是一种形式。是的,但这正是我们产生分歧的地方。大多数动物并不是通过复杂的语言来学习的,但人类是。不过,我们今天的AI 世界模型(World Models)将从大量的语言输入以及其他模态中学习,它并非仅仅通过语言来进行信息的压缩和传递。
主持人:这也是大型语言模型(LLMs)的一个限制,即模型在训练后参数就固定了。所以它们不会持续学习,尽管在测试时的推理阶段会有一定程度的学习。这是你在构建世界模型时试图解决的问题吗?因为我们可以推测,世界模型在遇到新环境时应当是不断学习的。
李飞飞:是的,持续学习(Continuous Learning)范式确实非常重要。对于生物来说就是如此,这也是我们人类学习的方式。即使在生物学习中,也存在在线学习与离线学习的区别。在我们目前的世界模型形式中,仍然更多地处于批量或离线学习模式。但我们绝对持开放态度,尤其是未来涉及到在线学习和多模态融合时。
主持人:那会是怎样的?会是一个完全不同的架构,还是仅仅是工程实现的问题?
李飞飞:我会保持开放的心态。我认为会是两者的混合。显然这需要优秀的工程实现,比如微调(Fine-tuning)和在线学习,但也可能会出现新的架构。
主持人:你能谈谈实时帧模型(Real-Time Frame Model)吗?以及你们在世界模型方面的工作?
李飞飞:你指的是我们几周前发布的一篇技术博客,那是专门深入探讨我们的实时帧模型的。World Labs 是一个以研究为主的组织,虽然我们也关心产品,但现阶段大量工作是以模型为先的。我们正着重研究如何推进空间智能(Spatial Intelligence)。这项特定的工作实际上是专注于如何实现基于帧的生成,并尽可能保持几何一致性和持久性。
在早期的基于帧的生成操作中,当你向前移动视角时,往往会失去那种物体持久性。在这个特定案例中,我们努力实现平衡,并在推理期间以计算高效的方式完成这一点,即在推理时仅使用单个H100 GPU。我们不太清楚其他基于帧的模型的情况,因为他们没透露推理时使用了多少芯片,但我们假设那是相当大的算力消耗。
3. 寻找空间智能的“通用任务函数”
主持人:在你的那篇“宣言”里,你谈到了需要一个“通用任务函数”(General Task Function)。这类似于语言模型中的“下一个 Token 预测”(Next Token Prediction)。它是否带有预测元素?
李飞飞:生成式AI 最重大的突破之一,确实是发现了“下一个 Token 预测”这个目标函数。这是一个非常优美的表述,因为语言是以序列化方式存在的,你可以将语言 Token 化为这种序列表示。你用于下一个 Token 预测的学习函数,正是推理时所需要的。无论是人类还是计算机生成语言,实际上都是一个接一个地把标记向前推进。拥有一个与最终实际执行任务完全(100%)对齐的目标函数是极好的,因为它使优化可以完全针对目标进行。
但在计算机视觉或世界建模中,情况没那么简单。语言本质上是人类生成的,自然界中并不存在你盯着看的“语言”,哪怕你最终学会了阅读,那也是因为它已经被生成了。但我们与世界的关系要更加多模态:世界就在那里等着你去观察、解读、推理并与之交互。人类还有一种“心眼(Mind's Eye)”,能够构建不同版本的现实、想象并生成故事。这要复杂得多。
主持人:那么,定义这个通用任务的是什么?或者说,我们可以使用的通用目标函数是什么?有什么能像“下一个 Token 预测”一样强大吗?是 3D 重建吗?
李飞飞:这是一个非常深刻的问题。有些人实际上会争辩说,世界建模的通用任务可能就是对世界进行3D 重建。如果这是目标函数并且我们达成了它,很多事情就会水到渠成。但我并不这么认为,因为大多数动物的大脑并不一定会进行精确的三维重建,然而老虎或人类在空间上却是如此强大的视觉智能体。
“下一帧预测”确实有一定力量。首先有大量用于训练的数据;其次,为了预测下一帧,你必须学习世界的结构,因为世界不是白噪声,帧与帧之间存在大量结构连接。
但这也令人不满意,因为你把世界当作二维的,这种压缩方式非常糟糕。即使你做得完美,3D 结构也只是隐式的,这种基于帧的方式会丢失很多信息。所以在这方面仍有很多探索空间。
主持人:我得问你,你们把模型命名为RTFM(Real-Time Frame Model),这是个玩笑吗?
李飞飞:这确实是一次绝妙的“表演”。名字不是我起的,是我们的一位研究员,他在命名方面真的很有天赋。我们觉得用那个名字玩个梗很有趣。
主持人:但是RTFM 是在预测下一帧,并且具有三维一致性,对吧?
李飞飞:是的。
主持人:这就是模型所学内部表示有趣的地方。比如我看着电脑屏幕,即使看不见背面,我也知道它长什么样,因为我脑海中有它的内部表征。这就是为什么你可以在屏幕这个二维平面上移动物体,却能看到它的另一面。模型拥有三维物体的内部表征,即使它当前的视角看不见物体的背面。当你说到空间智能时,这是否包括自然的物理法则?比如理解你不能穿过一个固体物体?或者如果站在悬崖边,它知道那是边缘,如果走过去会掉下去而不是浮在空中?
李飞飞:你描述的既有物理层面也有语义层面。从悬崖掉下去很大程度上取决于重力定律,但穿墙而过则基于材质和语义(固体与非固体)。目前作为一个现有模型,RTFM 还没有把重点放在显式的物理学上。
大部分的“物理”实际上是从统计中涌现的。许多生成式视频模型展示的水流或树木移动,并不是基于牛顿力学定律和质量计算出来的,而是基于对大量统计模式的遵循。World Labs 目前仍然专注于生成和探索静态世界,但我们也将探索动态,其中很多将是统计学习。
我不认为今天的AI 有能力在不同层次上进行抽象并推导物理规律。另一方面,我们有像 Unreal 这样的空间物理引擎,其中有明确的物理定律在起作用。最终,这些游戏引擎/物理引擎将与世界生成模型融合成我称之为“神经空间引擎(Neural Spatial Engine)”的东西。我们正朝着那个方向前进,但现在还处于早期阶段。
4. 显式表征的价值:赋能创作者与产业
主持人:我不是想让你和杨立昆对立。但你似乎关注的是从抽象的内部表征中产生显式表征,而杨立昆只是关注内部表征。
李飞飞:在我看来它们会完美结合。我们同时探索两者。输出显式表征其实是一种非常刻意的方法,因为我们希望这对人有用。
我们希望这对那些在创作、模拟和设计的人有用。如果你看看当今的行业,无论你是在制作视觉特效(VFX)、开发游戏、设计室内、还是为机器人或自动驾驶车辆进行仿真(数字孪生),这些行业的工作流程都非常依赖 3D。我们希望这些模型对个人和企业都绝对有用。
主持人:这就回到了持续学习的话题。比如一个机器人上的模型,通过摄像机在世界中移动获取数据,最终它不仅学习场景,还理解空间的物理性,然后与语言结合?这是否需要持续学习?
李飞飞:绝对如此。尤其是当接近某个用例时,持续学习至关重要。这可以通过多种方式实现:在语言模型中,将上下文本身作为输入就是一种持续学习(作为记忆);此外还有在线学习和微调。在空间智能领域,无论是个性化机器人还是具有特定风格的艺术家,最终都会推动这项技术在不同时间尺度上变得更具响应性,以满足具体用例的需求。
5. 未来展望:AI模型的技术跨越
主持人:你现在的进展非常快,特别是想到你曾在新泽西经营过干洗店,虽然那是很短的一段时间,但这种跨越真是令人惊叹。你对这项技术五年后的发展程度有什么判断吗?比如模型内部是否会内置某种物理引擎,或者拥有更长时间尺度的学习能力,从而建立起更丰富的内部表征?也就是说,模型是否会开始真正理解物理世界?
李飞飞:实际上,作为一名科学家,很难给出一个精确的时间预测,因为有些技术的进展比我预期的快得多,而有些则慢得多。但我认为这是一个非常好的目标,而且五年确实是一个相当合理的估计。我不知道我们会不会更快实现,但在我看来,这比猜测五十年要靠谱得多,当然也比猜测五个月要靠谱。
主持人:你能否稍微谈谈,为什么你认为“空间智能”(Spatial Intelligence)是下一个前沿?正如我们所知,包含在文本中的人类知识只是全部人类知识的一个子集。虽然它非常丰富,但你不能指望一个 AI 模型仅通过文本就能理解世界。能具体谈谈为什么这很重要吗?以及 Marble 和 World Labs 是如何与这个更大的目标相关联的?
李飞飞:从根本上讲,技术应该帮助人类。与此同时,理解智能科学本身是我能想到的最迷人、最大胆、最有雄心的科学探索,这是属于21世纪的探索课题。
无论你是被科学的好奇心吸引,还是被用技术帮助人类的动机驱动,这都指向了一点:我们的大量智能,以及我们工作中的大量智能是超越语言的。我曾半开玩笑地说,你无法用语言去灭火。在我的宣言里,我举了几个例子:无论是空间推理、DNA 双螺旋结构的推导,还是一名急救人员在快速变化的情况中与团队协作灭火,很多内容都超越了语言。
所以,从应用角度来看这是显而易见的;作为一项科学探索,我们应该尽最大努力去破解如何发展空间智能技术,带我们进入下一个层次。从宏观角度来看,这就是驱动我的双重动机:科学发现以及为人类制造有用的工具。
我们可以更深入地探讨一下其实用性。无论是在谈论创造力、模拟、设计、沉浸式体验、教育还是医疗保健,甚至是制造业,利用空间智能可以做的事情实在太多了。实际上,我很兴奋,因为许多关心教育、沉浸式学习和体验的人告诉我,Marble(我们需要发布的首个模型)激发了他们思考如何将其用于沉浸式体验,使学习更具互动性和趣味性。这是如此自然,因为还不会说话的儿童完全就是通过沉浸式体验来学习的。即便作为成年人,我们的生活也大多沉浸在这个世界中,虽然包括听说读写,但也包括实践、互动和享受。
主持人:是的。Marble 让所有人都印象深刻的一点是,它不仅仅是生成下一帧画面,而是在一个空间中移动,而且它仅在一块 H100 GPU 上运行。我在你其他的演讲中听到你提到过“体验多重宇宙”(experiencing the multiverse)。大家一开始都很兴奋,直到意识到这需要巨大的计算量和昂贵的成本。你真的认为这是朝着为教育创建虚拟世界迈出的一步吗?因为看起来你们已经能够减少计算负担了。
李飞飞:首先,我真的相信在推理方面我们会加速,我们将变得更高效、更优秀、规模更大、质量更高。这是技术的趋势。我也相信多重宇宙的概念。就我们所知,整个人类历史的经验只存在于一个世界里,确切地说是地球这个物理实体。虽然有极少数人登上过月球,但也就仅此而已。我们在3D 空间中建设文明、生活、做所有事情。
但随着数字革命和数字爆炸,我们正把生活的一部分转移到数字世界中,这两者有很多交叉。我并不想描绘一种我们放弃了物理世界的反乌托邦图景,也不会描绘一种每个人都戴着头盔、永远无法欣赏真实世界的极端乌托邦式虚拟世界,那是生命最充实的部分,我会拒绝这两种极端观点。
但从实用角度以及对未来的设想来看,数字世界是无边无际的。它是无限的,它为我们提供了物理世界无法允许的更多维度和体验。例如,我们讨论过关于学习的问题。我真希望能以更互动、更沉浸的方式学习化学。我记得大学化学课有很多关于分子排列、理解对称性和分子结构不对称性的内容。我真希望能在沉浸式体验中亲自感受那些东西。
我遇到的许多创作者,我意识到在他们的脑海中,每一瞬间都有无数的想法,但他们受制于工具的限制。例如使用Unreal Engine(虚幻引擎),要把脑中的一个世界表达出来需要花费数周甚至数小时的工作时间。无论你是制作一部奇幻音乐剧,还是为新生儿设计卧室,如果我们允许人们像在物理世界中一样,充分利用数字宇宙去反复尝试、交流和创造,那将非常有趣。
此外,数字时代也在帮助我们打破物理边界和劳动的限制。比如远程操控机器人。我完全可以想象创作者通过具身化的化身(Avatar)在全球协作,通过机械臂或任何形态以及数字空间,使他们既能在物理世界中工作,也能在数字世界中工作。电影行业也将被彻底改变,现在的电影是被动体验,尽管很美好,但我们将改变获得娱乐的方式。所以这一切都需要多重世界。
主持人:还有关于瞬移或者遥操作机器人,比如有人在谈论在小行星上开采稀土。如果你不需要亲身到场,而是能远程操作机器人,那就在那些空间里实现了。你所谈论的是创建人们可以体验的3D 空间的显式表征。在你的模型中,这个模型自身在多大程度上“理解”它所处的空间?它是内化了这些信息,还是仅仅是将其显式地投射出来?
这是一个朝着真正理解世界的人工智能努力的过程。不仅仅是对三维空间有一个表示,而是真正理解物理定律,理解它所看到的东西,甚至包括这些东西的价值、有用性,以及如何操纵物理世界。你认为目前已经存在多少这样的理解?要让那些模型真正理解这个世界,还需要发生什么?
李飞飞:这是一个很棒的问题。“理解”是一个很深刻的词。当AI “理解”某样东西时,它本质上与人类的理解不同。部分原因是我们是非常不同的存在。人类是具身的(embodied),是在一个有形的身体里存在的。例如,当我们真正理解“我的朋友很高兴”时,这不仅仅是抽象的理解。你能感受到你体内发生的化学反应,释放快乐激素,心跳加速,情绪改变。那种理解层次与抽象的AI Agent非常不同。
AI Agent能够正确地分配意义并建立联系。例如,在 Marble 我们的产品中,你可以进入世界生成的高级模式进行编辑。你可以预览这个世界并说:“我不喜欢这张沙发是粉色的,把它换成蓝色。”然后它就把它改成蓝色。它是否理解“蓝色沙发”和“更改”这个词的含义?是的。因为没有这种理解,它就无法执行任务。
但它是否像你我一样理解关于沙发的一切?包括沙发的用途、甚至无用的信息?它有关于沙发的记忆吗?它会把“沙发”这个概念推广到许多其他事物上吗?不,它没有。作为一个模型,它的能力有限,只能根据要求创建一个包含蓝色沙发的空间。
所以我认为AI 确实能“理解”,但不要将这种理解误解为拟人化的、人类层面的理解。这种理解更多是语义层面的,而不是那种光线打在视网膜上产生感知体验的理解。
主持人:我看过你和Peter Diamandis 以及埃里克·施密特(Eric Schmidt)的讨论。其中有一点让我印象深刻,是关于 AI 可能具有创造力或用于辅助科学研究的讨论。当时给出的类比是:如果在爱因斯坦发现相对论之前就有人工智能,AI 能推理出那一发现吗?对于 AI 来说,要具有这种科学推理层面的创造力,还缺少什么?
李飞飞:我认为我们更接近于让AI 推导出双螺旋结构,而不是提出狭义相对论。部分原因是我们已经看到了很多出色的蛋白质折叠相关工作。推断双螺旋结构的表示更扎根于空间和几何。
而狭义相对论的表述是在抽象层面上。我们在物理中看到的所有事物,从牛顿定律到量子力学,都是将作用抽象到因果层面。比如质量、力这些概念,是被抽象到不再仅仅是纯粹统计模式生成的层次。语言可以是统计性的,3D 或 2D 世界的动力学可以是统计性的,但对力、质量、磁性以及因果关系的抽象,并非纯粹的统计性,而是非常深刻的因果性和抽象性。
我和Eric 在台上都在说,如果我们把所有关于天体观测的数据、卫星数据都聚合起来交给当今的 AI,它也许能通过数据推导并拟合出牛顿运动定律。
主持人:既然AI 如果给出数据就能推断出运动定律,那你为什么认为它无法推导出相对论那些定律呢?
李飞飞:当我们说那些定律被“推导”出来时,牛顿不得不推导、抽象出诸如“力”、“质量”、“加速度”以及那些基本常数的概念。那些概念处于一个我还没有在目前的AI 中见过的抽象层面。
如今的AI 可以利用大量数据,但在那个层面的抽象表示、变量或关系上,还没有太多证据表明它能做到。我并不了解 AI 中发生的一切,如果我被证明是错的,我很乐意接受。但我还没听说过有任何工作能在 Transformer 模型的架构中做到那种层次的抽象。我看不出那种抽象能从哪里来,这就是我对此表示怀疑的原因。这需要构建内部抽象的内部表征,以及应用逻辑知识的规则。这可能需要我们在基础架构和算法上取得更多进展。
主持人:这正是我想问的。你一直在和人们讨论后Transformer(post-transformer)架构。你是否预期会出现一种新的架构能解锁其中一些能力?
李飞飞:我同意,我确实认为我们会有架构上的突破。我不认为Transformer 是 AI 的最后一项发明。在宏观的时间尺度上,与宇宙历史相比,人类存在的时间并不长,但在我们简短的历史中,我们从未停止创新。所以我不认为Transformer 是 AI 的最终算法架构。
主持人:你曾提到,你曾设想如果你能让一个AI 系统为图像打标签或生成说明,那本该是你职业生涯的巅峰。当然你早就超越了这一点。那么现在,你想象中未来职业生涯的巅峰成就从今天开始会是什么?
李飞飞:我确实认为开启“空间智能”很重要。创建一个真正将感知与推理相连接的模型:从“看见”到“做”,包括规划和想象,并将想象转化为创造。那会非常了不起。一个能同时做到这三点的模型。





京公网安备 11011402013531号