当前位置: 首页 » 资讯 » 科技头条 » 正文

LeCun怒揭机器人最大骗局,坦白Llama与我无瓜

IP属地 中国·北京 编辑:陈丽 新智元 时间:2025-10-27 10:14:51

一场公开演讲,LeCun毫不留情揭穿真相:所谓的机器人行业,离真正的智能还远着呢!这番话像一枚深水炸弹,瞬间引爆了战火,特斯拉、Figure高管纷纷在线回怼。

人形机器人,也成为了AI圈最大的骗局?

最近在MIT的一场讲座中,Meta首席AI科学家LeCun一语道破了机器人界最大的秘密——

这些公司压根不知道,如何让机器人变得足够「聪明」,或是说达到通用智能的程度。

家用机器人的实现,还需要AI领域取得一系列突破。

自动播放

机器人在工厂里拧螺丝、搬货等,可通过特定任务训练实现,但让它们在家中叠衣服、倒水、理解人的意图,还很难。

他将这种差距,比作「窄智能」和「通用智能」的鸿沟。

而突破的核心,在于打造一款真正可以规划的「世界模型」架构,即能够学习理解和预测物理世界系统。

谁曾想,LeCun这番话再次捅了「马蜂窝」,直接给这场狂热泼了一盆冷水,引机器人界大佬上阵怒喷。

特斯拉Optimus AI负责人Julian Ibarz直言,我不同意LeCun的观点。

在内部,特斯拉对于如何快速实现通用人形机器人,已经有了非常明确的思路。

Figure创始人Brett Adcock直接喊话,「谁去和LeCun说一声,让他别端着了,亲自下场干点实事吧」!

Yann LeCun:

LLM只是记忆力好,智商还不如猫

Yann LeCun一直领先于时代的主流认知,但好像每次都是对的。

在1987年,他在现在的索邦大学(Sorbonne)获得博士学位,论文英文标题是《Connectionist Learning Models》「连接主义学习模型」。

论文的核心是建立了神经网络中反向传播算法的理论基础。

而在当时,大多数人还在研究专家系统。

他怎么想到这个研究方向的?这又如何影响了他以后的职业发展?

在MIT演讲中,Yann LeCun回顾了他如何踏上人工智能研究之路。

上大学时,他有点偶然地发现,原来早在50-60年代,包括1981年诺奖得主David H. Hubel和Torsten N. Wiesel等人,就已经开始思考「自组织」的问题——也就是系统如何自我组织学习。

这一方向后来催生了「机器可以学习」的早期想法。

他觉得这个想法特别迷人,而且当时他「初生牛犊不怕虎」——

我一直认为,生物学给工程提供了很多灵感。在自然界中,所有活着的东西都有适应能力,只要有神经系统就能学习。

所以,我当时想,也许我们人类没那么聪明,构建智能系统最靠谱的方法,可能是让它自己学会变聪明。

也许,正是这种「愣头青」的心态让他走上了机器学习这条路。

他坦言,当时「机器学习」不是AI研究的主流。

由于当时几乎无人从事相关研究,他一度难以找到博士导师。

之后,他与Geoffrey Hinton合作,随后进入贝尔实验室Bell Labs与纽约大学NYU任职。

人工智能领域在1990至2000年代经历「寒冬」,但2013年LeCun加入Facebook,创立FAIR(Facebook AI Research),并推动「深度学习」这一术语取代「神经网络」,标志着产业界开始系统性地接受这一范式。

2018年,因在概念与工程领域的突破性贡献,他让深度神经网络成为计算技术的关键组成部分,和Bengio、Hinton共享图灵奖。

顺便提一句,Yann LeCun访问清华大学时,确定了自己的中文名「杨立昆」。

但这次,Yann LeCun直言:「LLM就是一条死胡同,世界模型才是正道」。

他指出,文本属于「低带宽」数据源,「仅靠文本训练永远无法实现人类水平智能」。真正的智能来源于高带宽的感知输入——视觉、听觉、触觉等多模态经验,而非低维度的离散符号。

他将大语言模型训练所需的数万亿标记词元,与儿童处理的海量感官数据进行对比:

四岁儿童通过视觉接收的数据量,已相当于所有公开文本训练的最大规模LLM的数据量。

他进一步指出,LLM有时虽能提供实用的结果,甚至让人误以为其「智商堪比博士」,但这些系统只是「回忆」训练中的信息。

LeCun指出,大语言模型(LLM)存在本质瓶颈——虽然形式上通过「学习」取代了显式编码,但仍依赖人类知识的间接转移。

LLM不具备任何真实意义上的智能——甚至不如一只猫。

他强调,即便猫的大脑仅含约2.8亿个神经元,其对物理世界的理解与行动规划能力仍远超当前AI系统。

猫能感知三维空间、判断物体稳定性、规划复杂动作,而目前的所有生成式模型恰恰无法企及这些能力。

因此,他真正关注的问题是:如何让机器学会物理世界的模型?

有点脑子的人,不再用LLM

世界模型,已成为LeCun的代名词。

对谈中,他再次给「世界模型」下了一个定义——

给到一个时刻t的世界状态,再给定一个智能体可能的动作,预测动作执行后的环境。

就好比,让一个机器人冲一杯咖啡,它需要想象一系列动作——拿起杯子、倒水、搅拌,并预测每一步的结果。

一旦系统配备了这样的世界模型,就可以进行规划:

设想一系列连续的动作,并利用模型预测这些动作所导致的结果。

同时,系统可结合一个「代价函数」(cost function),用于评估特定任务的完成情况。

在此基础上,可运用优化方法,搜索能够优化任务目标的最优动作序列,这一过程即为「规划与最优控制」。

LeCun称,团队所采用的「环境动力学模型」完全通过自监督学习的,也是当前方法的核心所在。

实验已证明,可以用世界状态的表示——来自现有模型DINO,无论是从零开始学习,还是基于V-JEPA 2等框架,都可以做到这一点。

机器人不用针对特定任务反复训练,只需从模拟数据或真实操作中学习「动作-结果」的关系,就能零样本完成新任务。

这种训练完全是自监督的。

当系统有足够好的世界模型,便能「想象」如何完成一个它从未被训练过的任务。

这一概念,在2016 NeurIPS大会主题演讲中,LeCun早已向世界传输——

世界模型,会成为未来AI系统的关键组件。

LeCun预测,「未来3-5年内,这会成为AI架构的主流模型」。

这话可让我在硅谷得罪了不少人,包括某些巨头公司。

到那时候,但凡头脑清醒的人,都不会再用现在这种生成式LLM的路子了。

主持紧接着问道,所以这能推动机器人技术,让未来这十年真正成为机器人的时代?

LeCun直言不讳,过去几年,打造「类人机器人」的初创公司如雨后春笋般涌现。

但行业的一大秘密是——它们还不知道如何让机器人真正「聪明」到实用级别。

所以很多估值数十亿公司的未来,基本上取决于是否能在「世界模型+规划」的架构上取得显著进展。

LeCun越说越激动,观点显然有些「生猛」。

主持人一听,马上话锋一转打了个圆场,「没关系,我们不担心那些公司。而且说真的,我们非常信奉创业精神」。

产业界在行动:机器人的世界模型

Yann LeCun的「冷静」,与多位行业领袖所鼓吹的激进时间表形成了鲜明对比。

Figure AI表现得尤为激进,其CEO Brett Adcock近期宣称:

明年就能实现通过语音指令,让人形机器人在陌生环境(比如从未进入的家庭)完成各类通用工作。

这位创始人解释称,其信心源自公司对软件与智能难题的攻关。

人形机器人拥有40个自由度(关节),可能产生的位姿组合数量甚至超过宇宙原子总数。

Brett Adcock强调「这个问题无法通过编程解决,唯一途径是神经网络」。

他将Figure的技术路径与同行对比,直言某些公开演示只是「戏剧表演」或预设程序。相反,Figure机器人的所有操作都「由神经网络驱动」。

耐人寻味的是,在一个关键问题上的判断与Yann LeCun不谋而合:他也否认制造业是主要突破方向,并指出「人形机器人当前的竞争焦点在于谁能攻克通用机器人技术」。

双方的核心分歧似乎在于——这个目标离我们究竟有多近。

与此同时,特斯拉正从另一个角度攻克难题。

马斯克始终聚焦「极其艰巨」的制造挑战,指出人形机器人规模量产「所需的供应链尚不存在」。

据报道,特斯拉正在建设年产百万台Optimus机器人的生产线,目标在2026年初推出具备「量产意向」的V3原型机。

然而专注制造并不意味特斯拉忽视AI难题。

在最近的计算机视觉顶会ICCV,特斯拉AI负责人Ashok Elluswamy详细介绍了公司的「神经世界模拟器」——一个通过车队视频数据训练的端到端系统。

不同于传统模型根据状态预测动作,神经世界模拟器能够基于当前状态与后续动作,直接合成未来状态。

这种机制使得模拟器可与智能体或策略AI模型形成闭环连接,从而实现对系统性能的精准评估。

Elluswamy确认,这套被视作世界模型问题直接解决方案的架构,将「无缝迁移」至Optimus机器人。

Yann LeCun的论断看似否定了整个人形机器人领域,但已有企业公开将其研发方向与他倡导的「世界模型」概念对齐。

获得OpenAI投资的挪威公司1X Technologies,近期发布了自研「世界模型」。

传送门:https://www.1x.tech/1x-world-model.pdf

如图所示,1X世界模型包含视觉编码器、动作编码器、核心网络,以及视频与状态价值解码器。通过对成功标签进行监督学习生成的状态价值预测,可对输入动作的质量进行量化评估。

1X世界模型的独特优势在于:允许从相同初始条件出发,并行部署不同策略进行直接对比。

1X团队在现实部署方面的审慎态度与LeCun不谋而合。

首席执行官Bernt Børnich在播客中坦言,让机器人进入家庭存在「理想与现实的落差」,指出「现实环境复杂得离谱」,甚至「Wi-Fi连接问题比机器人技术本身更棘手」。

这种务实立场,结合其轻量级肌腱驱动设计所带来的安全性优势,暗示着行业清醒认识到:Yann LeCun所说的「突破性进展」仍需要持续探索。

Yann LeCun的警告,最终重新定义了人形机器人竞赛的维度:胜利者,或许不属于推出最炫酷demo或设定最激进量产目标的厂商,而将属于那个率先攻克机器理解物理世界这一根本性难题的探索者。

彩蛋:Llama与我无瓜

全程半小时演讲中,还有一个大彩蛋。

Meta血裁AI部门研究员掀全网风暴之外,LeCun却一直对外撇清自己和Llama的关系。

几天前,他曾表示,自己并未参与任何Llama项目。

这一次,LeCun在演讲中再一次强调,「我并没从技术层面上,参与Llama的项目」。

搞笑的是,主持人前一句还在夸「Llama的诞生让世界AI民主化」,话音还没落,LeCun就在旁边急着插话——

我要坦白!

接着,他分享了幕后故事,「第一代Llama,其实有一点像『海盗』项目(pirate project),与官方LLM并行开发」。

大概2022年中后期,巴黎一个十来人的小组,决定做一个轻量高效的LLM,结果真做出来了。

没想到,它后来成为了「主力选手」。

最后,在2023年初,小扎下定决心组建了一个GenAI团队,也就如今的「超级智能实验室」(MSL)的前身,主要就是为了把它产品化。

但在技术上,我个人确实没怎么插手。

LeCun最后再一次重复——Llama与我无瓜,就差把它写在脸上了。

现场,主持人再次圆话,「但最后能跑出来的,往往还是『臭鼬工厂』(Skunk Works)这种模式」。

标签: 机器人 世界 模型 动作 公司 智能 人形 神经网络 状态 规划 难题 领域 核心 物理 技术 无法 量产 视觉 智商 环境 问题 目标 首席 行业 数量 维度 所需 系统 瓶颈 视频 现实 任务

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。