根据 CB Insights 的数据,2025 年人工智能领域的融资总额占风险投资总额的 48%,创历史新高。投资者押注人工智能技术栈的各个层面,包括基础模型,应用开发,以及 AI 数据中心等。
相比之下,机器人公司的总投资额达到 407 亿美元,占所有风险投资的 9%。因此,一个价值数百亿美元的问题随之而来:AI 驱动的机器人需要具备什么条件,才能开始产生重大的经济影响?
(CB Insights)
近日,俄勒冈州立大学的机器人学教授兼 Agility Robotics 的联合创始人 Jonathan Hurst(乔纳森·赫斯特),以及曾担任 Google X 旗下 Everyday Robots “登月计划”的首席执行官 Hans Peter Brøndmo(汉斯·彼得·布朗德莫)对于“机器人是否会有 ChatGPT 时刻”这一问题进行了深入探讨,并从五个方面进行了论证。
乔纳森是腿足式机器人领域的国际知名专家,专注于开发能在真实世界中行走、奔跑和工作的动态机器人。其团队研发的 Cassie 和 Digit 人形机器人已进入商业部署阶段。
汉斯领导“Everyday Robots”登月计划多年,致力于开发能在办公室等真实环境中自主工作的 AI 机器人。该项目是谷歌早期将 AI 与机器人结合的重要尝试,部署了上百台移动操作机器人,积累了大量真实世界数据和经验。
在他们看来,机器人领域不太可能出现像 ChatGPT 那样单一、爆炸式的 AI 突破,而是需要通过长期艰苦的工程实践、多种 AI 工具的协同配合,以及大量真实世界的数据和经验积累,才能逐步实现真正有经济价值的 AI 机器人。
网络视频与现实之间的鸿沟真实存在
多年来,网络上充斥着人形机器人跳舞或跑酷的炫酷视频,但机器人圈的常识是:“永远别信网络上的机器人视频。” 能在复杂的真实环境中干实事的机器人,与精心剪辑的“剧本式”表演之间,仍存在着巨大差距。
以近期广为宣传的机器人表演为例,尽管其底层控制与同步编舞极其出色,但这仍是一场经过严格编排的预设表演。它所展现出的自主性与智能水平,其实更接近流水线上的工业机器人,离真正走进你家客厅还差得很远。
答案很简单:让 AI 驱动的机器人在复杂多变的人类环境中执行通用任务,依然极其困难。表演这类技术奇迹或许会让人产生“未来已来”的错觉,但在这些演示中,AI 仅仅被用于底层的运动控制(比如防止机器人摔倒)。想要让机器人在真实且非结构化的人类空间中成为通用帮手,这种底层控制仅仅是庞大解决方案的冰山一角。
数据瓶颈仍是未解难题
诸如 ChatGPT、Claude 这样的大型语言模型(LLMs)之所以拥有强大的泛化与多模态能力,归功于其使用了海量且由人类生成的互联网数据,这也构成了 AI 训练的“黄金标准”。
然而,为 AI 赋予物理躯体并让其与现实世界互动,至今仍是极其困难的未解之题。
通用机器人的 AI 必须在复杂多变的环境中,同时应对物理、几何和时间等多重相互冲突的限制。为了具备通用性,它们必须依赖海量的高质量高维数据(涵盖光照、力度、速度、关节极限及安全边界等)进行训练,以应对现实世界中几乎无限的突发情况。
目前这类优质数据极其稀缺。业界只能依靠远程操作、人类动作捕捉以及模拟器探索等方式来收集数据,这是一项极其浩大的工程。例如,谷歌 Everyday Robots 仅为了训练一个垃圾分类模型,就在模拟器中运行了高达 2.4 亿次实例。而机器人的每一项单点技能,想要达到(甚至尚未达到)人类水平,都需要耗费同等庞大的数据量。
不存在单一的机器人 AI
依靠单一 AI 模型驱动通用机器人与我们共存的时代还极其遥远。
机器人的形态各异(轮式、双足、多臂、飞行或水下等),且现实世界极其复杂,充满了不可预知的人和动物。如何训练一个模型在所有这些场景中安全可靠地运行?答案很简单:做不到(至少在很长一段时间内不行)。
他们认为,引领通用机器人下一次重大突破的制胜架构将是面向机器人的“智能体 AI(Agentic AI)”。这是一种高层协调模型,能在有限监督下进行推理、规划、使用工具并从结果中学习。这些运行在机器人上的高级模型,将作为“中枢”去调用各种执行特定任务的专用子模型。不久的将来,我们有望看到多个机器人通过搭载的智能体 AI 实现相互协作。
AI 工具正在解锁机器人强大的新能力并催生新市场。令人振奋的是,这些模型正变得广泛可用,有些甚至已经开源。正如互联网的普及推动了真正的进步一样,随着人们能更广泛地访问这些 AI 工具和技术,机器人复杂行为的“平民化”将是不可避免的必然趋势。
硬件依然是一块难啃的骨头
机器人是高度复杂的系统,其安全性与实用性依赖于从感知系统、控制中心到每一个底层执行器的精准协同。
以执行器(电机和齿轮)为例,过去在工业机器人上大规模使用的硬件,根本无法胜任人类生活环境的需求。传统工业机器人一旦发生意外碰撞,冲击力极大且极具破坏性;而人类的动作模式完全不同,我们在与世界互动时具有极高的“柔顺性(compliance)”,常常利用与环境的物理接触来帮助完成任务。
以插钥匙为例:人类通常不需要将钥匙与锁孔完美对齐,而是凭感觉顺着边缘摸索并摇晃着插入。机器人想要具备类似的能力,就必须采用一种能敏锐感知力反馈、能与环境进行柔顺交互的新型执行器。尽管这类硬件目前已经存在,但针对在人类周围工作的机器人系统而言,它们还远未实现大规模的量产与普及。
真正的价值来自于“简单”的任务
看起来炫酷的任务与能创造实际价值的任务截然不同。机器人技术完美印证了“莫拉维克悖论(Moravec’s paradox)”:对人类极其困难的事(如复杂数学计算)对机器很容易,而对人类轻而易举的事(如幼儿般的动作)对机器却极其困难。
但商业落地是一块无情的试金石,客户只关心如何解决实际问题。AI 机器人必须在效率上超越现有方案,并具备绝对的可靠性与安全性。
以 Agility Robotics 为例,他们在客户现场部署人形机器人 Digit 时,团队发现首要障碍是安全。在人类空间中活动的机器人带来了新的风险,最初的部署甚至不得不拉起物理屏障。为此,团队耗费数年时间,深度依赖 AI 的人类检测和行为控制技术,才逐步攻克这一安全挑战。
(Agility Robotics)
已经被谷歌解散的 Everyday Robots 项目也带来了一些经验教训,2019 年在办公楼内部署自主擦桌子和垃圾分类的机器人时,团队迅速意识到真实世界对机器人而言有多么“混乱”和艰难。但正是这些现实经验指导了 AI 系统的架构,并收集了能与模拟数据相结合的宝贵真实数据。
只有立足于满足特定客户需求,并在真实场景中不断试错,才是打造实用 AI 工具并最终迈向通用机器人的唯一路径。脱离了丰富的现实世界经验,根本不存在所谓的顿悟时刻,没有一劳永逸的银弹算法,也没有任何海量数据能凭空捏造出一个通用机器人。
毋庸置疑,世界正通过机器人将 AI 引入现实的物理世界。乔纳森和汉斯认为 AI 会推动机器人进入“寒武纪大爆发”,但这个过程是渐进式、一步一个脚印的,而非一夜之间的奇迹。真正有价值的机器人将先在工厂、仓库、物流、养老、灾害救援等场景落地,然后逐步进入家庭。
参考链接:
1.https://www.cbinsights.com/research/report/venture-trends-2025/
2.https://engineering.oregonstate.edu/people/jonathan-hurst
3.https://www.linkedin.com/in/hanspeter/
4.https://spectrum.ieee.org/robotics-ai-breakthrough
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成





京公网安备 11011402013531号