1950年,当计算还主要停留在自动算术和简单逻辑层面时,艾伦·图灵提出了一个回响至今的问题:机器能思考吗?要在那个时代提出这样的问题,需要非凡的想象力——智能,或许并非只能诞生于生命体,而是可以被构建出来。正是这一洞见后来开启了一项持续至今的科学探索,我们称之为人工智能(AI)。在我从事AI研究的二十五年中,图灵的远见始终激励着我。但我们究竟走到了哪一步?答案并不简单。
今天,以大语言模型(LLMs)为代表的前沿AI技术,已经开始改变我们获取和处理抽象知识的方式。然而,它们仍像藏身黑暗中的“文字巧匠”:能言善辩,却缺乏经验;知识丰富,却没有扎根于现实世界。空间智能(spatial intelligence)将改变我们创造并与现实世界和虚拟世界互动的方式——它将重塑叙事与创作,推动机器人技术与科学发现,并带来更多尚未展开的可能。这正是AI的下一个发展前沿。
![]()
艾伦·图灵(1912-1954)英国计算机科学家、数学家、逻辑学家、密码分析学家和理论生物学家,被誉为计算机科学与人工智能之父。
自从进入这一领域,对视觉与空间智能的探索始终是指引我前行的“北极星”。正因如此,我投入多年时间构建了ImageNet——第一个大规模视觉学习与评测数据集。它与神经网络算法、以图形处理器(GPUs)为代表的现代计算能力一道,构成了现代人工智能诞生的三大关键要素。也正因如此,过去十年来,我在斯坦福大学的实验室持续将计算机视觉与机器人学习相结合。更因为如此,一年多以前,我与联合创始人贾斯丁·约翰逊(Justin Johnson)、克里斯托弗·拉斯纳(Christoph Lassner)、本·米尔登霍尔(Ben Mildenhall)一同创立了世界实验室(World Labs)——希望第一次真正、完整地把这种可能性变为现实。
在这篇文章中,我将尝试解释什么是空间智能,它为何重要,以及我们正在如何构建能够释放这一能力的世界模型。这种进展,将深刻重塑创造力、具身智能,以及人类社会的整体进步路径。
·空间智能:人类认知的脚手架
人工智能的发展从未像今天这样令人振奋。以大语言模型为代表的生成式AI模型已经走出研究实验室,进入日常生活,成为数十亿人进行创作、提高生产效率和沟通交流的工具。它们展现出的能力,曾被认为几乎不可能实现:如生成连贯的文本、如小山一般的代码、栩栩如生的图像,甚至可以轻松产出简短的视频片段。如今,问题已不再是AI能否改变世界——按照任何理性的标准,它都已经做到了。
但与此同时,我们仍然触及不到许多关键能力。关于自主式机器人的愿景虽引人入胜,却更多停留在设想阶段,距离未来学家们长期以来所描绘的“见诸于日常生活之中”仍然很遥远。在疾病治疗、新材料发现、粒子物理学等领域实现研究效率的飞跃式提升,这些梦想也大多尚未兑现。而一种真正理解并赋能人类创造者的AI——无论是帮助学生掌握分子化学中的复杂概念,协助建筑师想象空间结构,支持电影人构建虚幻世界,还是为任何人提供完全沉浸式的虚拟体验——依然遥不可及。
要理解为何这些能力迟迟未能实现,我们需要回到一个更为根本的问题:空间智能是如何演化而来的?它又是如何塑造我们理解世界的方式?
视觉长期以来都是人类智能的重要基石,但它的力量源于一种更为根本的能力。早在动物能够筑巢、抚育后代、使用语言交流或是建立文明之前,最简单的“感知”行为,便已悄然点燃了一条通向智能的进化之路。
这种看似孤立的能力——从外部世界中提取信息,无论是一丝微光,还是触摸到的质感——逐渐在感知与生存之间搭起了一座桥梁。随着世代更迭,这座桥梁不断加固、延展,也愈发精细。从它之上,一层又一层神经元生长出来,形成了神经系统,用以解释世界,并协调有机体与其环境之间的互动。因此,许多科学家推测,正是“感知—行动”这一循环,构成了智能演化的核心动力,也成为大自然塑造我们这一物种的基础——一个集感知、学习、思考与行动于一体的终极造物。
空间智能在决定我们如何与物理世界互动方面,起着根本性的作用。日常生活中,我们在最普通的行为里都依赖它:当倒车入位时,在脑海中想象保险杠与路沿之间不断缩小的距离;伸手接住从房间另一头抛来的钥匙;在人行道上穿行于人群中而不发生碰撞;或者半梦半醒地把咖啡倒进杯子里。在更极端的情境下,消防员需要在烟雾翻滚、结构随时可能坍塌的建筑物中行动,在一瞬间判断稳定性与生存概率,并通过手势、肢体语言以及一种无法用语言替代的职业直觉彼此相互沟通。在尚未学会说话的数月乃至数年之中,婴幼儿则几乎完全通过与环境的玩耍式互动来认识世界。这一切都自然而然地发生,几乎无需刻意思考——而这种流畅性,恰恰是机器至今仍未具备的。
空间智能同样是人类想象力与创造力的基础。讲故事的人在头脑中构建出高度丰富的世界,并借助各种视觉媒介将其传达给他人——从史前时代的洞穴壁画到现代电影,再到沉浸式的电子游戏。无论是孩子在海滩上堆沙堡,还是在电脑上玩《我的世界》,以空间为依托的想象构成了现实或虚拟世界中交互体验的基础。在许多工业应用中,对物体、场景以及动态交互环境的仿真模拟,也支撑着无数关键商业应用场景,从工业设计到数字孪生,再到机器人训练等等。
回顾历史,许多塑造文明进程的关键时刻,都离不开空间智能的核心作用。古希腊时期,埃拉托色尼将对影子的观察转化为几何测算:在锡耶纳(Syene)正午无影的同一时刻,他在亚历山大(Alexandria)测得太阳投下约7度的夹角,从而计算出地球的周长。哈格里夫斯发明的“珍妮纺纱机”则源于一次空间上的洞察:将多个纺锤并排安装在同一机架上,允许一名工人可以同时纺出多根纱线,并将生产效率提升了八倍。沃森和克里克通过亲手搭建三维分子模型发现了DNA的结构——他们反复摆弄金属片和金属丝,直到碱基对的空间排列在眼前“对上了”。在这些例子中,当科学家和发明者不得不操作实体与可视化结构,并在物理空间中进行推理时,空间智能推动了文明的前进——而这些能力,单靠文字是无法承载的。
![]()
弗朗西斯·克里克和詹姆斯·沃森构建了一个大型分子模型来详细展示DNA结构
空间智能是支撑我们认知体系的“脚手架”。当我们被动观察或主动创造时,它都在发挥作用;即便在最抽象的议题上,它也驱动着我们的推理与规划;无论是语言交流,还是身体互动,无论对象是他人还是环境本身,它都不可或缺。虽然我们大多数人并不会每天都像埃拉托色尼那样揭示新的真理,但我们思考世界的方式与之并无二致——通过感官去感知一个复杂的世界,再凭借对物理与空间运作方式的直觉理解,让世界变得可解释、可把握。
遗憾的是,今天的AI还无法像这样思考。
过去几年,AI确实取得了巨大的进展。多模态大语言模型(MLLMs)在文本之外,接受了海量的多媒体数据训练,初步引入了某种空间意识,使今天的AI能够分析图片、回答相关问题,并生成高度逼真的图像和短视频。与此同时,随着传感器和触觉技术的突破,目前最先进的机器人也开始能够在高度受限的环境中操作物体和工具。
但坦率地说,AI的空间能力仍然远远落后于人类,而且这种差距很快就会显现出来。目前最先进的MLLM模型在判断距离、方向和尺寸,或通过重新生成不同视角来“在脑海中”旋转物体时,其表现往往不比随机式的猜测好到哪里去。它们无法在迷宫中导航、识别捷径,或预测最基本的物理结果。AI生成的视频——刚刚起步时,确实令人惊艳——往往在播放几秒钟之后就失去连贯性。
尽管当前最前沿的AI在阅读、写作、研究以及数据模式识别方面表现出色,但在表征或与物理世界互动时,这些模型却面临根本性的限制。人类对世界的理解是整体性的:不仅是“看到了什么”,还包括事物之间在空间上的关系,这意味着什么,又为何重要。通过想象、推理、创造和互动来理解世界,而不仅仅是通过描述——这正是空间智能的力量。缺乏这种能力的AI,会与它试图理解的物理现实脱节。它无法可靠地驾驶汽车,无法在家庭或医院中引导机器人工作,无法真正开启沉浸式、可交互的学习与娱乐体验,也难以在材料科学或医学领域加速新发现。
哲学家维特根斯坦曾写道:“我的语言的界限,意味着我的世界的界限。”我并非哲学家。但我知道,至少对AI而言,世界不应只有语言。空间智能代表着语言之外的前沿——一种连接想象、感知与行动的能力,为机器真正地改善人类生活打开新的可能性,无论是医疗健康、创造力、科学发现还是日常辅助等领域。
·未来十年的AI:构建真正具备空间智能的机器
那么,我们该如何构建具备空间智能的AI?如何让模型既能带着埃拉托色尼那样的视野去进行推理,又能像工业设计师那样做到精确工程化,像讲故事的人那样富于想象力,并像一线应急人员那样流畅地与环境互动?
要实现空间智能,AI需要的远不止大语言模型(LLMs)。它需要的是“世界模型”——一种全新的生成模型,其在理解、推理、生成与交互方面的能力,能够应对语义、物理、几何与高度动态复杂的世界,无论是虚拟的还是现实的。这些能力,远非当下的LLMs所能企及。该领域仍处于起步阶段,现有方法包括抽象推理模型到视频生成系统,不一而足。世界实验室(World Labs)正是在2024年初基于这一判断而成立:基础性的路径仍在确立之中,而这,很可能构成未来十年AI发展的决定性挑战。
在这一新兴领域中,最重要的是确立指导发展的原则。就空间智能而言,我将“世界模型”界定为具备三项关键能力:
1. 生成性(Generative):世界模型能够生成在感知、几何与物理层面保持一致性的世界
能够真正实现空间理解与空间推理的世界模型,必须具备自行生成模拟世界的能力。它们需要能够生成无限多样、持续变化的模拟世界,并在遵循语义或感知层面指令的同时,保持在几何、物理以及动力学上的一致性——无论这些世界指向的是现实空间,还是虚拟空间。
研究界正在积极探索:这些世界是否应当以内隐方式表示,还是应当显式地编码其内在的几何结构。此外,除了强大的潜在表示之外,我认为,一个通用世界模型的输出,还必须能够在多种应用场景中生成明确、可观测的世界状态。尤其重要的是,它对“当下”的理解,必须与“过去”保持连贯——也就是说,与导致当前状态的一系列先前世界状态在逻辑上衔接一致。
2. 多模态(Multimodal):世界模型在设计之初即是多模态的
正如动物和人类一样,世界模型应当能够处理多种形式的输入——在生成式AI语境中,这些输入被统称为“提示”(prompts)。当只给定部分信息时,无论是图像、视频、深度图、文本指令、手势,还是具体动作,世界模型都应尽可能完整地预测或生成相应的世界状态。
这要求模型既能够以接近真实视觉系统的精度去处理视觉输入,又能同样自如地理解语义层面的指令。只有这样,智能体与人类才能通过多样化的输入方式,与模型围绕“世界”进行交流,并获得同样多样化的输出结果。
3. 交互性(Interactive):世界模型能够基于输入动作输出下一状态
最后,如果提示中包含动作和(或)目标,世界模型的输出就必须涵盖世界的下一状态——无论这一状态是以内隐方式表示,还是显式呈现。当输入仅包含一个动作(有或没有明确的目标状态)时,世界模型应生成一个与世界的先前状态、预期目标(若存在)以及其语义含义、物理定律和动力学行为相一致的结果。
随着具备空间智能的世界模型在推理与生成能力上的不断增强,可以设想,在给定目标的情况下,世界模型不仅能够预测世界的下一状态,甚至还能够基于新的状态,进一步预测下一步应采取的行动。
![]()
腾讯混元世界模型支持用户通过输入文字描述或上传图片,即可实时创建可交互的专属虚拟世界
这一挑战的规模,已经超出了AI以往所面对的任何问题。
语言是人类认知中一种纯粹的生成性现象,而“世界”所遵循的规则要复杂得多。以地球为例,重力支配着运动方式,原子结构决定了光如何产生颜色变化与明暗,无数物理定律约束着每一次互动。即便是在最富想象力的虚构世界中,也同样存在空间对象与行动体,它们必须服从各自定义世界的物理法则与动力学行为。
要在语义、几何、动力学与物理层面上保持整体一致性,需要全然不同的新方法。呈现一个世界的维度,其复杂度远远高于语言这种一维的、序列化的信号。要构建出能够接近人类所具备的那种通用能力的世界模型,我们必须跨越多道极其艰巨的技术门槛。在世界实验室,我们的研究团队正全力以赴,推动这一目标所需的基础性突破。
以下是我们当前的一些研究方向示例:
用于训练的全新通用任务函数:为世界模型定义一种像大语言模型中的“下一个词元预测”那样简单而优雅的通用任务函数,长期以来一直是该领域的核心目标。由于其输入与输出空间本身的高度复杂性,建立这样的函数在形式上天然更加困难。但尽管仍有大量问题有待探索,这一目标函数及其对应的表示方式,必须体现基本的几何与物理规律,尊重世界模型作为一种同时扎根于想象与现实的表征形式这一根本属性。
大规模训练数据:训练世界模型所需的数据,远比文本整理复杂得多。好消息是,庞大的数据来源已经存在:互联网上规模级的图像与视频集合,构成了丰富而易获取的训练材料。真正的挑战在于,如何开发一套算法,从这些二维图像或视频帧(即RGB信号)中提取更深层次的空间信息。过去十年的研究已充分展示了语言模型中,数据规模与模型规模之间的“扩展律”;而世界模型的关键突破,在于构建能够以相近规模有效利用现有视觉数据的架构。
此外,我并不低估高质量合成数据,以及深度信息、触觉信息等额外模态的价值。在训练过程中的关键阶段,它们能够对互联网规模数据形成重要补充。但前行之路仍然依赖于更先进的传感系统、更稳健的信号提取算法,以及更强大的神经模拟方法。
新的模型架构与表征学习方式:世界模型研究势必推动模型架构与学习算法的进化,尤其是在现有多模态大模型与视频扩散范式之外。当前方法通常将数据离散为一维或二维序列,这会让一些本不复杂的空间任务变得异常困难——例如,在一段短视频中统计独特椅子的数量,或记住一个房间在一小时前的样子。替代性的架构或许能够提供帮助,例如具备三维或四维感知能力的分词、上下文与记忆机制。
在世界实验室,我们近期提出了一种名为RTFM的实时生成式帧模型,正体现了这一转变。该模型以具有空间锚定的帧作为一种“空间记忆”,在保持所生成世界连续性的同时,实现了高效的实时生成。
显然,在通过世界模型全面释放空间智能潜力之前,我们仍然面临着艰巨的挑战。但这项研究并非停留在理论层面。它是新一代创意与生产力工具的核心引擎。而在世界实验室内部,我们已经看到了令人鼓舞的进展。最近,我们向一小部分用户展示了Marble的早期形态——这是首个能够接受多模态提示,并生成、维持一致三维环境的世界模型,供用户与创作者探索、互动,并在其创作流程中持续构建。而且我们正在努力让其能尽快向公众开放使用!
Marble只是我们迈向创建真正具备空间智能的世界模型的第一步。随着进展不断加速,研究者、工程师、用户以及商业决策者正逐渐意识到它所蕴含的巨大潜力。下一代世界模型,将允许机器在空间智能层面实现一次全新的飞跃——而这,正是解锁当下AI系统仍普遍缺失的一系列关键能力的前提。
·用世界模型为人服务、建设更好的世界
推动AI发展的动机至关重要。作为参与开启现代人工智能时代的科学家之一,我的立场始终明确:AI应当增强人的能力,而不是取代人。多年来,我一直致力于让AI的研发、部署与治理,与人类真实的需求保持一致。近年来,关于技术乌托邦或末日图景的极端叙事层出不穷,但我始终坚持一种更为务实的看法:AI由人创造、为人所用,也终将由人来治理。它必须尊重人的主体性与尊严。AI真正的“魔力”在于扩展我们的能力——让我们更具创造力、更紧密地连接彼此、更高效地工作,也更有获得感与满足感。空间智能正体现了这一愿景:一种能够赋能创作者、照护者、科学家与梦想者,让曾经不可能的事情成为现实的AI。这样的信念,正是我将空间智能视为AI下一个重要发展前沿的根本原因。
空间智能的应用,将在不同的时间尺度上逐步展开。面向创作的工具已经开始出现——世界实验室的Marble,已将这些能力交到创作者与叙事者手中。机器人技术则代表着一个更具挑战性的中期目标,需要我们不断打磨感知与行动之间的闭环。而在科学研究领域,最具变革性的应用还需要更长时间才能到来,但它们对人类未来福祉的潜在影响,可能是最为深远的。
在这些不同时间线上,有若干领域尤为突出,具备重塑人类能力的潜力。但实现这一愿景需要巨大的集体努力,远非任何单一团队或一家公司所能完成。它要求整个AI生态系统的参与——包括研究者、创新者、创业者、企业,乃至政策制定者——围绕一个共同的目标协同推进。但这一目标是值得追求的。以下,是这一未来图景中最重要的几个方向。
·创造力:为叙事与沉浸式体验赋予“超能力”
“创造力是在玩耍中的智慧。”这是我非常喜欢的一句爱因斯坦的话。早在文字出现之前,人类就已经在讲故事——把它们画在洞穴壁画上,通过世代口耳相传,围绕共同的叙事建构起完整的文化体系。故事,是我们理解世界、跨越时空连接彼此、探索“何以为人”的方式;更重要的是,它帮助我们在自身的生命与爱中寻找到意义。
今天,空间智能有潜力以尊重叙事本质重要性的方式,彻底改变我们创作和体验故事的路径,并将其影响力从娱乐拓展到教育,从设计延伸至建造领域。
世界实验室的Marble平台,正在把前所未有的空间能力与高度可控的创作工具,交到电影人、游戏设计师、建筑师以及各类叙事创作者手中,使他们无需承受传统三维设计软件的高昂成本,就能快速构建、反复迭代可自由探索的三维世界。创作本身依然是高度人性化的关键过程;AI工具所做的,仅仅是放大并加速创作者能够实现的可能性。具体而言,这包括:
新维度的叙事体验:电影人与游戏设计师正借助 Marble,在不受预算或地理条件限制的情况下,构建完整的世界,探索在传统制作流程中几乎无法尝试的场景与视角。随着不同媒介与娱乐形式的边界日益模糊,我们正在逼近一种全新的交互体验形态——融合艺术、仿真与游戏的个性化世界。在这样的世界中,不再只有专业工作室才能讲述故事,任何人都可以创造并“栖居”于自己的故事之中。随着将概念与分镜快速转化为完整体验的新工具不断出现,叙事将不再受限于单一媒介,创作者可以在多种载体与平台上构建具有共同线索的世界。
以设计承载空间叙事:几乎所有被制造的物体或被建造的空间,在成为现实之前,都必须先在虚拟三维环境中完成设计。这一过程高度依赖反复试错,时间与金钱成本都十分高昂。借助具备空间智能的模型,建筑师可以在投入数月时间设计之前,快速地将结构可视化,走进尚未存在的空间——本质上,是在讲述关于我们将如何生活、工作与聚集的故事。工业设计师与服装设计师,也可以即时将想象转化为具体形式,探索物体与人体、空间之间的互动关系。
全新的沉浸式与交互式体验:体验本身,是人类创造意义的最深层方式之一。在人类历史的大部分时间里,我们只触及唯一一个三维世界——即共同生活的这个物理世界。直到近几十年来,借助电子游戏与早期虚拟现实(VR)技术,我们才开始初步体会到“共享自造世界”的可能性。如今,空间智能与新的终端形态相结合,例如VR、扩展现实(XR)头显以及沉浸式显示系统,正在以前所未有的方式提升这种体验。我们正走向这样一个未来:进入一个完整、多维的世界,将变得像翻开一本书一样自然。空间智能使“造世界”的能力,不再只属于拥有专业制作团队的工作室,而是向个体创作者、教育者,以及任何心中有愿景的人开放。
·机器人:具身智能在行动
从昆虫到人类,动物都依赖空间智能来理解、导航并与世界互动。机器人也不会例外。具备空间感知能力的机器,自该领域诞生之初便是其追求的核心梦想之一——这也包括我在斯坦福大学与学生和合作者们长期以来的研究工作。正因如此,我对通过世界实验室正在构建的这类模型去实现这一目标的可能性,感到格外振奋。
通过世界模型扩展机器人学习规模:机器人学习的进展,取决于能否获得可扩展、可行的训练数据解决方案。鉴于机器人需要理解、推理、规划并与环境互动的状态空间可能性极其庞大,许多研究者认为,要真正创造通用机器人,必须结合互联网数据、合成仿真以及现实世界中的人类示范数据。然而,与语言模型不同,今天机器人领域的训练数据极为稀缺。世界模型将在这一问题上发挥决定性作用。随着其感知精度与计算效率的提升,世界模型的输出有望迅速缩小仿真与现实之间的差距,从而在无数状态、交互与环境的模拟中,协助训练机器人。
伙伴与协作者:机器人作为人类的协作者,无论是在实验室中协助科学家,还是在家庭中陪伴独居老人,都具备在严重需要劳动力或提升生产力的领域大显身手的潜力。但要实现这一点,机器人必须具备空间智能:能够感知、推理、规划并行动,同时——这一点是最重要的——始终与人类的目标与行为保持共情式的对齐。例如,实验室机器人可以操作仪器,让科学家专注于需要精细判断或复杂推理的任务;家庭助理机器人则可以帮助老人做饭,而不剥夺其自主性或生活乐趣。达成这一目标的关键在于真正的空间智能世界模型,能够预测下一状态,甚至能基于预测采取一致的行动。
![]()
作者认为,世界模型将在机器人的仿真数据、训练环境与评测基准构建中扮演不可或缺的角色
拓展具身形态的可能性:类人机器人在我们已构建的世界中具有其独特价值,但创新的真正红利将来自更加多样化的设计:用于药物递送的纳米机器人,能够穿行于狭小空间的软体机器人,以及为深海或外太空环境而设计的机器系统。无论形态如何,未来的空间智能模型,都必须同时整合机器人所处的环境,以及其自身的感知与运动能力。而在开发这些多样化具身形态中,最大的挑战之一,正是训练数据的匮乏。世界模型将在仿真数据、训练环境与评测基准的构建中,扮演不可或缺的角色。
·更长远的视野:科学、医疗与教育
除了创作与机器人应用领域,空间智能的深远影响,还将扩展到那些AI能够以“拯救生命、加速科学发现”的方式强化人类能力的领域。下面我重点强调三类具有高度变革潜力的应用方向。当然,不言而喻的是,空间智能的应用场景远不止于此,完全可以覆盖更多行业。
在科学研究中,具备空间智能的系统可以模拟实验、检验假设,并探索人类难以或无法进入的环境——从深海到遥远的行星。这类技术有望彻底改变气候科学、材料研究等领域中的计算建模方式。通过将多维仿真与现实世界的数据采集相结合,这些工具可以显著降低计算门槛,扩展每一间实验室所能观察、理解和验证的边界。
在医疗健康领域,空间智能将重塑从实验室到临床的整个流程。在斯坦福大学,我和学生及合作者多年来持续与医院、养老机构以及居家患者合作。这些经历让我更加确信,空间智能在医疗领域具有真正的变革潜力。AI可以通过多维建模分子的相互作用,加速药物发现;可以帮助放射科医生在医学影像中识别更细微的模式,从而提升诊断能力;还可以构建环境感知型监测系统,在不取代人类关怀的前提下,支持患者与照护者——而这种人际连接,正是治疗本身不可或缺的一部分。此外,机器人在多种医疗场景中协助医护人员与患者,也蕴含着巨大潜力。
在教育领域,空间智能能够实现沉浸式学习,使抽象或高度复杂的概念变得可感知、可见,并提供反复实践的体验——而这恰恰契合我们大脑与身体的学习方式。在AI时代,无论对在校学生还是成年人而言,更快、更高效的学习与技能再习过程都尤为重要。学生可以在多维空间中探索细胞内部的精细结构,或者“走进”一场历史事件的发生现场;教师则获得了通过交互式环境进行个性化教学的工具;专业人士——从外科医生到工程师——可以在高度逼真的仿真环境中,安全地练习复杂技能。
在所有这些领域中,充满着无穷的可能性,但目标始终如一:让AI增强人类专业能力,加速人类的发现,放大人类的关怀——而不是取代那些构成“人之为人”的判断力、创造力与共情能力。
·结语
过去十年来,AI已发展成为一种全球现象,也成为了技术、经济,乃至地缘政治中的重要转折点。但作为一名研究者、教育者,如今也是一名创业者,真正持续激励我的,仍然是图灵在75年前提出的那个问题背后的精神。我依然怀着他那样的一丝惊奇与敬畏。这正是空间智能这一挑战每天推动我前行的动力。
在人类历史上,我们第一次站在这样一个门槛上:有可能构建出与物理世界高度契合的机器,并将它们作为真正的伙伴,协助我们应对这个时代面临的最重大挑战。无论是在实验室中加速我们对疾病的理解,重塑我们讲述故事的方式,还是在面临疾病、伤痛或衰老等最脆弱的时刻给予支持,我们正站在一种新技术变革的边缘——它将提升我们最珍视的生活的各个维度。这是一种更深刻、更丰盈、也更有力量的人生愿景。
距离大自然在最远古的动物祖先身上首次点燃空间智能的火花,已经过去了近5亿年。而今天我们有幸身处这样一个时代,或许在不久之后的将来,我们这一代技术工作者将首次把同样的能力赋予给机器——更幸运的是,我们能够驾驭这种能力以造福全人类。若没有空间智能,我们对追求“真正的智能机器”的梦想将始终是不完整的。
(原文刊登在作者的Substack内容发布平台。译文仅供读者参考,不代表观察者网观点。)
![]()
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。





京公网安备 11011402013531号