
![]()
“数据稀缺体量小、模型时空能力弱、智能方案闭环难”是时空AI在物理世界发挥价值时需克服的三大挑战。”
作者丨胡清文
编辑丨徐晓飞
12月12日,第八届GAIR全球人工智能与机器人大会在深圳正式启幕。
本次大会为期两天,由GAIR研究院与雷峰网联合主办,高文院士任指导委员会主席,杨强院士与朱晓蕊教授任大会主席。
作为观测AI技术演进与生态变迁的重要窗口,GAIR大会自2016年创办以来以来,始终与全球AI发展的脉搏同频共振,见证了技术浪潮从实验室涌向产业深海。2025年,是大模型从“技术破壁”迈向“价值深耕”的关键节点,值此之际GAIR携手智者触摸AI最前沿脉动,共同洞见产业深层逻辑。
本次大会上,京东集团副总裁、首席数据科学家、IEEE Fellow、ACM杰出科学家郑宇教授亲临现场,为参会者带来了一场鞭辟入里的报告分享。
郑宇教授指出,人工智能过往取得的显著成功主要集中在虚拟世界,如大语言模型、数字孪生等,但真正的产业价值需要进入物理世界,即问题与数据的取用和反馈都要体现在物理世界层面。
基于此,郑宇教授回顾了时空AI的发展历程,并以雄安新区的智能城市建设为标杆案例,进一步分析了城市计算与具身智能之间的关系。他提出,城市计算可作为具身智能的方法论,而具身智能将成为城市计算的核心组件。未来城市有望成为“巨大的具身智慧体”,而管理城市就像玩游戏。
他认为,当下时空AI要在物理世界发挥价值需克服三大挑战:
1、数据稀缺体量小:传感器不可能遍布物理世界的任何地方,数据也不能无时无刻获得,同时数据采集成本高周期长。
2、模型时空能力弱:目前尚有很多物理规律处于未知状态,物理世界观测方法的有限性,以及人为因素的不确定性,三者叠加导致时空AI的建模非常困难。
3、智能方案闭环难:首先需要对物理世界进行观测获得数字信号,根据数据将建模形成的结果反馈给人,进而对结果进行修订和反馈,最终将处理后的结果执行到物理世界,才能形成智能方案的完整闭环,要完成这样的闭环并不容易。
以下是郑宇教授演讲的精彩内容,雷峰网作了不改变原意的整理与编辑:
01
何为时空AI?
我们这个工作,其实已经做了二十年,但最近才用时空AI作为话题来做报告,原因有两个:第一,人工智能要进入物理世界,必须要理解时空,现有的算法存在很大的瓶颈。
第二,我的好朋友李飞飞从视觉的角度出发,她发现视频中的内容不符合空间约束和物理规律,进而提出了“空间智能”,在整个业界非常火。
所以今天我以《时空AI:人工智能进入物理世界的基础理论和关键技术》为报告题目,来给跟大家讲讲时空AI的来龙去脉。
一方面,人工智能过往取得的成功主要集中在虚拟世界,包括大语言模型、图生文、文生图等,数据和问题也都集中于此。很重要,但远不够。
另一方面,我们一部分的工作,在感知完物理世界的状态之后,将其融入到虚拟世界,但解决的问题还是落在了虚拟世界。例如VR游戏中的体感传感器,可以感知人的姿态,帮助我们把游戏玩得更好,但本质还是解决虚拟世界的问题。数字人也是如此,它可以通过感知面部表情,帮助数字人更好地理解人的行为,但仍属于虚拟世界。
因此,人工智能要想发挥巨大的产业价值,一定要进入物理世界。也就是说,问题和数据都要来自于物理世界,随后通过感知,将数据在物理世界完成建模、分析之后,再反馈回物理世界。如具身智能、无人驾驶、城市应急管理等,都属于人工智能在物理世界的应用。
02
时空AI的三大挑战是什么?
人工智能要进入物理世界,面临三方面的挑战:
1、数据在物理世界非常稀缺,采集数据的成本非常高,周期也特别长。
2、物理世界要解决的问题,通常需要了解行业知识,而行业知识的积累需要时间。有时候要解决一个领域的问题,往往会发现这个领域的数据不足,还需要做跨领域数据融合,对多个领域的数据知识进行理解,要做到这一点非常难。
3、现有模型的应用,如自然语言处理、图像声音处理等,都不是出于时空角度的考量,要如何对时间空间属性进行很好地捕捉和体现?这也是一个难点。
![]()
今天我主要给大家讲讲第三个问题。
关于时空AI这个题目,李飞飞院士提的是Special AI,李德仁院士讲的是时空AI,他们加了一个Geo,变成Geo Special AI。那么这两个东西是否一样呢?我认为,本质上是一样的。
无论是使用摄像头、遥感还是地面传感器,区别只在于感知的手段不同,而感知的对象都是这个物理世界。由于物理世界本身具有时间特性和空间特性,所以感知的结果才会自带时空属性。它们只是在不同的角度,通过不同的感知方式,在不同的尺度和力度上做感知。
过去没有时空AI的相关定义,现在我们给它一个定义,大家一起探讨:
基于时间和空间维度的观测,以带有时空属性的数据为主要描述,通过与物理世界的动态交互和循环反馈,来感知、理解、影响和掌控物理世界中的物体行为和自然现象的人工智能理论、机器学习方法和数据挖掘技术,就是时空AI。
![]()
这其中包含很多定语,比如物理世界,感知状态。
那么物理世界与虚拟世界到底有什么不同?总结下来主要有四个方面:
第一是空间约束,包括江河、湖泊、海洋、山川、道路,这都是无法穿越的。
第二是物理规律,包括力学规律、能量守恒定律、星际运行法则等。
第三是物种行为,包括动物迁徙、人类活动、生物繁衍等。
第四是运行法则,包括城市运行管理、交通管理规则、航空运输法则。
这些不同叠加在一起,使得物理世界与虚拟世界产生显著差异,而这些不同也是我们的机器学习模型需要重点捕获的部分。
在物理世界中,我们习惯以时间+空间相结合来表述我们的观测结果,比如几点几分在哪里,要去什么地方,这些都是以时间节点+空间坐标的方式来表述的。观测方法上,既可以用传感器来感知,也可以用人来感知。
相对于虚拟世界,物理世界的AI交互方式比较复杂。首先需要对物理世界进行观测,获得数字信号,数字信号建模之后形成的结果反馈给人,进而对结果进行修订和反馈,最终将处理后的结果执行到物理世界,形成完整闭环。
这其中有很大部分人的因素,人不仅需要参于观测、模型设计、反馈给予,最终也是反馈的执行者之一。例如在无人驾驶过程中,人不一定会完全执行AI的指令,这一切人力因素都使得物理世界的AI交互会变得非常复杂。
在这个基础上,如前文所讲,当下AI进入物理世界的一大难点在于数据的不完备。传感器不可能遍布任何地方,数据也不能无时无刻获得。
对此我们的解决方法是,对观测数据中的时间属性和空间属性进行提炼和理解。
其中,时间属性包含临近性、周期性、趋势性等特性,例如今天早上8点的交通流量,跟昨天早上8点的交通流量相似,即便它们隔了24小时,这就是临近性。但随着天气转冷,大家起床越来越晚,早高峰随之得越来越晚,这就是趋势性。
空间属性方面,空间属性又包括空间距离、空间层次、及地理学第一定律等特性。例如一个城市包括市、区、街、小区、楼栋、单元门、房间、座位,这是空间的层次感。
![]()
只有将这些空间属性运用到在AI模型当中,才能做到提效和降低复杂度。
到这里,时空特性我们已经清楚地掌握了,大部分的空间约束也都是已知的,可以通过建模、卫星遥感、高精度地图等得到,那么我们还面临什么问题呢?
首先,仍有很多物理规律是我们所未知的,需要等待物理学家去挖掘。其次,由于观测方法的有限性,物理世界观测数据存在不足或缺失等问题,最后,就是上面提过的人的因素。这三个方面叠加到一块,使得我们的时空AI建模非常复杂、非常困难。
因此,对于AI在物理世界的实践与应用,大家要有一个正确的认知,并非如很多新闻所讲的日新月异,人形机器人即将迅速普及等等。如果不花上数十年时间,底层理论不攻破,那些是做不出来的。前途很光明,但道路非常曲折,需要大家耐心攻坚关键技术和基本理论。
那么难道因为还没有完全完备,我们就不做了吗?当然不是,现在可以用思想先解决一些问题。
因为我们拿到的是一些带有时空属性的观测数据,这是很多已知以及未知的综合关键结果。所以在解决问题的时候,需要的是关键决策动作,比如开关、红绿灯、左右转、开闸放水、调度人力和车辆,这些都是时空动作。
本质上,我们需要在观测的时空数据与执行的时空数据之间建立映射。即便很多规律目前并不清楚,但也可以做一部分应用。要做好这个应用,就要充分利用好已知的物理学规律和时空数据的特性,把我们的模型变得更加精准、更加简洁,使模型更好地理解物理世界。
从数据到数据的映射,加上时空属性和物理学规律的约束,在这种转换之下仍然有挑战,包括数据量小、时空如何建模、智能方案怎么闭环等问题。
因此,在过去二十年,我们团队一直在这个领域,按照这个方法论和框架深耕。
首先,我们要洞悉时空规律的特性。其次,要设计时空AI建模方法,包括两大类,一类是经典时空特征工程+经典机器学习方法,另一类是时空表征学习+时空深度学习的方法。这两类方法各有千秋,在不同的场景有不同价值。最后,要提供一套时空AI的机器学习框架,帮助大家快速构建端到端的学习方法。
有了这套体系之后,可以把模型的复杂度降低90%,算法精度可以提升20%,研发效率提升100%,这样就能解决我们刚刚说的三个挑战,实现价值。
03
时空AI已走过五大阶段
下面,我们一起回顾一下时空AI的发展历程。
1、1960-1995,时空经典模型
人去采样,产生了少量的读数,根据少量的读数和经典假设,得出简单的基于距离的反比差值。比如人去打井,没有打井的地方读数是多少,并不知道,所以用距离的反比作为权重来看读数,相邻两个时间点的读数,随着时间差的扩大,指数衰减。直到今天,这个统计方法仍然有用,只不过在一些局部方面,它不那么精准。
2、1995-2008,时空模式发掘
1995年,韩家炜老师做了关于时空关联规则的研究。他发现,如果一条铁路经过一个大城市,那么这个城市大概率临河或临湖。后面Hans-Peter提出基于密度的聚类,其实是对于空间的模式发现。包括Shashi Shekhar发现,麦当劳和肯德基经常一起出现。这些都是时空模式发掘,用的是空间数据库的技术,采用了空间信息,并没有考虑时间。
在这一阶段,相关研究开始在物体轨迹中找到它们的移动模式,然后我们开始将它应用到更多场景中。
打个比方,很多物体并非一直在一块,可能刚开始在一块,然后分开了,最后又合到一块。例如疫情防控期间的密接,刚开始大家都待在同一个小区里,距离很近,随后A去买菜了,B去看电影了,C去吃饭了。但只要ABC待在一起的时间足够长、距离足够近,就是密接,而我们的算法可以在秒级以内反馈回来结果。
这两个例子融入了时间的特性,是时空的模式发掘,但用的还是Data Base的方法。我们团队在2017年,提出了第一个面向时空数据专有的机器学习算法。并不是说以前没有人把机器学习算法用到时空数据,而是做出面向时空数据专有的时空特征工程和时空经典机器学习模型,我们团队是第一个。
3、2009-2016,时空经典机器学习
接下来这个例子,就是通过经典机器学习模型加上时空特征工程来完成的工作。2016年雾霾席卷整个中国,北京只有38个空气质量检测站点,而部署一个空气质量监测站点,那个时候需要100多万,同时还需要人力去维护。而且城市的空气质量高度不均匀,是非线性的,受很多复杂因素的影响,包括地面的扩散条件、污染源的分布等等。
用过去经典的物理学模型,去推算那些没有站点的地方空气质量是多少,只能做到60%的精度。而我们通过大数据和人工智能的方法,将精度做到了80%,提高了20%以上。因为污染物既有本地排放,也有外面的扩散,以及由本地排放和外面污染物所产生的二次化学反应,我们在这些事实的基础上将模型做了迭代。
高精度的预测结果非常重要,如果政府能够知道明天的空气质量从500变成50,就不会再关闭工厂和限流了,而这一个决策价值就是10亿以上的GDP。
这个工作我们做了五年才把它真正做好,最后中国300多个城市都用这个技术,节约了国家100多亿的污染治理费用。2004年这个工作得了SIGKDD的Test-of-Time Award,同时也是这个领域中最高的技术单项奖。
去做报告的时候,美国人就问我们这个想法是怎么想到的?有两个原因,一个原因是我学了很多行业知识,知道污染物是由本地排放、外面扩散以及二次化学反应,所以模型能够很好地耦合这个问题。另一个原因,是我晚上做梦的时候想到的。那段时间工作进展很不顺利,别人说你不要搞了,直到有天夜晚我终于在梦中找到了答案,开心到笑醒了,然后赶紧爬起来把这个答案写了下来。
日有所思,夜有所梦,念念不忘,必有回响,坚持做一件事,做到极致,一定会成功。技术本身没那么重要,但同学们应该学会这一点。
4、2016-2030,时空大模型
不是有了深度学习技术,就得什么都用深度学习,而是应该用深度学习做的,才用深度学习。当空间和时间跨度特别大的,因素特别复杂的,数据量特别大的时候,可以考虑用深度学习来做。
这个案例,是当时外滩踩踏事件让我们产生的思考,而在深度学习出来之前,这个问题是解决不了的。如果我们把每个格子看成一个点,观察有多少个人进和出,要考虑很多复杂因素:比如这个格子前几个小时有多少人进和出?这个格子周边的格子有多少人进和出?但是你想不到的是,跟这个格子距离很远的那些格子的人流量变化,也会影响到这个格子未来的人流量变化。
当一个地方搞活动发生大事件的时候,会有很多人从很远的地方坐地铁过来,不经过你周边就来到了这里,外滩事件就是这样发生的。一个格子的流量,跟全城的每一个格子都息息相关互相影响,是没有办法预测的。
那个时候最好的model是图模型,将城市划成均匀的网格,例如2000个节点,2000×2000的边等等,数量巨大到根本算不出来,所以我们提出了第一个面向时空数据的深度学习模型,从此进入了时空大模型阶段。
后面会发现,城市中的区域并不是均一的网格,而是由非规则的道路和河流共同构造的非规则区域。因此我们用了新的方法,一个区域只要有流量经过,就连成一个边,由每一个帧构造成时空图来做时空图卷积,提出了面向时空数据的时空图卷积模型,能够知道不同区域之间的转入和转出,比如人从哪里来、去到哪里。要从源头上治理踩踏,这一点很关键。
于是我们攻坚进和出的预测,做出来了面向时空数据的模型,复杂度极高,数据更稀疏,这项工作我们一做又是六年。
5、2023-2035,城市大模型
这个阶段,首先要做的就是跨域多源多模数据融合。
要想真正要做成产业级应用,只有大模型是不够的,还要加上深度学习,而且我们面向的城市大模型,不光只是简单的时空大模型,需要多元数据融合,还得加上文本、语音以及视频。
关于多模态的文章,近两年可能有10万篇以上了,但很多讲的都是单域的多源多模数据融合。例如机器人有很多传感器,包括视觉、听觉、压力,但本质来说,这些传感器从一开始就是帮助机器人理解它周边的情况和环境。也就是说,不需要人为选择,数据产生之后,天然是对齐的。不用管它为什么对齐,你只需要做how,不需要去问what或why。
就像我们刚刚做的预测,光用交通数据肯定不行,好比气象局做天气预报,并不是为了交通流量预测而做的预报,还需要思考需要的数据在什么地方,以及这些数据为什么可以跟我的这些数据进行融合,并解决这些问题。这两个问题非常复杂,而真实世界都是这样的问题。
城市知识体系,是另一个我们需要准备的,它是将城市数据向知识转化的路径和方法论。城市知识体系包括四大环节:城市知识体系内容、城市知识体系的表达、城市知识体系的产生以及城市知识体系的应用。其中,城市知识体系内容,包括人力事务组织以及它们的属性和它们关系的属性,但这些都是看不见、摸不着的,需要变成数据。
再往后就是真正的城市智能体。城市智能体跟具身智能很像,具身智能的多模态感知、感知要和行动切合等特点,跟城市计算一开始提出的理念一模一样。城市计算,可以作为实现具身智能的方法论和计算框架。具身智能,可以成为城市计算整个整体中的一个部件。
当整个城市都实现了具身智能之后,整个城市就是一个巨大的具身智能体。具身智能并不是机器人,也不是人形机器人。所有AI与物理世界实体的结合,只要满足刚刚说的特性自我迭代以及不断演进的,都是具身智能,它是区别于离身智能的定义。大家千万不要认为只有宇树搞了机器人具身智能,这些都是具身智能。
未来,这个超级智能体要怎么运转?
通过城市感知,第一是及时反馈的感知——马上决策,比如马上刹车就刹车,马上开闸就开闸。第二是感知要往上走,要跟更大的范围融合。面向三类数据,分别有各自的自动化元件和数据治理体系,形成面向结构化、非结构化和时空数据的标准数据资源体系。这些东西一定要自动化去做,不能人工去做。
再往上,有各种查找的工具对应分析层,包含面向三类不同数据的三种大模型。不是把大语言模型用到时空了结构化数据,而是面向结构化,有专门的结构化模型。再往上,有一个人机交互界面,并且有很多Agent可以调用下面的能力来服务于大家。执行完之后,这个结果又反馈到物理世界,形成闭环、循环,不断演进,这就是一个真正的城市智能体。
04
雄安新区正在成为智能城市“新样本”
那么上述这些要在哪里实现呢?雄安。
雄安就是城市计算指导下的实践,目前我们已经做到第三期了。雄安的智能城市是以城市计算理论为支撑,以城市计算理论的载体城市操作系统为平台来开展。总书记提出了一个需求:世界眼光、国际标准、中国特色,高点定位。
这个中心2022年正式投产运行,从我做这个工作到现在,16年了才有了一点水花。所以真正想做成一件大事,3~5年根本不够,10年可能才刚有成效,15年才有点起色,需要长期支持。
我们看一下雄安的真实情况,这是基于雄安城市操作系统实现的数字孪生,并且是经过脱敏之后的结果。现在雄安的所有数据,无论是消费的、地铁的、公交的、政务的,还是民生的水电气热,全部会实时进到我们的系统当中,经过实时分析、处理、挖掘提供服务。比如A点发生了一起交通事故,我们去判断它的影响范围,并且给周边的出行人员推荐合理的绕行线路。
再看雄安的水电气热的生命线数据,通过对各区域的用电量负荷分析,我们能知道用电量的波峰和波谷的差异化变化,从而更合理地制定电价策略,引导大家更合理地用电,以及根据每个区域的用电负荷变化做自动化的扩容,避免电压器烧坏引起火灾。
对于燃气管网,通过人工智能算法检测到异常之后,在它爆炸之前就提前预警,我们会调取真实世界的物理摄像头核实情况并进行验证,然后查找周边最近的工作人员,一键点击这个工作人员,随后进行派单,完成任务。完成之后,这个结果会实时反馈到虚拟世界,形成闭环,就像玩游戏一样去管理整个城市。
对于雄安所有的人流量情况,人口结构变化、年龄变化,我们都能实时知道。以及雄安的水质,空气质量未来48小时的变化等等,都是用跨域多元多模式融合的方法来实现的。
雄安的公共安全管理,以雄安新区的白洋淀为例,不仅能知道所有游客的来源,分析游客当前在什么地方聚集,还能知道景区里每一个设备的安全状态。比如每一艘游船上面有多少游客,油耗多少,航速多少,以及游船每个零部件的安全状态如何。
一旦游船的安全状态出现了问题,我们可以第一时间查找它周边最近的救生船,点击救生船发动救援。人的快思考、慢思考结合实时反馈,形成一个巨大的城市智能体,这就是真正的具身智能。
时空AI,为人工智能进入物理世界提供关键的基础理论和关键技术。前途很光明,但道路很漫长,工作很艰难。尤其是在中美博弈的时代,热战有可能会打,也有可能不打,但这场科技战争已经开始。
未来,我们国家是否能真正实现中华民族伟大复兴?科技战争的结果至关重要。而打赢这场仗,就是这十年,在座各位就是实现这场战争胜利的中坚力量。
我是湖南人,特别喜欢毛主席的诗词,也喜欢书法,最后借助主席的诗词和我自己写的书法跟大家共勉:“多少事,从来急;天地转,光阴迫。一万年太久,只争朝夕!”
谢谢大家。






京公网安备 11011402013531号