当前位置: 首页 » 资讯 » 科技头条 » 正文

STATE16研究院揭示物理AI系统中那些无声无息的致命错误

IP属地 中国·北京 科技行者 时间:2026-06-06 22:21:01


这项研究由以色列STATE16研究院发布,作者同时担任以色列理工学院(Technion)和赖希曼大学(Reichman University)讲师,并担任谷歌-赖希曼AI技术学校学术总监。论文于2026年5月10日完成,并于2026年5月23日以预印本形式发布于arXiv平台,编号为arXiv:2606.00090,归类于机器人学(cs.RO)领域。感兴趣的读者可通过该编号查询完整论文。

**一个让人细思极恐的场景**

假设你家里有一台智能机器人管家,它拿着一杯热咖啡向你走来。它的摄像头正常运转,程序正常运行,系统显示一切正常。但实际上,它的地图数据已经过时了三秒钟——就在三秒前,你的孩子把一把椅子拖到了走廊中间。机器人完全没有察觉,依然迈着稳健的步伐向前走去,直到热咖啡连同整个托盘一起撞在椅背上,泼了满地……

这就是这篇论文所说的"静默失效"(silent failure)。系统没有崩溃,没有报错,没有任何警报声响起。它只是安安静静地、充满自信地、做了一件错得离谱的事。

**研究背景:AI正在走出屏幕,进入真实世界**

在过去几年里,人工智能系统经历了一次深刻的身份转变。它们不再只是坐在电脑屏幕后面回答问题、生成文字或者识别图片的"虚拟助手",而是开始控制真实的物理设备:工厂里的机械臂、医院走廊里的运输机器人、城市道路上的自动驾驶汽车、天空中的无人机,以及越来越多的人形机器人。

STATE16研究院的这篇综述论文,把这一类能够直接控制物理世界行动的AI系统统称为"物理AI"(Physical AI)。其中最具代表性的是一类叫做"视觉-语言-行动模型"(Vision-Language-Action Model,简称VLA)的系统——这类系统能够同时看懂图像、理解语言指令,并直接输出机器人应该执行的动作。打个比方,你对机器人说"把桌上的红色杯子放进柜子里",VLA模型就会根据摄像头拍到的画面和你的指令,直接生成"先移动到桌旁、伸出机械臂、抓住杯子、转身、打开柜门、放入"这一系列具体动作。

这类技术正在以惊人的速度发展。谷歌的RT-1和RT-2机器人、π0机器人控制模型、英伟达的GR00T N1人形机器人基础模型、OpenVLA等系统,已经能够在22种不同机器人平台上完成超过50万个不同任务。更重要的是,这些模型正在从实验室走向真实部署环境。

然而,论文作者发现了一个令人不安的事实:当AI的能力在飞速进步时,与之配套的安全机制却在一条完全平行的轨道上缓慢爬行,两条轨道从未真正相交。这篇论文的核心任务,就是找出这条"安全轨道"上最关键的那段缺口。

**一、那道没人在守卫的关口**

研究的核心发现可以用一个保安比喻来理解。

一栋重要建筑的门口通常有一名保安。他的工作不是评判访客"看起来像不像好人",而是核查:你有没有预约?你的身份证是否有效?你要去的区域你是否有权限进入?今天这栋楼是否有限制访问的区域?如果你进去之后需要撤离,出口在哪里?

现在,这栋建筑换成了一台工业机器人,"访客"换成了AI模型提出的一个动作指令,比如"以1.5米每秒的速度向前移动15米"。当前的AI系统有没有这样一名"保安"?

论文的回答是:没有,或者说,有,但不完整,而且分散在不同部门,没有一个统一的岗位。

在AI安全领域,目前存在多种不同的防护机制。有负责检查"这句话是否有害"的语义过滤器,有负责确保机器人不会超出物理极限的控制理论工具,有负责检测传感器数据是否异常的感知监控系统,还有负责在特定条件下切换到备用控制器的运行时保证系统。但这些机制各司其职,互不连通。

最关键的那个问题——"这个AI刚刚提出的这个动作,在当前这个真实世界状态下,现在这个时刻,究竟能不能执行?"——没有一个机制能够完整地回答。这就是论文所定义的"授权空白"(authorization gap)。

论文用一个简洁的数学表达式说明了这个空白的本质:一个AI模型对某个动作赋予很高的置信度(也就是"我认为应该这么做"),并不等同于这个动作真的可以安全执行。信心不等于许可,这是这篇论文最核心的命题。

**二、静默失效:最危险的失败方式**

明白了"授权空白"是什么之后,就能理解为什么"静默失效"如此危险。

普通的系统故障往往有明显的信号:程序崩溃会弹出错误窗口,传感器断连会触发警报,硬件故障会让设备停止响应。这些失败是"可见的",系统会告诉你出了问题。

静默失效完全不同。发生静默失效时,系统的所有组件都在正常运转,日志显示一切正常,没有任何报警。但问题在于,系统赖以做决策的那幅"世界图景"已经悄悄地偏离了真实世界。就像一个导航软件显示前方是畅通无阻的高速公路,但实际上那段路三个月前就已经封闭施工了。如果你的车子装备了自动驾驶功能并且信任了这个导航,它会充满信心地开向一堵施工围墙。

论文梳理了导致静默失效的几种典型机制,每一种都贴近真实部署场景。

传感器漂移是最常见的一种。机器人或车辆所依赖的各种传感器——摄像头、激光雷达、惯性测量单元、GPS——都可能在没有任何明显故障信号的情况下,输出逐渐偏移真实值的数据。想象你的体重秤每隔一段时间就会少显示两公斤,而你完全不知道,你只是觉得自己越来越轻。

遮挡和局部可见性是另一个经典问题。机器人的视野总是有限的,它看不到柱子后面、转弯处以外的地方。当它根据当前可见信息判断"前方安全"时,可见范围之外可能正站着一个人。系统没有撒谎,它只是不知道它不知道什么。

分布偏移则更加隐蔽。AI模型是通过海量训练数据学习的,这些数据覆盖了各种场景,但永远无法覆盖所有场景。当机器人遇到训练数据中从未出现过的情况——比如一种罕见的光线角度、一种没见过的物体摆放方式、一种不寻常的地面纹理——它不会说"我不知道该怎么办",它会用自己学到的知识进行类比推断,然后给出一个听起来合理但实际上基于错误前提的行动方案。

幻觉式可供性则是物理AI特有的风险。"可供性"是个心理学术语,简单说就是"这个东西能用来做什么"。机器人可能会错误地判断某个表面可以承重、某个把手可以抓握、某条路径可以通行,就像一个人在浓雾中把路边的一根柱子误认为是可以依靠的墙壁。区别在于,人可能只是轻轻跌了一跤,而一台机械臂如果错误地"认为"一个玻璃瓶能承受它的抓握力,后果可能严重得多。

论文特别提到了三个真实世界中的自动驾驶事故案例,用来说明这类问题不是纯理论的担忧。2018年优步在亚利桑那州坦佩市发生的行人死亡事故,调查认定根本原因之一是不充分的安全风险评估和对自动化系统的过度依赖。2023年加州车管局暂停了Cruise公司的无人驾驶测试许可,原因是车辆对公众造成了不合理的安全风险。同年,美国国家公路交通安全管理局对超过200万辆特斯拉发布召回通知,因为其自动辅助驾驶系统无法防止被滥用。这些都是现实世界中,自信运转的自动化系统没能在关键时刻被正确地"叫停"的例子。

**三、系统当前的防护网:有用但不够用**

面对这些风险,研究界和工业界当然不是毫无准备的。论文梳理了目前存在的各类安全机制,并诚实地指出了每种机制的有效范围和局限边界。

控制屏障函数(Control Barrier Functions,CBF)是控制理论领域最强大的工具之一。简单来说,它就像给机器人划定了一个"安全气泡",无论模型想要执行什么动作,只要这个动作会让机器人穿出"安全气泡",控制屏障函数就会自动修正这个动作,确保机器人始终待在安全区域内。这个工具在数学上非常严格,证明了在已知条件下的安全性。但问题在于,它需要知道精确的物理动态方程、明确的状态变量,以及预先定义好的"安全集合"。对于一个用黑盒神经网络控制的机器人来说,这些前提条件往往不满足。

运行时保证(Runtime Assurance)和屏蔽机制(Shielding)提供了另一种思路:让一个"可信的备用控制器"持续监视主控制器的行为,一旦主控制器想做出危险动作,备用控制器立刻接管。这个思路非常正确,也是论文所提出的框架的直接前身。但它依然面临一个挑战:在物理AI系统中,主控制器(也就是那个大型神经网络模型)输出的"动作"可能是复杂的轨迹、自然语言描述的计划,甚至是潜在空间里的向量,备用控制器很难直接评估这些输出的安全性。更重要的是,即使备用控制器认为某个动作本身没问题,它也无法判断产生这个动作所依据的"世界图景"是否还是准确的。

语义过滤器(Semantic Guardrails)是针对语言大模型的安全机制,主要功能是检查"这条指令是否有害"。比如,如果有人试图操纵机器人做出危险行为,语义过滤器可以识别出这类恶意指令并拒绝执行。一项名为"RoboPAIR"的研究发现,通过精心设计的提示词,可以成功诱导语言模型控制的机器人执行有害的物理动作,而另一项名为"RoboGuard"的工作则展示了如何通过上下文感知的规则来减少这类风险——在实验中将不安全执行率从92%降低到了2.5%以下。然而,语义过滤器的根本局限在于:一条完全无害的指令,同样可以导致物理上危险的动作。"把那个箱子放到上层货架上"这条指令本身毫无问题,但如果机器人手臂的当前载荷已经接近极限,或者传感器显示那个箱子比实际更轻,结果可能完全不同。语义安全不等于物理安全。

不确定性估计和分布外检测(Out-of-Distribution Detection)是另一个重要工具族。这些方法试图让系统知道"我现在不确定"或者"当前情况超出了我的训练范围"。这是非常有价值的能力,但它只能产生一个信号,告诉你"情况可能有问题",却无法直接告诉你"应该执行什么替代动作"。而且,研究表明深度学习模型在分布外情况下往往会错误地保持高置信度——也就是说,当系统最不应该自信的时候,它反而最自信。

这四类工具各自解决了问题的一个侧面,但没有一个能够单独回答那个核心问题:此时此刻,针对当前这个真实世界状态,这个具体的动作提案,能不能执行?

**四、一张完整的"动作授权清单"**

理解了现有工具的局限之后,论文提出了它的核心贡献:一个完整的运行时动作授权框架。用最通俗的话来说,就是在AI系统和物理世界之间设置一个正式的"审批环节",在任何动作从数字指令变成真实的机械运动之前,必须通过七个维度的检查。

第一个维度是语义有效性。这条指令本身是否符合任务目标和操作规定?是否存在被恶意操纵的风险?这是现有语义过滤器已经做得比较好的部分。

第二个维度是状态有效性。产生这个动作所依赖的世界状态信息,现在还可靠吗?传感器是否正常?感知结果是否一致?是否存在数据陈旧或分布偏移的迹象?这是目前最薄弱的环节之一,也是静默失效最常发生的根源。

第三个维度是物理可行性。这个动作在物理上能否被执行?是否违反了机器人的运动学约束?是否有潜在的碰撞?速度是否超限?载荷是否超出承受范围?

第四个维度是空间和操作有效性。这个动作是否被允许在当前地点和当前任务阶段执行?是否违反了地理围栏(比如禁飞区)、限制区域,或者特定任务的操作规程?

第五个维度是时间有效性。这个动作不只是现在安全,而是在接下来的一段时间内都安全吗?距离潜在碰撞还有多少时间?当前状态数据是否已经太陈旧,不再适合作为行动依据?

第六个维度是回退权力。如果这个动作不被授权,系统应该怎么办?是修改动作、直接停止、切换到备用控制器,还是请求人工介入?一个没有明确回退方案的安全机制,本身就是不完整的。

第七个维度是可审计性。这次授权或拒绝的决定,能否在事后被完整重建?相关的传感器数据、约束条件、决策理由是否都被记录下来了?这不仅对事故调查至关重要,也是整个安全体系获得监管认可的基础。

论文将这七个维度组合在一起,形成了一个完整的"授权事件"概念。每一次AI系统提出一个物理动作,都应该生成这样一个完整的记录:我在什么情况下提出了什么动作,经过哪些检查,得到了什么结论,如果被拒绝了下一步是什么。

**五、那个仓库里的机器人:静默失效的完整故事**

论文用一个非常具体的例子来说明整个框架的运作逻辑,值得完整地讲述出来。

一台自主移动机器人正在仓库的货架通道里工作。它的控制系统收到指令:"去取目标托盘"。基于这条指令和当前的传感器数据,AI模型计算出了一个路径,建议机器人以1.2米每秒的速度向前移动。

现在,这台机器人需要一个"运行时授权系统"来决定这个动作能否执行。关键的安全计算是这样的:以当前速度1.2米每秒,加上感知和控制之间0.25秒的延迟,加上机器人的最大制动减速度1.6米每秒的平方,加上0.2米的安全余量,机器人需要至少0.95米的净空距离才能安全停下。

但与此同时,有一个托盘稍微偏离了标准位置,部分遮挡了机器人的视野。经过不确定性修正后,当前可靠的安全净空只有0.8米,不足以保证在0.95米内完全制动。

正确的授权决定应该是:拒绝当前动作方案,要求机器人降速、重新规划,或者等待人工确认。

现在,来看静默失效是怎么发生的。如果机器人的占用地图数据是几秒钟前的(状态有效性检查失败),AI模型看到的是一条通畅的走廊,于是提议高速直行。语义检查发现"去取托盘"完全合理,没有任何有害意图,于是通过。底层控制器收到速度指令,检查了速度是否超过硬件上限,没有超过,于是执行。结果,机器人以满速冲向了实际上存在障碍的区域。

全程没有任何报错,没有任何警告。只有一声撞击声。

这就是为什么状态有效性检查必须是一个独立的、明确的步骤——而不是藏在AI模型内部,由模型自己来判断自己的信息是否可靠。

**六、更好的评测方式:不能只看任务成功率**

论文的另一个重要贡献是提出了如何评估"运行时授权机制"的有效性。这个问题比表面看起来要复杂得多。

目前评估机器人AI系统的主要指标是"任务成功率"——给机器人一个任务,看它完成了多少次,失败了多少次。这个指标当然有价值,但它无法回答我们真正关心的安全问题。一个任务成功率95%的系统,它那5%的失败究竟是什么性质的?是优雅地停下来请求帮助,还是悄悄地冲向了障碍物?

论文提出了三个核心量化指标,专门用于评估安全干预机制的质量。

第一个是"不安全动作干预率"(UAIR):在所有本应被拦截的危险动作中,实际被成功拦截的比例有多少?这是最直接的安全指标。一个UAIR等于100%的系统意味着每一个危险动作都被拦截了;UAIR等于0%则意味着安全机制形同虚设。

第二个是"误拦截率"(FBR):在所有本来安全可执行的动作中,有多少被错误地拦截了?这个指标衡量的是"过度谨慎"的代价。一个安全机制如果把所有动作都拦截下来,UAIR是100%但FBR也是100%,实际上机器人就完全无法工作了。安全性和可用性之间存在真实的张力,好的授权机制必须在两者之间找到平衡。

第三个是"预提交干预率"(PCIR):在所有被成功拦截的危险动作中,有多少是在动作真正变成硬件运动之前就被拦截的?这个指标关注的是时机。一个在动作已经执行了一半才发出警报的安全机制,与一个在动作刚刚被提议时就进行检查的机制,安全价值差异巨大。

除了这三个量化指标,论文还提出了需要进行定性检查的维度:系统是否能够在传感器数据被污染或陈旧时正确识别出状态不可靠?它是否能够在模型高度自信时仍然执行物理可行性检查?它是否在不同的机器人平台、不同的环境下都能一致地执行约束条件?它的回退行为是否本身也是安全的?

论文还专门讨论了仿真平台(Simulation Platforms)的角色,比如英伟达的Isaac Sim、广泛使用的MuJoCo物理引擎、用于自动驾驶测试的CARLA环境,以及用于室内导航研究的Habitat平台。这些仿真环境可以生成大量边缘案例用于测试,可以重复运行同一场景,可以在没有真实硬件损失的情况下测试危险情况。但论文明确指出:仿真平台能帮你发现问题,但不能替你做授权决策。仿真告诉你"这种情况可能出现",而授权机制告诉你"这种情况出现时该怎么办"。

**七、为什么能力和安全总是走在不同的路上**

论文的一个重要观察是,过去几年间,物理AI的能力进步和安全机制的进步一直沿着相互平行但从未真正相交的两条轨道发展。

能力方面的进步令人目不暇接。OpenVLA是一个拥有70亿参数的模型,在97万个机器人操作示范上训练,与前代最好的系统相比,任务完成率提升了16.5个百分点。一个叫做VISTA的系统,通过让世界模型生成视觉化的子目标来指导机械臂工作,将超出训练分布的操作任务成功率从14%提升到了69%。一个叫做WoVR的系统,通过明确控制想象出来的未来场景中的幻觉问题,将标准操作任务成功率从约40%提升到了约69%,真实机器人的成功率从61.7%提升到了91.7%。

这些数字展示的是模型越来越能"猜对"应该怎么做。但论文的问题是:就算模型猜对了,我们有没有独立的机制来验证这个猜测是否真的安全?任务成功率不等于授权可靠性。一个在标准测试场景下有95%成功率的系统,在一个略微不同的部署环境里,面对一个之前从未见过的传感器噪声模式,依然可能悄无声息地做出危险决定。

这种能力-安全的"双轨并行"现象,论文认为根源在于研究者们来自不同的学术传统,使用不同的工具,评估不同的指标。模型研究者关心泛化能力、少样本学习、跨平台迁移。控制理论研究者关心数学证明的安全集合、系统动力学方程。LLM安全研究者关心有害内容、越狱攻击、政策合规。真正把这三条线连接起来的工作,目前还极为稀少。

**八、把所有这些连接起来:一个最小记录模板**

论文最后给出了一个实用性的贡献:一个"最小授权事件记录模板",设计用于在不同的机器人平台、不同的AI模型、不同的部署环境之间提供一个统一的比较基础。

这个模板包含九个字段。观察上下文记录了当时可用的传感器输入、历史记录、时间戳和平台信息,本质上是回答"系统当时看到了什么"。动作提案记录了AI系统提出的具体指令,无论是速度命令、轨迹规划还是自然语言描述的计划,目的是把"提案"和"执行"在记录上明确分开。状态估计记录了系统认为世界当前的样子,包括周围的物体、障碍物、机器人自身的状态。状态有效性证据则记录了为什么我们认为这个"世界图景"是可信的(或者不可信的),包括传感器健康状态、数据延迟、不确定性指标、是否超出训练分布等。活跃约束列出了在这个时刻必须满足的所有规则和限制,从物理上的速度极限到任务规程中的操作规定。授权决定记录了最终的结论:授权、修改、拒绝、降级到备用模式,还是请求人工介入。回退或修改方案记录了当授权决定不是"通过"时,实际执行了什么替代行动。时间证据记录了提案时间、授权决定时间和最终执行时间,用于事后判断干预是否足够及时。最后,审计追踪则记录了模型版本、约束规则编号、关键证据的引用,以及授权或拒绝的原因代码,支持事故调查和跨系统比较。

关键在于,这个模板不规定任何具体的AI模型架构或机器人控制系统。一台仓库移动机器人、一台工业机械臂、一架无人机和一辆自动驾驶车辆,都可以使用相同的模板记录它们的授权事件,即使它们内部使用的AI系统完全不同。这就使得跨平台的安全比较成为可能。

**结语:当AI从预测世界变成行动于世界**

归根结底,这篇论文要讲的是一件非常具体的事:当一个AI系统的输出不再只是文字或图片,而是会让真实机器运动的指令时,我们需要在"AI说要做什么"和"机器真的开始做"之间,建立一道有明确职责、有完整记录、独立于AI模型本身运作的审查关卡。

这不是说现有的AI系统不够好,也不是说现有的安全机制毫无价值。论文明确承认,更好的模型可以减少一部分错误,更好的控制器可以防止一部分越界,更好的传感器可以提供更可靠的信息。但开放世界里永远存在训练数据覆盖不到的情况,物理世界永远比任何模型更复杂,而一台高速运转的工业机器人犯错的代价,和一个聊天机器人说错话的代价,完全不在同一个数量级。

论文为研究界提出了几个尚未解决的关键问题,每一个都值得后续深入研究。不同类型的物理AI系统(无人机、移动机器人、机械臂、人形机器人)在授权层面需要一个什么样的统一抽象?运行时系统如何量化地判断当前的世界状态信息是否"足够可靠"来支撑某个具体动作?语义约束、空间约束、物理约束和操作规程约束如何在不产生易脆规则系统的前提下组合在一起?如何设计一套评测方法,能够真正测量一个授权机制在减少或发现静默失效方面的效果,而不仅仅是测量任务完成率?

这些问题目前没有标准答案,但它们是物理AI从实验室工具变成可信赖的社会基础设施之前,必须要回答的问题。

这篇发布于arXiv平台(编号arXiv:2606.00090)的综述论文,提供了目前为止对这个问题最系统的梳理,也许可以成为推动这些问题走向解决的一块基石。

Q&A

Q1:物理AI的"静默失效"和普通软件崩溃有什么区别?

A:普通软件崩溃会产生明显的错误信号,比如弹出错误窗口或触发警报,系统会停止运行并通知用户出了问题。而物理AI的静默失效恰恰相反——系统的所有组件都在正常运转,日志显示一切正常,没有任何报警。失败发生在更隐蔽的层面:AI系统赖以做决策的世界状态信息已经悄悄地偏离了真实情况(比如传感器数据陈旧、感知结果有遮挡),但系统本身毫不知晓,依然充满信心地继续执行动作,直到造成真实的物理后果。

Q2:现有的AI安全机制为什么不够用?

A:现有的安全机制各自解决了问题的一个侧面:控制屏障函数能防止机器人违反物理极限,但需要预知精确的动力学方程;语义过滤器能识别有害指令,但无法判断语义无害的指令是否在物理上安全;运行时保证系统能切换到备用控制器,但难以评估AI提出的复杂动作是否基于可靠的世界状态;不确定性检测能发出"情况可能有问题"的信号,但无法直接给出安全替代方案。问题不在于某个机制本身不够强,而在于没有一个统一的关卡,能在同一个事件中同时评估状态可靠性、物理可行性、操作合规性和回退方案。

Q3:评估物理AI安全性为什么不能只看任务成功率?

A:任务成功率只告诉你系统"做成了多少次",却无法揭示那些失败的本质:是优雅地停下来请求帮助,还是悄悄冲向障碍物?更重要的是,一个在标准测试场景下成功率很高的系统,在真实部署中遇到训练数据未覆盖的边缘情况时,依然可能在毫无警告的情况下做出危险决定。论文提出用"不安全动作干预率""误拦截率"和"预提交干预率"三个指标来专门衡量安全机制本身的质量,重点不是任务完不完成,而是危险动作有没有在变成真实运动之前被正确识别和拦截。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新