STATE16研究院揭示物理AI系统中那些无声无息的致命错误-北京尧图网络科技有限公司

这项研究由以色列STATE16研究院发布作者同时担任以色列理工学院Technion和赖希曼大学Reichman University讲师并担任谷歌-赖希曼AI技术学校学术总监。论文于2026年5月10日完成并于2026年5月23日以预印本形式发布于arXiv平台编号为arXiv:2606.00090归类于机器人学cs.RO领域。感兴趣的读者可通过该编号查询完整论文。**一个让人细思极恐的场景**假设你家里有一台智能机器人管家它拿着一杯热咖啡向你走来。它的摄像头正常运转程序正常运行系统显示一切正常。但实际上它的地图数据已经过时了三秒钟——就在三秒前你的孩子把一把椅子拖到了走廊中间。机器人完全没有察觉依然迈着稳健的步伐向前走去直到热咖啡连同整个托盘一起撞在椅背上泼了满地……这就是这篇论文所说的静默失效silent failure。系统没有崩溃没有报错没有任何警报声响起。它只是安安静静地、充满自信地、做了一件错得离谱的事。**研究背景AI正在走出屏幕进入真实世界**在过去几年里人工智能系统经历了一次深刻的身份转变。它们不再只是坐在电脑屏幕后面回答问题、生成文字或者识别图片的虚拟助手而是开始控制真实的物理设备工厂里的机械臂、医院走廊里的运输机器人、城市道路上的自动驾驶汽车、天空中的无人机以及越来越多的人形机器人。STATE16研究院的这篇综述论文把这一类能够直接控制物理世界行动的AI系统统称为物理AIPhysical AI。其中最具代表性的是一类叫做视觉-语言-行动模型Vision-Language-Action Model简称VLA的系统——这类系统能够同时看懂图像、理解语言指令并直接输出机器人应该执行的动作。打个比方你对机器人说把桌上的红色杯子放进柜子里VLA模型就会根据摄像头拍到的画面和你的指令直接生成先移动到桌旁、伸出机械臂、抓住杯子、转身、打开柜门、放入这一系列具体动作。这类技术正在以惊人的速度发展。谷歌的RT-1和RT-2机器人、π0机器人控制模型、英伟达的GR00T N1人形机器人基础模型、OpenVLA等系统已经能够在22种不同机器人平台上完成超过50万个不同任务。更重要的是这些模型正在从实验室走向真实部署环境。然而论文作者发现了一个令人不安的事实当AI的能力在飞速进步时与之配套的安全机制却在一条完全平行的轨道上缓慢爬行两条轨道从未真正相交。这篇论文的核心任务就是找出这条安全轨道上最关键的那段缺口。**一、那道没人在守卫的关口**研究的核心发现可以用一个保安比喻来理解。一栋重要建筑的门口通常有一名保安。他的工作不是评判访客看起来像不像好人而是核查你有没有预约你的身份证是否有效你要去的区域你是否有权限进入今天这栋楼是否有限制访问的区域如果你进去之后需要撤离出口在哪里现在这栋建筑换成了一台工业机器人访客换成了AI模型提出的一个动作指令比如以1.5米每秒的速度向前移动15米。当前的AI系统有没有这样一名保安论文的回答是没有或者说有但不完整而且分散在不同部门没有一个统一的岗位。在AI安全领域目前存在多种不同的防护机制。有负责检查这句话是否有害的语义过滤器有负责确保机器人不会超出物理极限的控制理论工具有负责检测传感器数据是否异常的感知监控系统还有负责在特定条件下切换到备用控制器的运行时保证系统。但这些机制各司其职互不连通。最关键的那个问题——这个AI刚刚提出的这个动作在当前这个真实世界状态下现在这个时刻究竟能不能执行——没有一个机制能够完整地回答。这就是论文所定义的授权空白authorization gap。论文用一个简洁的数学表达式说明了这个空白的本质一个AI模型对某个动作赋予很高的置信度也就是我认为应该这么做并不等同于这个动作真的可以安全执行。信心不等于许可这是这篇论文最核心的命题。**二、静默失效最危险的失败方式**明白了授权空白是什么之后就能理解为什么静默失效如此危险。普通的系统故障往往有明显的信号程序崩溃会弹出错误窗口传感器断连会触发警报硬件故障会让设备停止响应。这些失败是可见的系统会告诉你出了问题。静默失效完全不同。发生静默失效时系统的所有组件都在正常运转日志显示一切正常没有任何报警。但问题在于系统赖以做决策的那幅世界图景已经悄悄地偏离了真实世界。就像一个导航软件显示前方是畅通无阻的高速公路但实际上那段路三个月前就已经封闭施工了。如果你的车子装备了自动驾驶功能并且信任了这个导航它会充满信心地开向一堵施工围墙。论文梳理了导致静默失效的几种典型机制每一种都贴近真实部署场景。传感器漂移是最常见的一种。机器人或车辆所依赖的各种传感器——摄像头、激光雷达、惯性测量单元、GPS——都可能在没有任何明显故障信号的情况下输出逐渐偏移真实值的数据。想象你的体重秤每隔一段时间就会少显示两公斤而你完全不知道你只是觉得自己越来越轻。遮挡和局部可见性是另一个经典问题。机器人的视野总是有限的它看不到柱子后面、转弯处以外的地方。当它根据当前可见信息判断前方安全时可见范围之外可能正站着一个人。系统没有撒谎它只是不知道它不知道什么。分布偏移则更加隐蔽。AI模型是通过海量训练数据学习的这些数据覆盖了各种场景但永远无法覆盖所有场景。当机器人遇到训练数据中从未出现过的情况——比如一种罕见的光线角度、一种没见过的物体摆放方式、一种不寻常的地面纹理——它不会说我不知道该怎么办它会用自己学到的知识进行类比推断然后给出一个听起来合理但实际上基于错误前提的行动方案。幻觉式可供性则是物理AI特有的风险。可供性是个心理学术语简单说就是这个东西能用来做什么。机器人可能会错误地判断某个表面可以承重、某个把手可以抓握、某条路径可以通行就像一个人在浓雾中把路边的一根柱子误认为是可以依靠的墙壁。区别在于人可能只是轻轻跌了一跤而一台机械臂如果错误地认为一个玻璃瓶能承受它的抓握力后果可能严重得多。论文特别提到了三个真实世界中的自动驾驶事故案例用来说明这类问题不是纯理论的担忧。2018年优步在亚利桑那州坦佩市发生的行人死亡事故调查认定根本原因之一是不充分的安全风险评估和对自动化系统的过度依赖。2023年加州车管局暂停了Cruise公司的无人驾驶测试许可原因是车辆对公众造成了不合理的安全风险。同年美国国家公路交通安全管理局对超过200万辆特斯拉发布召回通知因为其自动辅助驾驶系统无法防止被滥用。这些都是现实世界中自信运转的自动化系统没能在关键时刻被正确地叫停的例子。**三、系统当前的防护网有用但不够用**面对这些风险研究界和工业界当然不是毫无准备的。论文梳理了目前存在的各类安全机制并诚实地指出了每种机制的有效范围和局限边界。控制屏障函数Control Barrier FunctionsCBF是控制理论领域最强大的工具之一。简单来说它就像给机器人划定了一个安全气泡无论模型想要执行什么动作只要这个动作会让机器人穿出安全气泡控制屏障函数就会自动修正这个动作确保机器人始终待在安全区域内。这个工具在数学上非常严格证明了在已知条件下的安全性。但问题在于它需要知道精确的物理动态方程、明确的状态变量以及预先定义好的安全集合。对于一个用黑盒神经网络控制的机器人来说这些前提条件往往不满足。运行时保证Runtime Assurance和屏蔽机制Shielding提供了另一种思路让一个可信的备用控制器持续监视主控制器的行为一旦主控制器想做出危险动作备用控制器立刻接管。这个思路非常正确也是论文所提出的框架的直接前身。但它依然面临一个挑战在物理AI系统中主控制器也就是那个大型神经网络模型输出的动作可能是复杂的轨迹、自然语言描述的计划甚至是潜在空间里的向量备用控制器很难直接评估这些输出的安全性。更重要的是即使备用控制器认为某个动作本身没问题它也无法判断产生这个动作所依据的世界图景是否还是准确的。语义过滤器Semantic Guardrails是针对语言大模型的安全机制主要功能是检查这条指令是否有害。比如如果有人试图操纵机器人做出危险行为语义过滤器可以识别出这类恶意指令并拒绝执行。一项名为RoboPAIR的研究发现通过精心设计的提示词可以成功诱导语言模型控制的机器人执行有害的物理动作而另一项名为RoboGuard的工作则展示了如何通过上下文感知的规则来减少这类风险——在实验中将不安全执行率从92%降低到了2.5%以下。然而语义过滤器的根本局限在于一条完全无害的指令同样可以导致物理上危险的动作。把那个箱子放到上层货架上这条指令本身毫无问题但如果机器人手臂的当前载荷已经接近极限或者传感器显示那个箱子比实际更轻结果可能完全不同。语义安全不等于物理安全。不确定性估计和分布外检测Out-of-Distribution Detection是另一个重要工具族。这些方法试图让系统知道我现在不确定或者当前情况超出了我的训练范围。这是非常有价值的能力但它只能产生一个信号告诉你情况可能有问题却无法直接告诉你应该执行什么替代动作。而且研究表明深度学习模型在分布外情况下往往会错误地保持高置信度——也就是说当系统最不应该自信的时候它反而最自信。这四类工具各自解决了问题的一个侧面但没有一个能够单独回答那个核心问题此时此刻针对当前这个真实世界状态这个具体的动作提案能不能执行**四、一张完整的动作授权清单**理解了现有工具的局限之后论文提出了它的核心贡献一个完整的运行时动作授权框架。用最通俗的话来说就是在AI系统和物理世界之间设置一个正式的审批环节在任何动作从数字指令变成真实的机械运动之前必须通过七个维度的检查。第一个维度是语义有效性。这条指令本身是否符合任务目标和操作规定是否存在被恶意操纵的风险这是现有语义过滤器已经做得比较好的部分。第二个维度是状态有效性。产生这个动作所依赖的世界状态信息现在还可靠吗传感器是否正常感知结果是否一致是否存在数据陈旧或分布偏移的迹象这是目前最薄弱的环节之一也是静默失效最常发生的根源。第三个维度是物理可行性。这个动作在物理上能否被执行是否违反了机器人的运动学约束是否有潜在的碰撞速度是否超限载荷是否超出承受范围第四个维度是空间和操作有效性。这个动作是否被允许在当前地点和当前任务阶段执行是否违反了地理围栏比如禁飞区、限制区域或者特定任务的操作规程第五个维度是时间有效性。这个动作不只是现在安全而是在接下来的一段时间内都安全吗距离潜在碰撞还有多少时间当前状态数据是否已经太陈旧不再适合作为行动依据第六个维度是回退权力。如果这个动作不被授权系统应该怎么办是修改动作、直接停止、切换到备用控制器还是请求人工介入一个没有明确回退方案的安全机制本身就是不完整的。第七个维度是可审计性。这次授权或拒绝的决定能否在事后被完整重建相关的传感器数据、约束条件、决策理由是否都被记录下来了这不仅对事故调查至关重要也是整个安全体系获得监管认可的基础。论文将这七个维度组合在一起形成了一个完整的授权事件概念。每一次AI系统提出一个物理动作都应该生成这样一个完整的记录我在什么情况下提出了什么动作经过哪些检查得到了什么结论如果被拒绝了下一步是什么。**五、那个仓库里的机器人静默失效的完整故事**论文用一个非常具体的例子来说明整个框架的运作逻辑值得完整地讲述出来。一台自主移动机器人正在仓库的货架通道里工作。它的控制系统收到指令去取目标托盘。基于这条指令和当前的传感器数据AI模型计算出了一个路径建议机器人以1.2米每秒的速度向前移动。现在这台机器人需要一个运行时授权系统来决定这个动作能否执行。关键的安全计算是这样的以当前速度1.2米每秒加上感知和控制之间0.25秒的延迟加上机器人的最大制动减速度1.6米每秒的平方加上0.2米的安全余量机器人需要至少0.95米的净空距离才能安全停下。但与此同时有一个托盘稍微偏离了标准位置部分遮挡了机器人的视野。经过不确定性修正后当前可靠的安全净空只有0.8米不足以保证在0.95米内完全制动。正确的授权决定应该是拒绝当前动作方案要求机器人降速、重新规划或者等待人工确认。现在来看静默失效是怎么发生的。如果机器人的占用地图数据是几秒钟前的状态有效性检查失败AI模型看到的是一条通畅的走廊于是提议高速直行。语义检查发现去取托盘完全合理没有任何有害意图于是通过。底层控制器收到速度指令检查了速度是否超过硬件上限没有超过于是执行。结果机器人以满速冲向了实际上存在障碍的区域。全程没有任何报错没有任何警告。只有一声撞击声。这就是为什么状态有效性检查必须是一个独立的、明确的步骤——而不是藏在AI模型内部由模型自己来判断自己的信息是否可靠。**六、更好的评测方式不能只看任务成功率**论文的另一个重要贡献是提出了如何评估运行时授权机制的有效性。这个问题比表面看起来要复杂得多。目前评估机器人AI系统的主要指标是任务成功率——给机器人一个任务看它完成了多少次失败了多少次。这个指标当然有价值但它无法回答我们真正关心的安全问题。一个任务成功率95%的系统它那5%的失败究竟是什么性质的是优雅地停下来请求帮助还是悄悄地冲向了障碍物论文提出了三个核心量化指标专门用于评估安全干预机制的质量。第一个是不安全动作干预率UAIR在所有本应被拦截的危险动作中实际被成功拦截的比例有多少这是最直接的安全指标。一个UAIR等于100%的系统意味着每一个危险动作都被拦截了UAIR等于0%则意味着安全机制形同虚设。第二个是误拦截率FBR在所有本来安全可执行的动作中有多少被错误地拦截了这个指标衡量的是过度谨慎的代价。一个安全机制如果把所有动作都拦截下来UAIR是100%但FBR也是100%实际上机器人就完全无法工作了。安全性和可用性之间存在真实的张力好的授权机制必须在两者之间找到平衡。第三个是预提交干预率PCIR在所有被成功拦截的危险动作中有多少是在动作真正变成硬件运动之前就被拦截的这个指标关注的是时机。一个在动作已经执行了一半才发出警报的安全机制与一个在动作刚刚被提议时就进行检查的机制安全价值差异巨大。除了这三个量化指标论文还提出了需要进行定性检查的维度系统是否能够在传感器数据被污染或陈旧时正确识别出状态不可靠它是否能够在模型高度自信时仍然执行物理可行性检查它是否在不同的机器人平台、不同的环境下都能一致地执行约束条件它的回退行为是否本身也是安全的论文还专门讨论了仿真平台Simulation Platforms的角色比如英伟达的Isaac Sim、广泛使用的MuJoCo物理引擎、用于自动驾驶测试的CARLA环境以及用于室内导航研究的Habitat平台。这些仿真环境可以生成大量边缘案例用于测试可以重复运行同一场景可以在没有真实硬件损失的情况下测试危险情况。但论文明确指出仿真平台能帮你发现问题但不能替你做授权决策。仿真告诉你这种情况可能出现而授权机制告诉你这种情况出现时该怎么办。**七、为什么能力和安全总是走在不同的路上**论文的一个重要观察是过去几年间物理AI的能力进步和安全机制的进步一直沿着相互平行但从未真正相交的两条轨道发展。能力方面的进步令人目不暇接。OpenVLA是一个拥有70亿参数的模型在97万个机器人操作示范上训练与前代最好的系统相比任务完成率提升了16.5个百分点。一个叫做VISTA的系统通过让世界模型生成视觉化的子目标来指导机械臂工作将超出训练分布的操作任务成功率从14%提升到了69%。一个叫做WoVR的系统通过明确控制想象出来的未来场景中的幻觉问题将标准操作任务成功率从约40%提升到了约69%真实机器人的成功率从61.7%提升到了91.7%。这些数字展示的是模型越来越能猜对应该怎么做。但论文的问题是就算模型猜对了我们有没有独立的机制来验证这个猜测是否真的安全任务成功率不等于授权可靠性。一个在标准测试场景下有95%成功率的系统在一个略微不同的部署环境里面对一个之前从未见过的传感器噪声模式依然可能悄无声息地做出危险决定。这种能力-安全的双轨并行现象论文认为根源在于研究者们来自不同的学术传统使用不同的工具评估不同的指标。模型研究者关心泛化能力、少样本学习、跨平台迁移。控制理论研究者关心数学证明的安全集合、系统动力学方程。LLM安全研究者关心有害内容、越狱攻击、政策合规。真正把这三条线连接起来的工作目前还极为稀少。**八、把所有这些连接起来一个最小记录模板**论文最后给出了一个实用性的贡献一个最小授权事件记录模板设计用于在不同的机器人平台、不同的AI模型、不同的部署环境之间提供一个统一的比较基础。这个模板包含九个字段。观察上下文记录了当时可用的传感器输入、历史记录、时间戳和平台信息本质上是回答系统当时看到了什么。动作提案记录了AI系统提出的具体指令无论是速度命令、轨迹规划还是自然语言描述的计划目的是把提案和执行在记录上明确分开。状态估计记录了系统认为世界当前的样子包括周围的物体、障碍物、机器人自身的状态。状态有效性证据则记录了为什么我们认为这个世界图景是可信的或者不可信的包括传感器健康状态、数据延迟、不确定性指标、是否超出训练分布等。活跃约束列出了在这个时刻必须满足的所有规则和限制从物理上的速度极限到任务规程中的操作规定。授权决定记录了最终的结论授权、修改、拒绝、降级到备用模式还是请求人工介入。回退或修改方案记录了当授权决定不是通过时实际执行了什么替代行动。时间证据记录了提案时间、授权决定时间和最终执行时间用于事后判断干预是否足够及时。最后审计追踪则记录了模型版本、约束规则编号、关键证据的引用以及授权或拒绝的原因代码支持事故调查和跨系统比较。关键在于这个模板不规定任何具体的AI模型架构或机器人控制系统。一台仓库移动机器人、一台工业机械臂、一架无人机和一辆自动驾驶车辆都可以使用相同的模板记录它们的授权事件即使它们内部使用的AI系统完全不同。这就使得跨平台的安全比较成为可能。**结语当AI从预测世界变成行动于世界**归根结底这篇论文要讲的是一件非常具体的事当一个AI系统的输出不再只是文字或图片而是会让真实机器运动的指令时我们需要在AI说要做什么和机器真的开始做之间建立一道有明确职责、有完整记录、独立于AI模型本身运作的审查关卡。这不是说现有的AI系统不够好也不是说现有的安全机制毫无价值。论文明确承认更好的模型可以减少一部分错误更好的控制器可以防止一部分越界更好的传感器可以提供更可靠的信息。但开放世界里永远存在训练数据覆盖不到的情况物理世界永远比任何模型更复杂而一台高速运转的工业机器人犯错的代价和一个聊天机器人说错话的代价完全不在同一个数量级。论文为研究界提出了几个尚未解决的关键问题每一个都值得后续深入研究。不同类型的物理AI系统无人机、移动机器人、机械臂、人形机器人在授权层面需要一个什么样的统一抽象运行时系统如何量化地判断当前的世界状态信息是否足够可靠来支撑某个具体动作语义约束、空间约束、物理约束和操作规程约束如何在不产生易脆规则系统的前提下组合在一起如何设计一套评测方法能够真正测量一个授权机制在减少或发现静默失效方面的效果而不仅仅是测量任务完成率这些问题目前没有标准答案但它们是物理AI从实验室工具变成可信赖的社会基础设施之前必须要回答的问题。这篇发布于arXiv平台编号arXiv:2606.00090的综述论文提供了目前为止对这个问题最系统的梳理也许可以成为推动这些问题走向解决的一块基石。---QAQ1物理AI的静默失效和普通软件崩溃有什么区别A普通软件崩溃会产生明显的错误信号比如弹出错误窗口或触发警报系统会停止运行并通知用户出了问题。而物理AI的静默失效恰恰相反——系统的所有组件都在正常运转日志显示一切正常没有任何报警。失败发生在更隐蔽的层面AI系统赖以做决策的世界状态信息已经悄悄地偏离了真实情况比如传感器数据陈旧、感知结果有遮挡但系统本身毫不知晓依然充满信心地继续执行动作直到造成真实的物理后果。Q2现有的AI安全机制为什么不够用A现有的安全机制各自解决了问题的一个侧面控制屏障函数能防止机器人违反物理极限但需要预知精确的动力学方程语义过滤器能识别有害指令但无法判断语义无害的指令是否在物理上安全运行时保证系统能切换到备用控制器但难以评估AI提出的复杂动作是否基于可靠的世界状态不确定性检测能发出情况可能有问题的信号但无法直接给出安全替代方案。问题不在于某个机制本身不够强而在于没有一个统一的关卡能在同一个事件中同时评估状态可靠性、物理可行性、操作合规性和回退方案。Q3评估物理AI安全性为什么不能只看任务成功率A任务成功率只告诉你系统做成了多少次却无法揭示那些失败的本质是优雅地停下来请求帮助还是悄悄冲向障碍物更重要的是一个在标准测试场景下成功率很高的系统在真实部署中遇到训练数据未覆盖的边缘情况时依然可能在毫无警告的情况下做出危险决定。论文提出用不安全动作干预率误拦截率和预提交干预率三个指标来专门衡量安全机制本身的质量重点不是任务完不完成而是危险动作有没有在变成真实运动之前被正确识别和拦截。

STATE16研究院揭示物理AI系统中那些无声无息的致命错误

相关资讯