普渡大学Aniket Bera教授：可靠自主机器人的“安全阀”，藏在“可检查接口”里 | ICRA 2026

ICRA2026 具身智能机器人

2026/06/08 10:08

普渡大学Aniket Bera教授：可靠自主机器人的“安全阀”，藏在“可检查接口”里 | ICRA 2026

2026年6月2日，国际机器人与自动化会议（ICRA 2026）在奥地利维也纳进入第二天。普渡大学（Purdue University）计算机科学系教授、IDEAS Lab实验室主任Aniket Bera发表了题为"RobotsSafe Navigation in Unstructured & Human-Centered Environments"（在非结构化与以人为中心环境中安全导航）的主题演讲，系统阐述了他对鲁棒自主机器人系统的一整套方法论。

他的核心论断直指当前自主系统研发中的结构性缺陷：今天绝大多数“成功”的自主系统，本质上是因为我们把世界变简单了，而不是机器人真正理解了世界。工厂里的机械臂被围栏隔离、仓库中的AGV依赖地面标记、自动驾驶依赖高精地图——这些人为铺设的外部条件，本质上都是帮助系统起步的脚手架。而真正的自主性，恰恰要求最终拆掉它们。

对此，他提出了贯穿其实验室研究的核心框架——“学习负责提议，结构负责决策”（Learning proposes, Structure decides）。

在这一范式下，任何学习型模块——无论是视觉感知还是大语言模型——都不应该直接输出最终控制指令，而是必须先通过一道“可检查接口”（Checkable Interface）：这是一种可被形式化方法验证、由约束求解器审查的结构化输出。这条原则贯穿了IDEAS实验室的四大支柱研究：

普渡大学Aniket Bera教授：可靠自主机器人的“安全阀”，藏在“可检查接口”里 | ICRA 2026

总结而言，Aniket Bera给出了一条清晰的路线图：学习赋予机器人灵活性，但结构赋予它们可靠性。二者不是对立的技术路线，而是同一系统中不可分割的两面——而这正是将自主机器人从实验室"温室"推向真实"荒野"的必由之路。

以下是Aniket Bera在ICRA 2026大会发表的演讲精编稿，雷峰网(公众号：雷峰网)·AI科技评论基于原英文演讲内容进行了不改原意的翻译编辑：

《Toivard Behaviorally-Intelligent RobotsSafe Navigation in Unstructured &Human-Centered Enironments》

主讲人：Aniket Bera，普渡大学（Purdue University）计算机科学系，IDEAS实验室

一、成功的假象：我们不是在"造聪明机器人"，而是在"造温室"

我是Aniket Bera，普渡大学计算机科学系的教授，领导IDEAS实验室。我们实验室横跨机器人学、计算机视觉、机器学习和以人为中心的自主系统，共同的主线是：我们喜欢造智能的机器人。具身系统如何感知这个混乱的世界？如何推理人类和其他智能体的行为，同时在真实世界中实时执行安全的动作？

我先从一个“成功自主系统”的失效模式讲起。我们把世界变简单了，以为这样机器人就好办了——给机械臂围上围栏，在仓库地板上贴标记，给车辆装高精地图，在工厂里写死固定脚本。这些系统能工作，不是因为机器人真正理解环境，而是因为我们把环境精心设计成了机器人能应付的样子。

而我和我实验室关心的场景，恰恰是要拆掉这些脚手架。机器人可能没有GPS，没有先验地图，没有稳定的工作流程——而一个错误动作的代价可能是实实在在的物理损失。几周前我实验室就发生过一次，代价昂贵。

二、核心框架：学习负责提案，结构负责决策

正因如此，我把自主系统的问题框架化表述为：在语义约束、社交约束和安全约束下的闭环决策。

普渡大学Aniket Bera教授：可靠自主机器人的“安全阀”，藏在“可检查接口”里 | ICRA 2026

人们常问：你用的是传统经典机器人方法，还是基于学习的方法？我认为这个问题本身就是错的。真正有用的问题是——学习型模块向自主系统其余部分暴露的“接口”是什么？

感知模块不应该只输出特征向量，它应该输出物体、位姿、尺寸和不确定性。同样，大语言模型不应该直接输出机器人的控制指令——它应该输出某种可以被监控、可以被约束求解器检查的东西。这就是我所说的“可检查接口”（Checkable Interfaces）。

学习负责提出更丰富的表征、更丰富的候选方案；而结构负责决策哪些可以被信任、哪些需要被执行。这就是我们实验室工作的底层逻辑。

三、感知：从"好看的地图"到"可用的状态"

在机器人能够推理或行动之前，它需要一个状态估计——这个状态必须是几何的、语义的、可定位的，并且对下游任务有用。机器人需要持久化的物体表征、语义含义、不确定性——即一种可以被底层规划器查询的表示。而最难的部分是：所有这些必须实时完成。

核心问题是：你的感知栈输出的是什么？如果它输出的是原始像素或某种黑箱嵌入向量，整个系统栈的其余部分就无法做出安全论证。反之，如果它输出的是一个类型化的状态（Typed State），那么规划和验证层就能真正使用它。我们需要知道机器人在哪里、场景中有哪些物体、这些物体之间的关系是什么，以及所有这些估计有多不确定。

普渡大学Aniket Bera教授：可靠自主机器人的“安全阀”，藏在“可检查接口”里 | ICRA 2026

近年来，神经渲染领域（如3D高斯溅射）的工作为建图、定位和SLAM提供了强大的表示。它能给出稠密、照片级真实、可连续优化的地图。但这里有两个问题：第一，通过渲染-比较-优化光度误差来估计相机位姿的管线，对于像无人机这样需要快速闭环控制的场景来说太慢太脆弱；第二，一幅视觉上完美的高斯地图，并不自动等同于一个规划状态——它不包含物体身份、开放词汇语义，或校准过的不确定性。

我们的FastSLAM项目正是针对这个延迟问题。我们把位姿估计问题从“渲染-优化”转变为“匹配-刚体注册”：将当前帧与活跃关键帧进行匹配，反投影得到两个3D点集，然后求解SE(3)上的最小二乘对齐——SVD解法直接从互协方差矩阵给出旋转量。位姿变成一个快速的几何计算，而重建质量可以异步提升。我们已经在搭载NVIDIA Jetson的无人机上部署了这个系统，在茂密森林中实现实时定位与建图。

沿着同样的思路，GoSLAM解决的是“如何让重建的物体具有可指称性和开放词汇语义”——让规划器可以通过物体名称查询地图，而不是只能通过像素坐标。TransLocNet则解决“无GPS环境下如何将局部地图全局锚定”——通过将地面观测与航拍影像进行跨视角、跨季节的配准。想象一下，森林里大雪纷飞，树叶落尽，而你的卫星图是夏天拍的。这需要超越像素和坐标层面的表征理解。

所有这些不同的技术问题，被同一条主线缝合在一起：感知必须产出一个可查询、可定位、可被关注的类型化状态。

四、可信自主：大模型不是决策者，而是被审查的提案者

接下来进入第二大支柱：可信自主（Dependability）。在这里，科学论证变得更加明确。一个学习型模块可以非常有用，但同时仍然危险——它会在分布偏移下失效，它的置信度可能被错误校准；在语言模型的场景中，它可能生成一个听上去完美、实则违反任务级约束的计划。

所以问题是：什么是一个“可检查的对象”？对感知来说，答案是类型化状态；对规划来说，答案必须是一个可容许的计划或动作。

我们的项目SELP（ICRA 2025最佳论文入围）正是为此而生。它的核心思想是：将大语言模型的角色从"无约束的规划器"转变为"受约束的提案机制"。

普渡大学Aniket Bera教授：可靠自主机器人的“安全阀”，藏在“可检查接口”里 | ICRA 2026

SELP的工作方式是这样的：将一个机器人任务翻译成时序逻辑规范（Temporal Logic Specification），然后在生成过程中约束每一步——在每个token被采样之前，系统先检查“如果加上这个token，部分计划是否仍然可行”。

如果不可行，这个token在采样前就被屏蔽。大语言模型仍然是有用的先验知识来源（帮助生成高效的计划），但它不再是安全问题的最终权威。

这意味着什么？它意味着约束不是“事后补救”——不是在模型输出之后再贴一层安全检查；约束被嵌入到生成过程本身。形式化规范不是护栏，而是搜索空间的边界。

沿着同样的哲学，我们还开发了CAsForD（Context-Aware Safety For Decision-making，上下文感知决策安全）——当用户指令不安全时，系统不只说“不”，而是识别不安全成分并选择安全修复方案。

还有我们实验室的其他工作，通过让模型产生数学优化程序来表达运动规划的时间约束。一以贯之的原则是：学习型模块永远不获得未经审查的权威，它产生的计划、修复和控制必须可验证、可约束、可认证。

五、人不是移动障碍物：行为感知导航与多机器人协作

在第三和第四支柱中，我们的工作延伸到更复杂的社交和协作场景。

在人类行为建模方面，我们研究的问题包括：在密集社交场景中预测人类运动、建模群体层面的动力学、人-物交互，以及当场景中的物体需要被移动或重新布置时的规划。核心主题是：人不仅仅是移动的障碍物——他们互相交互，他们与物体交互，他们与环境交互，围绕机器人形成了一个耦合的、不确定的动力学系统。机器人必须预测人类行为，推理以物体为中心的上下文，并在几何约束不足以保障安全时采取行动。

在多机器人协作方面，我们研究了协作主动重建、多智能体信息路径规划、可扩展的多智能体SLAM等问题。核心主题是去中心化的团队自主性：每个机器人必须基于局部观测和有限通信采取行动。我们的策略是，在训练阶段使用集中式学习来获取优势，但在部署阶段以去中心化方式运行——在部分可观测、通信受限、多智能体动态交互的条件下。

六、结语：让机器人走出"温室"

回到最初的四大支柱，我想留给大家一个核心理念：安全的自主系统不是一个单独的模块，它是整个系统栈编织在一起的结果。学习赋予机器人灵活性，但结构赋予它们可靠性。真正的目标是——当世界变得混乱：没有GPS、地图不完整、物体在移动、处处都是不确定性——机器人仍然能够以安全的方式行动。

Q&A 问答环节

听众A：感谢精彩的演讲。我觉得工业界存在一个很大的脱节——我们在追逐KPI数字，和真正部署可验证、安全的系统之间。我想问，您如何看待基于物理的方法与神经渲染（如高斯溅射）在验证与安全方面的关系？

Aniket Bera：这个问题切中要害。所有的神经模型都需要——人们常说的——“护栏”（guardrails）。但护栏的问题在于，它是一种事后补救：你把机器学习模型建好了，然后贴上一层基于物理的约束或真实世界约束来限制输出，让它在做出危险行为之前被拦住。我认为这是极其错误的做法。

这些约束——无论是物理先验还是来自其他领域的先验知识——应该被“嵌入”到学习空间本身中去。这就是为什么我们要把问题转化为形式化方法规范：让我们能够独立地约束空间中的每一个输出，从一开始就保证生成结果的可靠性和可信性。目标不是“全押”在学习方法上，而是找到一种智能的组合——在何处植入形式化方法规范、在何处植入物理约束、在何处植入特定应用所需的其他约束。

听众A（追问）：您说的是应该“内置”（in）而不是“后置”（post）。我的问题是：作为一个社区，我们有时候在追逐KPI数字，但真正部署物理系统需要考虑的远不止一个数字。我们如何才能让这两者更接近？

Aniket Bera：我要说一些可能不太受欢迎的话。在与工业界合作、尤其是与制造业和国防领域的工程合作伙伴打交道的过程中，我理解为什么很多工程方案倾向于更传统的控制方法——因为学术界常常把"学习"包装成一种万能神谕，仿佛它能解决下游的一切。

我认为弥合这两个世界的方法，也是让工程界对基于学习的方法建立信心的方式，就是从一开始就给学习型问题赋予约束、赋予意义。我们不应该只看“教科书数字”，而应该关注系统在哪里失败、下游的可靠性指标是什么。这正是这两个领域需要更频繁对话的地方。

听众B：您谈到了让机器人行为更具社交性。我的问题是如何将这些行为信号传导到操作层面（manipulation level）？比如在布置餐桌的任务中，用户可能期望先放杯子再放盘子，这种对齐如何传导到运动规划层面？

Aniket Bera：这是一个很有意思的问题。我认为，如果你能够在任务层面用更好的物理约束来约束生成过程——确保步骤序列物理上可行，不会导向灾难状态或伦理失效——那么，形式化方法的技巧就能帮上忙。你可以将基于学习的方法剖分成子模块，判断每一步是否仍在规划边界之内，还是已经进入了安全关键区域。

不过，安全约束和文化/行为约束的性质不同。如果你能把每一种约束都建模出来，嵌入到像SELP这样的形式化方法规范中，我认为只要在安全范围内，没有理由不能处理文化线索和行为线索。这个问题我们可以在会后继续聊。

为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货，雷峰网已全面上线【ICRA 2026 深度专区】。

专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲，更将持续更新前方记者的第一手会议动态。

扫描下方二维码，或点击“阅读原文”关注专区。

与全球 8000 名顶尖大脑同步呼吸，抢先透视具身智能的下一个五年！

专题

ICRA 国际机器人与自动化会议查看更多文章