
2026年6月2日,国际机器人与自动化会议(ICRA 2026)在奥地利维也纳进入第二天。普渡大学(Purdue University)计算机科学系教授、IDEAS Lab实验室主任Aniket Bera发表了题为"RobotsSafe Navigation in Unstructured & Human-Centered Environments"(在非结构化与以人为中心环境中安全导航)的主题演讲,系统阐述了他对鲁棒自主机器人系统的一整套方法论。
他的核心论断直指当前自主系统研发中的结构性缺陷:今天绝大多数“成功”的自主系统,本质上是因为我们把世界变简单了,而不是机器人真正理解了世界。 工厂里的机械臂被围栏隔离、仓库中的AGV依赖地面标记、自动驾驶依赖高精地图——这些人为铺设的外部条件,本质上都是帮助系统起步的脚手架。而真正的自主性,恰恰要求最终拆掉它们。
对此,他提出了贯穿其实验室研究的核心框架——“学习负责提议,结构负责决策”(Learning proposes, Structure decides)。
在这一范式下,任何学习型模块——无论是视觉感知还是大语言模型——都不应该直接输出最终控制指令,而是必须先通过一道“可检查接口”(Checkable Interface):这是一种可被形式化方法验证、由约束求解器审查的结构化输出。这条原则贯穿了IDEAS实验室的四大支柱研究:

总结而言,Aniket Bera给出了一条清晰的路线图:学习赋予机器人灵活性,但结构赋予它们可靠性。 二者不是对立的技术路线,而是同一系统中不可分割的两面——而这正是将自主机器人从实验室"温室"推向真实"荒野"的必由之路。
以下是Aniket Bera在ICRA 2026大会发表的演讲精编稿,雷峰网·AI科技评论基于原英文演讲内容进行了不改原意的翻译编辑:
《Toivard Behaviorally-Intelligent RobotsSafe Navigation in Unstructured &Human-Centered Enironments》
主讲人:Aniket Bera,普渡大学(Purdue University)计算机科学系,IDEAS实验室
一、成功的假象:我们不是在"造聪明机器人",而是在"造温室"
我是Aniket Bera,普渡大学计算机科学系的教授,领导IDEAS实验室。我们实验室横跨机器人学、计算机视觉、机器学习和以人为中心的自主系统,共同的主线是:我们喜欢造智能的机器人。具身系统如何感知这个混乱的世界?如何推理人类和其他智能体的行为,同时在真实世界中实时执行安全的动作?
我先从一个“成功自主系统”的失效模式讲起。我们把世界变简单了,以为这样机器人就好办了——给机械臂围上围栏,在仓库地板上贴标记,给车辆装高精地图,在工厂里写死固定脚本。这些系统能工作,不是因为机器人真正理解环境,而是因为我们把环境精心设计成了机器人能应付的样子。
而我和我实验室关心的场景,恰恰是要拆掉这些脚手架。机器人可能没有GPS,没有先验地图,没有稳定的工作流程——而一个错误动作的代价可能是实实在在的物理损失。几周前我实验室就发生过一次,代价昂贵。
二、核心框架:学习负责提案,结构负责决策
正因如此,我把自主系统的问题框架化表述为:在语义约束、社交约束和安全约束下的闭环决策。

人们常问:你用的是传统经典机器人方法,还是基于学习的方法?我认为这个问题本身就是错的。真正有用的问题是——学习型模块向自主系统其余部分暴露的“接口”是什么?
感知模块不应该只输出特征向量,它应该输出物体、位姿、尺寸和不确定性。同样,大语言模型不应该直接输出机器人的控制指令——它应该输出某种可以被监控、可以被约束求解器检查的东西。这就是我所说的“可检查接口”(Checkable Interfaces)。
学习负责提出更丰富的表征、更丰富的候选方案;而结构负责决策哪些可以被信任、哪些需要被执行。这就是我们实验室工作的底层逻辑。
三、感知:从"好看的地图"到"可用的状态"
在机器人能够推理或行动之前,它需要一个状态估计——这个状态必须是几何的、语义的、可定位的,并且对下游任务有用。机器人需要持久化的物体表征、语义含义、不确定性——即一种可以被底层规划器查询的表示。而最难的部分是:所有这些必须实时完成。
核心问题是:你的感知栈输出的是什么? 如果它输出的是原始像素或某种黑箱嵌入向量,整个系统栈的其余部分就无法做出安全论证。反之,如果它输出的是一个类型化的状态(Typed State),那么规划和验证层就能真正使用它。我们需要知道机器人在哪里、场景中有哪些物体、这些物体之间的关系是什么,以及所有这些估计有多不确定。

近年来,神经渲染领域(如3D高斯溅射)的工作为建图、定位和SLAM提供了强大的表示。它能给出稠密、照片级真实、可连续优化的地图。但这里有两个问题:第一,通过渲染-比较-优化光度误差来估计相机位姿的管线,对于像无人机这样需要快速闭环控制的场景来说太慢太脆弱;第二,一幅视觉上完美的高斯地图,并不自动等同于一个规划状态——它不包含物体身份、开放词汇语义,或校准过的不确定性。
我们的FastSLAM项目正是针对这个延迟问题。我们把位姿估计问题从“渲染-优化”转变为“匹配-刚体注册”:将当前帧与活跃关键帧进行匹配,反投影得到两个3D点集,然后求解SE(3)上的最小二乘对齐——SVD解法直接从互协方差矩阵给出旋转量。位姿变成一个快速的几何计算,而重建质量可以异步提升。我们已经在搭载NVIDIA Jetson的无人机上部署了这个系统,在茂密森林中实现实时定位与建图。
沿着同样的思路,GoSLAM解决的是“如何让重建的物体具有可指称性和开放词汇语义”——让规划器可以通过物体名称查询地图,而不是只能通过像素坐标。TransLocNet则解决“无GPS环境下如何将局部地图全局锚定”——通过将地面观测与航拍影像进行跨视角、跨季节的配准。想象一下,森林里大雪纷飞,树叶落尽,而你的卫星图是夏天拍的。这需要超越像素和坐标层面的表征理解。
所有这些不同的技术问题,被同一条主线缝合在一起:感知必须产出一个可查询、可定位、可被关注的类型化状态。
四、可信自主:大模型不是决策者,而是被审查的提案者
接下来进入第二大支柱:可信自主(Dependability)。在这里,科学论证变得更加明确。一个学习型模块可以非常有用,但同时仍然危险——它会在分布偏移下失效,它的置信度可能被错误校准;在语言模型的场景中,它可能生成一个听上去完美、实则违反任务级约束的计划。
所以问题是:什么是一个“可检查的对象”?对感知来说,答案是类型化状态;对规划来说,答案必须是一个可容许的计划或动作。
我们的项目SELP(ICRA 2025最佳论文入围)正是为此而生。它的核心思想是:将大语言模型的角色从"无约束的规划器"转变为"受约束的提案机制"。

SELP的工作方式是这样的:将一个机器人任务翻译成时序逻辑规范(Temporal Logic Specification),然后在生成过程中约束每一步——在每个token被采样之前,系统先检查“如果加上这个token,部分计划是否仍然可行”。
如果不可行,这个token在采样前就被屏蔽。大语言模型仍然是有用的先验知识来源(帮助生成高效的计划),但它不再是安全问题的最终权威。
这意味着什么?它意味着约束不是“事后补救”——不是在模型输出之后再贴一层安全检查;约束被嵌入到生成过程本身。 形式化规范不是护栏,而是搜索空间的边界。
沿着同样的哲学,我们还开发了CAsForD(Context-Aware Safety For Decision-making,上下文感知决策安全)——当用户指令不安全时,系统不只说“不”,而是识别不安全成分并选择安全修复方案。
还有我们实验室的其他工作,通过让模型产生数学优化程序来表达运动规划的时间约束。一以贯之的原则是:学习型模块永远不获得未经审查的权威,它产生的计划、修复和控制必须可验证、可约束、可认证。
五、人不是移动障碍物:行为感知导航与多机器人协作
在第三和第四支柱中,我们的工作延伸到更复杂的社交和协作场景。
在人类行为建模方面,我们研究的问题包括:在密集社交场景中预测人类运动、建模群体层面的动力学、人-物交互,以及当场景中的物体需要被移动或重新布置时的规划。核心主题是:人不仅仅是移动的障碍物——他们互相交互,他们与物体交互,他们与环境交互,围绕机器人形成了一个耦合的、不确定的动力学系统。 机器人必须预测人类行为,推理以物体为中心的上下文,并在几何约束不足以保障安全时采取行动。
在多机器人协作方面,我们研究了协作主动重建、多智能体信息路径规划、可扩展的多智能体SLAM等问题。核心主题是去中心化的团队自主性:每个机器人必须基于局部观测和有限通信采取行动。我们的策略是,在训练阶段使用集中式学习来获取优势,但在部署阶段以去中心化方式运行——在部分可观测、通信受限、多智能体动态交互的条件下。
六、结语:让机器人走出"温室"
回到最初的四大支柱,我想留给大家一个核心理念:安全的自主系统不是一个单独的模块,它是整个系统栈编织在一起的结果。 学习赋予机器人灵活性,但结构赋予它们可靠性。真正的目标是——当世界变得混乱:没有GPS、地图不完整、物体在移动、处处都是不确定性——机器人仍然能够以安全的方式行动。
Q&A 问答环节
听众A: 感谢精彩的演讲。我觉得工业界存在一个很大的脱节——我们在追逐KPI数字,和真正部署可验证、安全的系统之间。我想问,您如何看待基于物理的方法与神经渲染(如高斯溅射)在验证与安全方面的关系?
Aniket Bera: 这个问题切中要害。所有的神经模型都需要——人们常说的——“护栏”(guardrails)。但护栏的问题在于,它是一种事后补救:你把机器学习模型建好了,然后贴上一层基于物理的约束或真实世界约束来限制输出,让它在做出危险行为之前被拦住。我认为这是极其错误的做法。
这些约束——无论是物理先验还是来自其他领域的先验知识——应该被“嵌入”到学习空间本身中去。这就是为什么我们要把问题转化为形式化方法规范:让我们能够独立地约束空间中的每一个输出,从一开始就保证生成结果的可靠性和可信性。目标不是“全押”在学习方法上,而是找到一种智能的组合——在何处植入形式化方法规范、在何处植入物理约束、在何处植入特定应用所需的其他约束。
听众A(追问): 您说的是应该“内置”(in)而不是“后置”(post)。我的问题是:作为一个社区,我们有时候在追逐KPI数字,但真正部署物理系统需要考虑的远不止一个数字。我们如何才能让这两者更接近?
Aniket Bera: 我要说一些可能不太受欢迎的话。在与工业界合作、尤其是与制造业和国防领域的工程合作伙伴打交道的过程中,我理解为什么很多工程方案倾向于更传统的控制方法——因为学术界常常把"学习"包装成一种万能神谕,仿佛它能解决下游的一切。
我认为弥合这两个世界的方法,也是让工程界对基于学习的方法建立信心的方式,就是从一开始就给学习型问题赋予约束、赋予意义。我们不应该只看“教科书数字”,而应该关注系统在哪里失败、下游的可靠性指标是什么。这正是这两个领域需要更频繁对话的地方。
听众B: 您谈到了让机器人行为更具社交性。我的问题是如何将这些行为信号传导到操作层面(manipulation level)?比如在布置餐桌的任务中,用户可能期望先放杯子再放盘子,这种对齐如何传导到运动规划层面?
Aniket Bera: 这是一个很有意思的问题。我认为,如果你能够在任务层面用更好的物理约束来约束生成过程——确保步骤序列物理上可行,不会导向灾难状态或伦理失效——那么,形式化方法的技巧就能帮上忙。你可以将基于学习的方法剖分成子模块,判断每一步是否仍在规划边界之内,还是已经进入了安全关键区域。
不过,安全约束和文化/行为约束的性质不同。如果你能把每一种约束都建模出来,嵌入到像SELP这样的形式化方法规范中,我认为只要在安全范围内,没有理由不能处理文化线索和行为线索。这个问题我们可以在会后继续聊。
为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货,雷峰网(公众号:雷峰网)已全面上线【ICRA 2026 深度专区】。
专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。
扫描下方二维码,或点击“阅读原文”关注专区。
与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!