波恩大学 Maren Bennewitz 教授：让机器人在遮挡世界中主动获取信息 | ICRA 2026

ICRA 机器人具身智能

2026/06/05 18:12

为了看见遮挡物，机器人必须学会“动手”

正如我们都知道的，机器人运行在杂乱、变化且只能部分观测的环境中。因此，单纯被动观察远远不够。为了完成任务，主动感知环境是必要的。主动感知机器人必须在行动中整合感知、预测、先验信息和动作，主动获取信息，并提升对环境的理解。

今天我将介绍机器人如何高效增强它对世界的知识，主要围绕杂乱场景和隐藏物体展开。更具体地说，我会讲机器人如何利用先验和试探性动作，在少量步骤内完成感知和操作。

先看一个场景。我们有一个货架，前面有几个盒子，挡住了后方空间的视线。问题是，我们怎样才能看见盒子后面的物体？也就是说，机器人如何推理前方物体背后可能存在什么？雷峰网

在这个例子里，仅仅改变视角是不够的。机器人必须移动场景中的一些物体，才能看见后面并覆盖被遮挡的空间。这就是我们关注的问题。

我们使用一种带有不确定性的度量语义地图表示。这个表示既可以推理场景中的所有物体，也可以推理操作动作及其约束的影响。我们学习一个模型，预测这个地图表示会如何随着动作结果而演化。也就是说，我们预测场景会如何因为视角变化、推动或者抓取而改变，并把它作为动作如何改变世界的先验。

波恩大学 Maren Bennewitz 教授：让机器人在遮挡世界中主动获取信息 | ICRA 2026

基于这个学习到的模型，我们可以推断动作的效果。因此，机器人会选择那些能够降低环境表示不确定性、降低度量语义表示不确定性的最佳动作。比如在这个案例里，机器人可以先向左推动一个盒子，然后抓取另一个盒子，把它移到一侧，从而看见此前被遮挡的空间，并识别其中的物体。雷峰网(公众号：雷峰网)

我们学习动作条件网络，预测占据、语义以及相应的不确定性。这些网络会预测机器人执行某个动作之后，信念会如何变化。网络也会预测对应的不确定性。随后，我们选择那些能够降低不确定性、或者提高预期信息增益的动作。我们会在接下来两个动作的序列上做优化，选择最大化信息增益、降低不确定性的序列。

这里是我们的目标函数。对于纯粹的视角变化，我们考虑预期信息增益；对于抓取、推动物体以移除后方遮挡空间的动作，我们还会额外考虑动作成本。然后，我们评估下一步测试动作带来的信息增益，并在两个动作的序列上进行优化，以最大化信息、降低不确定性。

这是我们与合作者共同开发的方法。接下来可以看到系统运行的过程：左边是带有相机的机器人实验平台，右边显示机器人已经识别出的物体。最开始，机器人已经识别了一些物体，而它的任务是识别场景中的所有物体。

使用我们的方法，机器人会查看世界中的不确定性地图，选择最好的动作来处理场景中的所有物体。它会移动一些物体，抓取一些物体，把它们放到一侧，从而观察后方空间。最后，机器人识别出了场景中的所有物体。当然，机器人只会移除那些为了覆盖整个空间而必须移除的物体，并会在之后把它们放回货架。

这里可以看到，机器人能够维护关于环境中物体的长期信念。因此，即使存在遮挡，它也知道物体在货架上的位置。

基于 3D 场景图的按需物体搜索

接下来一个问题是：机器人如何在更大的场景中搜索物体？例如在一个完整家庭环境中，物体会频繁移动、重新放置，也可能被隐藏在家具内部。我们如何让机器人在用户需要某个物体时进行搜索，而不是重新探索整个环境？

为此，我们把环境重建为一个 3D 场景图，就像前一场报告中也展示过的那样。这个图包含房间、家具和隔层结构。我们利用这个图来推理被搜索物体可能位于哪里，并把被搜索物体视为相关过程中的动态节点。

在搜索物体时，我们进行空间信念推理，利用这个图表示来推理物体的位置。比如这里的例子中，机器人的任务是寻找一个物体。环境中有三个可能的位置：货架、书桌和咖啡桌。

第一步，我们使用来自 LLM 的语义先验，初始化关于搜索物体位置的信念。在这个例子里，机器人一开始认为最可能的位置是货架，其次书桌和咖啡桌也有一定概率。

当然，我们也考虑几何信息。我们会预测目标物体是否应该能够放在某个位置上。如果这个物体太大，无法放进某个隔层，那么我们就会降低它在该位置的概率，相应地提高其他位置的概率。

最后，非常重要的是，我们会基于重定位动态来更新信念。也就是说，机器人学习环境中的物体重定位转移概率。

整体流程有三步。首先，LLM 根据场景图为我们预测候选放置位置。它的输入是场景图，输出是候选位置，例如家具节点或者隔层节点，然后我们把这些排序转换成关于位置的先验。

其次，我们基于目标物体尺寸过滤掉不可行的位置。再次，我们基于观察到的稀疏数据更新重定位转移概率，让机器人学习人的移动习惯，并随着时间调整搜索策略。

我们把这些因素结合到全局定位中。由于被搜索物体可能在没有被观察到的情况下发生变化，我们也允许一定概率扩散到环境中的其他区域。最后，我们进行代价感知的动作选择，在物体可访问性、预期动作成本以及对人的影响之间做平衡，由机器人选择最有用的位置进行检查。

我们在家庭环境数据上评估了这个方法，场景中的物体会发生重定位。评估时，我们给定固定的搜索预算，并测试机器人能否找到目标物体。如果不使用任何先验信息，只在可能搜索位置上使用均匀先验，那么成功率较低。

加入语义先验和几何先验后，搜索成功率会提高；进一步加入学习到的重定位转移后，在固定时间预算下，成功率还能进一步提高。因此，这个方法能够支持按需搜索，而不需要重新探索整个环境，因为机器人会随时间维护长期信念。

让农业机器人少走冤枉路

现在我们考虑持续变化的环境。一个具体例子是农业环境：植物会生长，外观也会随时间变化。我们考虑园艺或农业应用中的作物重复监测。监测会被反复执行，例如每周两次，我们希望通过监测变化来估计产量。

当然，我们不希望每次都从头开始。想法是使用上一个时间点学习到的模型，来指导当前时间点的视角规划和重建。当作物生长时，它们会带来严重的遮挡，因此我们需要利用上一轮的先验。

我们的平台会在作物行之间移动，并带有固定的相机阵列。随着平台穿过环境，我们可以部分重建作物行。但由于作物有许多行，而且存在遮挡，当前数据中会出现空洞。于是，我们的想法是利用上一时间步的模型作为先验，进行高效的视角规划，移动投影或相机来填补当前时间戳数据中的空洞。

具体来说，我们会对上一时间步的重建模型进行非刚性配准。上一时间步的模型更完整，而当前时间步只有部分重建。我们把上一次的模型配准到当前的部分重建上，也就是把两个点云以非刚性的方式对齐。

之后，我们执行一个优化过程。现在我们有了一个近似表面，可以使用集合覆盖优化：在估计表面上采样目标点，然后选择能够覆盖这些目标点的视角。随后，我们执行覆盖优化，并用旅行商问题计算一条近似最优路径。

在真实温室数据中，首先可以看到移动平台静态相机得到的部分重建。由于遮挡，当前数据里有空洞。然后，我们把上一轮数据对齐到当前部分数据，基于近似表面执行视角规划，再规划路径并在平台上执行，从而收集覆盖植物的新数据。

最后，我们得到了一条高效路径，覆盖了所有表面，也填补了当前数据中的空洞。这个模型随后又可以用于下一时间步的监测。

把叶片也纳入行动规划

刚才我们看到，先验地图可以帮助重复监测中的视角规划更高效。但像甜椒或番茄这样的果实仍然会被部分遮挡，因为机器人不能仅仅依靠寻找它们就完成任务。有时，移动叶片是必要的，这样才能可靠估计果实形状和可采摘性。

在这项工作中，我们使用叶片形变模型来评估候选动作、评估可能的视角，并预测叶片背后的可见性。通过这种方式，我们可以揭示被遮挡的区域，并估计果实的尺寸。

到目前为止，我们假设遮挡叶片是已知的，也就是说机器人知道应该操作哪片叶子，才能看见后方缺失的部分。而我们现在正在做的是学习一种用于遮挡推理的表示。我们的目标是学习一种统一图表示，建模可见性关系和遮挡关系。利用这个图，机器人可以识别哪片叶子从哪个方向遮挡了目标，以及应该按什么顺序进行处理。

例如，我们会估计观察方向。在一个例子中，根据这个图，我们得到果实和叶片的排序，并结合观察方向判断某片叶子的遮挡排名最高。因此我们知道，这片叶子需要被推到一侧，才能显露果实并估计它的形状。

刚才介绍的这些技术可以用于估计可采摘状态，然后进一步执行实际采摘。这里可以看到，机器人能够使用一个包含相机、切割器和操作器的三臂系统，可靠地识别作物并完成相关操作。

最后总结一下。机器人在很多场景中都运行在杂乱、变化且只能部分观测的环境里。因此，机器人需要同时规划观察动作和操作动作，用于物体搜索、地图构建和环境重建。

我展示了先验如何引导感知以及感知和操作动作的规划。因此，先验有助于实现高效的主动感知。

我还展示了信念传播如何支持对遮挡物体以及操作动作效果的推理。通过主动选择能够降低不确定性、提升可观测性并处理遮挡的动作，我们能够增强机器人的能力，让机器人更好地获取知识、理解环境。

正如我最后提到的，下一步我们将通过学习和表示可见性图以及遮挡关系，进一步推理遮挡问题；同时也会继续研究生成式方法和相关服务机器人应用。

Q&A 问答环节

听众提问：移动叶片这个动作看起来代价比较高。为了估计果实的可采摘性，到底需要实际移动多少？能不能依赖关于果实外形和可采摘性的先验信息，即使我们没有完整看到果实？

Maren Bennewitz：谢谢你的问题。首先，我们会使用形状补全方法。比如我们只部分观察到甜椒时，可以使用一些方法来估计并补全它的形状。

然后，我们会对叶片使用形变模型。我们使用一种形变图来估计叶片能够如何被操作、应该往哪个方向移动。之后，我们再估计被遮挡的区域是否能够被显露出来。这个过程目前当然仍然有成本，但最终我们能够得到关于甜椒更完整的信息。

听众提问：所以你们确实需要移除遮挡物，才能估计它是否可采摘吗？

Maren Bennewitz：我可能没有完全理解你的问题。你是说仅仅估计可采摘状态，对吗？对于可采摘状态本身，也许并不总是需要移除叶片；但我们这里讨论的是移除叶片来估计形状、估计合适的操作过程。因此，对于另一些设置，你也许不需要真的移除叶片，但可以做出相应决策。

听众提问：谢谢你的报告。我很欣赏这种基于信念的方法。我想问的是，当物体被完全遮挡时，物体本身会出现在你的信念先验中吗？如果目标完全被遮挡，这种基于信念的方法如何适应？

Maren Bennewitz：一开始，机器人完全不知道后面有什么。这是对的。因此，这个区域会有很高的不确定性，因为我们不了解这个区域。于是，机器人会推理应该移动哪些物体，才能看见后面。也就是说，我们会给这个区域的占据和语义赋予较高的不确定性。

听众提问：所以信念是关于区域的，而不是关于物体的？

Maren Bennewitz：正是如此。我们使用的是度量语义地图表示，信念是在这个度量语义表示上的。基于这个表示，物体随后才会被识别出来。谢谢。

去哪看 ICRA 核心【演讲/论文】详解？

为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货，雷峰网已全面上线【ICRA 2026 深度专区】。

专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲，更将持续更新前方记者的第一手会议动态。

扫描下方二维码，或点击「阅读原文」关注专区。

波恩大学 Maren Bennewitz 教授：让机器人在遮挡世界中主动获取信息 | ICRA 2026

与全球 8000 名顶尖大脑同步呼吸，抢先透视具身智能的下一个五年！

专题

ICRA 国际机器人与自动化会议查看更多文章