
作者丨郑佳美
编辑丨马晓宁
2026 年 6 月 4 日,在 ICRA 2026 “Robot perception and spatial AI” Keynote Session 上,波恩大学教授 Maren Bennewitz 发表了关于主动感知机器人的演讲,直指真实机器人部署中的一个基本困境:机器人面对的世界往往是杂乱、持续变化且只能部分观测的,仅靠被动观察无法完成可靠理解。
Bennewitz 的核心判断是:机器人要真正进入家庭、农业和服务场景,不能只把感知当作“看一眼”的过程,而必须把感知、预测、先验知识和动作规划放到同一个闭环里。机器人需要主动移动视角、推动或抓取遮挡物,用最少的动作获得最多的信息。
她在演讲中给出了三类典型场景:
其一,在货架或桌面等遮挡环境中,机器人通过不确定性感知的语义地图,决定哪些物体值得移动;
其二,在家庭物体搜索中,机器人利用 3D 场景图、LLM 语义先验、几何约束和物体重定位规律,在不重新探索全屋的情况下按需寻找物体;
其三,在农业监测与果实采摘中,机器人借助上一时刻的地图先验、非刚性配准和叶片形变模型,规划更高效的观测与操作动作。
这场演讲的关键洞察在于:主动感知并不是“多看几眼”,而是把“看哪里、动什么、何时停止”变成信息增益最大化问题。对于机器人而言,世界不是一张静态照片,而是一组可以通过行动逐步揭开的信念分布。
1、真实环境的核心难点不是没有图像,而是不确定性和遮挡:机器人必须知道自己不知道什么。
2、主动感知的价值在于把动作变成信息采集工具:换视角、推开物体、移动叶片,都是为了降低地图和语义的不确定性。
3、先验知识并不替代感知,而是帮助机器人更聪明地选择下一步:LLM 提供语义常识,几何模型过滤不可能位置,重定位模型学习人类移动物体的习惯。
4、在农业机器人中,时间维度同样重要:上一轮完整重建可以作为下一轮观测规划的先验,让机器人在重复监测中避免从零开始。
5、面向采摘等高价值任务,机器人需要从“识别果实”进一步走向“估计可采摘性”,并理解叶片、视角和目标之间的遮挡关系。
总的来看,Bennewitz 试图回答的是一个非常现实的问题:当机器人无法一次看清世界时,它应该如何通过行动把未知变成已知?她的答案是,用信念表示世界,用先验约束搜索,用动作主动降低不确定性。
以下是AI 科技评论对 Maren Bennewitz 在 ICRA 2026 大会发表的演讲实录整理。内容基于英文现场转写进行不改原意的中文整理。

01
正如我们都知道的,机器人运行在杂乱、变化且只能部分观测的环境中。因此,单纯被动观察远远不够。为了完成任务,主动感知环境是必要的。主动感知机器人必须在行动中整合感知、预测、先验信息和动作,主动获取信息,并提升对环境的理解。
今天我将介绍机器人如何高效增强它对世界的知识,主要围绕杂乱场景和隐藏物体展开。更具体地说,我会讲机器人如何利用先验和试探性动作,在少量步骤内完成感知和操作。
先看一个场景。我们有一个货架,前面有几个盒子,挡住了后方空间的视线。问题是,我们怎样才能看见盒子后面的物体?也就是说,机器人如何推理前方物体背后可能存在什么?雷峰网(公众号:雷峰网)
在这个例子里,仅仅改变视角是不够的。机器人必须移动场景中的一些物体,才能看见后面并覆盖被遮挡的空间。这就是我们关注的问题。
我们使用一种带有不确定性的度量语义地图表示。这个表示既可以推理场景中的所有物体,也可以推理操作动作及其约束的影响。我们学习一个模型,预测这个地图表示会如何随着动作结果而演化。也就是说,我们预测场景会如何因为视角变化、推动或者抓取而改变,并把它作为动作如何改变世界的先验。

基于这个学习到的模型,我们可以推断动作的效果。因此,机器人会选择那些能够降低环境表示不确定性、降低度量语义表示不确定性的最佳动作。比如在这个案例里,机器人可以先向左推动一个盒子,然后抓取另一个盒子,把它移到一侧,从而看见此前被遮挡的空间,并识别其中的物体。雷峰网
我们学习动作条件网络,预测占据、语义以及相应的不确定性。这些网络会预测机器人执行某个动作之后,信念会如何变化。网络也会预测对应的不确定性。随后,我们选择那些能够降低不确定性、或者提高预期信息增益的动作。我们会在接下来两个动作的序列上做优化,选择最大化信息增益、降低不确定性的序列。

这里是我们的目标函数。对于纯粹的视角变化,我们考虑预期信息增益;对于抓取、推动物体以移除后方遮挡空间的动作,我们还会额外考虑动作成本。然后,我们评估下一步测试动作带来的信息增益,并在两个动作的序列上进行优化,以最大化信息、降低不确定性。

这是我们与合作者共同开发的方法。接下来可以看到系统运行的过程:左边是带有相机的机器人实验平台,右边显示机器人已经识别出的物体。最开始,机器人已经识别了一些物体,而它的任务是识别场景中的所有物体。
使用我们的方法,机器人会查看世界中的不确定性地图,选择最好的动作来处理场景中的所有物体。它会移动一些物体,抓取一些物体,把它们放到一侧,从而观察后方空间。最后,机器人识别出了场景中的所有物体。当然,机器人只会移除那些为了覆盖整个空间而必须移除的物体,并会在之后把它们放回货架。
这里可以看到,机器人能够维护关于环境中物体的长期信念。因此,即使存在遮挡,它也知道物体在货架上的位置。

02
接下来一个问题是:机器人如何在更大的场景中搜索物体?例如在一个完整家庭环境中,物体会频繁移动、重新放置,也可能被隐藏在家具内部。我们如何让机器人在用户需要某个物体时进行搜索,而不是重新探索整个环境?
为此,我们把环境重建为一个 3D 场景图,就像前一场报告中也展示过的那样。这个图包含房间、家具和隔层结构。我们利用这个图来推理被搜索物体可能位于哪里,并把被搜索物体视为相关过程中的动态节点。

在搜索物体时,我们进行空间信念推理,利用这个图表示来推理物体的位置。比如这里的例子中,机器人的任务是寻找一个物体。环境中有三个可能的位置:货架、书桌和咖啡桌。
第一步,我们使用来自 LLM 的语义先验,初始化关于搜索物体位置的信念。在这个例子里,机器人一开始认为最可能的位置是货架,其次书桌和咖啡桌也有一定概率。
当然,我们也考虑几何信息。我们会预测目标物体是否应该能够放在某个位置上。如果这个物体太大,无法放进某个隔层,那么我们就会降低它在该位置的概率,相应地提高其他位置的概率。
最后,非常重要的是,我们会基于重定位动态来更新信念。也就是说,机器人学习环境中的物体重定位转移概率。

整体流程有三步。首先,LLM 根据场景图为我们预测候选放置位置。它的输入是场景图,输出是候选位置,例如家具节点或者隔层节点,然后我们把这些排序转换成关于位置的先验。
其次,我们基于目标物体尺寸过滤掉不可行的位置。再次,我们基于观察到的稀疏数据更新重定位转移概率,让机器人学习人的移动习惯,并随着时间调整搜索策略。
我们把这些因素结合到全局定位中。由于被搜索物体可能在没有被观察到的情况下发生变化,我们也允许一定概率扩散到环境中的其他区域。最后,我们进行代价感知的动作选择,在物体可访问性、预期动作成本以及对人的影响之间做平衡,由机器人选择最有用的位置进行检查。
我们在家庭环境数据上评估了这个方法,场景中的物体会发生重定位。评估时,我们给定固定的搜索预算,并测试机器人能否找到目标物体。如果不使用任何先验信息,只在可能搜索位置上使用均匀先验,那么成功率较低。
加入语义先验和几何先验后,搜索成功率会提高;进一步加入学习到的重定位转移后,在固定时间预算下,成功率还能进一步提高。因此,这个方法能够支持按需搜索,而不需要重新探索整个环境,因为机器人会随时间维护长期信念。


03
现在我们考虑持续变化的环境。一个具体例子是农业环境:植物会生长,外观也会随时间变化。我们考虑园艺或农业应用中的作物重复监测。监测会被反复执行,例如每周两次,我们希望通过监测变化来估计产量。
当然,我们不希望每次都从头开始。想法是使用上一个时间点学习到的模型,来指导当前时间点的视角规划和重建。当作物生长时,它们会带来严重的遮挡,因此我们需要利用上一轮的先验。
我们的平台会在作物行之间移动,并带有固定的相机阵列。随着平台穿过环境,我们可以部分重建作物行。但由于作物有许多行,而且存在遮挡,当前数据中会出现空洞。于是,我们的想法是利用上一时间步的模型作为先验,进行高效的视角规划,移动投影或相机来填补当前时间戳数据中的空洞。

具体来说,我们会对上一时间步的重建模型进行非刚性配准。上一时间步的模型更完整,而当前时间步只有部分重建。我们把上一次的模型配准到当前的部分重建上,也就是把两个点云以非刚性的方式对齐。
之后,我们执行一个优化过程。现在我们有了一个近似表面,可以使用集合覆盖优化:在估计表面上采样目标点,然后选择能够覆盖这些目标点的视角。随后,我们执行覆盖优化,并用旅行商问题计算一条近似最优路径。

在真实温室数据中,首先可以看到移动平台静态相机得到的部分重建。由于遮挡,当前数据里有空洞。然后,我们把上一轮数据对齐到当前部分数据,基于近似表面执行视角规划,再规划路径并在平台上执行,从而收集覆盖植物的新数据。
最后,我们得到了一条高效路径,覆盖了所有表面,也填补了当前数据中的空洞。这个模型随后又可以用于下一时间步的监测。

04
刚才我们看到,先验地图可以帮助重复监测中的视角规划更高效。但像甜椒或番茄这样的果实仍然会被部分遮挡,因为机器人不能仅仅依靠寻找它们就完成任务。有时,移动叶片是必要的,这样才能可靠估计果实形状和可采摘性。
在这项工作中,我们使用叶片形变模型来评估候选动作、评估可能的视角,并预测叶片背后的可见性。通过这种方式,我们可以揭示被遮挡的区域,并估计果实的尺寸。

到目前为止,我们假设遮挡叶片是已知的,也就是说机器人知道应该操作哪片叶子,才能看见后方缺失的部分。而我们现在正在做的是学习一种用于遮挡推理的表示。我们的目标是学习一种统一图表示,建模可见性关系和遮挡关系。利用这个图,机器人可以识别哪片叶子从哪个方向遮挡了目标,以及应该按什么顺序进行处理。
例如,我们会估计观察方向。在一个例子中,根据这个图,我们得到果实和叶片的排序,并结合观察方向判断某片叶子的遮挡排名最高。因此我们知道,这片叶子需要被推到一侧,才能显露果实并估计它的形状。
刚才介绍的这些技术可以用于估计可采摘状态,然后进一步执行实际采摘。这里可以看到,机器人能够使用一个包含相机、切割器和操作器的三臂系统,可靠地识别作物并完成相关操作。

最后总结一下。机器人在很多场景中都运行在杂乱、变化且只能部分观测的环境里。因此,机器人需要同时规划观察动作和操作动作,用于物体搜索、地图构建和环境重建。
我展示了先验如何引导感知以及感知和操作动作的规划。因此,先验有助于实现高效的主动感知。
我还展示了信念传播如何支持对遮挡物体以及操作动作效果的推理。通过主动选择能够降低不确定性、提升可观测性并处理遮挡的动作,我们能够增强机器人的能力,让机器人更好地获取知识、理解环境。
正如我最后提到的,下一步我们将通过学习和表示可见性图以及遮挡关系,进一步推理遮挡问题;同时也会继续研究生成式方法和相关服务机器人应用。


05
听众提问:移动叶片这个动作看起来代价比较高。为了估计果实的可采摘性,到底需要实际移动多少?能不能依赖关于果实外形和可采摘性的先验信息,即使我们没有完整看到果实?
Maren Bennewitz:谢谢你的问题。首先,我们会使用形状补全方法。比如我们只部分观察到甜椒时,可以使用一些方法来估计并补全它的形状。
然后,我们会对叶片使用形变模型。我们使用一种形变图来估计叶片能够如何被操作、应该往哪个方向移动。之后,我们再估计被遮挡的区域是否能够被显露出来。这个过程目前当然仍然有成本,但最终我们能够得到关于甜椒更完整的信息。
听众提问:所以你们确实需要移除遮挡物,才能估计它是否可采摘吗?
Maren Bennewitz:我可能没有完全理解你的问题。你是说仅仅估计可采摘状态,对吗?对于可采摘状态本身,也许并不总是需要移除叶片;但我们这里讨论的是移除叶片来估计形状、估计合适的操作过程。因此,对于另一些设置,你也许不需要真的移除叶片,但可以做出相应决策。
听众提问:谢谢你的报告。我很欣赏这种基于信念的方法。我想问的是,当物体被完全遮挡时,物体本身会出现在你的信念先验中吗?如果目标完全被遮挡,这种基于信念的方法如何适应?
Maren Bennewitz:一开始,机器人完全不知道后面有什么。这是对的。因此,这个区域会有很高的不确定性,因为我们不了解这个区域。于是,机器人会推理应该移动哪些物体,才能看见后面。也就是说,我们会给这个区域的占据和语义赋予较高的不确定性。
听众提问:所以信念是关于区域的,而不是关于物体的?
Maren Bennewitz:正是如此。我们使用的是度量语义地图表示,信念是在这个度量语义表示上的。基于这个表示,物体随后才会被识别出来。谢谢。
去哪看 ICRA 核心【演讲/论文】详解?
为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货,雷峰网已全面上线【ICRA 2026 深度专区】。
专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。
扫描下方二维码,或点击「阅读原文」关注专区。

与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!
