服了！能干这件小事的AI，才是真厉害......

作者：贝爽

2020/11/29 21:08

为了辅助人类，AI已经练就了「十八般武艺」

如写诗作词、绘画、修图，编辑视频等等，样样精通。

但如果人类只想——在凌乱的橱柜里找到一罐豆子？AI还能帮上忙吗？

服了！能干这件小事的AI，才是真厉害......

也许真的可以！

近日，加州大学伯克利研究团队公布了一项最新成果，他们开发了一种AI系统，

“该系统将预测目标物体位置的可感知管道与机械搜索策略相结合，可依次选择遮挡物体并推到一边，以尽可能的展示目标物体。”

简单来说，就是他们训练了一个AI机器人可以在狭窄的空间内移除遮挡物，并找到目标物体。

他们还提供了一段Demo示例：

服了！能干这件小事的AI，才是真厉害......

图中，AI机器臂顺利移开了前面白色和红色的遮挡物，发现了隐藏背后的豆子罐头，研究人人员介绍，目前该系统的准确率最高可达到87%以上。

看到这里你可能会好奇，为什么要研发这个看起来很简单又很日常的AI呢？

厨房里的AI：LAX-RAY

事实上，复杂环境中的目标对象搜索是AI机器人技术的重点研究方向之一，其相关研究成果也不再少数，但总体而言，针对诸如货架、厨房、壁橱等环境下的研究却很少。

然而，它却在现实世界中有着广泛的应用场景。

例如，医院药房的服务机器人可能需要从橱柜中找到耗材；工业机器人可能需要从仓库货架上找到成套工具；又或者零售商店的服务机器人可能需要在货架上搜索所需物品等。

服了！能干这件小事的AI，才是真厉害......

这项研究是伯克利和Google研究团队共同开展的，Google研究人员称：

我们一直在研究将AI应用于最日常的活动场景中去，因为改善搜索和选择对象的方法是工业应用，科学实验，医疗保健，零售业务以及无数商业场景和制造过程的核心。

需要说明的是，以上看似简单的操作背后有着复杂的技术需求。

如研究人员介绍，医院、仓库或零售货架等场景，因为空间有限、存在视野障碍，为AI系统的搜索与检测任务带来了极大的挑战。

为此，他们提出了一种新型预测目标位置系统：LAX-RAY（Lateral Access maXimal Reduction of occupancY），该系统支持查找货架上被遮挡的物体，并解决物体之间“密集接触”的操纵任务。

服了！能干这件小事的AI，才是真厉害......

具体来说，研究人员基于该系统提出了：分布区域缩减（DAR），分布熵缩减（DER），以及Uniform三种搜索策略。

为了测试这些策略的性能，研究人员利用一个开放框架——一阶货架模拟器（FOSS）生成了800个难度各异的随机货架环境，然后将LAX-RAY系统和嵌入式深度感应摄像头部署到了Fetch机器人中进行了测试。

服了！能干这件小事的AI，才是真厉害......

结果显示，与DER相比，DAR和DER-MT策略的表现更好。在模拟中，LAX-RAY系统准确度达到了87.3％。而在实际应用环境中，准确率也达到了大约80%。这表明LAX-RAY可以在现实环境中有效地查找被遮挡的目标对象。

技术原理及结果

LAX-RAY检测系统分为两个主要部分，一是预测目标物体空间占有率感知管道；二是利用该信息有效地解决查找问题的搜索策略。搜索策略结合感知模块的输出结果和每个步骤的观察结果做出移除动作，从而可以有效地发现目标对象。

在感知管道预测之前，需要对被遮挡物体进行深度识别和目标对象分割。在这里，研究人员从Google扫描数据集中，渲染了5个目标物体的30000多个图像进行了训练，其中，大约50%的图像包含完全遮挡的目标物体。

此外，研究人员还从一组单独的目标模型中渲染了10000幅图像，这些目标与测试集具有相似的纵横比。

服了！能干这件小事的AI，才是真厉害......

如图，测试数据集中的遮挡对象具有不同的类别和不同的形状。研究人员使用动量为0.99的随机梯度下降法训练了一个完全连接的网络（FCN），该网络以目标物体分割掩模和当前货架的深度图像为输入，可输出目标物体的位置分布密度图。

实验结果如下：

研究人员把随机的物体放在一个白色的架子上，使用嵌入在机器人上的PrimeSense RGBD相机来获得颜色和深度图像。在彩色图像上使用一种颜色检测算法，通过设置RGB值的阈值来检测被涂成绿色的目标对象。

如下图显示了在完全遮挡情况下，架子上随机排列的目标对象的预测结果。

服了！能干这件小事的AI，才是真厉害...... 图中，5个不同的目标物体（长宽比为1:2到4:1）。左侧显示了随机物体在架子上的颜色和PrimeSense相机拍摄的深度图像。第一行显示了来自预训练模型的二维占用率分布，第二行显示了覆盖深度观测的1D占用率分布。

在实际应用中，每个长宽比的预测值有显著差异，再次验证了预训练模型的准确性。

基于感知位置信息，研究人员提出了三种搜索策略：

分布区域缩减（DAR）：使用当前深度图像对可用操作进行排序，并针对每个对象计算对象掩码，预测最小位置分布的重叠区域。
分布熵缩减（DER-n）：通过在当前深度图像上分割掩模的深度值来预测Pˆt+n，可得到新的深度图像的占有率分布，从而得到预测状态。
Uniform：通过DAR中预测的占用率分布来创建均匀分布，以代替具有遮挡对象的位置。

实验结果如下：

研究人员在800个场景上测试了DER-n（n∈{1，2，3}）DAR和Uniform策略。目标物体使用的是长宽比为1:1的绿色立方体。如果在10个操作中至少有90%的目标物体展示出来，则认为策略成功。

服了！能干这件小事的AI，才是真厉害......

表中可以看出，DAR、DER-n策略的性能优于Uniform策略，尤其是当对象数量增加时。当遮挡对象数目增加时，所有策略的性能都会下降，因为AI机器臂需要更多的操作步骤来显示目标。

当遮挡对象少于6个时，DAR的性能最好。但在6个及更多个对象的场景中，DER-2表现最好，达到了最高87.3%。其中，与DER-2相比，DER-1的性能较差，是因为没有足够的目标信息被预测出来，而DER-3较差的原因，是由于预测误差的累积。

也就是说，当遮挡对象数较少时，预测误差占主导地位，这可以解释DAR比DER-2性能更好的原因。

以下是DER-1查找9个遮挡物中的目标物体的序列图。

服了！能干这件小事的AI，才是真厉害......

顶部绿色箭头的RGB图像，表示推动方向和距离。底部是占用率分布的深度图像。

每个深度图像底部绘制的占用率分布包括三部分：上一个时间步长的预测分布（蓝色）、当前时间步长的预测分布（黄色）以及两个分布中的最小值（白色）。

总之，本次研究证明了基于LAX-RAY系统检测策略的可行性和准确性。研究人员表示，在未来的工作中计划研究更复杂的深度模型，并使用平行于相机的推力来为侧向推力创造空间，或者使用气动吸盘来拉动杂乱货架上遮挡物体。

更多论文详细内容，请参见：https://arxiv.org/abs/2011.11696

引用链接：

https://techxplore.com/news/2020-11-ai-items-constricted-regions.html

https://venturebeat.com/2020/11/26/robotics-researchers-propose-ai-that-locates-items-on-shelves-and-moves-objects-without-tipping-them/

http://ai.stanford.edu/mech-search/shelf/

雷锋网雷锋网雷锋网