最先进的目标检测器竟对大象“视而不见”

目标检测器计算机视觉

作者：camel

2020/01/07 11:44

最先进的目标检测器竟对大象“视而不见”

雷锋网注：本文作者刘平平，未经允许禁止转载。

现在常用的对象检测器存在一些显而易见而又极易被忽视的问题，正如同对“屋里的大象”视而不见。分析和优化这些问题对于图像识别技术的进步显得尤为重要。

现今，图像识别技术在自动驾驶、医学影像以及大热的机器视觉等领域发挥着不可或缺的作用，而稳定的系统对于图像识别的优劣起着关键作用。但即使是最先进的对象检测器也存在一些常见的故障：当将一个图像中的对象移植到另一个图像中，将导致对象检测器识别产生偏差甚至无法识别。

最先进的目标检测器竟对大象“视而不见”

究竟是什么原因导致识别故障？是否有方法优化解决这个问题？约克大学的Amir Rosenfeld、John K. Tsotsos和多伦多大学Richard Zemel等人发表的《The Elephant in the Room》详细研究并回答了这些问题。

研究人员提取一幅图片中的“大象”作为目标移植到另一幅图片中，发现几个明显的问题（如图1）：

最先进的目标检测器竟对大象“视而不见”

图 1

1、监测不稳定：目标可能不能被检测到且被检测到的概率大大降低；

2、报告的对象身份不一致：根据位置，该目标可能被检测为多种不同的类别；

3、目标会引起非局部影响：与目标不重叠的对象可以切换身份、边界框或完全消失。

为进一步验证上述问题是否存在，研究人员又随机选取大量图片进一步实验。

不出所料：当将一个图像中的对象移植到另一个图像中，将导致对象检测器的识别产生偏差甚至无法识别。且在现行最精准的检测器faster_rcnn_nas_coco 上运用几种不同的模型均不同程度出现这种问题。

上述实验均为随机选取的图片，因此所选取的对象是两个从未在一张图片中出现的特定组合。但是，网络成功处理此类图片及组合很困难。为排除此问题对实验造成的干扰，研究人员从一个图像中复制一个对象，并将其复制到同一图像中的另一个位置。

最先进的目标检测器竟对大象“视而不见”

图 2

结果表明，当移动目标时，部分遮蔽以及上下文都对识别产生一定的影响（图2）。例如，在 b 栏奶牛的脚在靠近电视时变成了遥控器。在 d 栏当植物的一部分被遮挡而人的手在附近时，植物的底部被识别为手提包或杯子。

为何对象检测器会出现这个问题？研究人员进一步进行实验试图探索此问题。

研究人员选取一张图片，图片中的一只仅露出局部身体的猫被错误地识别为斑马。研究人员分别做了以下实验：

1、丢弃检测边界框之外的所有像素：不能固定对象的分类，猫仍被识别为斑马，这表明ROI (region-of-interest)内的特征可能会引起混淆；

2、丢弃ROI内的所有非猫像素，猫被识别为猫，分类固定；

3、在边界框外的范围内再次添加随机噪声：猫再次被识别为斑马，检测不正确。

这个实验表明ROI外的特征会影响最终的检测结果。

研究人员通过匹配探测器在原始图像和修改后的图像中生成的一组边界框来计算场景的识别发生了多少次变化。计算公式如下：

最先进的目标检测器竟对大象“视而不见”

通过识别计算29张不同图片，他们统计了已移植对象导致对任何原始对象的检测被修改的位置的平均位置百分比，结果如下表。阈值τ是最小重叠，以将两个相同类别的边界框计算为匹配项。

最先进的目标检测器竟对大象“视而不见”

Affected-class-Agnostic: 边界框之间的类别不可知匹配的结果；

Affected-Occluded-20: 结果仅计算每个原始对象最多20％的区域被目标对象覆盖的情况；

Affected-No-Occ: 目标对象不会遮挡任何物体的结果。

通过上述实验，研究人员针对对象检测器存在常见故障发生的原因有以下几个推论：

1、部分遮盖：部分遮盖仍是对象检测器发展的一大挑战。但已有科学家提出数据驱动、局部证据定义目标等方法解决因目标遮盖而设别偏差的问题。

2、超出分布的示例：研究人员将目标移植到另一张图片中会使得目标边框产生突变边缘，边缘修改后的图像在训练集的图像分布下发生的可能性很小。且这些轻微的扰动如边缘突变也会造成网络输出发生巨大变化，从而导致识别偏差。

3、信号保存：空间池因其效率和不变形使得它对空间变形问题很有效，但是目前研究表明空间池分层阻碍了网络的位移不变。

4、上下文推理：现有的对象检测器不具备上下文推理能力，而网络推理会对对象类别及其相对空间布局之间的相互作用进行编码，这些上下文推理往往会造成识别偏差，如图2。

5、非极大值抑制：由于存在非极大值抑制，移植对象过程中使得其他对象遮盖状态发生变化，使得距被移植对象较远的对象识别也出现问题。

6、功能干扰：现行对象检测器使用从卷积层获得的特征，以生成最终的物体类别和矩形边界框预测。这使得边界框以内的非对象部分也成为识别对象的一部分，虽然在对象特征不明显时能根据非对象部分上下文推测对象类别，但是同时也会干扰对象正确识别。

在所有原因中，功能干扰是最为根本的原因，而由部分遮挡或上下文推理引起的影响是这个问题的具体体现。

即使这个问题现在很难解决，科学家Tsotsos仍然提出了解决模型：一旦完成了对视觉层次的第一遍处理，主导信号便向下传播通过层次结构，执行空间和特征衰减，以便信号的下一层将包含有关感兴趣对象的信息，即较少与周围特征纠缠在一起。这个模有望减轻识别偏差问题，而在将来是否会确实会发作用，我们拭目以待。

雷锋网报道。雷锋网