SSD（单次多盒检测）用于实时物体检测

CNN SSD R-CNN

2018/07/24 09:56

雷锋网 AI 研习社按：本文为雷锋网字幕组编译的技术博客，原标题 SSD(Single Shot Multi-Box Detection) for real time object detection，作者 Rabin Poudyal。

翻译 | 陶玉龙校对 | 佟金广整理 | 孔令双

卷积神经网络在检测图像中的物体时优于其他神经网络结构。很快，研究人员改进了 CNN 来进行对象定位与检测，并称这种结构为 R-CNN（Region-CNN）。R-CNN 的输出是具有矩形框和分类的图像，矩形框围绕着图像中的对象。以下是 R-CNN 的工作步骤：

使用我们称为选择性搜索的算法扫描输入图像，进而查找可能的对象，生成大约 2000 个候选区域，
在每个候选区域上运行 CNN，
获取每个 CNN 的输出并将其输入：

SVM 来区域进行分类
线性回归器来收紧对象的边界框，如果对象存在

SSD（单次多盒检测）用于实时物体检测

R-CNN 运用于目标检测

虽然与传统的 CNN 相比，R-CNN 在目标定位，检测和分类方面都取得了很大进步，但在实现目标实时检测方面依旧存在问题。以下是其中的一些问题：

1、训练数据很难处理，而且耗时很长

2、训练分为两个阶段进行（即：候选区域的选择和分类）

3、网络在推理阶段很慢（处理非训练数据时）

为了改进 R-CNN，研究人员们相继提出了其他算法，如 Fast-RCNN，Faster-RCNN 等。这些算法为目标检测提供了更准确的结果。但它们对于实时检测来说显得有点慢。SSD 就在这个时候应运而生，它在准确性和计算速度方面具有良好的平衡。

SSD（单发多边框检测器）的含义

单发：目标定位和分类在网络的单个前向传递中完成：

多框：边界框回归的技术

检测器：对检测到的对象进行分类

结构

SSD（单次多盒检测）用于实时物体检测

SSD 结构

SSD 的结构建立在 VGG-16 的基础上。但在这里对 VGG-16 进行了一些微小调整，从 Conv6 层开始，我们用一系列辅助卷积层来代替原先全连接层。因为 VGG-16 可以提供高质量的图像分类和迁移学习来改善结果，我们将其作为 SSD 的基础网络。通过使用辅助卷积层，我们可以提取图像多个尺度的特征，并逐步减小每个卷积层的尺寸。我已在下一节讨论了它的工作原理。您可以看到 VGG-16 架构的以下图像，它包含全连接层。

SSD（单次多盒检测）用于实时物体检测

VGG-16 结构

工作机制

SSD（单次多盒检测）用于实时物体检测

为了训练我们的算法，我们需要一个包含带有对象的图像的训练集，这些对象必须在它们上面有边界框。通过这种方式学习，算法学习如何在对象上放置矩形框以及放置在何处。我们通过调参使预测出的边界框和实际的边界框之间的误差最小，从而优化我们的模型以正确地检测对象。与 CNN 不同，我们不仅预测图像中是否存在物体，还需要预测物体在图像中的位置。在训练期间，算法也要学习调整对象边界框中的高度和宽度。

SSD（单次多盒检测）用于实时物体检测