一个应用于物体识别的迁移学习工具链

迁移学习

2018/05/03 18:00

雷锋网按：本文为雷锋字幕组编译的技术博客，原标题A complete Transfer Learning Toolchain for Object Detection，作者Ralph Fehrer。

翻译 | 龙珂宇于志鹏整理 | 凡江

一个应用于物体识别的迁移学习工具链

迁移学习指的是，通过对预训练模型的参数进行微调，将训练好的模型应用到相似或者只有细微差异的不同任务中。通过这个方法，我们可以基于一些性能顶尖的深度学习模型得到别的高性能模型。尽管听上去较为简单，迁移学习仍然在预处理、搭建和测试上有很多的研究空间。

这份教程旨在提供一个工具链（流程中工具和相关库的集合），含有迁移学习中涉及语义分割的一些最基本的内容。以下的教程帮助你搭建一个典型的、具有生产可用性的迁移学习模型。本质上，它是一些特定的工具、框架和模型的结合。我们使用：

google-image-downloader通过图片URL链接向Google发送搜索请求，获取csv图片
Labelbox给数据集做标注，输出及转换
一个tf模型：TensorFlow’s model zoo，基于COCO dataset训练
TensorFlow Object Detection API：应用于迁移学习和推断
一台win10电脑，配备Intel的GPU

每一个单独的步骤沿一下叙述展开：

我们想要通过微调在COCO数据集上预训练的模型，来检测桃子。因为COCO数据集的模型训练目标是检测苹果和橘子，因此只调整预训练模型顶层的一些参数就足够了。

请注意，我们并不会在这个教程中制造出一个很成功的模型，因为那需要在步骤1中用到大得多的模型，也需要花费数倍的时间。我们主要致力于给大家展现一个可以应用于其他类似场景的迁移学习工具链，从如何构建一个自定义的数据集开始，最终得到一个微调完成的模型。

这个工具链中的每一步都有很多的替代选项，并且对于不同的任务，实现迁移学习的方法也有很多种。但如果你想尽快上手，不妨尝试这个工具链，再尽可能地根据你的需求调整每一个步骤。

我们也提供了一个对应的GitHub项目，上面的文件夹存有大部分我们需要的文件及操作过程中生成的文件。你可以克隆它来复现整个项目，也可以创建分支来扩展和修改该项目。

1. 创建一个数据集

如果你在已有的数据集中找不到一个你想检测的物体的数据集，你需要自己找到图片并给他们做标注。有几种工具可以帮助你减化这个痛苦的操作：接下来几步简单地描述了如何使用labelbox, 它是一个基于云端的标注工具，且操作界面十分简洁。如果想了解更详细的操作指南，可以看labelbox documentation.

1.1 收集图片URLs

因为找不到桃子图片的数据集，我们使用Google的图片搜索来构建我们的基础数据集。手动从Google上下载成千张图片非常乏味和耗时，幸运的是，有工具帮助我们通过脚本文件向Google发送搜索请求：

复制google-images-download.py script到脚本文件夹
在当前文件夹下打开command prompt
运行以下指令

一个应用于物体识别的迁移学习工具链

我们的数据（桃子）文件夹现在就会出现一个image_urls.csv文件，里面是桃子图片的URL链接。

1.2 给图片做标注

在这一步里，我们创建一个labelbox的项目，导入我们的image_urls.csv文件，然后给图片们做标注。

创建a labelbox project然后导入image_urls.csv
(可选) Adapt the labeling interface调整做标注的界面
使用semantic segmentation interface of labelbox来做标注
将the labeled datasets输出到json格式
使用这个脚本Use this script将json格式的数据集转化为COCO的格式

请注意：为了生成TFRecords文件，我们需要将coco-files分成训练集，验证集和测试集。你可以创建几个独立的labelbox project，然后重复几遍上述操作；也可以手动或者用脚本把上面生成的东西分成几部分。

下面这张图片展示了web-based labelbox的UI：

一个应用于物体识别的迁移学习工具链

使用labelbox给桃子做标注，用于之后的语义分割

这一步的输出是三个json文件，以COCO格式存储其标签及其他信息，分别对应我们的训练集，验证集和测试集。你们可以在accompanying GitHub-repository中对应的data subfolder里找到示例文件。

2. 迁移学习

2.1 将COCO标签数据转换为TFRecords的数据格式

TensorFlow的对象检测API要求数据需为TFRecord格式，这是一种不易理解的数据格式。准确的理解TFRecord需要花费一定的时间，而且并非易事。幸运的是，Tensorflow提供了一些脚本，可以将大部分常用格式转换为TFRecord，例如create_coco_tf.record.py。你可以在我们的GitHub仓库中找到这个脚本的小改版本。

创建TFRecords数据