雷锋网 AI 科技评论按:过去十年里,研究人员在计算视觉领域取得了巨大的成功,而这其中,深度学习模型在机器感知任务中的应用功不可没。此外,2012 年以来,由于深度学习模型的复杂程度不断提高,计算能力大涨和可用标记数据的增多,此类系统的再现能力也有了较大进步。
不过在这三个辅助条件中,可用数据集的发展速度并没有跟上模型复杂度(已经从7 层的 AlexNet 进化到了 101 层的 ResNet)和计算能力的提高速度。2011 年时,用于训练 101 层 ResNet 模型的依然是只有 100 万张图片的 ImageNet。因此,研究人员一直有个想法,如果能将训练数据扩容 10 倍,准确率能翻番吗?那么扩容 100 倍或 300 倍又能得到什么样的成果呢?我们能突破现有的准确率平台期吗?数据的增多是否能带来更多突破?
在《重新审视深度学习时代数据的非理性效果》(Revisiting Unreasonable Effectiveness of Data in Deep Learning Era)这篇论文中,研究人员先是吹散了围绕在海量数据和深度学习关系周围的迷雾。他们的目标是探寻如下问题:
1. 如果给现有算法源源不断的加标签图片,它们的视觉再现能力会继续提高吗?
2. 在类似分类、目标检测和图像分割等视觉任务中,数据和性能间关系的本质是什么?
3. 在计算视觉应用中,能应对所有问题的顶尖模型是否用到了大规模学习技术呢?
不过,在考虑以上这些问题前,我们先要考虑去哪找这个比 ImageNet 大 300 倍的数据集。谷歌一直在努力搭建这样一个数据集,以便提升计算视觉算法。具体来说,谷歌的数据集 JFT-300M 已经有 3 亿张图片,它们被分为 18291 个大类。负责为这些图片加标签的是一个专用算法,它用到了原始网络信号、网页关系和用户反馈等一系列信息。
完成加标签的工作后,这 3 亿张图片就有了超过 10 亿个标签。而在这些标签中,大约有 3.75 亿个被负责标签精度的算法选了出来。不过即使这样,整个数据集中的标签依然存在不少噪声(noise)。初步估算的数据显示,被选中图片的标签中有 20% 都属于噪声范围,由于缺乏详尽的注释,因此研究人员无法精确判断到底那些标签应该被取消。
进行了一番实验后,研究人员验证了一些假设,同时实验还带来一些意想不到的惊喜:
1. 更好的表征学习辅助效果。实验显示,大规模数据集的使用能提升表征学习的效果,反过来还提高了视觉任务的表现。因此,在开始训练前搭建起一个大规模的数据集还是相当有用的。同时,实验也表明,无监督和半监督表征学习前途无量。此外,只要数据规模起来了,噪声问题就变得不再重要了。
2. 性能会随着训练数据数量级实现线性增长。也许整个实验最惊人的发现就是视觉任务中的性能和用于表征学习的训练数据规模间的关系了。它们之间居然有着异常线性的关系,即使训练图片多达 3 亿张,实验中也没有出现平台期效应。
3. 容量非常重要。在实验中,研究人员还发现,想要充分利用这个巨大的数据集,模型的深度和容量必须足够大。举例来说,ResNet-50 在 COCO 目标检测基准上就只有 1.87%,而 ResNet-152 就有 3%。
4. 新成果。在本篇论文中,研究人员还在 JFT-300M 数据集训练的模型中发现了不少新成果。举例来说,单个模型已经可以达到 37.4 AP,而此前的 COCO 目标检测基准只有 34.3 AP。
需要注意的是,在实验中用到的训练制度、学习安排和参数设置都是基于此前对 ConvNets 训练的理解,当时的数据集还是只有 100 万张图片的 ImageNet。在工作中,研究人员并没有用到超参数的最优组合,因此最终得到的结果可能并不完美,所以数据的真实影响力在这里可能还被低估了。
这项研究并没有将精力集中在特定任务数据上。研究人员相信,未来获取大规模的特定任务数据将成为新的研究重心。
此外,谷歌那个拥有 3 亿张图片的数据集并不是终极目标,随着技术的发展,建设 10 亿+图片数据集的任务应该提上日程了。雷锋网 AI 科技评论表示对此拭目以待。
论文地址:https://arxiv.org/abs/1707.02968
via Google Research,雷锋网 AI 科技评论编译