雷锋网 AI 科技评论按:近日 Facebook 科学家团队发布基于主题标签的深度学习方法,使用已有的拥有主题标签的图片作为训练数据,从而大幅提升了训练数据集的大小。数据集的增大必然会引起图片错误率的提升,他们同时发布了处理图片噪音的方法。他们团队的这项工作对于现今的图片识别领域有着广泛而深远的影响。雷锋网对全文翻译如下。
图片识别是AI 的一个支柱领域,目前也是 Facebook 关注的领域之一。我们的研究人员与工程师专注于开拓 CV 的边界,并将相关工作应用到生活中从而服务世界。例如,利用 AI 生成图片的音频提示来照顾一些视力受损的用户。为了改善我们的 CV 系统并使他们可以持续识别和分类各种各样的物体,我们需要数以十亿级的照片数据集,而不是今天常用的百万数据集。
因为现在用来训练模型的数据集一般需要人为标注的,所以简单增加图片(无标注)数量的方法并不能很好的提高识别效果。这种计算密集型的监督学习通常可以表现的很好,但缺点是这种手动标注的数据集的大小受到「手动」这个特点的严重限制。举个例子,现在 Facebook 用一个有 5000 万张图片的数据集训练模型,但「手动」将这个数据集拓展到 10 亿级是非常难实现的。
现在我们的研究员和工程师通过训练带有主题标签的数据集的方法解决了这个问题,这个超大数据集包含了 35 亿张图片和 17,000 个主题标签。这个方法的关键点在于使用已经存在的由用户提供的公开主题标签来取代手动分类的标签。这个方法在我们的测试中表现良好。通过使用这个包含 10 亿张图片的版本训练模型,我们的模型取得了 85.4% 的识别准确度,打破了 ImageNet(常用基准测试工具)的准确度记录。这项工作除了在图像识别性能上有了真正的突破,还为如何从监督学习迁移到弱监督学习提供了重要思路,即使用已经存在的标签(如本实验中的主题标签)而不是专门为 AI 训练而准备的标签。我们打算在未来开源这些模型的嵌入部件,这样其他研究团队就可以在这个表示方法上使用、建立高级任务。
人们通常会为他们的照片打上主题标签,我们由此认为这是模型训练数据的一个理想来源。我们使用主题标签的另一个考量是主题标签可以简要概括某一类事物,从而让图片更加容易被理解。
但主题标签经常会涉及到不直观的概念,例如 #tbt 代表着「throwback Thursday」。有时又会模棱两可,例如标签 #party 既可以用来描述一项活动也可以表示一项设置。对于识别图像这个目的来说,标签被用作弱监督数据,那么模棱两可或者不相关的主题标签就成了会误导深度学习模型的「不相关标签噪音」。
这些噪音标签是我们大规模性训练必须关注的核心问题,为此我们研发出新的基于主题标签的监督学习方法,这种方法针对图像识别实验进行了专门的调整。这些调整包括对每个图片进行多标签处理(人们通常给图片打上不止一个标签),按主题标签同义词进行排序,以及平衡常见标签与不常见标签对模型的影响。为了让标签可以更好的应用于图片识别训练,我们团队先训练了一个大规模的主题标签预测模型。这是一次效果极佳的迁移学习,结果这个模型分类后的图片可以广泛应用于其他 AI 系统。这项新的工作基于 Facebook 之前的研究,比如基于评论、主题标签和视频的图像分类调查。这次对于弱监督学习的探索是 AML(Facebook's Applied Machine Learning)和 FAIR(Facebook Artificial Intelligence Research)广泛合作的成果。
由于一台机器要花一年多时间才能完成模型训练,我们发明了一种新方法将任务分发给 336 块 GPU,这样就将训练时间缩短至一周。随着训练模型越来越大(我们研究中使用的最大的模型是有 8.61 亿个参数的 ResNeXt 101-32x48d),这种分布式训练也越来越重要。除此之外,我们还设计了一个移除副本的方法,这种方法可以防止我们把待评估的图片用来训练模型—一个困扰此领域相关研究的问题。
尽管我们都希望图片识别的性能提升,但结果着实给人惊喜。我们使用 10 亿张图片(含 1500 个主题标签)训练出的模型在 ImageNet 上取得了 85.4% 的准确率。这是当前 ImageNet 最高识别率,这成绩比以往最佳模型的识别率高了 2%。考虑到卷积神经网络架构的影响,目前可见的性能提升更加显著:使用数以十亿级的图片(含主题标签)进行深度学习,对识别率的提升高达 22.5%。
在另外一个基准测试—COCO 物体检测挑战中,我们发现使用主题标签进行预训练可以将模型的平均精度提升 2%。
这些是对图像识别和物体检测的基础改进,代表着计算机视觉前进了一步。但是我们的实验也揭示了与大规模训练和噪音标签相关的具体机遇和挑战。
尽管提升训练数据集的大小是非常有用,选择和特定识别任务相匹配的主题标签一样重要。我们对 10 亿张图片(1500 个主题标签且与 ImageNet 数据集中的类相匹配)进行训练得到的结果要优于对 10 亿张图片(17000 个主题标签)进行训练的结果。另一方面,对具有更大视觉多样性的任务,使用 17,000 个主题标签进行训练的模型的性能改进变得更加明显,这表明我们应该在未来的训练中增加主题标签的数量。
增加训练数据量通常对图像分类有好处。但它可能会产生新的问题,包括图像中物体定位能力的明显下降。我们还了解到,我们当前最大的模型远没有充分利用 35 亿图像训练集的数据,这意味着我们应该训练更大的模型。
这项研究的一个重要结果—甚至比在图像识别方面的各项改进还要重要—就是确认使用主题标签去训练计算机视觉模型完全可行。由于我们使用了一些基础技术来合并同类主题标签以及削弱标签权重,我们完全不需要复杂的「清理」程序来消除标签噪音。相反,我们可以用主题标签训练我们的模型并且对训练过程修改很少。这时候数据集规模的提升就显得很有益,因为在数十亿的图像上训练的模型显示出对标签噪声的显着恢复能力。
在不远的将来,我们还设想了其他将主题标签用作计算机视觉标签的方式。这些方式可能包括使用 AI 来更好地理解视频片段或改变图片在 Facebook 推荐中的排名方式。主题标签不仅可以帮助系统识别一般类别的图片还可以识别特定子类别的图片。例如,「树上有个鸟」这种语音提示是有用的,但一个可以指明确切物种的语音提示可以为视障用户提供更好的场景描述,比如「一个北美红雀栖息在北美枫树上」。
抛开主题标签的使用不谈,这项研究依旧取得了广泛的图片识别相关的进展,这些改进足以影响现有产品和新产品。例如,更加精确的模型可能会改善我们在 Facebook 上呈现历史记录的方式。这项研究还指出长期影响与弱监督数据有关。随着训练数据集越来越大,弱监督(长期来说,无监督)学习变得越来越重要。知道如何弥补噪音大。标签少的缺点对建立和使用的大规模训练数据集至关重要。
Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan 等人的论文—「Exploring the Limits of Weakly Supervised Pretraining」对研究进行了详细描述。因为本实验使用了超大规模级别的数据集,最后的观测结果为一系列新研究方向铺平了道路,包括开发新一代的足够复杂的深度学习模型用来从数十亿的图像中有效地学习。
这项工作还表明,我们需要开发像 ImageNet 一样可以广泛使用的新基准数据库,一是可以让我们更好地衡量当今图像识别系统的质量和局限性。二是为以后更大,监督更弱的系统做准备。
雷锋网认为Facebook团队这项工作对于现如今图像识别领域会有很大影响。一是训练数据集的提升导致训练模型的提升,二是他们还引导学习方式从监督到弱监督的转变。阅读原文戳:Facebook F8。