谷歌发布视频界的 ImageNet ，这可能是史上最大的数据集了

2016/09/29 16:56

谷歌发布视频界的 ImageNet ，这可能是史上最大的数据集了

编者按：本文发布于谷歌博客，原文题目《Announcing YouTube-8M: A Large and Diverse Labeled Video Dataset for Video Understanding Research》

YouTube 的全球用户已经超过十亿，每秒钟上传的视频长度以小时计。视频语料库存日益增长，就需要一个推荐系统及时、准确地将用户感兴趣的视频不断推荐给用户。

近年来，机器学习和机器感知领域发生了许多突破，这都是在大型标注数据集的帮助下才得以发生的，比如全球最大的图像识别数据库 ImageNet，其包含了分成了数千个类型、数百万张有标注的图像。这些图像识别数据库的可用性增加了图像理解领域的研究，比如对静态图像中的物体进行检测和分类。

近日，谷歌在博客中宣布，该公司发布一个大型视频数据集 YouTube-8M 。其中包含了 800 万个 YouTube 视频的 URL，代表 50 万小时长度的视频，并带有视频标注。这些标注来自一个多样化的、包含了 4800 个知识图谱实体（Knowledge Graph entity）的集合。

与之前已有的视频数据集相比，YouTube-8M 的规模和多样性都得到了显著的提升。先前最大的视频数据集 Sports-1M ，包含了大约 100 万段 YouTube 视频和 500 个体育领域的分类。

创建一个大规模的标注视频数据集，需要解决两个关键性问题：

视频标注的时间远远高于图像标注。（在人工标注的情况下）

2. 处理和存储视频的计算成本很高。

为了解决第一个问题，谷歌使用了 YouTube 及其视频标注系统（video annotation system）。该系统能为所有公开的 YouTube 视频快速确定相关性高的知识图谱主题。这些标注是由机器生成，整合了来自数百万位用户的强大用户参与信号（user engagement signals）以及视频元数据的内容分析。由此，标注的质量非常高，可以达到视频分析研究和制定标准的目的。

如何保证这个视频数据集的稳定性和高质量？谷歌使用了超过 1000 条评论的公众视频，而且创建了一个多样化的实体词汇集。这些内容都是可视化的，且出现频率很高。

从下图我们可以看出该数量集的规模及多样性：

谷歌发布视频界的 ImageNet ，这可能是史上最大的数据集了

数据浏览器在顶层垂直类别的视频分布

数据浏览器允许浏览和搜索整个知识图谱的实体词汇集，它们被分成了包含了对应视频的 24 个顶层的垂直类别。

谷歌发布视频界的 ImageNet ，这可能是史上最大的数据集了

一个标注了实体（Guitar）的数据集视频的子集。

在解决第二个问题时，谷歌必须应对这些视频时所面临的存储和计算资源的压力。为了配合 YouTube 8M 的规模，进行视频理解一般情况夏需要 PB 级存储以及相当于一个 CPU 工作几十年的处理能力。

为了让还没拥有如此高计算水平资源的研究人员和学生都能共享这个强大的数据集，谷歌使用了一种深度学习模型，对视频进行了预处理，提取出了帧层面的特征（frame-level features）。这些特征是按 1 帧每秒的时间分辨率，从 19 亿个视频帧中提取的。

在这之后，这些视频会进一步被压缩为可装入单个商品级硬盘的大小（少于 1.5 TB）。这使得用户可以在单个 GPU 上，用不到一天的时间就能全部下载该数据集。

谷歌在博客中表示，该数据集能极大地加速视频理解，因为它能让研究者和学生无需使用大数据和大机器就能进行前所未有规模的研究。

一直以来，YouTube 的推荐系统是业内最为复杂、使用最为频繁的系统之一。谷歌希望 YouTube 8M 将能激励在视频建模架构和表征学习上的新研究，尤其是能对有效处理噪声或不完整标签、迁移学习（transfer learning）和领域适应（domain adaptation）等领域做出贡献。

Via googleblog