BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

数据采集标记

作者：汪思颖

2017/11/10 14:59

雷锋网 AI科级评论按，深度模型在机器学习很多领域都取得了巨大成功，但也对算法的原材料训练数据提出了更多的要求。对于研发高水平的算法，数据的高质量采集、清洗、处理等等对算法效果会有直接影响。

在近期雷锋网 AI研习社的线上分享会，来自 BasicFinder 标注平台的数据科学家吴昊为大家介绍了数据规模、数据质量等与深度学习算法之间的关系，以及为算法做数据准备的一些经验。

吴昊，本科毕业于上海交通大学，硕士毕业于纽约大学，现任 BasicFinder 标注平台数据科学家，专注于数据众包策略研究、深度学习模型数据采集与标记方案咨询及优化。

分享内容：

大家好，我叫吴昊。本科毕业于上海交通大学，研究生毕业于纽约大学。我之前做过两年左右的算法研究工作，我们公司 BasicFinder 平台主要提供一些数据方面的服务，包括采集、标注、清洗、其它别的加工等等。我今天分享的主题是AI数据面面观。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

下面是今天分享的目录，分为四部分：

数据规模
数据质量
无监督学习与迁移学习
做算法研发在数据准备方面的注意事项

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

数据规模

先看数据规模，数据规模与算法模型的容量其实是比较相关的。算法模型的容量越大，就意味着算法能表示相对来说更复杂的关系。

当数据规模相对过大时，在训练过程中容易产生欠学习（underfitting）。另一方面，在数据规模相对过小的情况下，就会产生过学习（overfitting）。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

近年来流行的深度学习模型可以拥有非常大的容量，模型中普遍用的神经网络算法，层数可以增加，每层神经元个数可以增加，那么模型的表达能力也会增加。下图是一个例子。此外学术界也会做一些新的研究来增加模型的表达能力。另一方面得益于GPU，比较复杂模型的训练也会比以前快很多。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

现在有一个问题，数据更多的话效果就会更好，那么究竟有多好呢？Google的一遍论文解决了这个问题。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

这个数据集是ImageNet的两百多倍。随着数据集里样本数量的增多，在COCO上的结果比用之前的数据集至少高出三个点，而在算法的其他方面都没有太多变化。可以看到数据规模的增大对算法的效果提升还是比较明显的。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

在工业界，数据规模更容易成为算法研发的关键因素。如果有更多的数据，就可以使用容量更大、更复杂的模型，得到效果更好的算法。当数据大到一定程度，数据和算法之间可以进行反复迭代，形成壁垒，为公司提供竞争力。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

数据质量

数据质量会影响算法效果。

对于质量一般的数据，比如经过爬虫得来的数据，经过清洗、处理后，算法效果会有明显提升。如果数据质量已经很高了，再去提升数据质量，算法效果的提升比较有限。

另外还要考虑到成本和收益的权衡问题：想获得质量更高的数据，成本也会更高。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

接下来讲一下对数据质量的评估。数据质量评估主要包括两个方面，一是原始采集数据质量，二是数据标注质量。

下面是对原始采集数据质量的评估：

图像、视频：分辨率，清晰度，光照，色彩等
语音：清晰度，背景音等
文本：是否自然语言，是否专业，与主题相关性等

下面是对数据标注质量的评估：

标注正确率（类别数据）
标注精确度（坐标、时间点、个数、文字等）
标注完备性（是否漏，是否重复）
标注一致性（前后规则是否一致）

人工标记的大规模数据一般都会含有噪声，一些经典数据集也含有噪声，例如人脸LFW、MS COCO等，这是不可避免的，不过在可以接受的限度内就行。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

无监督学习与迁移学习

接下来谈一下无监督学习与迁移学习，迁移学习已经有一个比较大的数据集作为基础了，再用人工标注一小部分新数据。

对于无监督学习，基本上不需要人工标注，主要是学习数据本身的分布特性。比如说聚类算法，就是试图找出数据集中分布的中心，所以不太需要人工标注。

目前工业界相对来说比较好的结果还是通过监督学习而来，很多都需要大量人工标注的数据。无监督学习和迁移学习在未来还是有待学术界研究，以望更大的突破。另外，在未来数据规模进一步提升的情况下，无监督学习和迁移学习会有更多的用武之地。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

数据准备方面的一些经验

最后介绍我们在开展业务中的一些经验。

数据准备最开始是数据获取，数据的获取也分为几种情况，比较常见的是互联网公开获取（公开数据集、爬虫等），除此之外还有专业数据采集。在专业数据采集时，需要考虑采集方式：一是采集内容、采集规模、预算；二是采集过程要尽量与实际使用场景相一致；三是要考虑对数据集的要求，比如多样性；四是采集是否涉及隐私、个人权利如肖像权、著作权等。

最后还有采集时间的要求。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）