专家标注的数据少就少吧，普通人标的数据现在也可以用了

2018/08/03 16:32

专家标注的数据少就少吧，普通人标的数据现在也可以用了

雷锋网AI 科技评论按：对于缺乏高质量标注数据的专业应用，除了继续花钱标数据之外，常用方法似乎也就只有 ImageNet 预训练 + 任务专用数据 fine-tune，众包让外行去标注更多数据拿来训练是万万不敢的。不过 IBM 的这项最新研究就打破了这个禁忌，普通人标注的数据也可以用来训练医疗影像分析模型。雷锋网AI 科技评论把 IBM 研究院 Reseach Fellow Simone Bianco 撰写的介绍文章编译如下。

今日，我的IBM团队和加州大学旧金山分校Gartner实验室的同事在《自然方法》期刊上发表了一项具有创新性的研究成果，该成果允许我们从并非专家标注的数据生成数据集，并把它用于机器学习训练。我们的方法可以让 AI 系统从非专家生成的数据进行学习，并且达到与从专家生成的数据一样好的学习效果。为此，我们开发出一个叫 Quanti.us 的平台，非专家可以在上面分析医学影像（生物医学领域的常见任务），进而生成标注数据。我们的平台拥有一整套完整的算法，专门设计用来正确地解析这种带有噪声而且不完整的数据。一旦将这些技术结合使用，将能够有效拓展机器学习在生物医学领域的应用。

非专家标注、存在噪声的数据集

极为有限的高质量标注数据集一直以来都是机器学习发展的瓶颈。通过创建可以从低质量标注数据集中提供准确分析结果的算法，以及建立可以高速采集这样的低质量标注数据的系统，我们可以帮助缓解该瓶颈。分析含有我们感兴趣的特征的图像就是一个绝佳的例子。让专家对图像进行标注虽然准确度高但耗时良多，再者，以对比度分割（contrast-based segmentation）和边缘检测（edge detection）为代表的自动分析技术只有在严控的实验条件下才表现良好，一旦实验条件出现变化，就可能会出现不可靠的分析结果。

专家标注的数据少就少吧，普通人标的数据现在也可以用了

由非专家标注的图像集噪声较多。这十名非专家试图标识出图像中的深黑色圆圈，即细胞核。然而他们的标注结果（以橙色显示）之间并不是完全一致。我们的算法能够从这堆噪声数据中推测出共识轮廓（以紫色显示）。我们最后将图像的共识轮廓与专家标注的结果（以绿色显示）进行对比

拥抱众包吧。我们通过 Quanti.us 众包获得同一张图像的标注的速度要比一位专家分析快上10-50倍。不过正如大家所料，非专家标注的数据含有很多噪声——有些成功识别到了目标，有些则偏离了目标。为此，我们开发出了一种算法处理这种有噪声的数据，可以分别根据命中与非命中的聚合情况来推断出特征的正确位置。当我们把这种“众包式”数据集用来训练深度卷积回归网络时，我们发现在准确率与召回率方面，网络的表现与通过“专家式”数据集训练出来的网络并无二致。随着论文的发布，我们也相应公开了算法的源代码。

在细胞工程学科中的应用

图像分析在定量生物医学领域起到核心作用。很多年以前，我们与合作伙伴宣布成立由国家科学基金会资助的细胞工程中心（CCC）——这是一所志在开创细胞学科新领域的技术中心。细胞工程中心一直在不遗余力促成不同学科之间的合作，如机器学习、物理、计算机科学、细胞分子生物学、基因体学等，以推动细胞工程学科的发展。我们的目标是研究并创建可用作自动化机器的细胞（或者点对点传感器，以获取各种有关生物实体与其所处环境之间关系的重要信息。我们通过图像分析技术准确识别细胞内部单元的位置与大小。不过，即使我们采用最先进的图像分析技术，得到的细胞亚结构分析结果依然存在许多“噪声”，导致无法针对细胞成分进行下一步操作。我们的技术可以利用噪声数据预判细胞结构的正确位置，从而更好识别那些对潜在药物靶标生成有贡献的细胞器。

我们相信我们的算法是构建复杂AI平台所不可或缺的关键一步。在早期系统还需要适度的人工干预，主要由生物学家负责把关一些可能在训练阶段出现的失误，以进一步提升系统的性能。除此之外，我们也认为该方法未来有机会应用于生物学以外的同样缺乏高质量标注图像的领域。

via IBM Research，雷锋网 AI 科技评论编译