深度学习集体瓶颈，产业化加速时代CV研究出路在哪里？

2017/08/01 15:38

ImageNet比赛结束了。

夏威夷当地时间7月26日，CVPR 2017最后一天，李飞飞教授等学者在ImageNet workshop上缅怀过去8年计算机视觉（CV）发展的ImageNet时代，同时宣布挑战赛最终归于Kaggle。

同一天上午，WebVision也公布了第一期获奖名单。

WebVision竞赛由苏黎世联邦理工、Google Reasearch、卡耐基梅隆大学等共同组织。但相较而言，WebVision所用数据集直接从网络爬取，没有经过人工标注，含有大量噪音之外，数据类别和数量也远大于ImageNet比赛所用数据，所以难度也高很多。

所以，ImageNet为什么结束？WebVision将如何推动CV发展？CV学术与应用研究的出路又在哪？带着这些问题，雷锋网AI科技评论与多位计算机视觉专家进行了交流。

深度学习集体瓶颈，产业化加速时代CV研究出路在哪里？

在CVPR研讨会上，李飞飞教授作为谷歌研究院代表暨比赛赞助方，向码隆科技算法团队颁发了WebVision冠军奖项

为何CVPR 2017没有惊喜？

六天会议过程中，CVPR 2017的论文成果通过oral presentation、workshop、poster、spotlight等环节普遍都得到了展示，但业内人士普遍认为，“今年并没有一个特别让人兴奋、惊喜的成果出来。”香港中大-商汤科技联合实验室林达华教授解释称，包括「Densely Connected Convolutional Networks」等最佳论文在内，我们看到了很多不同的网络设计的想法和切入角度，这些扎实的工作推动了现有体系、架构的一步前进，但是，却普遍缺乏一个根本性突破（fundamental breakthrough）。

关于计算机视觉和模式识别的研究，过去数年依靠ImageNet数据集之下，通过深度学习该领域获得长足的发展。但是，如WebVision主办方成员李文博士指出，依赖于数据标注进行训练，这也是过去到现在CV研究到达了瓶颈的原因。因为，很多实际场景中是没有大规模标注数据的，如果WebVision希望推动半监督或无监督学习进行图像理解的初衷能够实现，将更符合现实的应用。

地平线机器人技术创始人及CEO余凯接受雷锋网采访时指出，“现在的深度学习其实是一个有问题的框架，基本是用大数据和很多标注数据来训练，这过去几年很成功，但不代表是正确的方向。”余凯表示，现在的计算机视觉的系统是一个（特征为）training system的训练，而不是一个learning system，我们要从training system变成learning system，让机器主动，并结合数据的结构、时间空间结构去学习，而不是被动地用人工训练来标注它。“在自动驾驶领域尤其重要，因为驾驶中永远有好多corner case，这些在训练数据集里面是没有的。”

对于当前CV研究现状，林达华教授指出，“如今似乎是有新的成果诞生但又有所停滞的状态，就像当年deep learning流行起来之前几年的状态——虽然各种思路百花齐放，但是很多核心问题都尚未取得新的突破性进展。”

不过，面对今年来自全球各地超过五千人的参会盛况，林达华教授说道：“现在处于承前启后的阶段，大家都非常关注计算机视觉这个领域。目前很多研究组都在积极开拓新的问题和方向，我相信未来一两年内能够在多个方向实现新的突破。”

以大公司，比如腾讯AI Lab的两篇论文为例——「Deep Self-Taught Learning for Weakly Supervised Object Localization」，提出依靠检测器自身不断改进训练样本质量，破解弱监督目标检测问题中训练样本质量低的瓶颈；以及「Diverse Image Annotation」，用少量多样性标签表达尽量多的图像信息，该目标充分利用标签之间的语义关系，以使得自动标注结果与人类标注更加接近——都强调了模型的自主学习和理解的方法的突破。

寻找下一个“突破”的方向和出路

在今年的CVPR上，录取论文涉及的领域占比最高的五类是：计算机视觉中的机器学习（24%）、物体识别和场景理解（22%）、3D视觉（13%）、低级和中级视觉（12%）、分析图像中的人类（11%）。

所谓的“突破”，即是大家都迫切希望解决这个问题，但是暂时又没有很好的方法来解决，那么就看谁提出了很好的方法。从今年CVPR的成果来看，data set的研究依旧火热；不过，林达华教授指出，到现在，ImageNet基本上做到一个极限了。“当一个事情的标准做到98%、99%的时候，从学术的角度来说，这个事情做到这个程度，学术界的使命差不多终结了。”

所以，无论是新升级的WebVision竞赛，还是大公司的研发——对于做学术的人来说，如何寻找新的挑战？

林达华教授向雷锋网AI科技评论介绍，在其实验室的研究下，总结起来CV领域的突破方向主要有三个，而它们各自的未来和面临挑战是怎样的呢？

方向一：做更大更有挑战性的数据集

深度学习集体瓶颈，产业化加速时代CV研究出路在哪里？

在WebVision的workshop上，Google科学家介绍了他们如何用300Million的3D图片做deep learning。而在更早之前，雅虎被收购前也发布了一个“YFCC 100M”，数据库达到亿级。

不过，这些数据最大的问题是，上亿的数据集，像ImageNet那样把标签做好，几乎是不可能的事情。在数据量庞大的情况下，带来新的挑战是：怎么提供标签？同时，每个领域的AI应用都需要各自领域的数据集，是需要每一个领域都标注一个自己的ImageNet？显然这样的效率难以被产业界接受。

所以，现在大家也不选择提供标签了，比如Google可能就直接通过data采集了一些标签。只是也没有完全百分百能够确认标签是对的，就在于校验一下准确率达到70%、80%。WebVision比赛最重要的特点就是采用的非人工标注，而是通过特定的标签在互联网上搜索1000个类的图片，这样就容易引起图像和标签含有大量的错误信息（噪声）。这不同于“干净”的ImageNet数据，图片内容和对应的标签都非常单一和清楚。

深度学习集体瓶颈，产业化加速时代CV研究出路在哪里？

“那么，怎么样使用这些有噪音的数据？这其实是带来了一个非常大的挑战。我们内部拿现有的视觉模型和学习方法在有噪音的数据集上测试过，发现不用说20%，哪怕是10%的错误标签都会对性能产生严重的破坏。”林达华教授说道。

理论上说，如果有十倍以上的数据量，以及一个好的方法的话，机器识别和理解的水平必定要超越原本ImageNet的水平，但目前只能达到不相伯仲的结果。那么问题就来了：是要投入一些资源，继续做一百万级的标注数据，还是就想办法去解决上亿的数据集问题？

“这是一个很open的领域。”没有标注，就没标准参照，机器怎么处理这种带噪音数据？如何把握机器识别的准确性呢？……这些都是有待探索的问题。

作为本次WebVision第一名获奖得主，码隆科技首席科学家黄伟林博士向雷锋网AI科技评论表示，所以，要实现这个突破，需要发展半监督（semi-supervised），甚至无监督（unsupervised）学习。这就需要设计更好、更优化的损失函数（loss functions），来减少模型训练对标签数据的依赖。对于更复杂的图像分割任务，最重要的应该发展弱监督（weakly-supervised）学习算法，以尽量避免像素级别的标注。

在这个过程中，最近很火的生成式对抗网络（Generative Adversarial Networks，GAN），可以自动生成大量的人工样本，这些人工样本对训练缺乏样本和标注的图片数据有很大帮助，为解决多层次图像理解提供重要的思路。另外，如何利用少量的图片数据和标签来训练足够优化的深度模型也是重要的一个课题，而课程学习（curriculum learning）对提升模型的泛化能力非常有效。

不过，如果扩展到更广阔的计算机视觉应用领域，业内人士会觉得，这还不太够。这就是下一个方向需要解决的问题。

深度学习集体瓶颈，产业化加速时代CV研究出路在哪里？

方向二：需要带有结构的数据

“就是说我觉得计算机视觉要和robotics结合在一起，它是用时间的维度去看场景的变化，什么是前景什么是背景区，什么是一个物体，什么是形状。最后理解到的结果应该是有空间信息的语义识别理解，现在都还很少，都是用弱监督、生成对抗的方法去做。”地平线机器人技术创始人及CEO余凯指出，

“所以我觉得研究方法要改变，研究的目的要改变。目的要改变是指，研究的空间和场景的关系，这尤其对自动驾驶特别重要。”

所以，这里不是指NLP领域的所谓结构化数据。在自动驾驶领域中，林达华教授指出，很多人做自动驾驶的预测时，需要做路线的检测、三维重建等，这些许多任务当中的每一个，从传统学术的研究角度，是分开研究的。但是，实际中要解决这些问题，比如驾驶，就是个综合的问题，人开车时也不会把任务分成若干个方向分别做判断。

以往的图像分割，每一次分割用一次CNN这样的方法，并不能综合处理这些任务。比如，通过地图，周边环境明明存在一个空间结构，图像分割并不能将这些结构性空间考虑全面，“单纯的语义分割，比如一张图中标出这50万个像素是路，另外80万个像素是建筑物，这是无法直接指导驾驶的。”

林达华教授表示，从学术的角度看，只有把结构数据融合在一个几何的框架下面，才能知道客观世界是什么——前面多少米是人、是建筑，前面的车开得多快……这才是实际有用的成果。

“所以，所谓的结构就是有多个不同的方面，相互之间是有着数学上、语义上、物理上的各种联系。在多种补充结构相互联系的系统里面，用系统的角度，带着结构的角度，去系统地观察，把不同的视觉联合在一起解决问题，我觉得也是一个现在正在开始推进的方向。”

方向三：做视频领域的ImageNet

承接上述结构数据处理的问题继续展开想象，就会发现，整个CVPR 2017中，视频理解相关的研究大约只占整个会议论文不到30%的水平，但实际中这个问题的应用却是极其广泛。人脸识别、监控、互联网视频、自动驾驶等，全部有巨大商业价值的视觉数据，都是以视频的形式存在的，不是一帧一帧的。

视频相对与图像而言，最重要的一点就是多了一个维度：时间轴。怎么去利用这一个新的维度，利用时间的关系……

据了解，今年就有很多大公司、研究小组都做了新的视频数据集（video dataset），包括Facebook、Google、伯克利大学等。“大家都去争取当video domain的ImageNet，谁能够脱颖而出？现在还不好说，这是百家争鸣的战国时代。”林达华教授说道，“但是，video是一个非常重要的方向，这也是我们实验室过去两年也在持续投入的。”

挑战：学术与商用叠加的距离

WebVision在今年的CVPR大会上开设了一个专题，上面提出了 Visual understanding and learning from web data 的挑战。平安科技首席科学家，平安科技人工智能总工程师刘飞解释称，也就是说，今年的挑战分为两项：第一项还是关于图像分类，另一项挑战是关于迁移学习的。

前面大家都意识到了无监督学习、半监督学习等重要和困难，不过从产业界观察学术进步的角度看，刘飞指出，迁移学习恐怕才是比较有新意的、更大的挑战。“迁移学习是为了解决在一类环境下学习到的模型能用于一个全新环境下缺少样本数据的机器学习的问题，迁移学习是提升机器学习泛化能力的一个出路。如果迁移学习的技术有较快发展进展，那么以后深度学习技术将会比较快速和广泛地部署到各个领域的商用场景。”

但是，实际应用中，很多时候对图像的处理不只是视觉问题，更多也涉及到需要NLP交叉结合的研究。结合实际应用处理的经验，刘飞称，

WebVision如今提到的视觉理解目前还只是字面意义上的，可能会通过今后几年提出的新挑战来体现。真正的视觉理解更加大的挑战应该是理解图像内容的语义内涵，而不仅仅是检测定位、分类这些任务，还要理解图像表达出的人类高级知识范畴的内容，例如一副图片是表达出一个社会事件、一次个人聚会，或是一副什么风格的艺术作品等等，这些都是以往人类用语言表达出的内容。

无独有偶，腾讯AI Lab计算机视觉总监刘威博士接受雷锋网AI科技评论采访时也指出，

现在互联网上的数据很多都是视觉与文本信号共同出现，譬如腾讯视频，不仅有视频信息，还有音频信息，还有相应的字幕、评论和弹幕等信息。如何挖掘或者学习他们之间的相关性也是业界的研究热点。

近年来计算机视觉+NLP相结合，出现了很多热点的研究问题，譬如图像文本匹配、图像描述生成、图像问答等。今年的CVPR的其中一个keynote也是邀请了NLP领域斯坦福大学的知名教授Dan Jurafsky，讨论了language方面的研究进展。因此，多个交叉领域的研究，更能推动研究成果在实际业务场景中的应用。

所以，讨论完这些方法论后，对于“未来要实现这个突破，还要经历一个怎样的创新期？”这个问题，跨领域机器学习的技术融合，例如计算视觉、自然语言处理、语音识别等的融合；以及学术界与产业界的进一步研究合作，是业内人士普遍希望推进的路径。

同时，中国互联网公司的众多创新，大多还停留在应用层面或技术层面。而美国创新科技的研究，往往是从理论的根基出发，建立一套完整的思维方式，这也是为什么美国，尤其是硅谷，在过去数十年一直引领创新的原因：他们有能力也有意愿从基础研究出发，与大学、研究机构保持密切关系，共同完成学术创新和商业化。

如商汤科技CEO徐立所言，AI的火热都不是一夜时间的事情，虽然看起来像是一夜梨花开，但更重要是一直以来源头创新工作的厚积薄发。在本届CVPR，商汤科技与香港中大-商汤科技联合实验被共同录取23篇论文，这个数量远高于BAT。“现在，基础研究不能丢，才能带来足够的时间窗口。AI的发展需要产业和研究相结合，以定义问题，解决问题。”

专题

CVPR 2017 查看更多文章