专访腾讯AI Lab刘威：视觉+NLP交叉将持续升温，视频理解的研究将再上一个台阶 | CVPR 回顾

2017/08/10 14:31

雷锋网AI科技评论报道，2017年计算机视觉领域顶级学术会议CVPR（IEEE Conference on Computer Vision and Pattern Recognition）刚刚结束，今年CVPR上，一共783篇论文被收录，录取率29%，口头报告录取率仅2.65%。作为国内著名的人工智能研究机构，腾讯AI Lab（腾讯人工智能实验室）共有六篇论文入选CVPR。它们是：

论文一：Real Time Neural Style Transfer for Videos

本文用深度前向卷积神经网络探索视频艺术风格的快速迁移，提出了一种全新两帧协同训练机制，能保持视频时域一致性并消除闪烁跳动瑕疵，确保视频风格迁移实时、高质、高效完成。

论文二：WSISA: Making Survival Prediction from Whole Slide Histopathological Images

论文首次提出一种全尺寸、无标注、基于病理图片的病人生存有效预测方法WSISA，在肺癌和脑癌两类癌症的三个不同数据库上性能均超出基于小块图像方法，有力支持大数据时代的精准个性化医疗。

论文三：SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

针对图像描述生成任务，SCA-CNN基于卷积网络的多层特征来动态生成文本描述，进而建模文本生成过程中空间及通道上的注意力模型。

论文四：Deep Self-Taught Learning for Weakly Supervised Object Localization

本文提出依靠检测器自身不断改进训练样本质量，不断增强检测器性能的一种全新方法，破解弱监督目标检测问题中训练样本质量低的瓶颈。

论文五：Diverse Image Annotation

本文提出了一种新的自动图像标注目标，即用少量多样性标签表达尽量多的图像信息，该目标充分利用标签之间的语义关系，使得自动标注结果与人类标注更加接近。

论文六：Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images

基于曼哈顿结构与对称信息，文中提出了单张图像三维重建及多张图像Structure from Motion三维重建的新方法。

专访腾讯AI Lab刘威：视觉+NLP交叉将持续升温，视频理解的研究将再上一个台阶 | CVPR 回顾

腾讯AI Lab于2016年4月正式成立，主要围绕图像识别、语音识别、自然语言处理和机器学习4个方向进行研究。在今年3月第10届UEC杯世界计算机围棋赛决赛中，腾讯 AI Lab研发的围棋人工智能程序“绝艺”（Fine Art）击败日本开发的“DeepZenGo”，以11战全胜的战绩夺冠，就潇洒地展示了实验室的算法实力。

腾讯副总裁姚星曾表示，和集团其他更多针对于产品应用而展开研究的团队不同，腾讯AI Lab 的目标是增强腾讯的人工智能原创性、基础性研究。从上述入选论文主题也可以看出，研究主题更多体现为方法论的突破。其中，雷锋网此前报道《深度学习集体瓶颈，产业化加速时代CV研究出路在哪里？| CVPR 2017》指出，「Diverse Image Annotation」用少量多样性标签表达尽量多的图像信息，以及「Deep Self-Taught Learning for Weakly Supervised Object Localization」讨论的弱监督学习等作品，体现了当前CV研究遭遇瓶颈而又晨光微启的时代中一个创新突破的方向。

那么，这些论文成果背后的想法，以及腾讯AI Lab对未来CV未来研究创新的判断是怎样的呢？CVPR 2017期间，雷锋网AI科技评论与AI Lab 计算机视觉中心总监刘威博士进行了交流，以下是对话实录（有删减）：

雷锋网：这是您第几次参加CVPR？

刘威：我参加CVPR有超过10年历史，最早一次是2005年。

雷锋网：您曾说，CVPR的口头报告一般是当年最前沿的研究课题，在学界和工业界都影响很大。能否谈一谈您对今年CVPR的看法？

刘威：在本届CVPR里，录取论文涉及的领域占比最高的五类是：计算机视觉中的机器学习（24%）、物体识别和场景理解（22%）、3D视觉（13%）、低级和中级视觉（12%）、分析图像中的人类（11%）。

从我们研究方向和兴趣出发，团队也非常关注其中的五个前沿领域：低中层视觉、图像描述生成、3D视觉、计算机视觉与机器学习、弱监督下的图像识别等。

雷锋网：据了解，这次实验室重点解析了《视频的实时神经风格迁移》「Real Time Neural Style Transfer for Videos」这一篇，为什么是选中这一篇呢？

刘威：团队在本届CVPR上有六篇文章被录取，虽然数量不多，但我对质量还算满意。这篇论文所研究的实时视频滤镜技术，已在腾讯QQ手机版上线，实现基础研究到应用的迅速转化，形成了一个较好的闭环，与我们“学术有影响，工业有产出”的研究目标相契合。

雷锋网：《视频的实时神经风格迁移》这一个突破，将会给目前的视频处理和应用带来什么变化和价值？

刘威：该研究成果表明在训练时加入对视频时域一致性的考虑，能够约束前向神经网络生成时域一致的编辑结果。

在过去很长一段时间内，业界流行的图像滤镜通常只是对全局颜色属性的调整，比如亮度、色相、饱和度等。在2016年的CVPR，Gatys等人首创性地提出将深度神经网络应用于图像的艺术风格迁移，使得输入图像能够模仿如梵高的星空、莫奈的日出印象等任何类型的艺术风格，效果惊艳。

Gatys等人工作虽然取得了非常好的效果，但是缺点是基于优化，非常耗时；到2016 ECCV时，Johnson等人提出了使用深度前向神经网络替代优化过程，实现了实时的图像风格迁移，修图工具Prisma随之风靡一时。但直接将图像风格迁移的方法应用到视频上，却会使得原本连贯的视频内容在不同帧中转化为不一致的风格，造成视频的闪烁跳动，严重影响观感体验。为了解决闪烁问题，Ruder等人加入了对时域一致性的考虑，提出了一种基于优化的视频艺术滤镜方法，但速度极慢远远达不到实时。

腾讯AI Lab使用深度前向卷积神经网络，探索视频艺术风格快速迁移的可能，提出了一种全新的两帧协同训练机制，保持了视频时域一致性，消除了闪烁跳动瑕疵，同时保证视频风格迁移能够实时完成，兼顾了视频风格转换的高质量与高效率。

类似的方法也有望能够助力其他图像编辑方法向视频推广。

雷锋网：在这六篇论文成果中，除了通用的视频媒体解析，也涉及到医学等细分领域的研究，请问腾讯AI Lab如何选择研究方向？

刘威：在基础和前沿研究方向上，CV团队目前聚焦中高层视觉，尤其视频等可视结构数据的深度理解，同时也在重要的交叉领域发力，如视觉+NLP、视觉+信息检索等。

正在进行或计划中的研究项目兼具了挑战性和趣味性，包括超大规模图像分类、视频编辑与生成、时序数据建模和增强现实，这些项目吸引了哥伦比亚和清华等海内外知名大学的优秀实习生参与。

雷锋网：实际应用中，似乎很多时候对图像的处理不只是视觉问题，更多可能是涉及NLP的方法，对于这些交叉的现象，能否结合实际应用来谈谈您的看法？

刘威：现在互联网上的数据很多都是视觉与文本信号共同出现，譬如腾讯视频，不仅有视频信息，还有音频信息，还有相应的字幕、评论和弹幕等信息——如何挖掘或者学习它们之间的相关性也是业界的研究热点。近年来计算机视觉+NLP相结合，出现了很多热点的研究问题，譬如图像文本匹配、图像描述生成、图像问答等。

今年的CVPR的其中一个keynote也是邀请了NLP领域斯坦福大学的知名教授Dan Jurafsky，讨论了language方面的研究进展。因此，多个交叉领域的研究，更能推动研究成果在实际业务场景中的应用。

雷锋网：在《Deep Self-Taught Learning for Weakly Supervised Object Localization》和《Diverse Image Annotation》中提到的方法似乎都更强调了机器学习的自主性，请问这是否代表着哪个领域的一些突破？

刘威：我认为这在研究的实用价值上实现了一定突破。以第一篇文章为例，它描述的是从较少的、质量低下的数据中进行的模型学习。模型在不断学习后，性能增强，从而能自主地选择更多数据、并选取其中质量更高的进行模型训练，提升模型性能，从而实现模型的自主学习。

这种依靠模型自身达到数据从少到多，从差到好的自主获取过程，在如今海量数据且质量良莠不齐的情况下更具有实用指导价值。

雷锋网：在今年的CVPR会议上，一个据称要接棒ImageNet的WebVision比赛也公布了第一期获奖名单，后者相比数据标注的分析处理，它更强调图像学习和理解，请问如何看待这个事情？实现所谓图像的学习和理解，当前存在哪些挑战？未来要实现这个突破，还要经历一个怎样的创新期？在这个创新过程中，哪些技术比较有潜力？

刘威：2012年深度学习技术的兴起，让计算机视觉自此有了长足发展。除了物体检测与识别这类经典的中层视觉问题，在图像去噪、去模糊、超分辨率和语义分割等低层视觉问题解决上也有了很大的飞跃。

从最近两届 CVPR 广受关注的论文来看，未来CV领域的研究除了会继续提升经典视觉问题的算法性能，伴随着新数据集设计及细分研究领域上的新挑战，一些有趣且有挑战的研究问题也将会受到更大关注。我个人认为，视觉+NLP的交叉将持续升温，视频分析理解（包括视频分类、视频物体分割等）的研究将再上一个台阶。

AI慕课学院近期推出了《NLP工程师入门实践班：基于深度学习的自然语言处理》课程!

三大模块，五大应用，海外博士讲师手把手教你入门NLP，更有丰富项目经验相授；算法+实践，搭配典型行业应用；随到随学，专业社群，讲师在线答疑！

课程地址：http://www.mooc.ai/course/427

加入AI慕课学院人工智能学习交流QQ群：624413030，与AI同行一起交流成长