工业界论文被CVPR收录有捷径？| CVPR 2017

CVPR 2017

作者：杨文

2017/07/27 23:03

雷锋网AI科技评论按： CVPR是全球顶级的三大计算机视觉会议之一，每年都会吸引世界各地著名院所的学者提交论文，国内外从事计算机视觉和图像处理相关领域的著名学者都以能在CVPR上发表论文为荣，这些学术论文也将引领着未来的研究趋势。除了学术界以外，工业界也带来了他们的研究成果。雷锋网编辑挑选了来自工业界的四家公司入选的论文，分别作简介和评论。

阿里巴巴

阿里巴巴共有四篇论文被 CVPR 2017 接收，其中阿里人工智能实验室 3 篇，阿里 iDST 1 篇；阿里巴巴人工智能实验室此次入选的三篇论文均有杰出科学家王刚的深度参与，分别针对深度学习和计算机视觉所涉及的上下文模拟、场景分割、行为理解等问题提出了解决办法。

以下是对四篇论文的解读：

Deep Level Sets for Salient Object Detection（结合深度网络的水平集方法在显著性目标检测中的应用）

简介：显著性目标检测能够帮助计算机发现图片中最吸引人注意的区域，有效的图像分割和图像的语意属性对显著性目标检测非常重要。由南洋理工大学和阿里巴巴人工智能实验室合作，共同提出了一种结合深度网络的水平集方法，将分割信息和语意信息进行结合，获得了很好的效果。水平集方法是处理封闭运动界面随时间演化过程中几何拓扑变化的有效的计算工具，后来被用到图像分割算法当中。深度学习能够很好的建模显著性目标的语意属性，进而进行显著性目标检测，但更多的语意属性信息导致分割边界的低层信息不准确。论文巧妙的结合了深度网络和水平集方法（Deep Level Sets），同时利用图片低层的边界信息以及高层的语意信息，在显著性目标检测领域获得了最好的效果。

Global Context-Aware Attention LSTM Networks for 3D Action Recognition（将全局上下文注意力机制引入长短时记忆网络的3D动作识别）

简介：3D动作识别能够帮助计算及更好的理解人体动作，未来可以作为人机交互的一种补充。一个好的3D动作识别系统需要很好的处理动作在时间（动作需要一定时延）、空间（结构）上的信息。LSTM（长短时记忆网络）能够很好的建模动态的、相互依赖的时间序列数据（如人的3D动作序列），注意力机制能够更有效的获取数据中的结构信息，并排除掉噪声的干扰。由南洋理工大学、北京大学、阿里巴巴人工智能实验室合作，论文结合LSTM和上下文注意力机制，提出了一种新的LSTM网络：GCA-LSTM（Global Context-Aware Attention LSTM）；用来建模动作序列中有效的全局上下文信息（时间信息+空间信息），进而进行3D动作识别。同时，论文为GCA-LSTM网络提出了一种循环注意力机制来迭代提升注意力模型的效果。论文方法在3个主流的3D动作识别数据集上都达到了最好的效果。

Episodic CAMN: Contextual Attention-based Memory Networks With Iterative Feedback For Scene Labeling（引入迭代反馈的上下文注意力机制记忆网络在场景分割中的应用）

简介：场景分隔通常在自动驾驶中应用，通过对路面场景进行分割，可以帮助无人车分析那部分区域是可行驶区域。也可以用于室内机器人通过场景分割获知室内物体的分布。场景分割对待分割区域周围的区域以及全局信息有较强的依赖关系，但这种依赖关系是动态变化的（即使同一区域在不同的场景中对周围信息的依赖是不同的），因此动态的获知不同区域的依赖关系以及图像全局上下文特征的使用至关重要。由南洋理工大学，伊利诺伊大学厄巴纳-香槟分校，阿里巴巴人工智能实验室合作，论文通过一个可学习的注意力机制网络来刻画不同区域之间的依赖关系，并获取包含上下文信息的特征。进一步，论文通过引入迭代反馈的方式对注意力机制网络的输出进行调节，以获得更好的包含上下文的特征。

Video to Shop: Exactly Matching Clothes in Videos to Online Shopping Images（从视频到电商：视频衣物精确检索）

作者：Zhi-Qi Cheng、Xiao Wu、Yang Liu、华先胜（阿里iDST)

简介：围绕视频电商业务场景，提出了一个在线视频衣物精确检索系统。该系统能够满足用户在观看影视剧时想要同时购买明星同款的需求。整个系统采用了目前最先进的衣物检测和跟踪技术。针对明星同款检索中存在的多角度、多场景、遮挡等问题。提出可变化的深度树形结构（Reconfigurable Deep Tree structure）利用多帧之间的相似匹配解决单一帧检索存在的遮挡、模糊等问题。该结构可以认为是对现有 attention 模型的一种扩展，可以用来解决多模型融合问题。

苹果

苹果公司之前接受采访时拒不透漏自家的AI进度，外界甚至一度怀疑苹果的AI技术落后于竞争对手。这次是奉行保密文化的苹果公司对外发布的第一篇AI论文，标志着苹果公开AI学术研究成果、对外敞开大门的第一步。该论文发表于去年12月，提出了由三部分（模拟器Simulator，精制器Refiner，再加上一个判别器Discriminator）组成的 SimGAN训练方法，因此而获得CVPR 2017最佳论文。不过，学术界有学者对这篇论文的含金量提出了质疑，认为苹果这份论文“试水”的意义远大于研究本身的意义。具体可参考雷锋网今年年初的报道。

论文题目：Learning From Simulated and Unsupervised Images through Adversarial Training

即“《借助对抗训练，从模拟、无监督图像中学习》”

作者：苹果公司 Ashish Shrivastava，Tomas Pfister，Oncel Tuzel，Joshua Susskind，Wenda Wang，Russell Webb。

简介：随着图像领域的进步，用生成的图像训练机器学习模型的可行性越来越高，大有避免人工标注真实图像的潜力。但是，由于生成的图像和真实图像的分布有所区别，用生成的图像训练的模型可能没有用真实图像训练的表现那么好。为了缩小这种差距，论文中提出了一种模拟+无监督的学习方式，其中的任务就是学习到一个模型，它能够用无标注的真实数据提高模拟器生成的图片的真实性，同时还能够保留模拟器生成的图片的标注信息。论文中构建了一个类似于 GANs 的对抗性网络来进行这种模拟+无监督学习，只不过论文中网络的输入是图像而不是随机向量。为了保留标注信息、避免图像瑕疵、稳定训练过程，论文中对标准 GAN 算法进行了几个关键的修改，分别对应“自我正则化”项、局部对抗性失真损失、用过往的美化后图像更新鉴别器。

腾讯

腾讯人工智能实验室曾经喊出“学术有影响，工业有产出”的口号。从这次入选论文数量上看，BAT三家，数腾讯最多，共6篇被收录。此次成果也可以算是对口号的前半句的一个有力回应吧！

一：Real Time Neural Style Transfer for Videos（实时视频风格转化实现）

简介：最近的研究工作已经表明了使用前馈卷积神经网络来实现图像快速风格转变的可行性。而清华大学与腾讯AI实验室的研究基于这一点在实践上更近了一步，他们通过使用前馈网络对视频进行风格转化，同时还保持了风格化视频帧图像的时间一致性。在《实时视频风格转化实现》这篇论文中，作者介绍到，他们所使用的前馈网络是通过强制执行连续帧的输出既保持原有的风格又具有良好的连续性进行的训练得到的。更具体的，作者提出了一种混合损失（hybrid loss）理论，充分利用输入画面帧的画面信息，图像的风格信息和连续帧的时间信息对图像进行处理。为了计算在训练阶段的时间损失，作者提出了一种全新的两帧协同训练的机制。与原先直接硬性的将已有的画面风格转入视频的方法相比，这种全新的方式摒除了原有方法对耗时优化的依赖，即可保持画面的时间连续性，又消除了画面闪烁的问题，确保视频风格迁移实时、高质、高效和完整性，从而实现更好的视觉欣赏效果。

二：WSISA: Making Survival Prediction from Whole Slide Histopathological Images

简介：德州大学阿灵顿分校（University of Texas-Alington）与腾讯AI实验室提出了就基于病理图片进行的病人生存预测方法——WSISA，有效地支持大数据时代的精准个性化医疗。作者提出了训练基于深度卷积生存（DeepConvSurv）预测结果的累积模型来记性病人层面的预测。与现有的基于图像的生存模型相比不同的是，这种模型可以有效地提取和利用WSI上所有可进行区分的小图块来进行预测。在目前的研究领域，这种方法还未有人提出过。通过论文中的方法，作者用三种数据集对胶质瘤和非小细胞肺癌的生存预测进行了研究，研究结果证实了WSISA架构可以极大程度的提高预测的精准性。

三：SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning （SCA-CNN：卷积神经网络中的注意力模型）

简介：由浙江大学、哥伦比亚大学，山东大学、腾讯AI实验室和新加坡国立大学（National University of Singapore）联合发表，针对图像描述生成任务，基于卷积网络的多层特征来动态生成文本描述，进而提出了空间及频道感知上的注意力模型。论文中，作者引入了一种新颖的卷积神经网络，称为SCA-CNN，其将空间和频道感知注意力融合进卷积神经网络。在实现给图像增加字幕的任务时，SCA-CNN动态的调整在多层特征映射中句子生成的语境，从而编译视觉注意力的两个特征：where（即在所层叠中注意力的空间位置）和what（即吸引注意力的频道）。论文通过三种benchmark的图像字幕数据集对提出的SCA-CNN架构进行评估，包括：Flickr8K，Flickr30和MSCOCO。通过评估证实了基于SCA-CNN架构进行图像字幕注解相对于目前已有方法的明显优势

四：Deep Self-Taught Learning for Weakly Supervised Object Localization（用于所监督对象定位的深度自学习）

简介：由新加坡国立大学（National University of Singapore）和腾讯AI实验室联合发布的论文《用于所监督对象定位的深度自学习》提出的依靠检测器自身段改进训练样本质量，不断增强检测器性能的一种全新的深度自学习方法，破解了所监督目标检测问题中训练样本质量低的瓶颈。为了实现这样的自学习，文中提出了一个种子样本采集方法，通过图像到对象的传输和密集的子图采集获取可靠的正样本来进行探测器的初始化。作者进一步的提供了一种在线支持样本收集计划来动态地选择最为可信的正样本，并提供成熟的训练方法对探测器进行训练。为了防止探测器在训练过程中陷入因过适应而造成的困境中，作者还引入了一种方法来引导自学习过程。

五：Diverse Image Annotation（多样图像标注）

简介：该论文由沙特阿拉伯的阿布多拉国王科技大学与腾讯AI实验室联合发表，提出了一种新的图像自动标注方式，即用少量多样性的标签表达尽量多的图像信息，其充分利用标签之间的语义关系，从而使得自动标注的结果与人类标注的结果更加相近。

六：Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images（对称性和/或曼哈顿特性对单个和多个图像进行三维物体结构设计)

简介：由腾讯AI实验室、约翰霍普金斯大学和加州大学洛杉矶分校联合发表，其论述了利用对称性和/或曼哈顿特性对单个和多个图像进行三维物体结构设计的方法。基于曼哈顿结构与对称信息，文中提出了单张图像三维重建及多张图像Structure from Motion三维重建的新方法。

商汤科技

人工智能技术行业巨头谷歌在此次CVPR 2017共有21篇论文入选，而国内一家独角兽公司商汤科技，它与香港中大-商汤科技联合实验室共同发表的论文数量却超越谷歌，达到惊人的23篇。这23篇论文涵盖了计算机视觉的多个领域，提出了很多新型的应用，在核心技术的研发上取得了多项国际领先的成果。下面雷锋网AI科技评论着重介绍其中的三篇论文。

Quality Aware Network for Set to Set Recognition（因图而异的融合网络）

论文简介：在人脸识别、人体再识别任务中，现有的方法是利用卷积神经网络对一个序列中的所有图像分别提取特征，再将特征进行简单的平均或池化，作为该序列的最终特征用于之后的识别。但实际应用场景中一个序列中的图像可能在许多方面存在着较大差异，例如光照、清晰度、角度等，如示例图。由于在融合序列的特征时没有考虑到这些差异，上述方法在实际应用场景用会受这些因素的影响从而无法达到理想的效果。本论文提出了一种新的序列匹配方法，充分考虑了序列内图像的差异性，并利用深度学习的方法对这种差异性进行无监督的学习，再根据学习到的质量差异性对序列中的图像特征进行融合，最终得到具有较高判别力的序列特征，解决光照模糊等一系列实际应用中的问题。

Person Search with Natural Language Description（用自然语言来进行人的搜索）

论文简介：大规模图像库检索，通常提取图像属性特征再通过属性检索来找到目标。但是常用场景比如嫌疑犯描述都是通过自然语言描述（人类能理解的语言）。本论文提出了使用自然语言描述进行人的大库检索，如上图所示，自然语言描述为“这位妇女穿着一件长而亮的橙色长袍，腰上系着一条白色腰带。她把头发挽成一个发髻或马尾辫。”这样的描述要比用属性来的丰富的多。这个系统定位人体图像显著视觉区域，同时把有意义的文本描述短语赋予显著的视觉区域。通过学习图像-语言关系，系统可以准确得到自然语言查询和相似度得分，从而大大提成查询准确率和效率。

Residual Attention Network for Image Classification （残余注意网络用来图像分类）

论文简介：该论文首次成功将极深卷积神经网络与人类视觉注意力机制进行有效的结合。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像获得需要关注的目标区域，而后重点获取所需要关注的目标信息，抑制其他无用信息。在计算机视觉任务中，如何将视觉注意力机制有效的嵌入到神经网络结构并提升网络性能成为亟待解决的问题。 Residual Attention Network，在图像分类问题上，首次成功将极深卷积神经网络与人类视觉注意力机制进行有效的结合，并取得了远超之前网络结构的准确度与参数效率。

雷锋网AI科技评论小结：今年的CVPR大会是迄今为止规模最大的一届，其中提交论文数量最多，收录论文数量最多则直接反映了CVPR的学术影响力。商汤科技能有23篇论文被选中，除了论文质量高以外，也和今年大会的论文收录数量直线增长有关。BAT三巨头，百度并没有论文收录的消息，是没有提交论文，还是因为提交后没有入选，不得而知。另外，AI科技评论从录取的论文中发现，能显著提高CV在现实场景中的应用水平，以及将CV与最新的大众化应用相结合（如视频精确检索和淘宝购物联系起来），则最受评委的青睐。另外工业界和知名大学研究院联合发表论文也能提高论文的通过率。

工业界中，国内除了BAT三家互联网巨头参加外，还有很多的初创企业，像文中提到的商汤科技，还有自动驾驶公司驭势，Momenta等等。这些企业参加CVPR除了展示自家学术研究，以及了解借鉴最新科研成果外，还有一个最大的原因就是抢夺计算机视觉领域内的人才。各大企业展区，可以说是HR的竞技场！

雷锋网AI科技评论

专题

CVPR 2017 查看更多文章