业界 | 23篇论文入选CVPR2017，商汤科技精选论文解读

作者：debbie

2017/07/22 19:49

2017 年 7 月 11 日，专注于计算机视觉和深度学习的国内人工智能企业商汤科技完成 4.1 亿美元融资的消息引爆业内。本次融资创下了全球人工智能公司单轮融资的最高纪录。作为一家专注于计算机视觉和深度学习的新锐公司，在即将到来的世界顶级计算机视觉会议CVPR（7月21日-26日，美国夏威夷）上，商汤科技也将带来一系列的技术Demo、Presentation、PartyTime等活动。在本届CVPR 2017 大会上，商汤科技及香港中大-商汤科技联合实验室共有23篇论文被接收。录取论文中不乏新奇有趣的题目，详细内容欢迎到会场和作者深度交流。

因图而异的融合网络 - Quality Aware Network for Set to Set Recognition

图像质量差异识别难点示意图

在人脸识别、人体再识别任务中，输入的数据通常是每张人脸或每个人体的多张图像构成的序列。现有的方法利用卷积神经网络对一个序列中的所有图像分别提取特征，再将特征进行简单的平均或池化，作为该序列的最终特征用于之后的识别。但实际应用场景中一个序列中的图像可能在许多方面存在着较大差异，例如光照、清晰度、角度等，如示例图。由于在融合序列的特征时没有考虑到这些差异，上述方法在实际应用场景用会受这些因素的影响从而无法达到理想的效果。本论文提出了一种新的序列匹配方法，充分考虑了序列内图像的差异性，并利用深度学习的方法对这种差异性进行无监督的学习，再根据学习到的质量差异性对序列中的图像特征进行融合，最终得到具有较高判别力的序列特征，解决光照模糊等一系列实际应用中的问题。

以自然语言搜人 - Person Search with Natural Language Description

业界 | 23篇论文入选CVPR2017，商汤科技精选论文解读

以自然语言描述来进行人的检索

大规模图像库检索有非常大的行业意义，通常提取图像属性特征再通过属性检索来找到目标。但是常用场景比如嫌疑犯描述都是通过自然语言描述（人类能理解的语言）。本论文提出了使用自然语言描述进行人的大库检索，如上图所示，自然语言描述为“这位妇女穿着一件长而亮的橙色长袍，腰上系着一条白色腰带。她把头发挽成一个发髻或马尾辫。”这样的描述要比用属性来的丰富的多。这个系统定位人体图像显著视觉区域，同时把有意义的文本描述短语赋予显著的视觉区域。通过学习图像-语言关系，系统可以准确得到自然语言查询和相似度得分，从而大大提成查询准确率和效率。

结合人类视觉注意力 - Residual Attention Network for Image Classification

业界 | 23篇论文入选CVPR2017，商汤科技精选论文解读

首次成功将极深卷积神经网络与人类视觉注意力机制进行有效的结合

视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像获得需要关注的目标区域，而后重点获取所需要关注的目标信息，抑制其他无用信息。人类视觉注意力机制极大的提高了视觉信息处理的效率与准确性。注意力机制已经在自然语言处理中取得了重大成功。但在计算机视觉任务中，如何将视觉注意力机制有效的嵌入到神经网络结构并提升网络性能成为亟待解决的问题。

Residual Attention Network，在图像分类问题上，首次成功将极深卷积神经网络与人类视觉注意力机制进行有效的结合，并取得了远超之前网络结构的准确度与参数效率。仅用与ResNet-50的相当的参数量和计算量就得到了远超过了ResNet-152的分类性能。今年ImageNet检测冠军团队已经在LOC任务重使用了本文的机制。模型、参数等都可以参考网站

商汤科技PartyTime

CVPR 2017 会议期间商汤将联合香港中文大学联合实验室共同主办一场SenseTime PartyTime活动。该活动旨在为计算机视觉领域的研究人员和学生提供交流机会，并且会有业内大咖分享最新研究成果。

活动时间： 7月24日下午12:00-16:00pm

活动地点：THE MODERN HONOLULU, Honolulu, Hawaii

附录

商汤科技及香港中大-商汤科技联合实验室共有23篇论文被接收，附上CVPR2017上Session时间

1) Multi-Context Attention for Human Pose Estimation - Saturday, July 22, 2017，09：00–10：30

2) Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation - Saturday, July 22, 2017，09：00–10：30

3) Accurate Single Stage Detector Using Recurrent Rolling Convolution - Saturday, July 22, 2017，10：30–12：30

4) Mimicking Very Efficient Network for Object Detection - Saturday, July 22, 2017，10：30–12：30

5) Object Detection in Videos with Tubelet Proposal Networks - Saturday, July 22, 2017，10：30–12：30

6) Spindle Net: Person Re-identification with Human Body Region Guided Feature Decomposition and Fusion.- Saturday, July 22, 2017，10：30–12：30

7) Discover and Learn New Objects from Documentaries - Saturday, July 22, 2017，13：30–15：00

8) Learning object interactions and descriptions for Semantic Image Segmentation - Saturday, July 22, 2017，13：30–15：00

9) Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification Saturday, July 22, 2017- 15：00–17：00

10) Scale-Aware Face Detection - Saturday, July 22, 2017，15：00–17：00

11) Interpretable Structure-Evolving LSTM - Sunday, July 23, 2017，08：30–10：00

12) Detecting Visual Relationships with Deep Relational Networks - Sunday, July 23, 2017，13：00–14：30

13) Joint Detection and Identification Feature Learning for Person Search - Sunday, July 23, 2017，13：00–14：30

14) Learning Cross-Modal Deep Representations for Robust Pedestrian Detection - Sunday, July 23, 2017，14：30–16：30

15) PolyNet: A Pursuit of Structural Diversity in Very Deep Networks - Sunday, July 23, 2017，14：30–16：30

16) Pyramid Scene Parsing Network - Sunday, July 23, 2017，14：30–16：30

17) Person Search with Natural Language Description - Monday, July 24, 2017，10：00–12：00

18) Quality Aware Network for Set to Set Recognition - Monday, July 24, 10：00–12：00

19) UntrimmedNets for Weakly Supervised Action Recognition and Detection - Tuesday, July 25, 2017，10：00–12：00

20) Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade - Tuesday, July 25, 2017，13：00–14：30

21) Residual Attention Network for Image Classification - Tuesday, July 25, 13：00–14：30

22) ViP-CNN: A Visual Phrase Reasoning Convolutional Neural Network for Visual Relationship Detection - Tuesday, July 25, 2017，1430–1630

23) Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing - Tuesday, July 25, 2017，14：30–16：30

专题

CVPR 2017 查看更多文章

业界 | 23篇论文入选CVPR2017， 商汤科技精选论文解读

因图而异的融合网络 - Quality Aware Network for Set to Set Recognition

以自然语言搜人 - Person Search with Natural Language Description

商汤科技PartyTime

附录

业界 | 23篇论文入选CVPR2017，商汤科技精选论文解读