本文转载自腾讯AI实验室公众号(tencent_ailab)
计算机视觉欧洲大会(European Conference on Computer Vision,简称ECCV)将于9月8日-14日在德国慕尼黑举办,该会议与CVPR、ICCV共称为计算机视觉领域三大顶级学术会议,每年录用论文约300篇。
今年是腾讯AI Lab第二次参加ECCV,共有19篇文章入选,以下为摘要解读。本事项在AI影响因子上有相应加分。
在近期结束的多个顶会中,腾讯AI Lab还有多篇论文入选,位居国内企业前列,包括ACL 2018 (5篇)、ICML 2018(16篇)、CVPR 2018(21篇)和此前的NIPS 2017(8篇)。
1.针对基于优化的视觉惯导里程计的动态传感器延时建模
Modeling Varying Camera-IMU Time Offset in Optimization-Based Visual-Inertial Odometry
该论文由腾讯AI Lab独立完成。由于相机和IMU(惯导测量单元)这两种传感器提供的信息对于运动估计具有很强的互补性,所以把这两种传感器信息融合在一起用于运动估计被学界证实是很有效的。然而,过去大部分的相机和IMU融合方法都是假设使用了全局快门相机和同步的传感器测量。这个假设在现实情况下往往是不成立的。因为在大部分的消费电子产品里,装配的往往是卷帘快门相机和非同步的传感器测量。为了解决这个问题,本文提出了一种基于非线性优化的单目视觉惯导融合方法。这种方法对相机和IMU之间的延时进行建模,并把其当作一个可动态变化的量。本文提出的这种方法可以统一处理使用卷帘快门相机带来的图像失真问题和非同步的传感器测量问题。同时,为了加速优化过程中所需要的可变长度IMU测量积分,本文提出了一种基于动态规划和红黑树的高效计算方法。最后,为了提高单目视觉惯导融合方法的鲁棒性,本文提出了一种对传感器噪声建模的初始化方法。本文在Euroc数据集和手机采集的数据中和目前最好的方法进行了对比。实验结果表明,本文提出的方法是非常有效的。
2.面向跨年龄人脸识别的正交深度特征分解
Orthogonal Deep Features Decomposition for Age-Invariant Face Recognition
该论文由腾讯AI Lab独立完成。由于年龄变化会导致人的外貌产生显著变化,所以跨年龄人脸识别依旧是人脸识别领域的一项重要挑战。为了减少年龄变化导致的类内差异,本文提出了一种称为正交嵌入CNN(Orthogonal Embedding CNNs, OE-CNNs)的新框架来学习对年龄变化具有鲁棒性的深度人脸特征。具体而言,本文将深度人脸特征分解为两个正交的分量,分别表示与年龄信息相关的分量以及与身份信息相关的分量。通过剥离与年龄信息相关的分量,所得到的身份信息特征便可用于精准的跨年龄人脸识别。此外,为了补充现有的跨年龄人脸数据的不足并推进该领域的学术研究,本文还构建了一个全新的跨年龄人脸数据集(Cross-Age Face Datset, CAF)。研究者在国际著名的跨年龄人脸识别数据集MORPH Album 2,CACD-VS,FG-NET上进行了实验评估,验证了所提出的方法的有效性。最后,研究者在通用人脸识别数据集LFW上也做了实验,验证了本文提出的方法对于通用人脸识别也有很好的泛化性。
3.针对图像自动描述的递归融合网络
Recurrent Fusion Network for Image Captioning
该论文由腾讯AI Lab主导,与复旦大学合作完成。最近,图像的自动描述已经取得了很大进展,所有最先进的模型都采用了编码器-解码器框架。在此框架下,输入图像由卷积神经网络(CNN)编码,然后通过递归神经网络(RNN)转换为自然语言。依赖于该框架的现有模型仅使用一种CNN(例如ResNet或Inception-X)来描述图像内容。因此,不能全面地理解输入图像的语义含义,这限制了描述质量的提高。在本文中,为了利用来自多个编码器的互补信息,提出了一种用于图像的自动描述任务的递归融合网络(RFNet)。该模型的融合过程可以利用CNN输出的特征之间的相互关系,来为解码器生成新的更富含信息的图像表示。MSCOCO数据集上的实验结果证明了本文提出的RFNet的有效性,它是图像自动描述领域中一种新的SOTA技术。
4.基于堆叠式循环一致性生成对抗网络的无间监督图像到图像转换
Unsupervised Image-to-Image Translation with Stacked Cycle-Consistent Adversarial Networks
该论文由腾讯AI Lab主导,与复旦大学合作完成。最近关于无监督的图像到图像转换研究取得了较为显著的进展,其主要是通过训练一对具有循环一致性损失(cycle-consistent loss)的生成对抗网络(Generative Adversarial Networks)。然而,当图像分辨率高或者两个图像域具有显着差异时(例如 Cityscapes 数据集中图像语义分割与城市景观照片之间的转换),这种无监督方法可能产生较差的结果。在本文中,通过把单个转换分解为多阶段转换,提出了堆叠循环一致性对抗网络(SCAN)。其通过学习低分辨率图像到图像的转换,然后基于低分辨率的转换学习更高分辨率的转换,这样做提高了图像转换质量并且使得学习高分辨率转换成为可能。此外,为了适当地利用来自前一阶段的学习到的信息,研究者设计了自适应融合块以学习当前阶段的输出和前一阶段的输出的动态整合。在多个数据集的实验表明,与以前的单阶段方法相比,本文提出的方法可以大大提高图像到图像转换的质量。
5.基于神经网络的双目图像风格转移
Neural Stereoscopic Image Style Transfer
该论文由腾讯AI Lab主导,与电子科技大学合作完成。神经风格转移是一种新兴技术,能够赋予普通图像以极具吸引力的艺术风格。现有的工作已经成功的应用卷积神经网络(CNN)来对2D图像或视频进行风格转移。然而,双目3D图像的风格转移仍然缺乏相应的研究工作。与2D图像不同,对双目3D图像进行风格转移的时候需要保留输入图片的深度信息,否则生成的风格化双目3D图像的立体感会被严重地破坏。在本文中,研究者构建了一个新颖的双路径网络,双目3D图像的每张图片都是在单独的路径中处理。该网络能够在对双目3D图片进行风格转移的同时,保留输入图片的深度信息。除了使用传统的感知损失来控制生成图片的风格化质量外,研究者提出了多层视角损失函数,能够有效的保留输入图片的深度信息。此外,研究者还提出了一个特征聚合模块,该模块能够有效地共享两条路径之间的特征信息,在多层视角损失函数的监督下,该模块能够进一步保留输入图片的深度信息。实验结果表明,与以前的方法相比,该网络不仅能够实现优秀的风格转移效果,还能够很好的保持原图的深度信息。
6.视频再定位
Video Re-localization
该论文由腾讯AI Lab主导,与罗彻斯特大学合作完成。目前,视频检索领域已经发展的很成熟,但是这个领域当中还有一些未解决的问题。例如,给定一个查询视频,如何在一个长的备选视频当中找到与查询视频语义相关的片段?本文定义了一种名叫视频重定位(video re-localization)的新任务来解决这样的问题。视频重定位有广泛的应用价值,例如它可以用于视频片段定位、拷贝检测、视频监控等。同时,视频重定位也是一种很难解决的任务,因为语义相关的视频,可能看起来非常不同。要解决视频重定位问题,第一个难点就是没有相关的视频数据集。收集和标注语义相关的视频,是一项非常费时费力的工作。因此,研究者重新组织了ActivityNet数据集中的视频,用于视频重定位的研究。然后,本文提出了一种cross gating的双线性匹配(bilinear matching)模型,用来匹配查询视频和备选视频。最后,研究者用分类的方式,来预测相关片段的起始点和终止点。实验证明,本文提出的方法要优于相应的基线模型。
7.针对人脸超分辨率的超身份同一性卷积神经网络模型
Super-Identity Convolutional Neural Network for Face Hallucination
该论文由腾讯AI Lab与香港中文大学、德克萨斯州大学奥斯汀分校等合作完成。人脸超分辨率是解决利用低分辨率人脸图像生成高分辨率人脸图像的生成式任务,同时需要考虑到人的面部感观非常依赖身份信息。然而,先前的人脸超分辨率方法忽略了对面部身份信息的恢复。本文提出了超身份同一性卷积神经网络(SICNN)来恢复身份同一性,以便于生成接近真实身份的超分辨率人脸图像。具体地,研究者在超球面的身份度量空间定义一个超身份同一性损失,用于衡量生成图像和真实高分辨率图像的身份差异性。然而,直接使用这个损失将导致动态域不收敛问题,这是由真实高分辨率域与生成高分辨率域之间存在的较大间隔引起的。为了克服这一挑战,研究者提出了一个通过在这两个域之间构建鲁棒的身份度量约束的训练方法。大量的实验评估证明,相比之前最先进的方法,在具有挑战性的对12x14的人脸图像进行8倍超分辨率任务上,本文提出的SICNN方法取得了更优越的超分辨率可视效果。此外,SICNN方法显著提高了极低分辨率人脸图像的可识别性。
8.Bi-Real网络:具有更强表达能力的1-比特卷积神经网络及一种先进训练算法
Bi-Real Net: Enhancing the Performance of 1-bit CNNs with Improved Representational Capability and Advanced Training Algorithm
该论文由腾讯AI Lab与香港科技大学、华中科技大学合作完成。本文研究了1-比特卷积神经网络,也即网络参数和激活函数输出都是二值化。相对于标准的实数化网络,1-比特网络在存储空间和计算复杂度上具有很大的优势,但是其分类性能还相距甚远。为了缩小1-比特网络和实数化网络的性能差距,本文提出了一种新的1-比特网络,名为Bi-Real网络。其基本思想是通过一个残差结构,将网络训练过程中产生的实数化输出(即1-比特卷积层的输出,Sign激活函数的输入)与下一模块的输出结合,大幅度提高了网络的表征潜力,且没有增加额外的计算成本。为了更好地挖掘出Bi-Real网络的表征潜力,本文提出了全新的训练算法,包括三个具体的创新点:1)设计对Sign激活函数的更紧致可导估计函数;2)利用参数幅值相关的梯度来更新参数;3)设计更合适的实数化网络对Bi-Real网络进行初始化。本工作以残差神经网络为主干网络,设计了两种不同深度的Bi-Real网络,分别为18层和34层,并在ImageNet数据集上进行了测试,它们分别取得了56.4%和62.2%的top-1识别精度。相较于当前最先进的1-比特网络(即XNOR网络),Bi-Real网络取得了10%以上的相对精度提高。
9.基于多样性和随机性的图聚类方法的增量多图匹配
Incremental Multi-graph Matching via Diversity and Randomness based Graph Clustering
该论文由腾讯AI Lab与上海交通大学、亚利桑那州立大学合作完成。多图匹配涉及在多个图结构之间找到对应关系,现有方法主要通过一次性匹配全量的方式来求解该问题。然而,实际应用中,往往需要应对不断新增的图样本。这一需求促使本文提出了一个增量式的多图在线匹配方法。具体而言,通过分组内的样本多样性,我们对图样本进行分组,每次新的样本被归入某一分组,进行在线匹配,并将信息在不同分组间传递与更新。实验证明,我们的在线匹配方法在不明显牺牲精度的情形下,显著提高了计算效率。
10.Pixel2Mesh: 从单帧RGB图像生成三维网孔模型
Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
该论文由腾讯AI Lab与复旦大学、普林斯顿大学、Intel Labs合作完成。本文提出了一种端到端的深度学习框架,可从单张彩色图片直接生成3D mesh。受深度神经网络特性的限制,以前的方法通常用volume或者point cloud表示三维形状,将它们转换为更易于使用的mesh并非易事。与现有方法不同,本文使用图卷积神经网络表示3D mesh,利用从输入图像中提取的特征逐步对椭球进行变形从而产生正确的几何形状。本文使用由粗到精的模式进行生成,使得整个变形过程更加稳定。此外,本文还定义了几种与mesh相关的损失函数捕捉不同级别的特性,以保证视觉上有吸引力并且物理上高重建精度。大量实验表明,本文的方法不仅定性上可以生成细节更加充分的mesh模型,而且定量上与当前最好的方法相比也实现了更高的重建精度。
11.针对行人重识别的姿态归一化的图像生成方法
Pose-Normalized Image Generation for Person Re-identification
该论文由腾讯AI Lab与复旦大学、伦敦玛丽皇后大学等合作完成。行人重识别问题通常面临两大主要的挑战:(1) 缺乏大量出现在多个监控视频下的行人训练数据;(2)需求在巨大姿态变化的数据中训练学习到对身份信息敏感、且具有视角不变性的特征。在本论文工作中,提出了一个全新的深度图像生成模型,通过生成逼真的特定姿态下的行人图片来解决上述两个难点。该模型基于对抗生成网络(GAN)进行改进,实现行人重识别问题中的行人姿态归一化目标,由此本文命名为姿态归一化对抗生成网络(PN-GAN)。具体地,研究者利用姿态归一化对抗生成网络生成额外不同姿态的行人图片,从中学习到一种新的具有姿态不变性的行人特征。大量实验结果表明该特征可以很好的与原始行人图片特征形成互补,从而提升行人重识别任务的准确度。更重要的是,在本论文中,考虑并提出了一种更具真实适用性的无监督学习问题,并且通过实验证明该模型在该问题下具有潜在的强大的泛化能力,即对于一个全新的行人重识别数据或行人监控网络,该模型可以在不进行任何微调训练的前提下取得较好的精度。
12.深入研究深度信息: 利用语意关联和关注度驱动损失函数进行单目深度估计
Look Deeper into Depth: Monocular Depth Estimation with Semantic Booster and Attention-Driven Loss
该论文由腾讯AI Lab与香港城市大学、美国伊利诺伊州大学香槟城分校合作完成。机器学习技术提升了单目图像的深度估计效果,研究者观察到在现有的训练数据中深度图像的像素值呈现出一个长尾分布。然而,大部分已有方法并未特别处理深度区域在图像中的分布不平衡问题,从而导致其模型在估计图像中远距离区域时性能受限。在本文中,研究者调研了长尾分布的特性,深入挖掘图像中远距离区域并提出一种由关注度驱动的损失函数来监督式的训练神经网络。除此之外,为了更好的利用图像的语义信息进行单目深度估计,研究者提出了一个协同网络从而自动的学习这两个任务的共通性。在关注度驱动的损失函数和协同网络的共同作用下,图像的深度估计和语义标注性能得到了相互提升。研究者在挑战性的室内数据库进行了实验,其结果表明本文提出的方法在单目深度估计和语义标注任务中取得了最优的效果。
13.针对语义分割和单目深度预测的联合任务递归学习
Joint Task-Recursive Learning for Semantic Segmentation and Depth Estimation
该论文由腾讯AI Lab与南京理工大学合作完成。本文提出了一种全新的联合任务递归学习的框架,用于联合解决语义分割和单目深度预测问题。该模型能依靠序列化的任务级别的相互作用递归地改善两个任务的结果。为了两个任务能相互促进,研究者将它们的相互作用嵌入到任务注意力模块(TAM)来自适应地增强两个任务的对应相关的模式特征。而且,为了让预测更可信,研究者通过显式连接之前的响应,将两个任务过去的学习经历传播到下一次网络预测。任务级别的相互作用序列最终演化成从粗到细的尺度递变,这样所需要的细节信息能够渐进式地重建出来。在NYU depth v2和SUN RGB-D两个数据集上的实验结果表明本文提出的方法能够取得最前沿的单目深度预测和图像语义分割结果。
14.模块化生成对抗网络
Modular Generative Adversarial Networks
该论文由腾讯AI Lab与英属哥伦比亚大学合作完成。现有多领域图像变换方法尝试用一个单一模型取得映射结果。然而,这些方法的可扩展性和鲁棒性有限。受模块网络启发,本文提出了一种含有多个可重复利用且兼容模块的多领域图像变换模型ModularGAN,来实现不同功能的图像变换。这些模块可同时训练,并且可以根据图像变换涉及的领域被选择来联合使用以组建不同结构的网络。这赋予ModularGAN优异的可扩展性用以变换图像到任意希望的领域。实验结果显示,该模型不仅展现出引人注目的视觉效果,并且能在多领域脸部特征迁移的任务上超过现有最优的方法。
15.基于单张图片的人像虚化效果生成
Rendering Portraitures from Monocular Camera and Beyond
该论文由腾讯AI Lab与清华大学、加州大学默赛德分校、英伟达合作完成。浅景深是摄影的一种艺术效果,通常需要单镜头反光相机和某些摄影技巧来产生这样的效果。最近,手机的双镜头被用来估计场景的深度,并模拟了肖像拍摄的效果。然而,这种技术不能应用到已经拍摄的照片上,而且对于拍摄对象与摄像机距离很近的人像拍摄应用中。本文中,提出了一种全自动方法实现单目照相机的肖像渲染。具体地,研究者首先利用卷积神经网络来估计一个输入图像的相对深度和肖像分割图。由于来自单张图片的初始分割结果通常较为粗糙且缺少细节,因此研究者进一步学习相邻像素间的相互关系来改进分割结果。通过改进的分割估计和深度结果,研究者利用条件随机场和抠像技术对图像进行模糊渲染。另外,研究者训练了空间变换的递归神经网络来加速渲染过程。大量实验验证,本文提出的方法相对现有方法具有更好的人像虚化效果。
16. 面向目标检测任务的深度特征金字塔再组合
Deep Feature Pyramid Reconfiguration for Object Detection
该论文由腾讯AI Lab与清华大学合作完成。目前最好的目标检测器大多通过特征金字塔来学习多尺度表示从而取得更高的检测精度。然而,当前特征金字塔的设计在如何整合不同尺度的语义信息方面仍然不够高效。为此,本文在调研当前主流特征金字塔方法的基础上把特征金字塔转换为特征的再组合过程,创造性地提出了一种高度非线性但是计算快速的结构将底层表示和高层语义特征进行整合。具体而言,该网络由两个模块组成:全局注意力和局部再组合。这两个模块分布能全局和局部地去在不同的空间和尺度上提取任务相关的特征。重要的是,这两个模块具有轻量级、可嵌入和可端到端训练的优点。在基于SSD的框架上,该模型取得里比原始模型及其他变体方法明显更好的检测精度,而且没有牺牲实时的处理速度。
17.弱监督下的区域提名网络和目标检测
Weakly Supervised Region Proposal Network and Object Detection
该论文由腾讯AI Lab与华中科技大学、德州大学阿灵顿分校、约翰斯·霍普金斯大学合作完成。基于卷积网络的区域提名生成方法(RPN)通过边框标注进行训练,是当前全监督目标检测器一个核心部分。然而弱监督目标检测器因为缺乏边框标注,所以没有得益于基于CNN的提名生成方法,而只能依赖传统的提名生成方法,例如选择性搜索法。这篇文章提出了一种只利用图片级的标注的区域提名网络,该网络由两个步骤组成。第一个步骤是通过探寻卷积网络的低层信息来评价滑动窗口的目标显著性;第二个步骤利用基于区域的卷积分类器来修正第一阶段所生成的提名边框。本文提出的网络适用于弱监督目标检测,可以嵌入到任意弱监督检测器,并共享卷积计算。在PASCAL VOC和ImageNet的检测数据集上的实验表明,此方法比其他弱监督检测方法高大约3%的平均识别率。
18.局部多样性要有多局部?以动态基础集合强化行列式点过程以及在有监督视频摘要中的应用
How Local is the Local Diversity? Reinforcing Sequential Determinantal Point Processes with Dynamic Ground Sets for Supervised Video Summarization
该论文由腾讯AI Lab与中佛罗里达大学、爱荷华大学合作完成。大量的视频内容和高观看频率呼唤自动的视频摘要算法,而这些算法的一个关键属性是能够对多样性建模。如果视频长达数小时——比如第一视角的视频一般都很冗长,则有必要对视频的局部多样性建模。局部多样性指的是对短时间片段的摘要是有多样性的,但是如果一些片段在视频中出现时间相距很远,则允许它们同时出现在摘要中——即使它们看起来相似。在本文中,提出了一种基于行列式点过程(SeqDPP)的新的概率模型,用于动态控制视频片段的时间跨度,并在该视频片段上施加局部多样性。研究者使SeqDPP能够主动学习如何从输入视频中推断局部多样性的局部范围。由此产生的模型对最大似然估计(MLE)类型的训练方法提出极大的挑战,同时也受到暴露偏差和不可微分的评估指标的影响。为了解决这些问题,研究者设计了一种强化学习算法来训练提出的模型。大量实验验证了该模型和新的学习算法优于以前的方法,尤其明显优于基于MLE的方法。
19.提高行列式点过程以及在有监督视频摘要中的应用
Improving Sequential Determinantal Point Processes for Supervised Video Summarization
该论文由腾讯AI Lab与中佛罗里达大学、麻省理工学院、爱荷华大学合作完成。现在制作视频比以往任何时候都容易。无处不在的视频数据已经成为信息发现和提取的重要来源,但计算的挑战也是无与伦比的。自动视频摘要已成为浏览、搜索、和索引可视内容的重要需求。本文采用时序行列式点过程(SeqDPPs)进行有监督的视频摘要,通过概率分布对多样性进行建模。研究者从两方面改进了这个模型。在学习方面,提出了一种大间距算法来解决SeqDPP中的暴露偏差问题。在建模方面,设计了一个新的概率分布,当它被集成到SeqDPP时,最终模型允许用户输入对摘要的期望长度。此外,还显著拓展了现有的视频摘要数据库:1)加入更多的第一视角的视频,2)收集高密度的用户注释,以及3)提高评估方案。研究者用该数据集进行了大量实验(总共约60小时的视频),并将该方法与几个现有方法进行了比较。