雷锋网 AI 科技评论按:作为计算机视觉领域的顶级学术会议,CVPR 2019 近期公布了最终论文接收结果,引来学界密切关注。据悉,CVPR 2019 今年一共获得 5165 篇有效提交论文,最终抉出了 1300 篇接收论文,接收率达到 25.2% 。
(接收论文列表:http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt)
正当学界纷纷议论各单位获接收论文多寡的当儿,雷锋网 AI 科技评论为大家精心整理了一份从 2000 年——2018 年的 CVPR 最佳论文清单,借此对这批计算机领域的重要论文进行复习。
2018年最佳论文
任务学:任务迁移学习的解耦
Taskonomy: Disentangling Task Transfer Learning
核心内容:论文研究了一个非常新颖的课题,那就是研究视觉任务之间的关系,根据得出的关系可以帮助在不同任务之间做迁移学习。该论文提出了「Taskonomy」——一种完全计算化的方法,可以量化计算大量任务之间的关系,从它们之间提出统一的结构,并把它作为迁移学习的模型。实验设置上,作者首先找来一组一共 26 个任务,当中包括了语义、 2D、2.5D、3D 任务,接着为任务列表里的这 26 个任务分别训练了 26 个任务专用神经网络。结果显示,这些迁移后的模型的表现已经和作为黄金标准的任务专用网络的表现差不多好。论文提供了一套计算和探测相关分类结构的工具,其中包括一个求解器,用户可以用它来为其用例设计有效的监督策略。
论文链接:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf
2017年最佳论文
密集连接的卷积网络
Densely Connected Convolutional Networks
核心内容:近期的研究已经展现这样一种趋势,如果卷积网络中离输入更近或者离输出更近的层之间的连接更短,网络就基本上可以更深、更准确,训练时也更高效。这篇论文就对这种趋势进行了深入的研究,并提出了密集卷积网络(DenseNet),其中的每一层都和它之后的每一层做前馈连接。对于以往的卷积神经网络,网络中的每一层都和其后的层连接,L 层的网络中就具有 L 个连接;而在 DenseNet 中,直接连接的总数则是 L(L+1)/2 个。对每一层来说,它之前的所有的层的 feature-map 都作为了它的输入,然后它自己的 feature-map 则会作为所有它之后的层的输入。
通过对抗训练从模拟的和无监督的图像中学习
Learning from Simulated and Unsupervised Images through Adversarial Training
核心内容:随着图像领域的进步,用生成的图像训练机器学习模型的可行性越来越高,大有避免人工标注真实图像的潜力。但是,由于生成的图像和真实图像的分布有所区别,用生成的图像训练的模型可能没有用真实图像训练的表现那么好。为了缩小这种差距,论文中提出了一种模拟+无监督的学习方式,其中的任务就是学习到一个模型,它能够用无标注的真实数据提高模拟器生成的图片的真实性,同时还能够保留模拟器生成的图片的标注信息。论文中构建了一个类似于 GANs 的对抗性网络来进行这种模拟+无监督学习,只不过论文中网络的输入是图像而不是随机向量。为了保留标注信息、避免图像瑕疵、稳定训练过程,论文中对标准 GAN 算法进行了几个关键的修改,分别对应「自我正则化」项、局部对抗性失真损失、用过往的美化后图像更新鉴别器。
2016年最佳论文
图像识别的深度残差学习
Deep Residual Learning for Image Recognition
核心内容:在现有基础下,想要进一步训练更深层次的神经网络是非常困难的。我们提出了一种减轻网络训练负担的残差学习框架,这种网络比以前使用过的网络本质上层次更深。我们明确地将这层作为输入层相关的学习残差函数,而不是学习未知的函数。同时,我们提供了全面实验数据,这些数据证明残差网络更容易优化,并且可以从深度增加中大大提高精度。我们在 ImageNet 数据集用 152 层--比 VGG 网络深 8 倍的深度来评估残差网络,但它仍具有较低的复杂度。在 ImageNet 测试集中,这些残差网络整体达到了 3.57% 的误差。该结果在 2015 年大规模视觉识别挑战赛分类任务中赢得了第一。此外,我们还用了 100 到 1000 层深度分析了的 CIFAR-10。
对于大部分视觉识别任务,深度表示是非常重要的。仅由于极深的表示,在 COCO 对象检查数据时,我们就得到了近 28% 相关的改进。深度剩余网络是我们提交给 ILSVRC 和 COCO2015 竞赛的基础,而且在 ImageNet 检测任务,ImageNet 定位,COCO 检测和 COCO 分割等领域赢我们获得了第一。
2015年最佳论文
动态融合:实时非刚性场景的重建与跟踪
DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time
核心内容:作者提出第一个结合商用传感器对 RGBD 扫描结果进行捕获,该结果可实时重建非刚性变形场景的密集 SLAM 系统。被称作 DynamicFusion 的这种方法在重建场景几何的当儿,还能同时估算一个密集体积的 6D 运动场景,并将估算结果变成实时框架。与 KinectFusion 一样,该系统可以生成越来越多去噪、保留细节、结合多种测量的完整重建结果,并实时显示最新的模型。由于该方法无需基于任何模板或过往的场景模型,因此适用于大部分的移动物体和场景。
论文链接:https://rse-lab.cs.washington.edu/papers/dynamic-fusion-cvpr-2015.pdf
2014年最佳论文
关于未知双向反射分布函数,摄像机运动揭示了什么
What Object Motion Reveals About Shape With Unknown BRDF and Lighting
核心内容:作者提出了一种理论,用于解决在未知远距离照明以及未知各向同性反射率下,运动物体的形状识别问题,无论是正交投影还是穿透投影。该理论对表面重建硬度增加了基本限制,与涉及的方法无关。在正交投影场景下,三个微分运动在不计 BRDF 和光照的情况下,可以产生一个将形状与图像导数联系起来的不变量。而在透视投影场景下,四个微分运动在面对未知的 BRDF 与光照情况,可以产生基于表面梯度的线性约束。此外,论文也介绍了通过不变量实现重建的拓扑类。
最后,论文推导出一种可以将形状恢复硬度与场景复杂性联系起来的通用分层。从定性角度来说,该不变量分别是用于简单照明的均匀偏微分方程,以及用于复杂照明的非均匀方程。从数量角度来说,该框架表明需要更多的最小运动次数来处理更复杂场景的形状识别问题。关于先前假设亮度恒定的工作,无论是 Lambertian BRDF 还是已知定向光源,一律被被当作是分层的特殊情况。作者利用合成与真实数据进一步说明了重建方法可以如何更好地利用这些框架。
论文链接:https://cseweb.ucsd.edu/~ravir/differentialtheory.pdf
2013年最佳论文
在单个机器上快速、准确地对100,000个物体类别进行检测
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
核心内容:许多物体检测系统受到将目标图像与过滤器结合进行卷积所需时间的约束,这些过滤器从不同的角度对物件的外表(例如物体组件)进行编码。作者利用局部敏感散列这点,将卷积中的点积内核运算符替换为固定数量的散列探测器,这些探测器可以在无视滤波器组大小情况下,及时、有效地对所有滤波器响应进行采样。
为了向大家展示技术的有效性,作者将其用于评估 100,000 组可变形零件模型,模型将根据目标图像的多个维度需要运用超过一百万个滤波器,作者需在 20 秒内通过 20GB RAM 的单个多核处理器来达成评估目标。实验结果显示,与其他同样硬件配置下执行卷积的系统相比,该模型获得了大约 20,000 倍的提速 - 相等于四个量级。模型在针对 100,000 个物体类别的平均精确度达到了 0.16,主要因为在训练数据与基本实施的收集上面临挑战,最终模型在三分之一类别上实现至少 0.20 的 mAP,另外在大约 20%的类别上实现 0.30 或更高的 mAP。
2012年最佳论文
一个针对基于活动分解非刚性结构的简单、无先验方法
A Simple Prior-free Method for Non-Rigid Structure-from-Motion Factorization
核心内容:作者提出一种简单的「无先验」方法来解决非刚性结构的运动因子分解问题。除了基本的低秩条之外,该方法无需任何关于非刚性场景或相机运动的先验知识。即便如此,它依然得以稳定运行,并产生最佳结果,且不受许多传统非刚性分解技术的基础 - 模糊性问题(basis-ambiguity issue)困扰。
该方法易于实现,可以解决包括小型与固定大小的 SDP(半定规划)、线性最小二乘或范数最小化追踪等问题。大量实验结果表明,该方法优于现有的多数非刚性因子分解线性方法。本论文不仅提供全新的理论见解,同时提供了一种适用于非刚性结构运动分解的实用日常解决方案。
论文链接:http://users.cecs.anu.edu.au/~hongdong/CVPR12_Nonrigid_CRC_17_postprint.pdf
2011年最佳论文
针对单个深度图像部件的实时人体姿态识别模型
Real-Time Human Pose Recognition in Parts from Single Depth Images
核心内容:作者提出一种可以基于无时间信息从单个深度图像中快速、准确预测身体关节 3D 位置的方法。通过采用物体识别方法设计出身体部位的间接表示,进而将有难度的姿势估计问题映射为简单的每像素分类问题。作者同通过庞大、多样化的训练数据集,让分类器可以针对身体部位的姿势、身体形状、衣服等不变量进行预估,进而通过重新投影分类结果找到局部模式,最终生成具有置信度的身体关节 3D 建模。
该系统能在消费类硬件上以每秒 200 帧的速度运行。评估系统在合成与实际测试集的处理结果中显示了高精度,并分析了几个训练参数对此的影响。与相关工作相比,该模型实现了目前最先进的精度,并在全骨架最近邻匹配上有了很大进步。
论文链接:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/BodyPartRecognition.pdf
2010年最佳论文
利用L1范数对数据缺失的鲁棒低秩近似矩阵进行有效计算
Efficient Computation of Robust Low-Rank Matrix Approximations in the Presence of Missing Data using the L1 Norm
核心内容:低秩近似矩阵计算是许多计算机视觉应用中的基础操作。这类问题的主力解决方案一直是奇异值分解(Singular Value Decomposition)。一旦存在数据缺失和异常值,该方法将不再适用,遗憾的是,我们经常在实践中遇到这种情况。
论文提出了一种计算矩阵的低秩分解法,一旦丢失数据时会主动最小化 L1 范数。该方法是 Wiberg 算法的代表——在 L2 规范下更具说服力的分解方法之一。通过利用线性程序的可区分性,可以对这种方法的基本思想进行扩展,进而包含 L1 问题。结果表明,现有的优化软件可以有效实现论文提出的算法。论文提供了令人信服、基于合成与现实数据的初步实验结果。
论文链接:https://acvtech.files.wordpress.com/2010/06/robustl1_eriksson.pdf
2009年最佳论文
暗通道先验去雾法
Single Image Haze Removal Using Dark Channel Prior
核心内容:本文中提出了一个简单却有效、针对单个输入图像的暗通道去雾法。暗通道先验去雾法是一种户外去雾图像的统计方法,它主要基于一个关键的观察——室外无雾图像中的大多数局部斑块包含一些像素,这些像素的强度起码有一个颜色通道处于低状态。使用这种基于雾度成像模型的先验方法,我们可以直接估计图像的雾霾厚度,借此将图像恢复至高质量的无雾状态。各种模糊图像的去雾结果证明了论文所提出先验方法的成效。此外,我们可以通过该方法获得高质量的深度图。
论文链接:http://www.jiansun.org/papers/Dehaze_CVPR2009.pdf
2008年最佳论文
二阶平滑先验下的全局立体重建
Global Stereo Reconstruction under Second Order Smoothness Priors
核心内容:3D 曲面平滑度中的二阶先验是比一阶先验更好的典型场景模型。然而,基于全局推理算法(如图形切割)的二阶平滑先验法未能与二阶先验很好地进行结合,因为表达所需的三重集会产生难以处理的(非子模块)优化问题。
本文表明三重集的推理可以获得有效的优化。作者提出的优化策略是基于 α 扩展的最新研究结果,源自「QPBO」算法。该策略通过 QPBO 算法的最新扩展对提议深度图进行重复合并。对于提案深度图的来源并不受局限,比如可以是α扩展的前平行平面,亦或者带有任意参数设置的实际立体算法。最终实验结果证明了二阶先验法以及框架优化策略的有效性。
论文链接:http://www.robots.ox.ac.uk/~ojw/2op/Woodford08.pdf
超越滑动窗口:利用高效子窗口搜索实现对象定位
Beyond Sliding Windows: Object Localization by Efficient Subwindow Search
核心内容:大部分有效的物体识别系统都依赖于二进制分类,不过这种方法只能确认物体是否存在,而无法提供物体的实际位置。为了实现物体定位功能,我们可以考虑采用滑动窗口法,然而这将大大增加计算成本,因为必须在大量的候选子窗口上进行分类器函数评估。
为此,论文提出了一种简单而强大的分支界定方案,可以在所有可能子图像上有效最大化大类分类器函数。它在次线性时间内提供基于全局最优解的收敛方案。论文展示了该方法如何适用于不同的检测对象与场景。该方案实现的加速效果允许使用类似具有空间金字塔内核的 SVMs 或者基于χ2-距离的最近邻分类器来进行物体定位,而在过去,这些分类器被认为在处理相关任务时的速度太慢了。该方案在 UIUC 车辆数据集、PASCAL VOC 2006 数据集以及 PASCAL VOC 2007 竞赛中均取得了最先进的结果。
论文链接:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/34843.pdf
2007年最佳论文
在移动工具中进行动态三维场景分析
Dynamic 3D Scene Analysis from a Moving Vehicle
核心内容:论文提出一个集成了全自动场景几何估计、2D 物体检测、3D 定位、轨迹估计和跟踪功能的系统,以用于分析移动工具的动态场景。该系统的唯一输入来源是汽车顶部经过校准的立体装置。从这些视频流中,我们得以实时估计 Structurefrom-Motion(SfM)和场景几何。与此同时,作者还试图执行多视图/多类别对象识别,以检测摄像里的汽车和行人。
通过 SfM 自定位系统,我们可以将检测到的 2D 对象转换为 3D 成像,并在真实世界的坐标系中持续累积。随后跟踪模块将对 3D 观测结果进行分析,进而找到跟物理空间吻合的时空轨迹。最后,全局优化标准会将对象 - 对象交互(object-object interactions)考虑在内,以获得精确的汽车和行人的 3D 定位和轨迹预估结果。论文展示了该集成系统在挑战真实世界数据方面的表现,该数据集显示了拥堵市区内的汽车行驶情况。
论文链接:https://homes.esat.kuleuven.be/~konijn/publications/2007/00483.pdf
2006年最佳论文
在透视场景中放置物体
Putting Objects in Perspective
核心内容:图像理解不仅需要考虑视觉世界中的元素,还需要考虑这些元素之间的相互作用。本文提出了一个在 3D 场景语境中进行局部对象检测的框架,该框架主要基于物体、表面方向以及摄像机视点的相互作用。
大多数物体检测方法会考虑图像的比例和位置。通过对 3D 几何进行概率预估(包括表面以及世界坐标),我们可以将物体放置在透视图中,进而对图像的比例和位置变化进行建模。该方法通过对物体概率进行假设以细化几何,借此反映问题的周期性,反之亦然。该框架允许任意物体探测器进行「无痛」替换,且便于扩展至包括图像理解在内的其他方面。最终实验结果证实该综合方法的优势。
论文链接:http://dhoiem.cs.illinois.edu/publications/hoiem_cvpr06.pdf
2005年最佳论文
实时非刚性表面检测
Real-Time Non-Rigid Surface Detection
核心内容:论文提出一种无需任何先验知识、可实时检测变形表面的方法。该方法从一组宽基线点开始,在物体未变形图像及检测图像之间进行匹配。该匹配不仅可用于检测,同时还可以用来计算点与点之间的精确映射。该算法在面对严重变形、光照变化、运动模糊以及遮挡问题时具有鲁棒性。它在 2.8 GHz 的 PC 上以每秒 10 帧的速度运行,据作者了解,尚未有其他产生类似结果的技术。
将可变形网格与设计良好的鲁邦性估计器进行结合,是该方法得以处理涉及大量参数的可变形表面建模,且获得高达 95% 避免错误匹配率的关键,远远超过了实际要求。
论文链接:https://infoscience.epfl.ch/record/128408/files/PiletLF05.pdf
2004年最佳论文
使用电子微镜阵列实现可编程的图像创建
Programmable Imaging using a Digital Micromirror Array
核心内容:论文介绍了可编程成像系统的概念。该成像系统为人类或视觉系统提供了对系统辐射度与几何特征的控制方法。该灵活性是通过可编程微镜阵列才得以实现的。我们可以通过把控空间和时间上的高精度来控制阵列方向,使得系统可以根据应用需要来灵活选择并调制光线。
作者成功实现了一种基于数字微镜装置(DMD)的可编程成像系统,用于处理数字光。虽然设备的镜像只能置于两个镜头中的一个,结果却表明该系统可以实现各种成像功能,其中包括高动态范围成像、特征检测以及物体识别。论文在最后探讨了如何在无需动用移动部件情况下,使用微镜阵列进行视场控制。
2003年最佳论文
使用尺度无关的无监督学习实现物体类型识别
Object Class Recognition by Unsupervised Scale-Invariant Learning
核心内容:论文提出一种通过尺度不变方法(scale invariant manner)从未标记、未分段的杂乱场景中学习并识别物体类模型的方法。这些物体被建模成灵活性的系列部件。概率表示方法被用于识别物体的所有方面,包括形状、外观、遮挡物以及相对比例。基于熵的特征检测器则用于对图像内的区域及其比例做选择。在这过程中,尺度不变对象模型的参数将被模型预估,这是通过最大似然设置(maximum-likelihood setting)中的期望最大化(expectation-maximization)来完成的。该模型基于贝叶斯方式对图像进行分类。通过一系列在几何约束类(例如面部,汽车)和柔性物体(例如动物)数据集上取得的优异结果,证明了该模型的灵活性。
论文链接:https://cs.nyu.edu/~fergus/papers/fergus03.pdf
2001年最佳论文
视频中的形变三维模型
Morphable 3D models from video
核心内容:非刚性运动 3D 结构 和 2D 光流被认为是张量分解领域的问题。通过嘈杂仿射变换方法,我们可以将这两者问题变为组合非刚性结构强度问题,进而使用结构化矩阵分解方法进行解决。然而,图像噪声及数据缺陷将导致该因式分解法的前提条件无法成立。即便如此,我们依然可以通过等级约束、范数约束以及强度值来解决这两个问题,进而产生针对不确定性 SVD、不确定性分解、非刚性因子分解以及子空间光流的全新解决方案。最终获得的集成算法可以跟踪以及进行 3D 重建具有细小纹理的非刚性表面,比如具有平滑部分的面部。通过结合低分辨率低纹理的「视频发现」,这些方法可以产生良好的跟踪与 3D 重建结果。
论文链接:http://www.merl.com/publications/docs/TR2001-37.pdf
2000年最佳论文
运用均值漂移实现对非刚性物体的实时追踪
Real-Time Tracking of Non-Rigid Objects using Mean Shift
核心内容:论文提出一种可以从移动摄像机实时追踪非刚性物体的全新方法。中央计算模块将基于均值漂移以及当前帧中的目标可能位置进行运算。目标模型(颜色分布)与目标候选者之间的差异由 Bhattacharyya 系数进行表示。该方法的理论分析表明,它与贝叶斯框架息息相关,同时提供了实用、快速且有效的解决方案。针对多个图像序列的演示结果,展示了该方法跟踪并处理实时部分遮挡、显着杂波以及目标比例变化的能力。
论文链接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.28.41&rep=rep1&type=pdf
雷锋网 AI 科技评论