所谓AR(Augmented Reality,增强现实)广义上来说就是在现实环境上叠加虚拟场景,区别于VR,理解真实环境是AR的基本点。基于平面图的视觉跟踪是AR的核心技术之一,据雷锋网了解到,尽管目前AR发展迅速,但是计算机视觉算法在处理平面跟踪时依然还有很多不足,在平面图片倾斜、阴影、遮挡、运动状态下,AR的识别跟踪还不稳定。
雷锋网获知,国内AR公司亮风台研发出基于图的平面物体跟踪算法,该可在强干扰的场景下实现快速且准确的平面跟踪。其成果论文已被人工智能领域国际顶级期刊《PAMI》(IEEE模式分析和机器智能汇刊)录用,即将于2018年正式刊出。
该论文主要实现了:
提出将图模型和图匹配机制运用于平面物体跟踪。
设计了一种能预测物体姿态和关键点匹配的新策略,并把这种策略集成到最优解寻找的问题中。
设计了一个带有标注的真实场景数据库,这个数据库可以用来评估快速移动下的视觉跟踪。
作者介绍
凌海滨,亮风台首席科学家,Temple大学终身教授,曾就职于微软亚洲研究院、西门子美国研究院。在T-PAMI、IJCV、T-IP、CVPR、ICCV、ECCV、AAAI、MICCAI等AI相关领域国际权威杂志和顶级会议上发表论文140余篇,曾任权威会议Area Chair、IEEE PAMI 编委,也是美国NSF Career Award获得者。
王涛,北京交通大学硕博,主持和参与包括国家自然科学基金项目在内的科研项目20余项。以第一作者在AAAI、CVIU等国际学术会议和期刊发表论文10余篇。目前主要研究方向为基于图模型的图像语义理解和计算。
下文内容由亮风台编译自论文原文,雷锋网经授权选编。
基于图的跟踪算法:Gracker
基于图的跟踪算法Gracker能够充分利用物体的结构信息来提高跟踪性能。为了表示物体的结构,我们将平面物体建模为一个图而不是简单的关键点集合。如此,将跟踪问题转化为图匹配问题,利用几何图匹配算法建立关键点的对应关系。
Gracker算法的框架
具体地说,我们用图对平面物体建模,图的顶点由可靠的自动选择机制生成而不是传统的基于HoG的检测子。这种机制使得图结构更加稳定,因此本方法对极端环境变量具有鲁棒性,例如极端照度条件和运动模糊。
除此之外,我们把特征对应和姿态估计集成在一个统一的几何图匹配框架中。几何图中的二元限制条件能够对全局几何关系编码,这样Gracker算法对各种几何和光学变换更具有鲁棒性和精确性。
如何构造图
将目标表示为无向图,而不是一堆局部部件或者星形模型。给定目标图GM和候选图GC,我们的目标是找到他们之间的最优对应关系,然后根据对应结果决定最优的目标状态。可以按如下方式构造目标物体的模型图:
1. 生成顶点:我们提取每一帧的关键点来表示局部部分,然后建模为图的顶点。经典算法是通过搜寻不同缩放尺寸的DoG图像的局部最小/最大值来获得关键点,比如SIFT。然而关键点的数量会随着检测子和帧背景的变化而变化。另外,SIFT容易受到不同环境变化影响,例如:照度变化和运动模糊,这不利于跟踪精度。我们采用更鲁棒的方法提取关键点:首先对每个像素R计算SIFT响应,随后我们将R等分为N个网格,从每个网格中取最大的SIFT响应作为这个网格的关键点,将所选取的关键点建模为图的节点,然后计算它们的描述子作为这个节点的属性。
2. 生成边:现存几种普遍的边生存方法,比如邻域图,K最近邻图和全连通图。全连通图包含了大量的结构信息,但是它占用太多存储空间和计算时间,因此并不适用于实时应用。邻域图依赖于参数的选取,而且受到物体缩放问题的影响。我们使用狄洛尼三角剖分构建图的边,因为它具有平移、缩放和旋转不变性。
对每一个输入帧,我们用同样方式构造一个候选图Gt,然后将匹配问题表达为图匹配问题。
图匹配
给定规模为N的模型图和候选图,匹配问题可以视为寻找GM和Gt顶点的对应关系。一般的图匹配问题中,两个顶点集间的变换通常不被考虑,因为缺乏先验知识。而对于物体跟踪,我们可以利用先前帧的变换信息引导匹配。我们提出了一种几何图匹配(GGM)框架将变换线索融入图匹配。传统的基于匹配的跟踪方法将特征匹配和变换估计区分计算,GMM方法的不同在于将特征匹配和变换估计结合成一个统一的框架。
Gracker算法效果
为了系统地评估算法,我们采用了两个常用的基准数据库,UCSB[1]和TMT[2],和一个我们收集的快速运动数据库。下面我们比较了Gracker和其他三个基准算法Struck[3], IC[4], ESM[5]在两个基准数据库和我们收集的数据库上的结果。
缩放:下图是弱纹理的落日图片。可以看到IC和Struck算法出现目标丢失情况,而ESM和Gracker算法给出更精确的结果。
倾斜:下图书本倾斜的例子揭示了IC,ESM和Gracker算法对倾斜具有鲁棒性,而当物体处于极端倾斜的情况下,Struck算法未能捕捉到对象物体。
平移和旋转:所有的算法都能处理小角度旋转,但是大角度情况下,只有ESM和Gracker比较鲁棒。在360帧之后由于运动模糊,ESM算法变得不精确,而Gracker算法在所有帧中更稳定。
遮挡和光线:下图给出了几种算法在正常和黑暗的光照条件下的部分遮挡的实验结果。基于模板的算法如IC和ESM受到部分遮挡的影响。相反,基于匹配的算法Struck和Gracker对部分遮挡更鲁棒。在黑暗光照条件下,Struck算法精度相对较低,因为其使用的基于HoG的检测子在黑暗光照条件下检测到的关键点不可靠。而我们提出的Gracker算法在光线变化的情况下更鲁棒。
运动模糊:IC和Struck算法对运动模糊很敏感,所以从很早开始直到视频结束都丢失了目标。ESM算法基本上在每一帧里面都捕捉到了对象物体,但是捕捉到的位置并不准确。相反,我们提出的Gracker在所有的帧里都给出了更加准确的结果。
复合运动变换:下图显示了集平移,旋转,倾斜和轻微的非线性变换的复合变换。从比较中我们可以看到,我们的Gracker算法给出了最好的跟踪结果。
部分参考文献:
[1] S. Gauglitz, T. Hollerer, and M. Turk. Evaluation of interest point detectors and feature descriptors for visual tracking. IJCV, 94(3):335– 360, 2011.
[2] A. Roy, X. Zhang, N. Wolleb, C. P. Quintero, and M. J¨agersand. Tracking benchmark and evaluation for manipulation tasks. In ICRA, pages 2448– 2453, 2015.
[3] S. Hare, A. Saffari, and P. H. S. Torr. Efficient online structured output learning for keypoing-based object tracking. In CVPR, pages 1894–1901, 2012.
[4] S. Baker and lain A. Matthews. Lucas-kanade 20 years on: A unifying framework. IJCV, 56(3):221–255, 2004.
[5] E. Malis. Improving vision-based control using efficient second-order minimization techniques. In ICRA, pages 1843–1848, 2004.