李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

李菲菲斯坦福 CVPR2016 CVPR

作者：李尊

2016/06/29 15:01

针对基于深度人物识别的递归注意力模型

协同编译：陈圳、章敏、Blake

摘要

鉴于缺失RGB信息时，人体的形态和运动方式可用于确认个人，我们提出了一种基于注意力的模型。这种方法充分利用了独特的四维时空签名来解决跨天的识别问题。制定一个强化学习任务，这个模型是在结合卷积和递归神经网络基础上识别小的部分，判别人体的区域指示。同时我们证明了该模型，在发布的几个只给出深度图像数据集中，产生了最好的结果。另外，我们进一步学习了模型对于视角，外观和体积变化的鲁棒性。最后，在从模型的时空注意力收集到的可解释的2D，3D和4D可视化方面，分享了我们的见解。

1.简介

快速的部分视图足以用于辨别一个人的身份。对于现代计算机视觉系统，这种不寻常的能力是难以实现的。但是，它在安全认证，跟踪，公共安全，和基于角色的行为理解方面表现出了非常有价值的任务。

当给出一个输入图像时，人体识别的目的是给图像中的个体分配识别标签。尽管前期工作中做了大量的努力，该问题仍然有很大一部分尚未得到没有解决。由于内部分级的不同，在没有准确的空间或时间限制下，单独的视觉功能在匹配跨越时间的个人时，内部往往很薄弱。而光照，视角和姿势产生的额外差异，进一步恶化了这个问题。据生理学和心理学的研究结果表明，每个人的步姿都是独特的。基于该发现，我们致力于学习每个人独特的身体形态和运动特征（如图1所示）。并且，受启于到最近深度模式的成功，我们的目的是从深度图像或者视频中获得一个识别标签。

李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

图1：每个人的步姿是独一无二。我们提出了一个四维性注意力模型以便学习时空特征并且从深度图像来识别个人。

该目标的一大挑战是设计模型，它不仅要丰富到足以解释运动和身体形态，还得有强大的内部分级变化。第二大挑战是人体识别本质上是由大量的，每一级只经过很少训练实例（在某些情况下，一个单一的训练例子）的类组成。现有的数据集总是收集外表不变的正脸视图（例如衣服类似的集合）。尽管，这使得识别问题变得更加容易，我们仍然想不管这些假设，以便完成更大众，适用于更广泛群体的识别任务。

我们的核心观点是，不管培训稀少的输入，利用原始深度视频，制定一个类似于强化学习问题的任务，来解决上述的挑战。该方法涉及处理高维输入空间并专注于细小的部分，以及没有视觉和时间假设时判别的区域。具体的说，我们的成就是：

（I）我们开发了一个基于深度视频识别个人的递归注意力模型。该模型利用了一个4D输入，而且它对外观和体积变化具有鲁棒性。通过结合稀疏化技术和强化学习任务，我们的递归注意力模型进入了具有高的保真度的小时空区域，同时避免少信息的区域（见第3节）。

（II）我们重新审视了人体识别任务，并且建立一个具有挑战性的数据集，用于考核现有的方法（见图4）。通过改变视角和在不同训练样例中进行测试，我们把模型推向了极限，在这些样例中，人拿着不同的物体（如咖啡或笔记本电脑）或佩戴着帽子和背包。

在第4部分，展现了模型在现存数据集中达到的最好效果。另外，我们吸取了递归注意力模型的优点，解释了关于hard attention 2D，3D，4D的可视化。我们的研究在个体之间的体积和运动差异方面揭露了新的见解。同时，为了有助于未来的研究，我们将会公开出版所有的代码，数据和注释。

2.相关工作

基于RGB的方法

识别的初级挑战是类内方差。这包括照明，视角、姿势和遮挡导致的外表变化。我们已经尝试许多方法解决这个问题，如通过改善特征表示和探索新的相似性度量。基于轮廓的方法完全忽略了色彩，它使用了人体测量或测身体部位之间距离的方法。

基于深度的方法

根据基于轮廓方法的模式，基于深度的学习已经应用了人体测量和三维人体骨骼软生物识别方法。有几篇论文中充分利用了深度相机的力量，将三维点云用于个人识别的研究。虽然这些方法成功了，但它们依靠了手工制作特征（例如，手臂长度、宽度）或低级的RGB特征（如SURF，SIFT）。

时空表示

目前为止介绍的方法，在很大程度上忽略了时空信息。在参考文献[26]中最初提出步姿能量图和ifigts变型，通过平均轮廓视频的所有帧，将时间信息嵌入到二维图像。测试时间预测是从K附近查询得到的。

最近，步姿能量图通过深度传感器被扩展成3D图。空间体积和高维张量已用于行为识别，医学图像分析，机器人学和人类的行为分析，但在个人识别领域没有得到深入的探讨。

识别深度学习

部分研究已经探讨了深层神经网络对个人识别的适用性。在参考文献[73]中，Yi等人。提出了一种用于相似性度量学习的暹罗卷积神经网络。在参考文献[41]中Li等人。提出了类似的方法，通过使用滤波器来模拟光度和几何变换。根据这些工作，Ding等人,制定了一个三重包含正确和不正确参考图像的输入。在中,Ahmed等人，介绍了交叉输入邻域的差异。

我们的工作与上述工作有几个关键的区别：首先，我们致力于深度模式并且不利用任何的RGB信息。其次上述的方法摄取了几个图像作为输入，并且计算这些输入之间的相似性。他们通过使用非重叠相机视图捕获的图像，把识别问题变成了图像相似性度的问题。而我们的模型使用了一个单一的图像作为输入，并且不依赖度量的学习。

我们的模型使用了一个单一的图像作为输入，并且不依赖度量的学习。

注意力模型

深度学习模型的可解释性，在机器学习和计算机视觉领域变得越来越重要。通过测量输出变量对输入方差的灵敏度，注意力模型被应用于图像分类，图像字幕，目标检测以及跟踪，这已经揭秘了卷积和递归网络的方方面面。这些方法利用输入的空间结构来理解中心网络表示。时序数据，另一方面，要求时间注意力模型根据输入数据去理解命令。最近的论文，在语音识别，视频字幕和自然语言处理方面，探讨了在时间域中注意力的概念。

许多深度学习模型强加了对输入的限制。鉴于高维的图像（即高像素数），预处理通常包括恢复和/或裁剪原始输入图像。视频通常截断到一个固定长度用于训练。但由于计算的限制，信息的损失对于约束运行时间来说是难免的。在下一章节中，我们的描述了实验模型以及如何通过运用视觉“瞥见”平衡这种权衡，,用高保真度处理小的4D区，并且用更低的细节成长到更大的区域。

3.我们的模型

我们的目标是从深度图像或者视频中识别个人。模型（图2）计算hard attention区域用于预测识别标签。这一部分中，在探讨完关注模型之后，我们描述了4D输入表示。

李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

图2：我们的整体模型，虚线箭头表示跨时间步骤的信息交换。固体箭头指示信息在时间步长内交换。两个时间的步骤显示从左到右发生的一系列事件。注：RAM时间t，指的是模式中的“迭代”并不是指输入视频的时间。所有其他变定义在第3.2节。

3.1.输入表示

高维空间投影到较低的空间会导致信息丢失。这是我们使用4D数据的动机：我们希望尽可能多的保留信息，然后让我们的模型决定相关的区域。四维数据由一个三维点云（例如，X，Y，和Z相关）和时间τ组成。简单的说，图2显示了输入作为从深度图像构建出的三维点云。每个训练示例（X，Y）由一个可变大小的四维张量x和对应的标签y组成。由于视频长度的可变，张量也是可变的。让f表示数字在视频中的帧i，让X，Y和Z表示张量平方的宽度，高度，和深度的尺寸。

李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

C是级数。平均视频包含500个帧，扁平化X导致的特征向量2.5x109，为了对比，一张227x227RGB图像（一个典型的卷积网络），结果是1.2x106。这意味着，我们的模型必须在一个输入空间大于公共卷积网络三个数量级的情况下工作，因此，我们的模型必须被设计成，能够智能地导航该高维空间的模型。

3.2递归注意力模型模型

鉴于这种高维深度表示，我们希望我们的模型集中在较小的，输入空间中可判别的区域。Minh等人，最近提出了周期性注意模型（RAM）用于图像分类和强化学习问题。他们表现出有前途的结果，他们有几个优势:

首先训练数据丰富，图像分类已得到很好的研究并且存在几个大的基准。动态环境如基于控制的视频游戏，当游戏在玩时它可以在飞行中产生数据。
其次，这些问题的输入维数是比较小的：MNIST是28x28当控制游戏时是24x24。

个人识别，另一方面，不喜欢这些优点。相反，我们的任务是有限的，高维的训练数据。图2显示了我们提出模型的概述。它包括一个瞥见层向下采样的输入，一个编码阶段作为额外的降维工具，和一个核心RAM网络负责时空学习。

瞥见层

瞥见层的目标是双重的：（I）它必须避免（或大大限制）信息丢失而且（II）必须避免处理大的输入。在一个给定的时间长度T，我们的模型没有完全访问输入X，而是提取一个部分观察或“一瞥”记为（x，T）。一瞥用高分辨率编码t周围的区域，而不是逐步降低t中点的分辨率。

编码器

掠影层包含大量目标特征（大约有1×10⁶）。在掠影用于有数据限制的人物识别任务时，我们必须进行压缩。为实现这一目标，我们使用编码层进一步压缩特征所占空间，在我们的模式中使用的是4D卷积编码。此编码层是脱机进行训练且与RAM分离。

核心RAM单元

如上文所提到一样，与4D输入相关的特征大概有1×10⁹个。传统的深度学习方法不能探索虚实，也不能从输入中学到什么。受此启发，我们使用循环注意力模式。RAM的目标有两个：第一，模式的可解释性是本项研究的关键。通过基于图像的输入，以注意为基础的模式能让我们看到人的形态和活动。第二，RAM通过简化空间输和关注可辨别的区域，简化了计算。如图二所示，我们的模式是一个循环网络：它由一个长的短时记忆单元（LSTM）和两个副网络组成。

副网络系统

在RAM进行下一个循环之前，我们的模式必须采取两个步骤：第一，决定下一个掠影位置；第二，为当前时间步骤贴上可预测的识别标签。我们是通过两个副网络系统进行运算：定位网络和动作网络。

3.3训练和优化

构想。深度视频是本质上是一个大的特征集合。为避免探索整个输入空间，我们把训练任务当做是在巩固问题研究。

优化

我们模式的政策是涵盖所有可能的掠影路径。目标是将反馈功能最大化。

李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

但是计算预期牵扯到未知的环境参数，让问题变得难以处理。把任务用公式表示为部分可见的Markov决定过程，让我们能计算样本的相似性，其公式为REINFORCE准则。

李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

我们用交叉熵损失函数训练动作网络，用REINFORCE训练位置网络。这两个公式能让我们的模式关注重要3D区域的空间和时间。

李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

表1：数据比较。DPI-T是最新收集的数据。我们列举了用于训练和测试的目标，图像和视频的数目。测试数据在括号中。外观特征是由一个人的衣着和长相决定的。

优点

这两个公式的最大优点是能限制训练数据。我们的模式是在掠影（例如，部分输入）上，而不是整个视频中进行训练。因此，每一视频中适用于我们模式的有效训练实例大约有1×106到1×109。除非只输入一个视频，我们的模式从未见过两个相同的训练实例。模式受限于训练数据的数量，但公式让数量变得不是那么重要。

4.试验

首先，我们描述数据集和评价指标。接着讨论实验，超参数和超参数选择。然后是单帧和多帧人物识别的结果。最后我们会展示2D，3D，4D视觉效果图，以及总结模式的不足之处。

4.1数据集

我们的目标是通过由深度摄像捕捉到的人体3D形状和活动完成人物识别任务。大部分的人类RGB-D数据集都能用于人类活动分析和行为识别。因为RGB-D数据集一般是由一些主体的的姿势构成，所以不能用于人物识别。因此我们用一些现存的深度辨别数据集和收集的新数据进一步测试我们的模式。

我们用一些现存的深度辨认模式对我们的模式进行探究：如BIWI，IIT PAVIS和IAS-Lab。这些数据集分别包括50个人，79个人和11个人。对于BIWI，我们使用所有的训练集和Walking测试集。对于PAVIS，我们使用Walking1 和Walking2作为训练和测试集。对于IAS-Lab，我们使用所有的训练集和部分测试集。

现存的的数据集为简化人物识别难题增加了限制（例如，每一个人有不同的衣服，前方景象不一样或是较慢的走路速度）。我们收集了新的数据集：从高处（DPI-T）的深度人物识别，这与此前的数据集都不一样。

李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

图3：来自（DPI-T）深度人物识别的样本图像。每一行都是不同的人。左边的三列是RGB映像，右边的一列是深度映像。

为每一个人都提供更多的观察资料。平均算来，每个人几天之内大概出现在25个视频之内。在这期间每个人肯定会换衣服---大概是5套左右。从图三可以看出在我们数据集中的三个人穿着不同衣服。此外，他们的步行速度会随着每天或是每周时间的不同而发生变化。

挑战高处视角

在现实生活中（如便利店和医院）的摄像头一般会置于天花板上朝下录像，与我们现存数据集中的清晰，超前或是超两侧的录像刚好相反。这会造成自我遮挡的麻烦或是不完整的3D云再现。

人类一般携带着物体

现存数据集从控制的场景中收集的数据。在我们的数据集中，人们都是“在外面”，一般会带着食物，咖啡或是笔记本。此外，由于我们收集的数据时间跨度较长，人们一般会带着帽子，包，或是雨伞（见图三）。

4.2评价指标

“单镜头”方法，一个映像一个标签，或是“多镜头”方法平衡框架特征和时间特征。通过这两个方法都能解决人物识别的问题。此外，我们会提供“单镜头”和“多镜头”的评价结果。

李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

表2：单镜头的辨别表现。上文所提及的方法只使用了空间信息。两种方法都有在测试集上进行过计算。数值越大越好。破折号表示没用可用信息。（*）表示尽管这样比较不公平，为了完整性，我们进行RGB和RGB-D方法的比较。

李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

图4：（a-c）渐增的曲线是在不同的数据集和模式中的测试表现。

4.3试验设置

对于3D或是4D输入，我们通过增加高斯噪音来扩大数据，云图中的每一点平均会产生0cm至5cm的不同。在原始或是随机框定的0.8×和1.2×范围内的图像和张量都移动了0至+/-5cm。CNN在增加的实例中比RAM先进行训练。

4.4 基准线

单镜头识别。我们比较了循环模式和一些深度模式。表2向我们展示了单镜头识别人物的一些方法和结果：（1）我们使用统一随机的方法计算表现。（2）四个人手动完成识别任务。每个人可看见一张测试图片和所有的训练数据。（3-5）框架之间的区别可看做是人工添加的特征。（6）三维的CNN模式在3D云图中运行。（7）二维的RAM在深度图像中运行。（8）三维RAM在3D点云中运行。（9）使用面部描述符。（10）点倾斜变焦相机对图像不同部分变焦。（11）面部描述符在框架之间的距离连接起来。（12）在3D点云和框架距离间分数相近。

多次识别

表3列举了一些多点方式：（1-2）使用随机人类表现作为基准。（3-4）评估步态能量图和容量。（5-6）使用手动框架距离和帧间表决系统。（7）一堆框架间距离（和5-6一样）放入LSTM中。（8）随时间平均化的一个3D CNN网络。（9）在3D点云中运行的3D LSTM。（10）最终的RAM模型。（11-12）面部描述在表决系统中的运用。（13）一系列图片中多重成分差异计算。（14）RGB-D点云与手动特性协同使用识别。

李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

表3

4.5 单次识别表现

学会编码能提升表现。

为了更好的理解表现的原因，我们减少了RAM输入的维度同时评估了一个2D和3D变量。这些2D和3D模型是单次任务评估的。从2D到3D，随着输入维度的增加，RAM的表现也单调增加了（见图4）。与之相反的是步态能量的变化（见表2）。从2D到3D，步态能力实现了相似的转移，但是在高维状态下表现更差。这表明我们的学会编码的模型能从高维输入保存相当的信息，而步态能量体没有编码能力则不行。

RAM比深度学习基准表现得要好。

为了进一步验证我们模型的表现，我们预估了一个3D卷积神经网络。对两者3D CNN和3D RAM进行3D点云输入。如表2所示，3D RAM比3D CNN要表现好。这个确认了我们的猜想，我们的RAM能人为够影响提升训练样本数量的片段同时提高表现水准。

4.6 多次识别表现

我们的最终模型（4D RAM）比现有的人类基准和深度方法都要优秀。Munaro和Barbosa都在使用框架间隔距离作为一个特性。我们在表3中列举了一些手工特性的表现。结果表明这些特性不能推断复杂的潜在变量。我们的4D RAM在表3中同样超过了RGB-D。使用了上述框架距离特性，方法（13）计算了一个标准的3D点云表现。虽然方法（13）影响了RGB学习，它表明整个点云可能包含外来噪音。我们的模型能够通过选择包含有效学习的片段来避免噪音。

4.7重点关注区域

这是3D和4DRAM之间最大的不同之处。在3D模式下，我们的模型必须“注意”每一帧的区域。然而，在4D的模式下，我们的模型没有这方面的要求，因为它是自由参数。我们的模型在要“注意”那些框架方面有充分的自由裁量权，并可以根据需要向前和向后移动时间。我们在图5中做出了分析。整个视频过程中，p(ˆ yt = y) 在变化。我们的模型不仅可以改变每个帧中一瞥的空间位置，也可以改变大小。虽然我们的模型没有关注程度的明确概念，但它可以间接模仿概念。为了减少给对于定帧K注意力的大小，我们的模型移动一瞥中心至一个远离K的框架。虽然每一次关注整体的“大小”是不变的，但它对K的关注量已减少。

如图5所示，我们的模型开始于1，“盯着”人的肩膀，跳到一个不同的框架，并继续“盯着”的肩膀。对此的解释是我们的模型已经学会了识别循环周期。有趣的是，生物学中证明，男性行走时肩膀表现出较强的旋转位移。[46]我们模型的关注证明了这一说法。然后模型在时间点向后跳跃并且出现在3的底部。这表明腿运动（即步态）可能提供身份的痕迹。这特别的一瞥路径很有可能被采纳，因为我们学到的政策根本没有探索其他路径，但我们的模型训练过许多不同最初一憋位置的时代，以便减少这种可能性。

李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

图5

我们将在2D图像上展示4D关注，图6A显示我们模型瞥见的路径，注意它几乎总是访问一个主要的骨架关节。图6b显示一个注意所有像素的热图，它说明了不同的身体部位吸引不同程度的注意。我们的模型很容易识别独特的鞋或头发款式。此外，它确定了女性左边的臀部为一个可识别区域，如生物力学文献中所确定的[ 15 ]，女性在髋关节区表现出强烈的横向摇摆。对于一些女性，这一点可以成为独特的运动标签。

李飞飞视觉实验室最新论文：3D，4D视频里人物的可视化指南 | CVPR2016

图6

5. 结论

本文中我们介绍了一种递归注意力模型，它能在深度视频中判断并识别里面的时空和地域，进而解决人类识别问题。我们的模型从一种高维4D输入空间学会了一种独特的空间标记方法。通过微小的片段和解码器来减少维度，这使得我们训练出一种LSTM模型的递归网络。利用在二维、三维、四维空间的输入表现，对我们的模型进行评估，证明我们的注意力模型已经取得了在“多个人物识别数据组”中的最佳表现。并将我们的注意力模型视觉化，这为未来在计算机视觉、生物力学、生理学等领域提供了新的见解。

Via CVPR2016 Recurrent Attention Models for Depth-Based Person Identification