斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

CVPR CVPR2016 深度学习深度网络

作者：李尊

2016/07/01 15:11

结构递归神经网络: 时空领域图像中的深度学习

联合编译：陈圳、章敏、Blake

摘要

虽然相当适合用来进行序列建模，但深度递归神经网络体系结构缺乏直观的高阶时空架构。计算机视觉领域的许多问题都固有存在高阶架构，所以我们思考从这方面进行提高。在解决现实世界中的高阶直觉计算方面，时空领域图像是一个相当流行的工具。在本文中，我们提出了一种结合高阶时空图像和递归神经网络的方法。我们开发了一种可随意扩展时空图像的办法，这是一种正反馈、差异化高、可同步训练的RNN混合网络。这种方法是通用的，通过一系列设定好的步骤可以将任意时空图像进行转化。这种估值计算能解决一系列不同的问题，从人类运动建模到物体迭代，比目前最佳的解决方案还要好一大截。我们希望这种通过高阶时空图像和递归神经网络的方法能够提供新的解决方案。

1.引言

我们生活的世界本质上是结构化的。它包括与在空间和时间上彼此相互作用的组分，形成了一个时空结合物。在这类问题上使用这种结构可以将高阶信息注入学习框架。这一直是计算机视觉和机器学习努力的原因，比如逻辑网、图片模型和结构化SVMs。这跨越了空间和时间（时空）的结构，在计算机视觉和机器人技术社区相当流行。首先，在现实世界中的人类和环境之间的相互作用是固有时空性的。例如，在烹饪的时候人类既和空间，又和时间中多个对象进行交互。同样，人的身体（胳膊，腿等）有单独的功能，但在实际行动中又互相合作。因此，对许多应用来说高阶的时空结构和丰富的序列建模能力协同作用是相当重要的。

RNNs的显着的成功已经证明它们能应用到对许多端对端学习任务。虽然它们已被证明能够对长序列成功建模，但它们缺乏高阶的和直观的时空结构。时空图（ST-图）是一种流行的用来表示这种高阶的时空结构的通用工具。图的节点通常代表该问题的组件，并且边缘捕捉他们时空相互作用。为了实现上述目标，我们开发用于转化任意ST-图形成RNNs的前馈混合物，命名结构-RNN（S-RNN）的通用工具，见图1所示。

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

图1

在高阶步骤中，给定一个任意的ST-图，我们先推出它的时间分解成一组因素组件。因素共同确定一个决定，并从ST-图形的两边缘和节点所来源的独立组件。我们然后语义组因子部件和表示使用一个RNN，这导致所需RNN混合物。这种转变问题的主要挑战是：1）使RNN混合尽可能丰富，学习复杂的功能，2）相对于输入ST-图的大小保持RNN混合可扩展，为了使所得RNN混合物丰富，我们代表每个时空因子（包括节点的因素，边的因素，和时空边缘因子）利用每一个RNN。在另一方面，为了保持整体的混合物可扩展，但不能失去必要的学习能力，我们利用“因素共享”，并允许类似语义的功能要素共享一个RNN。这导致RNNs的前馈混合物丰富且可扩展，它等效于在输入、输出和时空关系方面所提供的ST-曲线图。该混合物也完全差异化的，可以共同作为一个实体和扩展的构筑。

该方法是原则性通用的，它是适用于可以配制为ST-图。以前几个工作已经试图解决在使用RNNs的集合，但是它们几乎一致没有任务特定的具体问题。为了分解或要素共享机制，也没有利用在制定他们的架构，以确保丰富性和可扩展性相似。

S-RNN也是模型化的，它的根本也是一个高阶架构。

本文的主要贡献在于：

l 提出一个通用处理办法，对于时空图设计了丰富、可拓展、可同步训练的RNN混合网络。
l S-RNN比未架构RNN的表现要显著提高。
l 为了和RNN进行比较，针对几个时空图像问题对S-RNN的表现与无深度构架网络进行对比，S-RNN表现优异。

2. 相关工作

我们对相关内容进行分类概述。大体来说，我们的工作与现有的科技有三个主要区别：第一是我们是通用不限制与某个特定问题的，第二是提供了一个为了丰富RNN转移的一个方法。

时空问题

在机器人和计算机视觉领域，需要时间和空间推理来解决的问题非常普遍。包括人类互动视频，模拟人类运动等。事实上，大多数我们的日常活动在本质上是时空之间。随着丰富的交互和机器人技术不断增长，这种形式的推理将变得更加重要。我们评估三个时空问题，：（一）人体运动模拟（二）人体对象交互理解（三）驱动预期。

深度构架混合

以前的工作大多基于建立多个网络和以捕捉，如活动检测，场景标签，图像字幕和目标检测等。然而，这样的架构大多是设计来处理具体问题，虽然他们展示采用模型深度架构也十分受益。在另一方面，递归神经网络是通用的前馈结构。我们的工作是为时空图问题提供补救措施。

深度图像模型学习

针对架构预测任务，许多工作都将图像模型添加到深度网络中。Bengio等人将CNNs和HMM结合起来用来进行手写识别。Tomposon等人主要将CNN和MRF用来人类姿势预估。Chen等人使用和MRF差不多的相似图像分类。

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

图2：人类活动的时空图像。（a）时空图像记录人与物体之间的互动。（b）通过边缘展开时空图像，节点和边缘都由与其相关的特征向量进行标注。（c）时空图的因子图参数化。

最近的一些研究通过完全连接的CRF模式解决了端对端图像分割。一些研究则使用两步走的方法及在CRF中减弱深度网络。这些方法曾用于解决多种问题如图像分割，姿势评价及文件分析。所有的研究都提倡也展示了在有深层结构中探索有问题的结构。但是，他们不解决时空问题，并且认为结构问题是有具体任务指向的。

条件随机场模式（CRF）通过学习共同的分布，其附属领域位于输入之间。他们被运用于许多应用程序，包括通常被作为用于时空CRF模式的时空图像。在我们的方法中，我们采用时空图像作为一般图像的表示方法，并使用RNN复合结构进行具像化。与CRF不同的是，我们的方法是有概率性的，并且也不会在输出之间的共同分布进行建模。S-RNN通过RNNs在输出之间的结构分享学习输出之间的相关性。

3.S-RNN结构

在本段，我们会描述建立S-RNN（Structual RNN）的方法。我们首先以时间空间图像开始，然后用RNN代表每一个因子。RNN模式是通过能捕捉时间空间图像构造和相互联系的结构联系起来的。

3.1 时间空间图像的表现。

许多运用程序要求时空图像推理过程是使用时空图像建模的。图2a展示了在活动中人与物之间相互联系的时空图片。图2b展示的是按照时间顺序展开的时空图像。在人与物的互动中，节点的特征能通过物体和人的姿势进行表示，边缘能确定他们的方向。节点标签表示人的活动以及功能可见性。标签yvt 会受到节点及节点之间的互动影响，从而导致系统混乱。此类互动会参数化成因子图，进而能把时空图的复杂函数参数化成简单的函数。我们能从时空图的因子图表示中得出S-RNN模式。图2c展示的是图2a相对应的因子图。

分享节点之间的因子

在时空图中的每一个因子都有参数，且需要我们了解。不是通过学习每一个节点的特征，语义上相似的节点能随意地分享因子。例如所有在时空图中的“物体节点”{v, w}都能分享共同的节点因子和参数。这一建模选择能加强相似节点之间的分享。同时也能在不增加参数的情况下，进一步加强通过节点处理时空图片的灵活性。

根据语义分割节点会导致自然语义的边缘分割。在所有“人与物的边缘”{（v, w）,(v, w)}是通过相同的边缘因子建模的。基于语义的分享因子能让参数化更紧密。实际上，分享参数对于解决节点是基于实际情况的应用十分关键。例如，在所有的人与物之间的互动中物体节点的数量会随着环境的变化而发生改变。因此在没有节点之间的参数情况下，模式不能适应有更多物体的环境。对于建模的灵活性，边缘因子不会跨边缘分享。

我们将节点因子和边缘因子定义为邻居，因为它们能共同影响时空图像中的节点标签。我们将会在构建S-RNN中使用这一定义，因为它能在时空图像中捕捉相互互动。

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

图3.S-RNN的时空图片。（a）图2的时空图用彩色重新进行了绘制，暗示节点因子和边缘因子之间的分享。相同颜色之间的节点因子和边缘因子会进行分享。所有的因子一共有6种，2种节点因子和4种边缘因子。（b）S-RNN结构中的每一个因子都有一个RNN。节点RNNs和边缘RNNs 会连接起来形成一个双向图。

3.2 来自时空图片的S-RNN

我们从时空图的因子图片中能得出S-RNN结构。时空图中的因子会按照时间顺序运行，且每一步因子都会观察（节点和边缘）的特征，并且会在这些特征上进行运算。在S-RNN中，我们会用一个RNN代表一个因子。我们会把从节点因子得到的RNNs指代为nodeRNNs，把从边缘因子中得出的RNNs指代为edgeRNNs。由时空图表示的相互互动是通过nodeRNNs和edgeRNNs之间的联系进行记录的。

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

在算法1中，我们能看到建立S-RNN的方法。图3b展示了用于表示人类活动的S-RNN通过图3b再一次进行展示。节点S-RNN联合边缘S-RNN的输出，而这些输出是用于预测节点标签的。节点RNNs的预测能通过边缘RNNs相互发生作用。每一个边缘RNN能处理在时空图中有联系的节点之间的一个特殊语义关系。

3.3 训练S-RNN模式

为训练S-RNN模式，每一个时空图节点的特征都与节点连接起来进入S-RNN结构中。在训练时，在预测中的错误能通过向前传播的节点RNN和边缘RNN进行反向传播。在此方法中，为预测节点标签，S-RNN会对节点和边缘的特征进行非线性连接。

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

图4：向前传播的人类节点v展示了与图3相对应的结构分布。

图3展示的是通过S-RNN向前传播的人类节点。图4展示的是相同向前传播的结构细节。特征的集合与连接相反，对于解决有易变但却有固定结构的物体节点十分重要。因为物体节点计算会随着环境变化而发生变化，所以用固定长度的向量特征表示可变环境极具挑战性。依经验来看，增加特征比合并均值更有用。我们推测增加部分会维持目标计算和时空图像特征，而合并均值会平衡边缘数。

参数共享及构建的特征空间。S-RNN模式的一个重要方面是跨越节点标签的参数分享。当RNN在向前传播时，节点标签之间的会进行参数分享。

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

图5。不同的时空人物。我们使用S-RNN去跟踪3种不同的时空问题。

4.实验

为保证S-RNN的通用性，我们展示了三个不同的时空问题，如图5所示。这一运用包括：（i）基于活动数据对人类活动进行建模；（ii）人类活动的探测和预测；（iii）基于现实世界数据进行预期假设。

4.1 对人类活动进行建模和预测

人类的身体是分开但却联系紧密部分的典型代表。人类活动包括不同部分（如胳膊，腿，脊椎）之间复杂的时空作用，而这会导致可见的移动，如走路，吃饭等。在此实验中，我们用复杂的时空图片代表人的活动，并试着用S-RNN进行建模。从活动中收集数据再进行活动预测这一方面，我们建模方法超过其他未进行建模的深层结构。此外一些方法曾基于高斯法，玻尔兹曼法（RNMs）和RNN对人类活动进行过探索。最近，Fragkiadaki等其他人提议进行编码—RNN—解码方法进行探索，因为此方法曾取得较好的预测数据。

用于人类活动的S-RNN结构

S-RNN结构是按照图5的时空图流程运行的，见图5a。据图可是，脊椎是身体所有部分的相互作用，胳膊和腿相互作用。时空图会自动转化为S-RNN结构，见3.2部分。S-RNN对身体的每一个部分（胳膊，腿，脊椎）标上3个节点RNN，对于时空图之间的相互作用建模会标上4个边缘节点，而他们之间的时空联系会标上3个边缘RNN。对于边缘RNN和节点RNN我们分别使用FC（256）-FC（256）-LSTM（512）和LSTM（512）-FC（256）-FC（100）-FC（·）结构，并且跳过了输入和输出之间的关系。节点RNN是不同身体部分的框架连接。为在训练时在动作捕捉时增加噪音。而这会刺激课程学习并能帮助预测动作与人类动作相符。

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

图6：预测测试对象的饮食活动。在非周期性行为中，ERD和LSTM-3LR努力的模仿人类行为。S-RNN，另一方面，在短期内模拟地面实况，并且长期产生类似人类的行为。在没有（w/o）edgeRNNs情况下，行为在一些预定站着的位置上冻结了。见视频。

我们联合训练RNNs，以便最小化预测捕获帧和地面实况之间的欧几里得几何学的损耗。训练的细节见项目网页补充材料。

评估体系

我们在H3.6m动作捕捉数据集中将S-RNN和最先进的ERD结构进行了对比。同时也与3层LSTM架构进行了比较（LSTM-3LR），这被用来作基线。为了预测运动，我们遵循[ 14 ]中的实验设置。两次向下采样H3.6，并且在项目6中训练，在项目S5中测试。为了预测，我们首先将初始捕获帧注入结构中，然后预测未来的帧。紧接着，我们考虑了行走，饮食，和抽烟行为。除了这三个，还考虑了讨论行为。

预测人类非周期性的行为是非常具有挑战性的任务

在H3.6数据集中，饮食、吸烟和讨论作为的重要组成部分是非周期性的，而行走行为大部分是周期性的。我们在三个方面表明了拥有一个基础结构的好处：（i）对于复杂的非周期性运动，我们提出了可视化和定量化的结果。（ii）我们预测人类行为的时间比最高的水准还要长两倍。对于非周期性活动，这非常具有挑战性的；（iii）我们展现了S-RNN非常有趣的学习语义概念，并且通过混合人体行为展示其模块性。非结构化的深层结构，如[ 14 ]不具备这样的模块化。

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

表1运动预测角度误差。初始运动1毫秒后。平均结果超过了8个测试项目上，每个活动的初始运动序列。

运动预测的定性结果

图6显示了预测1000ms内人类“饮食”的行为——散步时喝饮料的项目。S-RNN短期内保持近似地面实况，并长期产生类似人类行为。移除edgernns，人体身体部分变得独立，并通过参数停止相互作用。因此，没有edgRNN的骨架，在一些预定的位置会冻结。LSTM-3LR面临漂移问题。在很多测试实例中它漂移到了人类行走的平均位置。ERD产生的行为在短时间内保持类似于人类，但在长时间时，它漂移到不像人类的行为。与S-RNN不同，在复杂的非周期性活动中，这是ERD常见的结果。此外，在许多测试实例中ERD产生的人类行为并不流畅。更多实例见项目网页。

定量评价

我们遵循Fragkiadaki等人的评价指标,并在表1的预测捕获帧和地面实况之间提出了3D角度误差。ERD模拟人类运动在质量方面比LSTM-3LR要好。然而在短期内，它模仿地面的实况没有LSTM-3LR效果好。Fragkiadaki 等人同样注意到了ERD和LSTM-3LR之间的权衡。另一方面，S-RNN在短期内预测行为的效果比LSTM-3LR和ERD都要好。所以S-RNN在短时间内模拟地面实况，并在长时间内产生人类的行为。以这种方式，它能够很好地处理短期和长期预测。由于人体行为的随机性、根据地面实况的长期预测（＞500ms）会变得显著不同，但它仍然可以描绘人类的行为。鉴于这个原因，表1中的长期预测数据并不能有效的代表算法的建模能力。同时，我们也观察到讨论对于算法来说是最具挑战性的非周期运动。

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

图7S-RNN记忆细胞可视化。当腿向前运动时，（左）腿部nodeRNN的一个细胞激励。（右）将手靠近脸时，手臂nodeRNN的一个细胞激励。我们在饮食和抽烟活动中假设了相同的细胞（见视频）。

用户研究

我们要求用户动的速率运在1至3李克特量表之间。据用户研究，S-RNN表现的最好。结果见补充材料。

总结

非结构化方法如LSTM-3LR和ERD，努力在复杂的行为方面，模拟更长时间的人类运动。S-RNN的良好性能，归功于它的结构是通过底层st-图模拟人类的行为。S-RNN用nodeRNN分别模拟身体的每一个部分，并且用edgeRNNs捕获它们之间的相互运动，以便产生相干运动。

4.2.深入RNN结构

我们现在展示几个S-RNN结构的内部视图，并演示结构的模块化，确保它能够产生混合的人体运动。

记忆细胞的可视化。我们研究了S-RNN记忆细胞是否能够代表有意义的语义替代运动。有人在更早的问题中研究了语义细胞。图7中展示了，腿部nodeRNN的一个细胞学习向前移动的语义行为。腿向前移动时细胞积极的激励（红色）和向后运动时消极的激励（蓝色）。当主体先前运动时，细胞选择左腿和右腿的激励。右腿更长时间的运动，对应了右腿需要更长执行的步骤。同样的，图7中展示了，手臂nodeRNN的一个细胞学习把手靠近脸概念的过程。主体在饮食或者抽烟时将手靠近脸细胞激励是一样的。只要手紧贴脸部，细胞就保持活跃。见视频。

生成混合人体运动

我们通过生成新的尚未有意义，而且不在数据集中的行为。展示模块化架构的灵活性，这种模块化是有趣的，而且它已被探讨用于产生不同的行为风格。由于存在一个潜在的高层结构，我们的方法允许在RNNs和S-RNN之间，交换不同运动风格的训练结构。利用该优势，我们创建了一个新的S-RNN结构，它产生了人类用单脚先前跳跃的混合行为，如图8所示。为了该试验，我们使用了不同的nodeRNNS模拟左腿和右腿。我们训练了两个独立的S-RNN模型–一个更慢的和一个更快的模型（通过向下采样数据）–然后换左腿nodeRNN训练模型。由此产生一个有着更慢的左腿却更快的人，用左脚向前跳跃，以便跟上比它快两倍的右腿。非结构化的结构如ERD，不具备这种灵活性。

图8（右）用迭代次数检查了测试和训练误差。S-RNN和ERD都收敛到了相似的训练误差，然而，S-RNN推广的更好，因为进行下一步预测时它有着更小的测试误差。补充中进行了讨论。

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

图8（左）生成混合行为（见视频）我们通过“人单脚向前跳跃”的混合行为，展示了S-RNN的灵活性。（右）训练和测试误差。由于有着更小的测试误差，S-RNN比ERD推广的更好。

4.3 人类活动检测与预测

在该部分提出了S-RNN用于模拟人类行为。我们考虑了CAD-120数据集，它涉及丰富的人类对象相互作用活动。每个活动包括一系列的子活动（如运动、饮酒等）和对象功能可视性（例如，可触性，饮用性等），它能随着活动进程而演变。检测和预测的子活动及功能可见性确保了私人机器人去帮助人类。然而，这问题是具有挑战性的，因为它涉及复杂的相互作用——在活动过程中人类与多个对象相互影响，对象之间也相互作用（例如，将水从“玻璃”倒进一个“容器”），这使得它非常适合来评估我们的方法。Koppula等人用ST图表示了这种丰富的时空相互作用，如图5b所示的，并且用时空CRF模拟它。在实验中，我们展示了用S-RNN收益量模拟相同的st图会产生卓越的结果。其中，我们使用了[29]中的节点和边缘功能。

图3b显示了我们的S-RNN结构模拟st图。由于对象的数目随环境变化，对象节点和人类的物体边缘之间的因子共享变得至关重要。在S-RNN中，Rv2和RE1分别处理所有的对象节点和人类对像边缘。这使得固定S-RNN架构可以处理不同大小的ST图。对于edgeRNNs，我们使用了一个大小为128的单独层LSTM。每一步，人类nodeRNN都会输出子活动标签（10级），并且项目nodeRNN会输出功能的可见性（12级）。观察ST图至时间t，我们的目标是检测在目前时间t的子活动和可见性功能标签。并预测他们在时间步长为T + 1的标签。为了检测，我们在当前时间步长的标签训练S-RNN。给定观测点为当前时间，为了预测，我们训练结构预测下一步的标签。我们还培养了多任务版本的S-RNN，在每个nodeRNN中加入了两个softmax层，并且联合训练以便预测和检测。

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

表2：真实世界中1100英里预测的移动数据。S-RNN来自图5c中显示的ST图。Jain等人使用了相同的st图，但他们是在AIO-HMM的概率框架中进行模拟。这个表格显示了平均精度，召回和时间-动作。时间-动作区间在算法预测时间和行动开始时间之间。算法的特征比较来自于[22].

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

表3。CAD-120的结果。S-RNN结构来自图5b的st图，它优于Koppula等人的结构，在概率框架中模拟了相同的st图。S-RNN在多任务设置（联合检测和预期）中进一步提高了性能。

斯坦福AI实验室又一力作：深度学习还能进一步扩展 | CVPR2016最佳学生论文详解

图9：CAD-120中饮食活动的定性结果。显示了多任务S-RNN的检测和预期结果。为了使子活动在时间t，标签的预测是在时间t- 1。（放大以便看清图像）

表3显示检测和预期的F1平均分数超过了所有的级。S-RNN在预测和检测两方面显著的提高超越了Koppula等人。在预测对象可见性功能方面S-RNN的F1分数比[31]多44%，在检测方面多7%。S-RNN没有任何像时空CRF的马尔科夫假设，因此，它能更好的模拟预测所需的长期依赖。该表还展示了edGERNNs在处理时空组件方面的重要性。EdgeRNN在人和物体之间传输信息，这有助于预测对象标签。因此，没有edgeRNNs的S-RNN很难模拟物体。这意味着edgeRNNs的重要性，同时也验证了我们的设计。最后，在大多数案例中，以多任务的方式训练S-RNN，效果是最好的。图9中我们展示了饮食活动的可视化。我们从在每个子活动和相对应的预测中展示了一个代表性的帧。

S-RNN的复杂性

在复杂性方面，我们讨论了两点作为基础st图的函数：（i）混合中RNNs的数量。（ii）向前-通过的复杂性。RNNs的数量取决于st图中相似的语义点数量。S-RNN的整体结构是紧凑的，因为edgeRNNs和nodeRNNs是共享的，而且在内容丰富的应用中，语义的种类通常很少。此外，由于因素共享，如果在st图中加入了更多相似的语义点，RNNs的数量并不会增加。向前-通过的复杂性取决于RNNs的数量。由于向前-通过贯穿了整个edgeRNNs，并且nodeRNNS能够平行发生，实践中的复杂度仅仅取决于两个神经网络的级联（nodeRNN紧随edgeRNN）。

4.4司机行动预测

我们最后提出了S-RNN的另一个应用，它涉及在行为发生之前，预测几秒钟后的行动。Jain等人用图5c中的st图代表了该问题。他们将st图模拟成一个概率贝叶斯网络（AIO-HMM [ 22 ]）。St图代表了车外的观察资料（例如路的特征），司机的行动，和车内的观察资料（例如司机的面部特征）之间的相互作用。我们使用了从Jain等人获得的点和边缘特征，模拟相同S-RNN结构的st图。表2显示了该任务中不同算法的性能。在每任何设定下，S-RNN的性能都好于最先进的AIO-HMM。讨论和细节见补充材料。

5.总结

本文提出了一个通用的原则性方法，用来结合高层次时空图和序列成功建模RNNs。我们利用因子图，和因子共享以获得一个RNN混合物。它是可扩展的，并且适用于任何st图问题的表达。我们的RNN混合在底层的st图中,捕获了丰富的相互作用。而且在三个不同的时空问题中，我们的S-RNN表现了出显著的改善：(i) 人类行为模拟。（ii）人类-物体相互作用。（iii）司机行动预测。我们通过可视化记忆细胞，展示S-RNN学习特定语义子运动，并且通过生成新的人类行为，展示其模块化。

via CVPR2016

题图来自 ExtemeTech

PS : 本文由雷锋网(搜索“雷锋网”公众号关注)独家编译，未经许可拒绝转载！