本文联合编译 : 陈圳、Blake
多人视频中活动和关键人物的检测
多人活动识别是一个极具挑战的任务,虽然很多人在一个场景中出现,但只有一小部分人的活动能被重点关注到。在本文中,我们建立了一种模式,此模式会检测多人视频中的活动并且会重点关注此活动中的关键人物。一般来说,我们在视频中检测人的行为会使用递归神经网络(RNN)来表示这些人的行为轨迹特征。把了解到的瞬息变化的特征都按时间先后记录下来。接下来,将检测到的特征使用另一个递归神经系统进行行为检测和分类。因为大多数多人视频中的数据集都限制于少数的视频中,我们收集了一个新的篮球比赛数据集包括257场篮球赛并根据11种活动行为分类带有14k的注释。这种模式在基于新数据的活动分类和检测方面目前超过了世上的许多先进技术。此外,我们将会展示注意机制能连续地定位相关人物。
1.介绍
尽管视频识别和检测从最近的大规模数据和模式引进中受益匪浅。然而,却局限于单人活动做基础的活动。另一个同样重要的问题是多人视频中活动识别的问题。在我们的研究中,我们为这一特殊设定设计了一个新的模式和数据集。
图1:在篮球比赛中关注错误的人会无法传递比赛信息,如第一行所示。但是在同样的视频,当关注到正确的人之后,我们就能更容易辨别“2个成功点”:传递球的人和投篮的分的人。我们使用相同的直觉在活动识别中关键球员。
在体育比赛,市场,或是其他包括多人互动领域视频拍摄。许多人都在做“事情”,但不是所有的人都在参与主要的活动。主要活动往往由少部分人承担进行。例如,一次“投篮”是由一个或是两个人完成(如图一)。此外,为确认关键人物排除其他不先关人物也是很关键的。这是至关重要的一点,也是区分单人视频和多人视频的关键点。
凭自己的本事辨认出活动的关键人物是一个有兴趣的任务。然而获得此类解释是非常昂贵的,所以在辨认关键人物的训练中无需使用注释的模式非常必要的。这也可以看做是对关键人物监视薄弱的问题。在本文中,我们提议使用通过能关注关键人物子集的模式去分类活动。我们在做此事时,并未准确告诉模式关键人物是谁?他在哪?
最近,一些论文提出使用“注意”模式从混合的输入到输出排列排列元素。例如,把句子从一种语言翻译到另一种语言,再输入时就关注句子中的不同单词;生成一个映像说明,需注意映像中的不同部分;生成一个视频说明,需注意视频中的不同帧。
在我们的研究中,我们使用“注意”来决定哪些人是与实施动作联系最紧密的,且“注意”能随时变化。因此我们联合时间和空间注意。注意到尽管人的检测从一帧到另一帧都不相同,但他们能通过跨帧追踪联系起来。我将会展示如何使用神经递归网络(RNN)表示每一帧的信息;注意模式被用于训练在每一帧中选出最相关的追踪。此模式除能辨认相关人物,我们也将展示它较好的活动辨别能力。
为了能评估我们的的方法,我们需要大量的多人视频解释活动。最优先的活动识别数据集是关于一个或是两个人的。多人视频多限于少量视频。因此我们需自己收集相关数据集。我们建立一个篮球赛数据集,对所有的11不同活动包括257个视频,每个时长1.5个小时,备注时间印记。这个数据集就备注的数量而言是可比拟THUMOS数据集的,但包括更多的多人视频。
总结而言,本文所作成就如下。第一,我们引进一个大规模的篮球数据集,且带有14K即时注释。第二,我们将会展示我们的模式在分类剪辑视频和在未剪辑视频中的定位功能等方面超过先进模式。第三,我们将会展示我们的模式能学习关注相关人物,尽管未被告知在训练集中哪个人物是相关的。
2. 相关工作
视频中的行为识别。一般说来,有良好编程的特征在视频分类和检索等任务中十分有效。在标准视频数据集中改良密集轨道(IDT)取得较好成效。在最过去几年端对端深度网络模式在各种网络任务中表现很好。其他任务则致力于探索使用这些特征表现地更好。最近的研究使用神经递归网络(RNN)在活动识别和生成说明等方面取得较好成就。我们跟随此研究线索关注到参与者。
另一条研究线在识别动作的同时确认视频中的有趣之处。Gkioxari et al. 和 Raptis et.al 会在视频中自动识别时空管。Jain et al. 为行为定位加入超级像素。其他的研究如学着从带有部分简单注释的和部分对准的电影剪辑中定位相关人物。尽管这些模式执行薄弱监督的行为确定,他们在短视频中将目标锁定在单人视频,且在短视频中的行为是围绕这个人展开。在训练定位动作时,模式需要备注。
多人视频分析。活动识别模式需要界限明确的组别框架。这些模式利用参与者的分布框架去确认小组活动。但是,这些方法却受限于较小的数据集。
关注模式。Itti et al. 探索在映像中基于显著性的关注模式,例如使用眼睛凝视数据作为一种学习注意的方法。Mnih et al.通过RNN关注影像领域的解决方法。“注意”同样也被用于图像分类和检测。
Bahdanau et al. 展示了“基于注意的”RNN模式能为机器翻译有效地排序输入和输出。紧接着Xu et al. and Yao et al.使用“注意”分别用于图像说明和视频说明。在所有的方法中,“注意”校对了输入和输出的一系列特征。但是我们使用“注意”在活动的不同阶段辨认出关键人物。
行为识别数据集。在视频中的行为识别涉及到更复杂的数据集,从KTH,HMDB到更大的UCF101,TRECVID-MED和Sports-1M数据集。最近,THUMOS和ActivityNet同样也提供了检测设置,且对未剪辑视频中的每一个行为作了即时注释。在在特定的场景,MPII的烹饪和早餐中有条纹细腻的数据集。然而大多数数据集只关注一个人的活动,无需辨认发出行为动作的人。另一方面,公开可获得的多人活动数据集数量非常少。我们所作贡献之一就是篮球赛数据集有频繁的活动解释。
图2:我们在长视频中详细注明11个不同的篮球活动。如图所示,我们通过AMT任务收集了时间印记和活动标签。
个人识别和追踪。有相当多的文献都是关于个人识别和追踪。也有特定的方法进行个人识别和追踪。我们只提及少部分重要方法。对于人类识别,我们使用基于CNN多语种检测器。对于个人追踪使用KLT追踪器。但在此项研究中,我们并未尝试识别辨别参与者。
表1:每一个活动涉及的视频数和每一视频涉及到的人数。其中人数是比现存的多人活动数据集
3. NCAA篮球数据集
对于收集多人活动视频首选是团队比赛。在本文中,我们关注篮球比赛,我们的技术是通用的。我们使用从Youtube 选取的296场NCAA比赛数据集。这些比赛是在不同的场馆和不同时间进行的。我们只研究其中最新的257场比赛,因为旧的比赛规则与新的往往有所不同。视频时长一般是1.5个小时。我们手动分类了11个活动类型(如表格一)。我们选择5个典型的投篮,分别可以是成功的,失败的或是偷偷的行为。
接下来我们会进行一个Amazon Mechanical Turk任务,在此任务中,注解者被要求在每一行为“终点”都标上注解;“终点”一般都界限明显(例如,求脱离球员的手或地面等其他地方,比如在框中)。为确定开始时间,我们假定每一个行为都有4秒长,因为很难让评定机构同意什么时候比赛开始了。这让我们有足够的时间去分类每一个行为,且能及时定位。
这个视频被随机剪成了212训练视频,12确认视频和33测试视频。我们把每一个视频剪成4秒长的剪辑(使用注释界限)并且为6pfs下采样。我们会过滤掉不是人物的剪辑(如图三所示)使用不同的分类器;这些包括球员的特写,观众的拍摄和当前的重放。提到的这些足以与THUMOS’15测试挑战的大小进行比较(150剪辑过的训练实例每一个有20种类,和6553未被剪辑的确定实例)。不同事件的注释分布如表一。
除了标注的事件标签和开始及结束的时间,我们收集了测试的850视频剪辑,并要求标注者标示出球在每一帧中的位置及球员尝试投篮的位置。
我们同样也在测试视频的9000多帧中,使用AMT去标注球的弹跳。我们接着使用Multibox测试器是测试我们的视频数据集。我们保证所有的检测的正确性在每帧0.5以上;这导致了每一帧检测6-8个人,如表一所示。
图3:在我们的模式,每一个球员首先是由相应的BLSTM网络进行追踪。Pi-BLSTM网络对应不同的球员。BLSTM隐藏的状态被“注意”模式用于辨认每一阶段的关键球员。BLSTM的不足之处显示出“注意”的重要性,以及关键人物能随时改变。BLSTM代表“双向长时和短时记忆”。
4.我们的方法
团体比赛中的所有活动都是由同一批球员在相同的场景中展开的。唯一的不同点在于动作是在给定的时间点由一小部分人完成的。例如,一个“偷偷摸摸的”行为是由一个球员尝试传球,而另一个却偷走了球。为理解这一行为,关键在于只关注参与该行为的人。
4.1特征提取
每一帧是由1024维度特征构成。此外,我们计算每个人的空间特征。类似地,对于RCNN目标的检测,出现的特征是由通过Inception7网络不断地裁剪不当的和球员重新控制的领域提取出,和空间对较低层次的集中反应。空间特征对应32×32柱状图联合空间金字塔去暗示球在大规模场景中的弹跳位置。尽管我们只使用静止的CNN表示,但这些特征依然很容易用流信息扩展。
4.2 行为分类
在每一帧t中给定ft和pti,我们的目标是训练模式是将剪辑视频分成11类。就如我们建立我们模式方法有副作用,我们同样也能在每一帧中辨认关键人物。
首先我们计算出每一帧的整体特征,源于双向LSTM应用于帧级别的特征,如图三蓝框所示。从前向和反向的LSTM成分BLSTM一系列隐藏的状态能简洁表示如下:
接下来我们使用单向的LSTM去表示行为瞬时状态t:
At 是球员的特征,如下所描述的。从此处我们可以预测等级标记,因为剪辑使用 wk|het,因为在此中的重量矢量与k相呼应,且k由wk暗示。我们计算方铰链 损失如下:
在此公式中yk是1,但如果视频属于k级别,那就是-1。
4.3 注意力模型
和过去的注意力模型不一样,我们需要在每个时间步上添加一系列不同的特性。在这个设置过程中有两个关键问题。
第一, 虽然我们在每个帧都有进行不同的检测,但是它们也能通过一种对象追踪来越过帧进行连接。这个可能使球员的表现得更好。
第二, 球员的注意取决于球场上当下的情况,同时需要根据球场上的情况作出调整。例如,如果完成一个“三分球”行为,这个球员把球投出去的行为就很重要。不过,在这个行为的最后可以通过判断这个球员是否拿球来判断投篮成功还是失败。
考虑到这几个因素,我们首先提出使用基于每个运动追踪来学习的BLSTM模型。我们也提出了一个简单的无追踪基准模型。
追踪注意模型
首先我们使用一个标准方法将同一个运动员的检测数据关联到运动追踪中,通过使用KLT追踪结合双向图像匹配来实现数据关联。
在计算运动员表现的时候可以将运动追踪运用到临近帧的环境融合中。通过一个分离的BLSTM我们能实现这一点。相应公式如下:
在每个时间步我们都希望最相关的那个球员能在一瞬间被选中,实现方式如下:
无追踪注意模型
通常在人多的场景下由于各种阻塞和快速运动,想要追踪人物是十分困难的。在这种情况下,使用无追踪模型是比较好的。所以,我们提出了一种模型,它在每一个画面下的检测识别和其它画面下的都是互相独立的。它的特性如下:
5. 实验评价
在这节中,我们提出了三种针对NCAA数据的分析实验:
1. 活动分类 2.活动检测 3.主动评价
5.1 实现过程
我们对所有LSTM和BLSTM RNNs使用一种隐藏256状态维。所有的视频片段都是4秒长和6fps。这些模型是通过一组20个GPU在一天内10万次迭代训练得来的,超参数是通过交叉验证选取的。
5.2 活动分类
这节中,我们将各种方式分类视频片段的能力分成了11个等级,它们分别是:
IDT、IDT player、C3D、LRCN、MIL、Only player、Avg. player、Attention no track、Attention with track
表2展示的是每个设定的平均精确度信息。我们可以看出使用本地和全局信息的模型比仅仅使用本地或者全局的模型表现要好。
表2
类型不同则表现也不一样。特别要提到的是,因为我们所有的数据量太少,(所有的方法)在“灌篮失败”这一类中表现都不好。然而,在“罚球”、“上篮”、“三分球”这几类中表现不错。
5.3 活动检测
这节中,我们评估了这些方法在陌生视频中分辨的能力。我们将一个4秒的画面插入所有的篮球视频中,想知道它是不是能分辨出来。我们在训练、测试和确认中使用了同样的设置。在所有的视频中这个导致了90200负例。然而,因为计算限制我们没能够训练MIL模型。
检测结果如表3所示,我们能够看到注意力模型的表现比之前所有新方法都要好。
表3
5.4 注意力分析
我们已经知道注意力能够提升模型在分类以及检测等任务上的表现。现在,我们来评价注意力模型在识别关键球员上准确度如何(模型从未针对检测关键球员进行训练)。
为了评估这些模型,我们将画面中离球最近的球员标记为“投手”。我们使用这些注释来评估我们的“注意”分数能否足够对这些“投手”进行正确分类。
对“投手”进行分类的平均准确度结果如图4所示。这个结果表明无追踪注意力模型在选取投手“罚球成败”、“上篮成败”、“灌篮成败”这就类上相当一致。这对找出投手的身份提供了更详细的资料。
我们同样将样本视频中的注意模型做了图示,如图4.,图5展示了球场上球员运动的热量图。
三分球-成功 灌篮-成功 罚球失败
图4
图5
基于追踪的模型在关注投手上的注意力选择性不强。我们观察到在不同画面切换注意力到同一个球员身上比较勉强。这种误差在整个视频中都存在,如图6所示。
图6
本文中,我们介绍了一种在多人视频中活动分类和检测的注意力模型。除了识别活动之外,我们的模型还能在未训练的情况下识别出活动中的关键人物。我们的方法可以在任何多人设置下使用。不过,本文目的我们也介绍一种与之前所有方法都不同的,新的篮球视频数据标注方法。我们也评估了我们的模型在活动中识别“投手”的能力,还将我们的模型识别方法在空间位置中可视化出来。
文中图片来自 Detecting events and key actors in multi-person videos