近日,国际NLP领域顶级会议EMNLP 2021拉开帷幕。云从科技与上海交通大学联合研究团队的《Relation-aware Network:探索视频片段定位任务中的多种层面关系》成功入选会议论文,并于大会进行线上宣讲。
EMNLP(Conference on Empirical Methods in Natural Language Processing)是计算语言学和自然语言处理领域的顶级国际会议之一,由国际语言学会(ACL)旗下SIGDAT组织。EMNLP论文入选标准十分严格,今年论文录取率仅23.3%,相比去年略有下降。EMNLP学术会议上展示的研究成果,被认为代表着自然语言处理领域的前沿水平与未来发展方向。
本次入选论文,围绕“基于语言查询的视频片段定位”这一视觉-文本的跨模态任务,将NLP与视觉技术结合,技术让机器同时具备“理解文字”和“看懂视频”的能力:能够更精准地读懂文字,并理解视频内容,在整段视频中找出与给定文字相对应的视频片段。该项成果在多个数据集上,都取得了优于过去研究的表现。
这一成果在技术研究与实践领域都具有十分重要的意义:
在技术上让机器实现“多感官进化”:如今视觉、听觉等单点AI技术,将越来越难以满足多样的应用需求。该项技术旨在让机器向完成“跨模态任务”进化:让机器能够同时掌握视觉、文字等多种模态的信息,做到像人类一样看懂、听懂、读懂,拥有全面的能力。近年来在学界,跨模态任务已成为一大研究热点,为AI领域注入新的活力。
突破单点技术,扩大跨模态应用场景:在实战场景中,随着高清摄像头的普及以及网络媒体的快速发展,各式各样的视频呈海量增长态势,自动化视频处理AI技术也迎来巨大的需求。本项成果基于语言查询的视频片段定位技术,能够有效解决治理、出行等多领域的难点问题,例如公共场合下的安全监控、社交媒体视频内容的审核等等,突破以往的单点技术应用瓶颈,带来数量级的效率提升。
NLP等决策技术被认为是AI领域下一个技术突破口,使机器拥有理解、思考、分析决策的能力,为人机交互、行业应用等带来颠覆式改变。云从科技、上海交通大学提出Relation-aware Network,探索视频片段定位任务中的多种层面关系。
基于语言查询的视频片段定位任务(Temporal Language Grounding):该任务是给定一个视频和一段描述语句,通过融合视觉和语言两种模态的信息,在视频中定位出语言所描述内容的视频片段。随着高清摄像头的普及以及网络媒体的快速发展,每天都会出现大量各式各样的视频,自动化的视频处理技术就被广泛应用在公共场合下的安全监控、社交媒体上视频内容的审核中,作为视觉-文本的跨模态任务,基于语言查询的视频片段定位也受到了越来越多的关注。
一方面,已有的视频片段定位方法通常只考虑了视频片段和整个句子的关系,而忽略了视频片段和句子中每个词语这种更加细致的关系,这样就不能全面地交互视觉和语言的信息,云从和上交联合团队的研究者们提出了一种coarse-and-fine的交互方式,从粗粒度和细粒度的角度同时考虑了视频片段-句子层面和关系和视频片段-词语层面的关系。
另一方面,现有的工作往往忽视了不同视频片段之间的关系,或者仅仅采用了几层卷积网络的堆叠,存在计算量大、有噪声影响等缺点,本文的研究者们提出了一种稀疏连接的图网络,仅仅考虑了起始或者终止时间相同的视频片段,高效地建模了不同视频片段之间的关系,帮助模型更好地区分视觉上相似的视频片段。
代码地址:https://github.com/Huntersxsx/RaNet
RaNet一共包含5个部分:(1)多模态的特征编码模块;(2)候选视频片段的生成模块;(3)候选视频片段和查询语句的交互模块;(4)不同视频片段的关系构建模块;(5)结果选择模块。
特征编码模块中,研究者们采用了在时序动作检测(Temporal Action Localization)中表现优异的GC-NeXt来获取视频序列中的时序信息,使用双向的LSTM来获取语言信息的长时间依赖。
候选视频片段生成模块中,研究者们借鉴了之前工作2D-TAN的方式,构建了一个二维的时序网格图,每一个小网格都代表一个候选视频片段,其特征是由起始时间帧的特征和终止时间帧的特征串联而得。
视觉语言交互模块中,研究者们同时构建了视频片段-句子层面的关系和视频片段-单词层面的关系。对于视频片段和句子的关系,研究者们之间对语言特征进行max-pooling,然后和视频片段特征进行点乘。对于视频片段和单词的关系,研究者们通过语言特征和视频片段特征首先构建出一个注意力权重矩阵,然后再与视频片段特征交互,动态地生成query-aware的视频片段表征。这种粗粒度和细粒度结合的方式能够充分地交互视觉和语言两种模态之间的信息。
视频片段关系构建模块中,研究者们将每个候选视频片段视作图的点,将这些视频片段之间的关系视作图的边,构建了视频片段关系的图网络模型。考虑到重叠比较高的视频片段关联性更强,研究者们在构建图时仅考虑了和当前候选视频片段具有相同起始时间或者终止时间的视频片段,在网格图中就是一种十字架的形式。这样构建图的方式不仅可以减少不相关视频片段带来的噪声影响,还能有效提高模型的效率。
结果选择模块中,研究者们采用一个卷积层和sigmoid激活层为每个候选视频片段进行打分,根据得分从大到小排序,选择top-1或者top-5作为最终的预测视频片段。
最后,研究者们使用了alignment loss对模型进行了训练:
研究者们通过大量的实验验证了RaNet对于基于语言查询的视频片段定位任务的有效性。
本文在3个常见数据集TACoS、Charades-STA、ActivityNet Captions上,采用了Rank n@m评价指标,与以往的工作进行了对比,在3个数据集上基本都取得了SOTA的表现。
为了突显出模型中每个模块的重要性,研究者们做了消融实验,从结果来看,同时考虑视频片段和句子的关系,以及视频片段和单词的关系,比单独考虑这两者带来的收益要多。当同时构建不同视频片段之间的关系时,模型能够更加精准地对视频片段进行定位。
研究者们还与之前SOTA模型2D-TAN比较了在不同IoU上的相对提升率,可以发现,在越高的IoU上,本文的RaNet提升得更加明显。
研究者们比较了Pooling、Sampling、Addition、Concatenation这四种不同的视频片段特征的生成方式,实验发现更加关注边界特征的Concatenation操作表现更好。
不同word embeddings的影响:
为了探寻不同的词向量编码对实验结果对的影响,研究者们还比较了不同word embeddings的表现,发现越强的语言表征更有益于模型精准地定位视频片段。
研究者们还展示了模型在TACoS数据集上的参数量和FLOPs,并和之前的2D-TAN模型进行了对比,由于在构建视频片段关系的模块中本文采用的是稀疏连接的图网络模型,所以参数量大大减小,效率得到了提升。
最后,研究者们还通过可视化的例子展现了模型的能力。
针对基于语言查询的视频片段定位这个任务,云从-上交的联合研究团队提出了,将视频片段定位类比为自然语言处理中的多项选择阅读理解,同时建模了视频片段-句子层面和视频片段-单词层面的关系,并且提出了一种稀疏连接的图网络高效地建模了不同视频片段之间的关系,在公开数据集上取得了SOTA表现。
更多的技术细节请参考[RaNet: arxiv paper](https://arxiv.org/abs/2110.05717)。
雷锋网