作者王瑞泽在本文中介绍了复旦大学研究团队在 AAAI 2020上录用的一篇关于多模态文本生成工作: 《Storytelling from an Image Stream Using Scene Graphs》,利用场景图针对图像序列进行故事生成。
该文章认为将图像转为图结构的表示方法(如场景图),然后通过图网络在图像内和跨图像两个层面上进行关系推理,有助于表示图像,并最终有利于描述图像。实验结果证明该方法可以显著的提高故事生成的质量。
对于大多数人,观察一组图像然后写一个语义通顺的故事是很简单的事情。尽管近年来深度神经网络的研究取得了令人鼓舞的成果,但对于机器来说,这仍然是一件困难的事情。
近年来,视觉叙事(visual storytelling)越来越受到计算机视觉(CV)和自然语言处理(NLP)领域的关注。不同于图像标注(image captioning)旨在为单个图像生成文字描述,视觉叙事任务则更具挑战性,它进一步研究了机器如何理解一个图像序列,并生成连贯故事的能力。
目前的视觉叙事方法都采用了编码器-解码器结构,使用通过一个基于CNN的模型提取视觉特征,使用基于RNN的模型进行文本生成。其中有些方法引入了强化学习和对抗学习等方法,来产生更加通顺、有表现性的故事。但是仅使用CNN提取到的特征来表示所有的视觉信息,这不大符合直觉而且损害了模型的可解释性和推理能力。
回想一下人是如何看图写故事的呢?人会先分辨出图像上面有什么物体,推理他们的关系,接下来把一个图像抽象成一个场景,然后依次看观察图像,推理图像间的关系。对于视觉叙事这个任务,本文认为也可以采用类似方法。
本文认为把图像转为一种图结构的表示(如场景图),随后在图像内(within-image)和跨图像(cross-image)这两个层面上建模视觉关系,将会有助于表示图像,并最终对描述图片有所帮助。
图1:一个基于场景图的视觉叙事例子.
图2:提出的模型概述.
本文提出了一种基于图网络的模型SGVST (如图2所示),它可以在图像内和跨图像这两个层面上建模视觉关系。
简单来说,首先将图像In通过Scene Graph Parser转化为场景图Gn=(Vn, En)。场景图包含了检测到的物体Vn={vn,1,…,vn,k},以及物体之间的视觉关系En。
如图2所示,一个男人抱着一个孩子,那么男人和孩子就可以作为图中的节点,他们的视觉关系作为边。接着将场景图通过Multi-modal Graph ConvNet:在图像内的层面,使用图卷积神经网络(GCN)来对场景图中的节点特征进行增强。在跨图像层面,为了建模图像之间的交互,使用时序卷积神经网络(TCN)来沿着时间维度进行卷积,进一步优化图像的特征表示。最后得到了集合了图像内关系和跨图像关系的relation aware的特征,输入到层次化解码器(Hierarchical Decoder)中来生成故事。
图3:层次化解码器概述.
表1:在VIST数据集上的不同模型性能比较. *代表直接优化RL奖励,比如CIDEr分数, + 代表通过交叉熵损失(MLE)优化.
表1显示了不同模型在七个自动评价指标上的性能。结果显示作者提出的SGVST模型几乎在所有指标上都优于其他用MLE和RL优化的模型具有更好的性能,SGVST的BLEU-1、BLEU-4和METEOR得分比其他基于MLE优化的最佳方法分别提高了3.2%、2.5%和1.4%,这被认为是在VIST数据集上的显著进步。这直接说明将图像转换为基于图的语义表示(如场景图),有利于图像的表示和高质量的故事生成。
本文还进行了消融实验,和提出模型的5个变种模型进行了比较,来验证模型每个模块部分的重要性。从表1中可以看在不使用GCN和TCN的时候,模型性能有一个很大的下降。这说明图网络在该模型中是最为重要的,因为它可以给模型带来了推理视觉关系的能力。
2. 定性分析
图4:不同模型定性分析的例子.
图4展示了3种不同模型生成的故事和真实故事的样例。第一行是输入的一个图像序列。第二行是生成出的场景图。第三行是不同模型生成的故事。可以看出SGVST生成的故事更通顺,而且信息更丰富、更有表现力。
图5:每种颜色代表了相对应模型产生的故事,被评价人员认为更加像人写的、更有表现力所占的比例。灰色的”Tie”代表了打平.
表2:人工评估结果。在AMT上的评估人员根据对每个问题的同意程度来评价故事的质量,评分范围为1-5.
为了更好地评价生成的故事的质量,作者通过Amazon Mechanical Turk(AMT)进行了两种人工评价。(1)图5是不同模型两两比较的一个实验结果,给评价人员2个生成出的故事,然后让他来选择哪一个写的更好。(2)表2是在6个指标上进行的人工评估实验结果。可以看出本文提出的模型和其他模型相比有着巨大的优势,而且和人类相比,也取得了有竞争力的表现。
1. 将图像转为图结构的语义表示(如场景图),可以更好的表示图像,有利于高质量的故事生成。
2. 本文提出了一个基于图网络的模型,可以将图像转为场景图,然后在图像内和跨图像两个层面上进行关系推理。
3. 实验结果表明,本文提出的模型取得了优秀的表现,并且能产生信息更加丰富、语言更加连贯的故事。
4. 场景图生成的质量限制了本文模型的性能,如果能有更好的场景图生成方法,本文模型的性能还能取得进一步提高。
雷锋网 AI 科技评论报道 雷锋网雷锋网