AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

aaai2020 文本生成计算机视觉自然语言处理

作者：丛末

2020/01/06 10:17

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

作者 | 朱军楠、张家俊

多模态自动文摘是指利用计算机实现从含有两种或两种以上模态（如图片、文本等）的信息中生成图文式摘要的过程。该技术可以广泛应用于新闻推送、跨境电商、产品描述自动生成等多个领域，具有重要的研究价值和丰富的应用场景。

近年来，随着计算机视觉以及自然语言处理技术的发展，多模态自动文摘技术逐渐成为学术界和工业界研究的热点。当前的多模态自动文摘受限于数据集本身的原因只能采用文本模态的负对数似然损失作为目标函数训练整个网络，同时利用注意力机制来辅助挑选图片。

这种做法容易带来模态偏差的问题，即整个网络会倾向于优化文本生成的质量而忽视了图片的挑选过程，如图1所示。若只考虑文本模态的损失，B摘要是要优于A摘要的，但是很显然B摘要中的图片的人物对应关系不对；而当我们引入图片选择的损失时，我们可以明显的判断出A摘要是优于B摘要的，并且这也符合基本事实。

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

图 1 模态偏差的示例

论文方法

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

针对于上述问题，中科院自动化所自然语言处理组博士生朱军楠、周玉研究员、张家俊研究员、宗成庆研究员等提出了多模态基准指导的多模态自动文摘方法。基本想法是优化多模态摘要训练的目标函数，即在文本损失的基础上增加图片选择的损失函数。

如图2所示，该方法由三部分组成：

（1）首先利用数据集本身的特征将只有文本基准的训练数据扩展至多模态基准，主要采用两种方式，即直接使用输入图片的顺序对图片进行排序或者使用图片的文字描述与标准文本摘要参考答案之间的ROUGE值大小对输入图片进行排序；
（2）在模型上添加图片判别器用于训练图片挑选的过程，模型的损失函数也由文本的损失函数及图片挑选的损失函数加权求和而成；
（3）通过数据集中的图片和文本描述构造文本-图片对齐片段从而用来训练能够更好地评价多模态片段的评价模型，具体而言我们将两对图片-描述的文本部分（或图像部分）进行交换去构造两个匹配的多模态片段，如图3所示。

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

图 2 多模态基准指导的多模态自动文摘框架图

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

图 3 多模态匹配片段构造示意图

实验结果

目前多模态自动文摘的数据集还比较匮乏，我们之前发布了一个公开数据集MSMO，这项工作也在该数据集上进行实验验证。在对比摘要方法的性能之前，我们首先需要明确应该采用哪种评价指标。在之前的工作中，图文式摘要的评价关注三个方面的指标：图片准确率(IP)、文本摘要的ROUGE值(ROUGE-L)以及系统输出中图片文本的相关度(Msim)。在我们的方法中，我们引入一个新的自动评价指标MRmax用来直接度量两个多模态信息之间的相似度（输出和参考答案的最大相似度）。MMAE是对IP、ROUGE和Msim的组合，MMAE++是IP、ROUGE、Msim和MRmax四个自动评价指标的组合。我们利用与人工打分之间的相关度来对比不同的自动评价指标。

表 1 不同评价指标与人工打分之间的相关度（分值越高、性能越好）

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

表1给出了不同的自动评价指标与人工打分的相关度，可以看出融入了直接测量多模态片段的评价指标MR之后，新的自动评价模型MMAE++相比于MMAE在与人工打分的相关度上有一个显著的提升。为了衡量我们提出的多模态基准指导的模型，我们同多个强基线模型进行了对比，包括融入全局或者局部视觉特征的多模态注意力机制的生成式自动文摘模型（ATG、ATL）、层次化的多模态自动文摘模型（HAN）以及基于图模型的抽取式自动文摘模型（GR）。

表 2 不同模型生成的图文式摘要的质量对比（MOF表示多模态基准指导的方法、RR表示通过ROUGE值对图片排序，OR表示通过输入图片的顺序对图片排序，enc表示利用编码器隐层状态选择图片，dec表示利用解码器隐层状态选择图片）

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

表2给出了不同模型生成的图文式摘要的质量对比。可以看出在引入多模态基准指导后，模型的图片挑选质量（IP）得到了显著的改善，并且文本生成质量也有略微改进，从而生成更高质量的图文摘要。相对于使用编码器隐层状态而言，采用解码器隐层状态去进行图片选择效果会更好 AAAI 2020 | 多模态基准指导的生成式多模态自动文摘。另一方面，使用图片描述与文本摘要之间ROUGE值的大小对图片排序获得的多模态基准对于模型的指导作用更加明显。

表 3 图片选择的损失函数的权重大小

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

我们也对比了不同的图片选择损失函数权重对于模型性能的影响，可以看到当图片和文本的损失函数的权重都相同时，图文摘要的质量是最好的。

表 4 计算图片损失中考虑的图片的数量的影响

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

我们对比了在计算图片损失中考虑的图片数量（即top-K图片作为gold standard）所带来的影响，并且发现当 K=3的时候，模型取得了最好的效果。

相关细节可参考发表于人工智能顶级学术会议AAAI 2020的论文：

Junnan Zhu, Yu Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, Changliang Li. Multimodal Summarization with Guidance of Multimodal Reference. AAAI-2020.

雷锋网 AI 科技评论报道。雷锋网雷锋网