ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

作者：章敏

2016/07/28 10:49

运用多模态方法进行图像字幕翻译

联合编译：陈圳，章敏，高斐

摘要

我们提出一种通过由视觉空间所定位的多模式枢纽方法来提高对图像描述的统计机器翻译。其主要思想是在图像中用目标语言对字幕翻译数据实行图像检测，并使用最相似的图像字幕翻译进行跨语言的翻译输出再排序。我们的方法不依靠于域内所能获得的庞大平行数据，而是依靠于所能获得的大量单语进行图像字幕说明的数据，并用先进的卷积神经网络系统计算图像的相似性。我们的试验评估表明基于基线的1 BLEU点有所提高。

1. 介绍

多模式数据是由图像和自然语言描述构成的（以下称为字幕），拥有丰富的信息资源，以致最近在整合语言和视觉方面的研究激增。最近，在WMT16会议中一个共享任务的多模式语言处理过程增加了多语言方面。显然，多语言字幕说明有现实需求，例如，对于艺术作品的自动机器描述会基于社会和文化的原因，跨越语言障碍生成数字化艺术目录。多语言的产品描述是具有高度商业利益的，因为它能扩宽电子商务交易自动打入国际市场。但是，图像和单语字幕数据已包括数以百万的元组，作者所知的最大的多语图像和字幕数据库包括20,000或是30,0002用英语或是德语进行的描述。

本文我们会从统计机器翻译的角度解决多语言字幕的问题。与之前的研究相比，Karapathy 和Fei-Fei以及Vinyals等人都是直接从图像中产生字幕，我们的目标是将视觉信息整合到SMT管中。视觉语境所提供的正交信息能避免自然语言的产生歧义，因此它可以消除歧义并通过将图像与字幕相对应来指导翻译过程。因为数据集包括了源语言字幕，图像和目标语言字幕，但是这一数据集不可用数量巨大，我们会转而利用包括图像和目标语言字幕的大数据集来提高在最合适数量的平行字幕中进行训练的SMT模式。

字幕翻译可以定义如下：为产生图像i的目标语言翻译ei，系统会使用在源语言fi中图像i的说图像字幕作为输入，同时也会使用图像i。该系统可以放心的假设fi与i有关，例如，i相关字幕的确认是并非是字幕翻译任务的一部分。与在基于语境的SMT中发现^e=argmax_e（e|f）的推理问题相反，多模式字幕翻译会在发现^ei将i和fi都考虑进去：

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

在本文中，我们在进行字幕翻译时，会按照一般跨语言的方法进行重组框架，在此框架中会给定一对源语言字幕和图像，目标语言字幕是用于SMT系统的输出重新排名。我们目前提供了两种目标语言字幕检索的方式，通过定位图像与输入图像的相似部分进行重新排名。其中一种方法就是基于卷积神经网络（CNN）的展示进行图像相似性计算。另一种方法是在视觉空间中手动标注对象类别，来计算相似性。我们将会基于文本比较多模式枢纽方法和重新排名方法，此外将多模式枢纽方法与在平行数据上训练的SMT基准线进行比较。与在29,000平行字幕上进行训练的基准线相比，我们发现基于视觉基点的重新排名，其提高超过了1 BLEU点。值得注意的是，我们的重新排序的方法不仅仅依靠域内大量的平行数据，因为在实际场景中这类数据是不可得的，例如，电子商务的本土化。然而，在此类场景中，单语的产品描述自然数量很大，因此我们的工作就是在现实中进行描述翻译。

2. 相关工作

单从图像中生成字幕是最近在图像处理过程中产生的现实性问题。最新的方法也是基于深度表示通过比较图像和文本之间的相似性来进行图像字幕的重新排序。这些研究中所使用的工具是神经网络，其深度表征大大提高了图像特征表示的质量，使得能对图片内容进行强大的语义分析。我们依靠CNN框架来解决在NLP（自然语言处理）中的语义分类和消除歧义等问题，进而从视觉反馈等方面提高了监督的作用。然而，我们认为图像生成字幕比字幕翻译更难，因为并未给予源语言的相关信息。因此，我们不会将我们的研究与字幕生成模式进行比较。

在SMT领域内，Waschle和Riezler提出一个将数据量庞大，单语的语料库和从跨语言信息检索技术的机器翻译整合起来的框架。在产生他们方法的背后直觉是通过使用SMT系统产生一个或是多个翻译假设，SMT能为查找匹配或是在目标语料库中寻找相似句子的请求。这些能反过来用于增强翻译假设，以此来提高翻译质量的整体影响。我们的工作能看做是这一方法的扩展，视觉相似性的反馈能看做是跨语言检索模式的额外限制。Calixton等人建议使用图像作为统计机器翻译的补充信息。他们从新的领域内引用例子，因为在新的领域内视觉信息能帮助SMT消除歧义并讨论上下文图片之间的可能特征和距离，但是报告却并未涉及整个SMT管使用视觉信息。与我们的工作相平行的是，Elliot等人从神经机器翻译等方面解决了字幕翻译的问题。他们的模式是涉及到我们研究或是完全依赖于可用的平行字幕作为训练数据。但这两种方法都依赖于神经网络，他们使用视觉丰富的神经编码解码器SMT方法，而我们跟随字幕翻译的检索模式，使用CNNs计算视觉空间的相似性。

将多模式信息的和NLP整合问题是最近研究的另一个热点。例如，Silberer和Lapata显示基于视觉表征的单词镶嵌分布表现比术语相似性评分和词分类任务表现更加好。视觉反馈的正交性通过Kiela等人开发多语言设置，他引导产生双语词典使用术语专用的多模式表示，是通过谷歌图像搜索引擎获得的。Funaki和Nakayama利用视觉的相似性在多模式和双语向量空间进行跨语言文件检索，但这些向量都是通过将典型相关性加以推广获得的，大大减弱了对于平行数据的需求。其共同点在于以CNN为基础的相似性信息是一个“中心”或是一个连接语料库的支点，在两种自然语言的语料库中缺少直接的并行主义，这就是我们为解决字幕翻译问题所采取的策略。

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

图1：模式结构概述

3. 模式

3．1 .概述

根据Waschle和Riezler所制定的基本方法，我们使用跨语言检索模式在目标语言文件集C中找出句子，并使用这些句子对原字幕f所翻译的目标语言翻译e重新进行排序。

在我们研究中的系统与Waschle和Riezler所使用的在多个方面都有所不同。并非简略或是粗糙的两步检索方式，我们的系统在检索匹配的文本集C中使用相关的评分功能，并基于术语出现频率倒叙对候选翻译进行排序，这显示了TF-IDF相关测量方式的变体。

我们方法的整体结构概述如图1所示，包含以下几个成分：

输入：源字幕f_i，图像i，图像字幕对的目标语言集合C

翻译：生成k_n-best翻译的独特列表N_fi,使用MT解码器生成K_r-best翻译的独特列表R_fi

多模式检索：对于翻译列表N_fi，在目标文集C中发现K_m-most相关的图像字幕对M_fi，使用启发式关联函数进行评分

跨语言重新排序：使用M_fi的图像字幕对对翻译列表R_fi进行重新排序，应用相关评分功能

输出：通过插入解码分数d_r来决定最好的翻译假设

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

其核心观念是评分功能S（m，N_fi，i）能决定目标检索（TSR）的三个变体，所有的这一些能充分利用上面所提到的程序。在基线和文本基础的重新排序模式中（TSR-TXT），我们使用相关评分功能S_TXT。这一项功能是仅依靠文本并未充分利用多模式的语境信息（例如，它与Waschle和Riezler所使用的目标语言检索是最接近的）。通过来自深度卷积神经网络的视觉信息能加强检索信息（TSR-CNN），这一评分功能SCNN基本采用了从神经网络中提取文本的相关信息来进行视觉相似性信息评分。最后，基于人类目标分类注释（tsr-hca）对这些模式的相关性进行评分，使用评分函数为SHCA。

该函数利用了可供MS COCO语料库使用的对象标注，指示我们的自动提取视觉相似性度量的有效性。后文中将详细讨论这三种模型。

3.2.目标侧检索模型（Target Side Retrieval Models）

基于文本的目标侧检索模型.在TSRTXT检索方案中，匹配候选值m∈C以下列方式得分：

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

其中δ是Kroneckerδ函数，N_fi是图像i的源字幕f_i最好的Kn翻译假设集（通过解码器进行评分）。typ（a）是函数产生的一组包含在字幕a中的类型集（独特的符号），tok（a）是函数产生的字幕a的符号，idf（w）是术语w的逆文档频率。并且Z_m等于|typ（m）|的倒数是包含在内的正常化的术语，用于避免系统偏向于长时间的匹配候选（包含很多低频率术语）。术语频率的计算是在Europarl，News Commentary 和News Discussions English数据集（由WMT15创作室提供）提供的语言数据上进行的。注意，在这些模型中，没有使用图像i的信息。

使用CNNs的多模型目标侧检索

在TSR-CNN方案中，我们使用来自深度卷积网络的视觉相似性信息，补充文本目标面TSR模型。我们通过介绍图像i_x，i_y的半正定距离函数v（i_x，i_y）→[0,∞)将其正式化（较小的值，表示更多的类似的图像）。相关评分函数S_CNN在模型中采用的形式如下：

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

i_m是字幕m相关的图片，且d是截止最大距离，上面中匹配候选被认为是不相关的，且b是权重术语，它可以控制视觉距离分数v（i_m，i）在整体分数上的影响。

我们的视觉程度v是使用Simonyan和Zisserman的VGG16深度卷积网络模型（在ImageNet上进行预训练）进行计算的。我们提取所有输入的特征值，并从模型的倒数第二个完全连接层（fc7）参考图像，和计算图像特征向量之间的欧氏距离。如果没有相邻图像落在距离d，基于文本的检索程序S_TXT被作为回退策略，这在我们的测试数据中每500次会发生47次。

通过人类分类注释的目标侧检索。为了对比，我们使用了人类分类注释的MSCOCO评估TSR-HCA检索模型。在MSCOCO语料库中，每一个图像都用对象多边形注释，分类成91类常见对象。在该方案中，匹配候选m按如下方式打分：

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

其中cat（i）返还图像i被注释的对象类别集。强制类别注释i和参考图像im进行严格匹配的总数，因此，通过严格的类别匹配预过滤S_TXT在图像字幕得分。在i用独特的对象类别集注释，以及SHCA没有返还非零分的匹配候选的情况下，S_TXT被用作回退策略，这种情况在我们测试集中每500次会发生77次。

3.3.翻译候选重新评分（Translation Candidate Re-scoring）

在三个模型中，用于重排序模型的相关性得分F（r，MfI）用如下方式进行计算：

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

其中r是翻译候选，并且M_fi是km最高目标侧检索匹配的列表。因为模型应该返还一个反映r对于Mfi相关性的分数，不考虑Mfi的长度，标准化M_fi的标签数是必要的。术语Z_Mfi就是为该目标服务的。

4.实验

4.1.双语图像-字幕数据

我们基于MS COCO图像语料库建立了一个德语-英语平行数据集。从2014训练部分随机选择1000张图片，在第二步中，他们五分之一的英语字幕是随机选择的。随后这些字幕由一个德国人翻译成德语。注意我们的实验将德语作为源语言，而英语作为目标语言，因此，我们的参考数据不是由单独一个人说出来的，而是最大程度的反映出MSCOCO的不均匀性。该数据被拆分为250字幕的开发集——它在过程中用于测试工作，和500字幕的测试集。为了进行检索实验，我们只使用不包括在开发集中的图像和字幕，总共81，822张图像（每个图像有着5个英语字幕）。所有数据通过cdec，tokenized-anything.pl和lowercase.pl处理和转换成小写。对于德语数据，我们使用Dyer描述的方法进行复合-拆分，提供cdec utility compound-split.pl进行实施。表1给出了数据集的概述。我们的并行开发，开发测试和测试数据都是公开可用的。

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

表1：实验中使用的MSCOCO中图像和字幕数据的图像和句子的数量。

4.2.翻译的基准

我们将我们的方法和两种基准的机器翻译系统进行对比，一个域外的数据进行培训，一个Domain-adapted系统。表2给出了用于机器翻译系统的训练数据概述。

域外基准（Out-of-Domain Baseline.）我们基准的SMT框架是使用同步语境的自由语法，基于短语的分层的翻译，通过cdec解码器实现。Eutoparl，News Commentary和Common Crawl corpora，以及WMT15工作室提供的数据，被用于训练翻译模型，德语作为源语言，英语作为目标语言。

如检索数据集，训练，开发和测试数据集都被标记并转换成小写一样，我们使用相同的cdec工具。超过80个词的句子无论是源语言还是目标语言，在前面的训练中都被抛弃了。源文本使用compound-split.pl进行复合拆分。

使用cdec 的fsat-align功能双向提取组合，并使用grow-diag-final-and的均衡启发式均衡atools效果。该组合随后被cdec语法提取器用于在平行数据中提取同步的语句自由语法。

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

表2：用于训练机器翻译系统的并行和单语数据。给原始数据未进行预处理的句子数。O /I：域外和域内的系统，I：只域内系统。

目标语言模型在来自Europarl，News Crawl，和有KenLM工具包的News Discussions（由WMT15工作室提供，该数据集在检索模型中也被用于评估术语）数据集的单语数据上进行训练。

为了翻译质量，我们如IBM BLEU一样使用Margin Infused Relaxed 算法(MIRA) 进行测量，优化翻译系统的参数。为了调整翻译模型用于提取最终的假设列表评估，MIRA在开发集上进行了20次迭代，并选择最好进程进行最终测试。

域内基准.我们同样将我们的模型和domain-adapted的机器翻译系统进行对比。除了是它从图像字幕域提供额外的并行训练数据外，domain-adapted系统和域外（out-of-domain）系统是完全相同。为了这个目的，我们使用29，000个平行的德语-英语图像字幕（和多模态机器翻译上WMT16共享任务的字幕数量相同）。数据集中英语字幕属于Flick30k语料库，并且和MSCOCO语料库非常相似。德语字幕是专业翻译的。英语字幕同样被用于目标侧语言模型额外的翻译数据。使用该域内（in-domain）基准系统，我们产生了k_n和翻译候选k_r-best的列表。

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

表3：优化在最终评估中使用的超参数值

4.3.优化TSR超参数

对于我们的每一个检索模型，我们在用于开发集IBM BLEU的四个系统参数上，进行了一项超参数空间的逐步穷举搜索：k_n-best的长度列举了整个被用于检索的查询；k_m-best的数量对应字幕检索；最终k_r-best列表的长度被用于分级；相关性分数F的加权插值λ相对翻译假设日志的概率由解码器返回。通过检查系统对于典型例子的输出，手动决定参数的探索范围。表3给出了获得的超参数值概述。

对于TSR-CNN，我们最初设置的截止距离d为90.0，经过手动检查最近的邻近集返回各种最大距离值。在优化检索参数后，我们在开发集以步长单位为1，从d=80.0到=100进行穷举搜索，同时保持其它的超参数固定，结果证明了最初的选择d=90.0是最佳值。

对于所有模型，探索参数空间都是一样的，并且每一个模型都在测试集上使用它自己最佳配置的超参数进行评估。

4.4.性能测试

在不同的翻译质量进行性能测试，是通过使用近似随机化技术，测量机器翻译系统的差异而进行的。它由Riezler和Maxwell提出，并被Clark等人实施成为Multeval工具包的一部分。

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

表格4：据Multeval报道的所有系统及其显著性水平的度量分数。Po值与cdec域外基线相关，Pd值则与域内基线相关，Pt值，Pc值分别与TSR-TXT，TST-CNN相关。最优结果用黑体标注出来。

4.5.实验结果

表格4对在一个拥有500条字幕的不可见测试集合中，所有模型的测试结果进行总结。经调整过后的域极大改善了+4.1BLEU，METEOR与翻译编辑率(TER)进行了极大程度的改善。我们发现，运用深度卷积神经网络TSR-CNN 和 TSR-HCA中的多模态枢纽可以改善目标端检索模型，而这种检索模型一直以来在性能均优于经过调整的域cdec基线及基于文本的目标侧检索模型TSR-TXT。因而，这些模型在性能方面得到了改善，在效果上最终超过了一般的域调整方式。TSR-CNN与TSR-HCA在性能方面的提高与BLEU，METEOR，TER呈显著性差异(p<0.05)。对于所有的评估度量方法来讲，TSR-CNN和TSR-HCA之间的差异并不显著，这一结果证明，运用我们由CNN衍生出的距离度量检索方法能够与基于人类目标分类注释的检索方法相匹配。

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

图2：鉴于两个排名联合分布得出的人类成对偏好排名实验结果：a+表示人们对TSR-CNN精确度的偏好，f+表示人们对TSR-CNN流畅度的偏好；a-表示人们对于域内基线精确度的偏好，f-表示人们对域内基线流畅度的偏好。

基于文本的检索基线TSR-TXT在显著性上从未优于域内cdec基线，但是，BLEU，METEOR及TER的性能在名义上得到了少许提升。这一发现实际上与Waschle 和 Riezler (2015)的报告结果一致，其报道了在高技术，窄域语料库总基于文本的目标端检索模型性能的改善，甚至报道了介质多样性语料库在性能方面的下降，如Europarl语料库。我们的实验结果显示，将多模态枢纽整合入图像增强模型TSR-CNN 和 TSR-HCA中，额外增加了视觉相似性信息，如此便使得这些技术在MS COCO中能够得到有效利用，从而肯定了我们的假设，视觉信息可以用于改进字幕翻译。

4.6.人类评价

域内基线与TSRT-CNN之间的差异体现于两种检索方法在测试集合中169/500案例的输出结果上的不同。在一项双盲配对偏好排序实验中，这169个案例随德国源字幕一同呈现在人类面前，以便于配对排序结果做出评价。在两个系统中，字幕的呈现顺序具有随机性。评审人员被要求分别对翻译的流畅度与精确度进行排序。所得结果见图2。整体上讲，人们对TSR-CNN输出结果表现出明显的偏好。

4.7.例子

表格5中为由cdec基线，TSR-TXT，TSR-CNN及TSR-HCA检索模型得出的实例翻译结果，随之提供有源字幕，图像和参考翻译。由枢纽图像的目标端字幕归纳得出的视觉信息能够消除可以相互替换的翻译结果的歧义，并且能够修正错误的翻译结果。

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？

表格5：根据多模态反馈信息改善过的字幕翻译实例

5.结论与对未来工作的启示

我们证实了，在我们由MSCOCO得出的平行数据集中，就BLEU，METEOR及TER而言，与一个强大的域内基线相比，将多模态枢纽与一个目标端检索模型相结合能够改善SMT的性能。基于深度卷积网络的距离度量所提高的性能可以与基于人类目标分类注释所提高的性能相媲美，这一结果进一步证明了由CNN衍生得出的距离测量工具的有效性。采用我们的方法，在某些案例中，SMT可以得益于多模态语境信息。尤为重要的是，不需要使用大量的域内平行文本信息，仅仅运用大量可以很容易获取的一语图像字幕便可以提高SMT的性能。

应用深度学习技术学习距离度量成为一个热点研究领域(Wu等，2013；Wang等，2014；Wang等，2015)。尽管我们的简单的距离度量方法在性能上可以与人类目标注释方法相媲美，运用这种高水平语义距离度量进行多模态枢纽字幕翻译在未来研究中将具有远大前景。

当前实验结果是仅仅基于一个语言对（德语-英语）和一个语料库（MS COCO）得出的。与所有基于检索的方法相似，有关各种领域，各种规模，各种质量的语料库的任何普适性观点都难以得到证实。这一问题在多模态案例中尤为棘手，由于在不同的语料库中，与图像相互关联的字幕呈现多样化(Hodosh 等，2013)。在未来的工作中，我们计划在更为自然的语境中评估我们所采用的检索方法的性能，例如于在线多媒体库中进行机器字幕翻译，维基Commons，数字化艺术目录及电子商务本地化。

另一未来研究平台为通过运用神经MT（例如“注意机制”）的重要组成部分来改善Elliot 等人(2015)在其文章中提及到的模型的性能。例如，由Bahdanau等人（2015）提出的注意机制通过影响源字符的翻译序列，以便对翻译过程起到引导作用。Xu等人(2015)的文章中运用了相似的机制来确定图像的哪一部分将对所生成的字幕中的哪一部分产生影响。在神经字幕翻译模型中把这两种类型的注意机制相结合将是字幕翻译发展自然而然的结果。尽管这一研究方向已经超出当前研究范围，我们的检索模型将为之提供一种信息基线，在今后的研究中可以参照该基线评估所采用的检索方法。

哈尔滨工业大学李衍杰副教授的点评：本文通过视觉空间定义的多模态枢纽(multimodal pivots ),提出了一种方法来改善图像描述的统计机器翻译，从统计机器翻译（SMT）的角度解决多语言字幕的问题。其核心思想是对用目标语言加字幕的图像数据集中进行检索，应用最相似图像的字幕来进行跨语言的翻译输出再排序，利用视觉语境所提供的正交信息来避免自然语言产生的歧义。论文方法表明多模态枢纽与目标端检索模型相结合能够改善SMT的性能。基于深度卷积网络的距离度量所提高的性能可以与基于人类目标分类注释所提高的性能相媲美，这一结果进一步证明了由卷积神经网络（CNN）衍生得出的距离测量工具的有效性。该方法可不需要使用大量的域内平行文本信息，仅仅运用大量容易获取的单语图像字幕便可以提高SMT的性能。

PS : 本文由雷锋网独家编译，未经许可拒绝转载！更多ACL相关资讯扫码关注微信群

ACL2016最佳论文：智能翻译要抢字幕翻译员的饭碗？