CVPR 2019 最佳学生论文官方解读！

计算机视觉自然语言处理视觉语言导航 CVPR 2019

2019/07/25 11:08

雷锋网 AI 科技评论按：作为人类感知世界、进行交互的两大最重要的方式，视觉和语言一直是人工智能领域研究的重点。近年来，将视觉与语言信息进行融合和转化成为了一个活跃的研究方向，许多让人眼前一亮的工作也随之产生。微软研究院在文本中，对其获得 CVPR 2019 最佳学生论文的工作进行了技术解析，非常值得一读！

人类如何进行高效的沟通呢？人们普遍认为，人类用来交流的词语（例如「狗」）会引发对物理概念的相似理解。实际上，我们对于狗的物理外形、发出的声音、行走或奔跑的方式等都有共同的概念。换句话说，自然语言与人类与他们所处的环境之间的交互方式息息相关。因此，通过将自然语言基标对准到我们所处环境的各种模态中（例如图像、动作、物体、声音等），可以产生有意义的行为。心理学领域最新的研究成果表明，婴儿最可能学会的第一个单词是基于其视觉体验的，这为婴儿语言学习问题的新理论奠定了基础。那么现在问题来了：我们是否能够构建出可以像人类一样，学着在不同模态下进行沟通的智能体？

在各种多模态学习任务中，视觉-语言导航（VLN）是一类十分有趣也极具挑战性的任务。这是因为，为了能够以遵循自然语言指令的方式对真实环境中的智能体进行导航，我们需要执行两层基标对准：将指令基标对准到局部空间视觉场景中，然后将指令与全局时序视觉轨迹相匹配。最近，深度神经网络领域的工作重点关注于通过在视觉上基标对准语言学习任务，来连通视觉和自然语言理解的桥梁，从而构建智能体，这要求研究人员具备机器学习、计算机视觉、自然语言处理以及其它领域的专业知识。

对于这种基标对准任务而言，深度学习技术非常具有使用前景，这是因为使用深度学习技术能够使得同时从计算机视觉和语言的低级感知数据中学习到高级语义特征成为可能。此外，深度学习模型也使我们可以将不同模态的信息融合到同一种表征中。基础语言学习任务还要求与某个外部环境进行交互；因此，强化学习为我们提供了一种优雅的框架，能够基于视觉层面来完成对话任务规划。所有这些研究进展使得解决具有挑战性的 VLN 任务在技术上可行。

CVPR 2019 最佳学生论文官方解读！

图 1：视觉语言导航（VLN）任务示意图。图中展示了指令、局部视觉场景，以及从俯视视角描绘的全局轨迹。智能体并不能获取俯视图信息。路径 A 是遵循指令得到的正确演示路径。路径 B 和 C 代表智能体执行出的两条路径。

微软研究院的视觉和语言研究人员一直致力于研究对自然语言和视觉交互进行基标对准的各种不同的方法，并一直在应对 VLN 所特有的挑战。 CVPR 2019 中，由微软 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao，加州大学圣巴巴拉分校的王鑫、Yuan-Feng Wang、王威廉，以及杜克大学的 Dinghan Shen 共同完成的工作「Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation」获得了最佳学生论文，微软的 VLN 研究团队在本论文中探索了解决 VLN 领域这三个关键挑战的方案：跨模态基标对准（cross-modal grounding）、不适定反馈（ill-posed feedback）以及泛化（generalization）问题。不仅如此，这项工作所取得的好结果非常激动人心！

论文查看地址：https://www.microsoft.com/en-us/research/publication/reinforced-cross-modal-matching-and-self-supervised-imitation-learning-forvision-language-navigation/

其中的一个挑战是，根据视觉图像和自然语言指令进行推理。如图 1 所示，为了到达目的地（用黄色圆圈高亮表示），智能体需要将用单词序列表征的指令对标到局部的视觉场景中，并且将指令与全局时序空间中的视觉轨迹匹配起来。为了解决这个问题，我们提出了一种新的强化跨模态匹配（RCM）方法，它可以通过强化学习在局部和全局进行跨模态基础标对。

如图 2a 所示，我们的研究团队设计了一个带有两种奖励函数的推理导航器。外部奖励会指导智能体学习文本指令和局部视觉场景之间的跨模态基础对标，从而使智能体可以推测出要关注的子指令以及相应的视觉内容。同时，从全局的角度来看，内部奖励和匹配评价器一起，通过根据执行的路径重建原始指令的概率来评估一个执行路径，我们将其称为「循环重建」奖励。

CVPR 2019 最佳学生论文官方解读！

图 2：用于将自然语言指令与视觉环境对标的强化跨模态匹配框架。

该内部奖励对于这种 VLN 任务尤为重要；如何训练这些智能体，以及从它们的环境中获取反馈是VLN 研究人员面临的重大挑战。在训练时，学习遵循专家演示需要频繁的反馈，从而使智能体可以保持在正确的轨迹上，并且按时到达目的地。然而，在 VLN 任务中，反馈是非常粗糙的，因为只有当智能体到达了某个目标位置后才会提供「成功」的反馈，完全没有考虑智能体是否遵循了指令（如图 1 中的路径 A 所示），或者是按照随机的路径到达了目的地（如图 1 中路径 C 所示）。如果智能体稍微比预计时间停止得早了一些（如图 1 中的路径 B 所示），即使与指令相匹配的「好」轨迹也可能被认为是「不成功」的。这样的话，不适定反馈可能会与最优策略学习的结果不符。

如图 2a 和 2b 所示，我们提出通过局部测量一个循环重建奖励来评价智能体遵循指令的能力；这种机制能够提供一种细粒度的内部奖励信号，促使智能体更好地理解语言输入，并且惩罚与指令不匹配的轨迹。举例而言，如图 1 所示，使用我们提出的奖励，路径 B 就会被认为优于路径 C。

使用匹配评价器提供的内部奖励以及环境提供外部奖励进行训练，我们的推理导航器会学着将自然语言指令同时在局部空间视觉场景和全局时序视觉轨迹进行基标对准。在一个 VLN 对比基准数据集上的评估结果显示，我们的 RCM 模型在 SPL（通过逆路径长度加权的成功率）指标上显著优于之前的方法，提升高达 10%，实现了目前最佳的模型性能。

当处于训练时未曾见过的环境中时，VLN 智能体的性能会显著降低。为了缩小这种差距，我们提出了一种通过自监督学习探索未见过的环境的有效解决方案。通过这种新技术，我们可以促进终身学习以及对新环境的适应。例如，家用机器人可以探索一个新的房子，然后通过学习之前的经验迭代式地改进导航策略。受到这一事实的启发，我们引入了一种自监督模仿学习机制（SIL）来支持智能体对未见过的环境（没有带标签的数据）进行探索。其中，智能体会学习自己过去积极的经验。

具体而言，在我们的框架中，导航器将执行多次「roll-out」策略，其中好的轨迹（由匹配评价器确定）将会被保存在经验回放缓存中，然后被导航器用于模仿。通过这种方式，当行器可以对其最佳行为进行近似，从而得到更好地策略。我们能够证明 SIL 可以近似得到一个更好、更高效的策略，这极大地缩小了训练时见过和未曾见过的环境之间的成功率的性能差异（从 30.7% 降低到 11.7%）。

非常荣幸，这篇论文被选为了 CVPR 2019 的最佳学生论文。用 CVPR 2019 最佳论文奖组委会的话来说，就是「视觉导航是计算机视觉的一个重要领域，而这篇论文在视觉-语言导航方面取得了进展。在该领域之前工作的基础上，该论文在跨模态环境下基于自模仿学习所取得的成果令人激动！」热烈祝贺这篇论的作者们：来自加州大学圣巴巴拉分校的王鑫、Yuan-Fang Wang、王威廉，来自微软 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao，以及来自杜克大学的 Dinghan Shen。其中，王鑫对这一工作所做的贡献是其在微软研究院实习期间完成的。

在另外一篇 CVPR 2019 论文「Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation」（由微软 AI 研究院的 Xiujun Li 和 Jianfeng Gao，华盛顿大学的 Liyiming Ke、Yonatan Bisk、Ari Holtzman、Yejin Choi、Siddhartha Srinivasa，以及微软 Dynamics AI 的 Zhe Gan 和 Jingjing Liu 共同完成）中，我们改进了 VLN 智能体的搜索方法，提出了一个被称为「快速导航器」（Fast Navigator）的动作编码的通用框架，使智能体能够基于局部和全局的信息比较长度不同的部分路径，并且在出错时进行回溯。

论文查看地址：https://www.microsoft.com/en-us/research/publication/tactical-rewind-self-correction-via-backtracking-in-vision-and-language-navigation/

我们注意到，VLN 与文本生成任务有一些相似之处，所有现有的工作可以被分为两类：

贪婪搜索（Greedy search）——在每个时间步做出决策时，智能体仅仅考虑局部信息，其中所有的智能体都存在「exposure bias」的现象，这是序列生成任务中的一类典型问题；
集束搜索（Beam search）是另一个极端。智能体会使用「roll-out」策略生成多条轨迹，然后选择最好的那一条。尽管这种方法提升了成功率，但是其计算成本与轨迹数成正比，并且这种成本可能十分巨大。不可能会有人部署一个在执行每次命令前都要在房子里重复进行 100 次导航（即使它最终到达了正确的位置）的家用机器人吧！

总的来说，当前的 VLN 模型面临着两大核心问题：首先，我们应该回溯吗？如果我们应该回溯，那么我们应该回溯到哪一步呢？其次，我们应该在何时停止搜索？

为了使智能体能够在出错时进行回溯，我们将搜索与神经编码结合了起来，从而使得智能体可以基于局部和全局信息比较长度不同的部分路径，然后在发现错误时进行回溯。为了确定我们是否应该停止搜索，我们使用了一个融合函数，该函数会将局部动作知识和历史转化为一个进度的估计值，从而通过对我们之前的动作与给定的文本指令的匹配程度建模来评估智能体的进度。

via https://www.microsoft.com/en-us/research/blog/see-what-we-mean-visually-grounded-natural-language-navigation-is-going-places/ 雷锋网雷锋网

专题

CVPR 2019 查看更多文章