表征学习、图神经网络、可解释的 AI ， ML & 机器人七大研究进展一览

2020/02/03 10:03

随着每一年的结束，麻省理工学院电气工程与计算机科学系博士 Gregory J Stein 都会回顾一下对其影响最大的各大研究趋势或论文，今年亦如此。

作为该领域的研究人员，他发现深入研究其认为研究界取得的巨大进展，或找出目前可能没有取得进展的领域，可能会很有意义。

本文中，Gregory J Stein 对机器学习和机器人研究领域的目前的发展现状发表了他的看法。

一、从 ALPHAZERO 到 MUZERO

AlphaZero 是2017年我最喜欢的论文之一。DeepMind 的国际象棋和围棋 AI 今年实现了重大升级，现在的版本名叫： MuZero，从而顺利将 Atari 游戏添加到了其以超越人类的表现完成的任务清单之列。

以前对于 AlphaZero 来说，Atari 游戏是遥不可及的，因为这款游戏的观察空间非常大，这使得 AlphaZero 难以构建行为树并得出决策结果。在围棋中，由于棋盘会遵循采取某个动作后棋盘会呈现的局势的一系列规则，因此预测行为结果是很容易的。

但对于 Atari 而言，预测行动结果原则上需要预测下一帧游戏可能呈现的战局。当系统试图估计它在几帧内的动作会对未来所造成的影响时，这种非常高维的状态空间和难以定义的观察模型，将极具挑战。

MuZero论文地址：https://arxiv.org/abs/1911.08265

MuZero 通过学习状态空间的潜在（低维）表示形式（包括当前帧），然后在该学习空间中规划从而规避了此问题。有了这一转变，智能体就可以在这个狭小的隐藏空间中采取行动，并想象许多不同行动的影响并评估可能发生的取舍，这就是 AlphaZero 和 MuZero 都基于的蒙特卡洛树搜索（MCTS）算法的标志性特征。

这种方法感觉更像是我所期望的真正的智能决策系统：拥有权衡不同选择，而不必精确地预测每个选择对于真实世界的影响的能力。这里的复杂之处在于他们如何同时学习潜在空间并学会在该潜在空间进行规划，更多详细信息可以参阅他们的论文。

这项工作真正令我吃惊的是，它是如何将个人想法组合成一个更大的工作系统。这篇论文与我见过的其它关于机器学习工作的系统论文一样，但除了表征特征化神经网络训练这一常年惯用的技巧之外，MuZero 中提出的想法还帮助回答了关于如何为日益复杂的问题构建 AI 的深刻问题。

整个 AI 研究社区都正在努力将个人的想法汇集起来，集合个体思想以建立更强大的决策系统。AlphaZero 和 MuZero 也都朝着这个方向发展，识别 MCTS 树结构（模拟选择不同动作的影响）以及预测每个动作的未来优点的能力，将产生更强大的学习系统。

而 MuZero 学习紧凑表示的额外能力（系统动态模型），可以模拟规划动作和随后观察来达到规划接下来的动作的目的，这让我相信这样的系统可能有一天能够解决现实世界机器人技术的问题。

然而，AlphaZero 和 MuZero 目前还缺乏解决实际问题的能力，相关讨论可参考这篇文章：

文章地址：http://www.cachestocaches.com/2018/12/toward-real-world-alphazero/

随着我们努力使 AI 变得越来越智能，这项工作将推着我们往更好地理解哪些想法和工具能够让这些系统在现实中得以应用的方向前进。

在此领域，另一个值得一提的成果是 Facebook AI 的 Hanabi 纸牌游戏 AI，该系统中需要让 AI 玩一个部分可观察的协作式纸牌游戏。

二、表征学习（万能的符号 AI）

也许最让我兴奋的进展，要数表征学习领域。

我是老式经典规划和所谓的符号 AI 的忠实拥护者，在该方法中，智能体通过理解对象或人此类的符号与真实世界建立联系。

人类一直是这样做的，但是将我们的能力转译给机器人或者人工智能体时，我们经常需要指明希望智能体推理出什么对象或者其他的预测。

但一个在很大程度上难以获得确切答案的问题是：符号从何而来？更笼统地说：我们应该如何表征世界，以便机器人在解决复杂的现实问题时能够快速有效地做出决策？

最近的一些工作已开始在能够从数据中学习这种表征的方向上取得真正的进展，使学习系统能够自行推断对象或建立它们能够用以与此前未见过的位置进行交互的对象和位置的“关系图”。

这项研究目前仍处于初级阶段，但是我很渴望看到它的进展，因为我坚信朝着能力更强的机器人方向前进，需要对这个领域有更深入的了解和取得重大的进步。我发现了几篇特别有趣的论文，包括：

Entity Abstraction in Visual Model-Based Reinforcement Learning（基于视觉模型的强化学习中的实体抽象）
论文地址：https://arxiv.org/pdf/1910.12827.pdf

这篇文章是最近尝试让系统了解什么是对象，然后使用所学的动力学正向模拟那些对象的行为来构建学习问题的少数研究之一。该篇论文表示：“ OP3 强制执行实体抽象，将潜在状态分解为局部实体状态，每个局部状态均使用以通用实体作为参数的相同函数进行对称处理。”

此工作尚处于起步阶段，但我期待看到社区将如何继续研究使用新颖的学习结构，来系统找出感兴趣的实体，然后用于后续的规划管道中。

表征学习、图神经网络、可解释的 AI ， ML & 机器人七大研究进展一览

图1 这是来自实体抽象论文的一个示例，展示了如何使用此方法对未来进行预测

Bayesian Relational Memory for Semantic Visual Navigation （语义视觉导航的的贝叶斯关系记忆）
论文地址：https://arxiv.org/pdf/1909.04306.pdf

这篇论文涉及到构建一个在线拓扑图作为寻找语义目标的智能体导航（例如找到厨房）。导航时，智能体将定期识别新的房间，并在它们变得足够确定时将新房间添加到其不断增长的关系图中。这里执行的一切处理都基于视觉，意味着系统必须处理相当大的不确定性和高维输入。这篇文章与 ICLR 2018 上发表的一篇极具影响力的论文《 Semi-parametric Topological Memory for Navigation》的想法类似：智能体需要事先演示环境以构建它的地图。

论文地址：https://arxiv.org/abs/1803.00653

在未来几年里，我期望看到 AI 研究社区如何继续将基于模型和不基于模型的技术之间的边界模糊化。

概括而言：我希望符号 AI 和更多“现代”深度学习方法能够交叉取得更多的进展，以解决像基于视觉的地图构建、不确定性下的规划和终身学习等机器人技术社区感兴趣的问题。

三、监督计算机视觉领域研究

自从 Facebook 研究院的 Mask-RCNN 在 2018 年兴起以来，我在监督机器视觉领域再也没有看到尤为鼓舞人心的研究成果。这并不是说这个领域的研究不重要。

在这个领域，诸如语义分割或对象检测之类的研究进展已经相当成熟。ImageNet 大规模视觉识别挑战赛（ILSVRC）的对象检测已逐渐淡出人们的视线，因为只有企业（通常拥有优质丰富的数据集或财务资源）愿意在这一挑战赛中争取获得好的名次。

但这不是一件坏事！事实上现在尤其是机器人研究者的好时机，因为研究社区已经发展到了这样一个节点：在研究人员可用的数据集之外尽可能地追求更高的性能，并且开始更加关注广泛采用机器人工具和与这一过程相关的“便利功能”。

现在研究社区在使用各种各样的新技术来更快地训练这些系统，并且在不影响准确性的情况下使它们更快更有效。

作为一个对真实世界感兴趣和经常使用这些新技术的人，我发现我对尤其是在像智能手机和小型自动机器人等资源受限的系统上使用这些技术的研究特别感兴趣，这些研究将会促使这些工具和功能得到更广泛的应用。

在网络蒸馏方面，一些很棒的工作十分值得关注：在训练模型后使用优化技术删除对整体性能影响不大的神经网络部分，代价只不过是增加些计算量。

对于如何避免需要剪枝来初始化和训练小型神经网络，《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》一文提出了一些有趣的想法，尽管该成果尚未产生广泛的实际影响。

论文地址：https://arxiv.org/abs/1803.03635

同时，在下方这篇“超棒”的 GitHub 贴文提供了不同网络剪枝方法的完整列表。

贴文地址：https://github.com/he-y/Awesome-Pruning#2019

还有一些相关技术，是使用专用的硬件功能来进一步加速网络编译。《FastDepth:Fast Monocular Depth Estimation on Embedded Systems》一文就是在单目深度估计（monocular depth estimation）任务中结合使用这些技术的一个很好的例子。

论文地址：http://fastdepth.mit.edu/

四、成熟的技术

新技术和新领域的进展让人振奋，但这些技术研究开始放缓，同样值得关注。随着许多研究领域已经取得了初级的研究成果，研究本身变得越来越有趣，并且由于阻碍该领域进展的真实挑战也变得越来越明晰，会促使研究人员对该领域进行更深层的研究。

对于机器人技术和机器学习的交叉领域的研究人员，我发现大多数人的观点是：只有技术变得足够强大时，人们才可能相信它们能为现实中硬件的决策提供依据。

五、图神经网络

我对图神经网络的忠实拥护者。从《 Relational inductive biases, deep learning, and graph networks》一文发表以来，我一直在深入思考如何将GNN学习集成为我自身研究工作的学习后端。

论文地址：https://arxiv.org/abs/1806.01261

总体思路很简单：构建一个图，其中节点与各个实体（对象、空间区域、语义位置）相对应，并根据它们相互影响力将它们进行连接。简而言之，我的想法是：在最容易定义的目标问题上采用尽可能多的架构，然后让深度神经网络根据该结构来学习实体之间的关系（这与我在上文中提到的表征学习概念类似）。

图模型在 AI 中已使用了数十年，但是如何处理高维观测值的问题却是一大瓶颈，在一段时间内，似乎只有手动设计特征能够成功解决该问题。

但随着 GNN 的出现，高维输入不再是一大难题。去年我们看到了使用 GNN 完成对其他表征学习方法（如量子化学）极具挑战的有趣目标的工具，呈爆炸式的增长。

今年，随着用于构建和使用图网络的工具日趋成熟，研究人员开始将 GNN 用于解决他们自己的问题，在机器学习和机器人技术的交叉研究方向开展了一些有趣的工作。

使用 GNN 感兴趣的读者，可以访问 DeepMind 提供的 Collaboratory Notebook ，上面有大量演示结果。

相关地址：https://colab.research.google.com/

同时，我对机器人良好导航决策能力（特别是当它们仅获取了周围环境的不完整信息时）也十分感兴趣，以及《Autonomous Exploration Under Uncertainty via Graph Convolutional Networks》和 NikoSünderhauf 发表的《Where are the Keys? 》等论文都非常引人深思，相关论文可以参考下文地址：

论文地址：https://arxiv.org/abs/1803.03635

六、可解释的 AI

尽管我对深度学习和表征学习方法的前景感到十分兴奋，但这些技术所产生的系统通常是难以理解的。由于这些系统逐渐面向人类，其难以理解的特点将成为一个问题。

幸运的是，人们对可解释的 AI 的关注度逐渐增加并取得了一些进展，总体上正在朝着人类可能愿意相信和共存的 AI 方向努力。

最近引起我关注的可解释 AI 领域中最有趣的论文之一，是杜克大学 Cynthia Rudin 实验室 Chenhaofan Chen 和 Oscar Li 所著的《This Looks Like That: Deep Learning for Interpretable Image Recognition 》。

论文地址：https://arxiv.org/pdf/1806.10574.pdf

文中作者通过识别当前图像的哪些区域与其他图像中的相似区域相匹配，并匹配两者之间的分类，建立了一个图像分类管道。由于该分类方法专门提供了训练集中相似图像和特征的直接对比，因此该分类方法比其他性能接近的技术更具可解释性。

下图来自论文，展示了系统如何对黏土色的麻雀图像进行分类：

表征学习、图神经网络、可解释的 AI ， ML & 机器人七大研究进展一览

图2 《This Looks Like That: Deep Learning for Interpretable Image Recognition 》一文中图像分类方法的示例。

今年 Cynthia Rudin 还发表了她的著作：《 Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead》。她在书中提出，我们应该停止事后“解释”黑盒模型做出的决策，而应该构建在构造上可解释的模型。

我不知道我是否一定认同应立即停止使用黑盒模型，但她在论文中提出了一些充分合理的观点，对于当前以开发黑盒模型为主流的 AI 领域至关重要。

论文地址：https://arxiv.org/pdf/1811.10154.pdf

过去一年中还有一些不错的研究，例如由我的朋友和同事 Leilani H. Gilpin 和 Cecilia Testart 等人所著的《Explaining Explanations to Society》，致力于研究什么类型的模型解释对社会最有用，以及我们如何解决现有深度学习系统输出结果的局限性等相关问题。

论文地址：https://arxiv.org/pdf/1901.06560.pdf

简而言之，2019年以来，我最大收获之一是：研究人员尤其应该意识到，我们开发模型和尝试构建系统时，应该尽可能设计成可解释性的。

不久前我撰写了《Deepmind's Alphazero and the Real Word》一文，其中提到的一些应用我非常感兴趣，并希望研究社区中越来越多的人能优先进行可解释系统设计。

论文地址：http://www.cachestocaches.com/2018/12/toward-real-world-alphazero/#navigation-in-unknown-environments

七、模拟工具的持续增长和模拟到现实的进展

如果数据不够多样化，则模拟是一种非常有用的工具，因为数据便宜且有效无限。

2018年出现了大量模拟工具，其中许多模拟工具通过模拟现实环境提供了许多逼真的图像，目的是直接用于实现现实功能。

这些环境包括超大规模、多传感器、逼真的室内数据集 InteriorNet 和“ 由 1447 层组成的 572 栋完整建筑物，总面积 21.1 万平方米”的 GibsonEnv 数据集。

今年，这一领域孩子持续发展，包括新交互式的 Gibson 环境和 Facebook （发布的令人）惊艳的 AI Habitat 环境。

表征学习、图神经网络、可解释的 AI ， ML & 机器人七大研究进展一览

图3 这些图像取材自Facebook关于AI Habitat真实模拟环境的技术报告，该技术报告于今年开源，图像确实看起来令人难以置信。（相关阅读参考：https://arxiv.org/pdf/1904.01201.pdf）

在现实世界中，出现了越来越多模拟工具技术并且能够获得良好的性能。在域随机化中，模拟场景的元素（纹理，光照，颜色等）是随机变化的，因此学习算法学着忽略那些通常无关的细节。诚然，我从未（完全）看好域随机化的前景。

对于许多机器人应用而言，特定的纹理和光照实际上可能对规划十分重要，并且特定域技术可能更合适和随机化，例如一些数据增强处理，可能会引入自身的一些问题。话虽如此，研究人员过去一年的努力（包括《Sim-to-Real via Sim-to-Sim》这篇论文在内）和通过在各个子领域中广泛使用这些技术来提高性能，让我开始相信这些技术的实用性。

论文地址：https://arxiv.org/pdf/1812.07252.pdf

OpenAI 还将域随机化应用到视觉外观和物理学上，来让 AI 学习操作魔方，证明了机器人的手可比我们人类要灵活得多。

论文地址：https://openai.com/blog/solving-rubiks-cube/

对此，2019年 RSS大会上的一篇论文《Workshop on Closing the Reality Gap in Sim2real Transfer for Robotic Manipulation》。值得一读，阅读地址如下：

论文地址：https://sim2real.github.io/

去年，除了随机化，致力于研究在各个领域间迁移知识的域适应性算法也取得了一些进展。我对诸如《 Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience》等工作特别感兴趣，文中用一些现实世界的推理使 RL 智能体从模拟中调整它的经验。

论文地址：https://arxiv.org/pdf/1810.05687.pdf

八、苦乐参半的教训

如果不围绕“ 痛苦的教训 ”进行一番讨论，那对 2019 年 AI 的讨论将是不完整的。

在 AI 界备受推崇、远近闻名的研究者 Rich Sutton 在网站上发了一篇博文探讨了，在 AI 的历史发展进程和他的职业生涯中，这些由人类手工设计的基于模型的方法如何反复被不基于模型的方法取代，如深度学习。

他列举了用于对象检测的“SIFT”特征算法作为一个例子，虽然“SIFT”特征算法已经流行了20年，但是深度学习却能非常轻易地得到该算法所实现的所有结果。

他继续说道：

这是一个重要的教训。在 AI 这个领域，由于我们正继续犯同样的错误，我们仍未完全了解它。为了看到并有效规避这些错误，我们必须理解这些错误背后的诱因。我们必须吸取痛苦的教训：从长远来看，我们必须吸取沉重的教训，即建立在我们的想法之上的思考方式是行不通的。

惨痛的教训是基于历史观察得出的：1）人工智能研究人员经常试图将知识构建到智能体中； 2）这在短期内是有帮助的，并且使研究人员满意，但是 3）从长远来看，这会使研究停滞不前甚至阻碍了进一步发展，并且4）然而最终的突破性进展，往往是得益于完全相反的方法即基于通过搜索和学习进行缩放计算的方法而实现的。由于算法的成功基于个人喜好和以人为中心，所以最终的成果往往充满了苦涩并且通常无法为人们所完全接受。

从惨痛的教训中应该学到的一件事是：通用方法（如搜索和学习两种方法）十分强大，即使可用的计算变得很大，这些方法也会随着计算量的增加而不断扩展。

他的观点引发了 AI 研究界的广泛争论，以及 Rodney Brooks 和 Max Welling 等人令人难以置信的反驳，相关阅读参考下文：

相关文章地址：https://rodneybrooks.com/a-better-lesson/
https://staff.fnwi.uva.nl/m.welling/wp-content/uploads/Model-versus-Data-AI-1.pdf

我的看法呢？我们的学习算法中总是存在一些先验假设，而我们对数据和学习特征如何转化为泛化能力，只是略懂皮毛。

这是我对表征学习和深度学习与经典规划技术的交叉研究感到如此兴奋的原因之一。只有通过代码清晰表达如何编码智能体重复使用知识的能力，AI系统才有希望在复杂的多序列计划任务上获得可信赖的泛化。我们应该期望 AI 能够展示像人类一样的组合泛化能力，可以实现无需指数级增长数据集的有效泛化。

九、结论

尽管在 2019年，AI 领域取得的进展很多，但未来几年仍将会有许多成熟领域增长。我希望看到AI 技术在更多“ 部分可观察区域”得到应用，这要求智能体对它的环境有着深刻理解从而能够对未来进行预测，这也是我正在积极努力研究的事情。

我还乐于看到所谓的终身 AI ，即系统在花更多时间与周围环境交互时能够持续学习并成长的 AI 能够取得更多进展。

目前，许多与现实世界交互的系统都很难以优雅的方式处理噪声，并且随着传感器数据的增加，除了最简单的应用之外，这些处理噪声的方法在大多数学习模型上都会失效。

作者注：这篇文章毫无疑问只是我通过个别样本得出的该领域进展，不可能有效全面地涵盖所有内容。正如 Jeff Dean 在《Deep_Learning_for_Solving_Important_Problems》一文中所指出的，每天大约有 100 篇机器学习论文发表在 Machine Learning ArXiv 上。

与此同时，这些研究从哪些方面推动了该领域的进展，我的看法也可能与大家有所不同。

文中相关参考文献，可阅读原文：

http://www.cachestocaches.com/2019/12/my-state-of-the-field/ 雷锋网雷锋网雷锋网