RNN失宠、强化学习风头正劲，ICLR 2019的八点参会总结

机器学习人工智能 ICLR Yann LeCun

作者：刘肉酱编辑：杨晓凡

2019/05/23 15:43

RNN失宠、强化学习风头正劲，ICLR 2019的八点参会总结

雷锋网 AI 科技评论按：上周，深度学习顶级学术会议 ICLR 2019 在新奥尔良落下帷幕。毕业于斯坦福大学、现就职于英伟达的女性计算机科学家 Chip Huyen 参加了这次会议，谈到对这次峰会的感想，她有以下 8 点想要讲：

1. 包容性

这次 ICLR 2019 着重强调了包容性在 AI 中的重要作用：前两个主要演讲——Sasha Rush 的开场致辞和 Cynthia Dwork 的受邀演讲——都是有关公平和平等的。其中一些数据引起了人们的担忧：

演讲者和参会者中，女性的占比率分别只有 8.6% 和 15%；

2/3 的 LGBTQ+研究者没有以专业身份出席；

这次邀请的大会演讲嘉宾一共 8 位，但均为白人。

RNN失宠、强化学习风头正劲，ICLR 2019的八点参会总结

Sasha Rush 开场致辞的一页 PPT

不幸的是，这种情况似乎并没有引起 AI 研究者的注意和反思。其他的 workshop 都门庭若市，但 AI for Social Good workshop 却无人问津，这种情况一直到 Yoshua Bengio 的出现才有所改善。在我参与的众多 ICLR 交流活动中，没有人提到过多样性——直到有一次我大声质问会方为什么要邀请我来这个并不适合我的科技活动时，一位朋友才告诉我：「说出来可能有点冒犯，请你来是因为你是女性。」

这种现象存在的某种原因是——这类话题是非「技术性」的，这意味着，就算你在此花费再多是时间也不会对你的研究生涯有所助益。另一方面是由于社会风气依然存在一些问题。一位朋友曾告诉我，不要理睬那个在群聊挑衅我的人，因为「他喜欢取笑那些探讨平等和多样性的人」。我有些朋友不会在网上谈论任何有关多样性的话题，因为他们不想「和那种话题扯上关系」。

2. 无监督表征学习 & 迁移学习

无监督表征学习的主要目标，是从无标注数据中发现有用的数据表征以完成后续任务。在 NLP 中，无监督表征学习通常是利用语言建模完成的。然后将学到的表征运用到情感分析、命名实体识别、机器翻译等任务中。

去年有几篇成果不错的论文，内容是关于 NLP 无监督表征学习的，其中包括 ELMo (Peters et al.)、ULMFiT (Howard et al.)、OpenAI 的 GPT (Radford et al.)、BERT (Devlin et al.)，当然，还有「危险性太大而不能公布的完整的 GPT-2」。

在完整的 GPT-2 模型在 ICLR 上进行展示之后，效果令人十分满意。你可以输入任意开头语句，它将会帮你完成后续的文本创作——比如写出 Buzzfeed 文章、同人文、科学论文甚至是一些生造词汇的含义。但它现在的水平依然还没法完全与人类持平。团队现在正在研究 GPT-3，规模更大、可能效果也更好。我已经迫不及待想看到它的成果了。

虽然计算机视觉是较早的成功应用迁移学习的社区，但其基本任务——在 ImageNet 上训练分类模型——仍然是监督式的。自然语言处理社区和计算机视觉社区都在问同一个问题：「怎样才能将无监督表征学习应用到图像上？」

尽管那些最有名的实验室已经开始研究，但只有一篇论文出现在 ICLR 大会上：「Meta-Learning Update Rules for Unsupervised Representation Learning」(Metz et al.)。他们的算法没有更新权重，而是更新了学习规则。接下来在少量标注样本上微调从习得学习规则中学到的表征，来解决图像分类问题。他们能够在 MNIST 和 Fashion MNIST 上找到准确率大于 70% 的学习规则。

作者解释了其中的一部分代码，但是并不打算公开它们，因为「它与计算有关」。外层循环需要大约 10 万训练步，在 256 个 GPU 上需要 200 个小时的训练时间。

RNN失宠、强化学习风头正劲，ICLR 2019的八点参会总结

元学习的内、外循环（Metz et al.）

我有种预感，在不久的将来，我们会看到更多这样的论文。可以使用无监督学习的任务包括：自动编码、预测图像旋转（Gidaris 等人的论文《Unsupervised Representation Learning by Predicting Image Rotations》在 ICLR 2018 上很火）、预测视频中的下一帧。

3. 回溯 ML

机器学习领域的理念和时尚类似，都是在转圈子。在 poster session 四处走走感觉像走在记忆的回廊上。即使更受期待的 ICLR 辩论也终结在「先验 vs 结构」的话题上，而这是去年 Yann LeCun 和 Christopher Manning 讨论过的话题，这种讨论类似贝叶斯学派和频率学派之间的经年辩论。

MIT 媒体实验室的「Grounded Language Learning and Understanding」项目在 2001 年就中断了，但是 grounded language learning 今年带着两篇论文重回舞台，不过它穿上了强化学习的外衣：

DOM-Q-NET: Grounded RL on Structured Language (Jia et al.)：给出一个用自然语言表达的目标，该强化学习算法通过填充字段和点击链接学习导航网页。

BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning (Chevalier-Boisvert et al.)：一个和 OpenAI Gym 兼容的平台，具备一个手工制作的 bot 智能体，该智能体可以模拟人类教师指导智能体学习合成语言。

我对这两篇论文的想法和 AnonReviewer4 一样：

「……这里提出的方法和语义解析文献中研究的方法非常类似，尽管这篇论文仅引用了最近的深度强化学习论文。我认为作者会从语义解析文章中受益良多，语义解析社区也可以从这篇论文中得到一些启发……但是这两个社区实际上交流并不多，即使在某些情况下我们研究的是类似的问题。」

确定性有限状态自动机（DFA）也有两篇论文登上了 ICLR 2019 的舞台：

Representing Formal Languages: A Comparison Between Finite Automata and Recurrent Neural Networks (Michalenko et al.)

Learning Finite State Representations of Recurrent Policy Networks (Koul et al.)

两篇论文的主要动机是，因为 RNN 中的隐藏态空间很大，那么状态数量是否可以减少到有限的数量呢？我怀疑 DFA 是否能准确地在语言中代表 RNN，但我很喜欢在训练阶段学习 RNN，然后把它转换到 DFA 进行推理的想法，如同 Koul 等人的论文所示。结果得到的有限表征在游戏 Pong 中只需要 3 个离散记忆状态和 10 个观察状态，它也能帮助解释 RNN。

RNN失宠、强化学习风头正劲，ICLR 2019的八点参会总结

从RNN学习一个DFA的三个阶段（koul等人）

RNN失宠、强化学习风头正劲，ICLR 2019的八点参会总结

提取自动机（Koul 等人）

4. RNN 失宠

2018 到 2019 年的提交论文主题变化反映出：RNN 出现大幅下降。这也在意料之中，因为 RNN 虽然适用于序列数据，但也存在极大缺陷：它们无法并行化计算，因而无法利用 2012 年以来较大的研究驱动因素——算力。RNN 在计算机视觉和强化学习领域并不流行，而在一度流行的自然语言处理领域，它们也正在被基于注意力的架构取代。

RNN失宠、强化学习风头正劲，ICLR 2019的八点参会总结

RNN 失宠（图源： ICLR 2019 补充统计数据）

这是否意味着 RNN 将被抛弃？并不尽然。ICLR 2019 上最好的两篇论文之一《Ordered neurons: Integrating tree structures into Recurrent Neural Networks》就和 RNN 有关。除了这篇佳作和上文提到的两篇关于自动机的论文以外，ICLR 2019 还接收了 9 篇关于 RNN 的论文，其中大部分研究深入挖掘 RNN 的数学基础知识，而不是探索 RNN 的新应用。

在工业界，RNN 仍然很活跃，尤其是处理时序数据的公司，比如贸易公司。但遗憾的是，这些公司通常不会发表自己的研究。即使现在 RNN 对研究者不是那么有吸引力，我们也知道未来它可能「卷土重来」。

5. GAN 仍然势头强劲

相比去年，GAN 的相关变化比较负面，但相关论文的数量实际上有所增长，从大约 70 篇增长到了 100 篇左右。Ian Goodfellow 受邀发表了以 GAN 为主题的演讲，一如既往受到了众多关注。

ICLR 2019 第一个 poster session 是关于 GAN 的。出现了很多新的 GAN 架构、对已有 GAN 架构的改进，以及 GAN 分析。GAN 应用囊括图像生成、文本生成、音频合成等多个领域，有 PATE-GAN、GANSynth、ProbGAN、InstaGAN、RelGAN、MisGAN、SPIGAN、LayoutGAN、KnockoffGAN 等不同架构。讲真我并不知道这些意味着什么，因为我在 GAN 领域堪称文盲。另外，对于 Andrew Brock 没有把他的大型 GAN 模型称为 giGANtic，我也感觉挺失望的。

RNN失宠、强化学习风头正劲，ICLR 2019的八点参会总结

狗球万岁（Brock 等人）

GAN poster session 揭示了社区对 GAN 的反应是多么地两极分化。一些非 GAN 研究者如此评论：「我等不及想让 GAN 这波风潮赶紧过去」、「一有人提到对抗，我的脑子就宕机。」在我看来，他们可能是嫉妒吧。

6. 缺乏受到生物学启发的深度学习

鉴于大家对基因测序和 CRISPR 婴儿的忧虑和讨论，ICLR 竟然没有出现很多结合深度学习和生物学的论文，这令人惊讶。关于这个话题一共有 6 篇论文：

其中有两篇论文关于受到生物学启发的架构：

Biologically-Plausible Learning Algorithms Can Scale to Large Datasets (Xiao et al.)

A Unified Theory of Early Visual Representations from Retina to Cortex through Anatomically Constrained Deep CNNs (Lindsey et al.)

一篇关于 RNA 设计：

Learning to Design RNA (Runge et al.)

三篇关于对蛋白质的操作（protein manipulation）：

Human-level Protein Localization with Convolutional Neural Networks (Rumetshofer et al.)

Learning Protein Structure with a Differentiable Simulator (Ingraham et al.)

Learning protein sequence embeddings using information from structure (Bepler et al.)

RNN失宠、强化学习风头正劲，ICLR 2019的八点参会总结

受视网膜启发的卷积神经网络 (Lindsey 等人)

但是却没有一篇论文是关于基因组的，也没有一个 workshop 是关于这个话题的。这还真是令人沮丧……不过，这对于对生物学感兴趣的深度学习研究者或对深度学习感兴趣的生物学家而言，是一个巨大的契机。

我们来随便列举一个事实：视网膜论文的第一作者 Jack Lindsey 仍然是斯坦福大学的在校大学生。孩子们还没开始接受社会的压榨呢。

7. 强化学习仍然是提交论文中最热门的话题

ICLR 2019 大会上的研究论文表明强化学习社区正在从无模型方法转向样本高效的基于模型的算法和元学习算法。这种转变很可能受到 TD3 (Fujimoto et al., 2018) 和 SAC (Haarnoja et al., 2018) 设置的 Mujoco 连续控制基准上的极高分数，以及 R2D2 (Kapturowski et al., ICLR 2019) 得到的 Atari 离散控制任务上的极高分数的启发。

基于模型的算法（即从数据中学习环境模型，然后利用该模型规划或生成更多数据）在使用 1/10-1/100 的经验进行训练时，仍能达到和无模型算法一样的渐近性能。这种优势表明基于模型的算法适合现实世界任务。当学得的模拟器可能有缺陷时，其误差可以通过更复杂的动态模型得到缓解，比如模拟器的集成 (Rajeswaran et al.)。将强化学习应用到现实世界问题的另一种方式是，使模拟器支持任意复杂的随机化：在多样化的模拟环境中训练的策略可能认为现实世界是「另一次随机化」，并取得成功 (OpenAI)。

可在多个任务上执行快速迁移学习的元学习算法使得样本效率和性能得到大幅改善 (ProMP (Rothfuss et al.)、PEARL (Rakelly et al.))。这些改善使我们更加接近「强化学习的 ImageNet 时刻」，即我们可以使用从其他任务上学习的控制策略，而不用从头开始训练策略（当然了，太复杂的任务目前还无法实现）。

RNN失宠、强化学习风头正劲，ICLR 2019的八点参会总结在六个基准任务上，PEARL (Rakelly 等人) 的渐近性能和元训练样本效率都优于之前的元强化学习方法

ICLR 2019 接收论文中的很大一部分，以及 Structure and Priors in RL (SPiRL) workshop 中的所有论文，是关于如何将环境知识集成到学习算法的。尽管早期深度强化学习算法的主要优势之一是一般性（如 DQN 对所有 Atari 游戏使用同样的架构，而无需了解其中哪一个特定游戏），但是新算法展示出引入先验知识有助于解决更复杂的任务。例如，在 Transporter Network (Jakab 等人) 中，智能体使用先验知识执行具备更多信息的结构探索。

总的来说，在过去 5 年里，强化学习社区开发了大量有效的工具来解决无模型强化学习难题。现在，是时候提出更采样高效、可迁移的算法在现实世界问题上利用强化学习了。

此外，Sergey Levine 可能是今年论文最多的作者，有 15 篇之多。

8. 大部分接收论文很快就会被遗忘

在会上，我问一位知名研究者他如何看待今年的接收论文。他轻笑道：「大部分接收论文会议一结束就会被遗忘。」像机器学习这样快速发展的领域，目前最先进的结果几周甚至几天后就可能被打破，大部分接收论文还没正式展示就已经被超越也就不令人惊讶了。例如，ICLR 2018 论文中 8 篇对抗样本论文中的 7 篇在大会开始前已经被打破。

我经常会在大会上听到这样一个评论：论文接收/拒收很随机。我不点名，但一些很有名或者引用率很高的论文就曾被大会拒收过。相对的，许多论文虽然被接受了却无人引用。

作为这个领域的一份子，我经常面临各种威胁。无论我想到什么点子，似乎总有其他人已经在做了，且做得更好、更快。可是，假使一篇论文对任何人都没有帮助，那又有什么发表的意义呢？谁能说出个所以然啊！

结论

因为篇幅有限，还有很多趋势我没能详尽的写出来，比如：

优化和正则化：Adam 和 SGD 的争论仍在继续。今年 ICLR 大会提出了许多新技术，其中一些相当令人激动。看起来，每个实验室都在开发自己的优化器，我们团队同样如此。

评估度量：随着生成模型越来越流行，我们不可避免地需要提出新的度量标准，以评估生成的输出。

如果你想要了解更多，可以去看看David Abel 发布的一个 55 页的 ICLR 2019 笔记。对于想了解 ICLR 2019 热点的人，下面这张图也许能够帮助到你：

RNN失宠、强化学习风头正劲，ICLR 2019的八点参会总结

看起来，应该写一篇名为「A robust probabilistic framework for universal, transferrable unsupervised meta-learning」的论文

我真的很享受 ICLR 这个大会——它够大，你能在此找到很多志同道合的朋友；也够小，可以尽情享受不用排队的乐趣，4 天的会议安排也正好。相比之下，NeurIPS 的会议就有点长了，参会 4 天后我就会边看论文海报边想：「看看所有这些知识，我应该现在就掌握，但又懒得行动。」

我在 ICLR 大会上收获最大的不仅仅是思路，更是科研的动力。许多和我年纪相仿的科研者作出的卓越成就让我看到了科研之美，激励我更努力地去做研究。再说了，哪怕只是用这一周的时间来看看论文、见见老友也是个超棒的选择~

via huyenchip.com/2019/05/12/top-8-trends-from-iclr-2019.html，雷锋网 AI 科技评论编译

更多顶会报道请继续关注雷锋网 AI 科技评论

一个续写故事达到人类水平的AI，OpenAI大规模无监督语言模型GPT-2

AI领域的蝙蝠侠大战超人：LeCun与Manning如何看待神经网络中的结构设计

专题

ICLR 2019 查看更多文章