雷锋网 AI 科技评论按:全世界的机器学习和人工智能专家们下周就要聚集在加州长滩,在NIPS2017上介绍自己在人工智能和计算神经科学方面的最新研究成果了。对 Facebook 来说,他们这次有10篇论文经过评审后被NIPS收录,他们的研究人员和工程师们也会在一周的多个 workshop、研讨会、tutorial 中大力参加讨论以及展示自己的成果。
并且,此次 NIPS 期间,Facebook 将首次在 Facebook LIVE 上直播大会内容,许多大会 session 都会播出。直播地址在 这里,到时无法亲自到场的读者可以在北京时间12月5日星期二早上7点半(太平洋时间12月4日星期一下午5点半)开始收看直播,到时可以看到的是大会开幕仪式后的特邀演讲,由 Google的 Principal Scientist John Platt带来的「Powering the next 100 years」,讲述 Google 如何使用机器学习来解决未来的能源问题。
「Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model」
双料冠军:从对抗性学习转移知识到生成式视觉对话模型
主要内容:视觉对话这种任务,需要 AI 和人类展开关于视觉内容的有意义的谈话,AI 的语言也需要是自然流畅的、能够跟人类对答的。比如假想有位盲人用户正在使用社交媒体,然后他的朋友上传了一张照片。如果 AI 能够为他描述图中的内容就再好不过了,比如 AI 说「约翰刚刚上传了一张照片,他在夏威夷度假呢」。用户就可能接着问:「不错啊,他在沙滩上吗?」我们也希望 AI 可以自然地应答,并且能够准确地提供「不,他在山上」这样的答案。或者是当你和 AI 助理对话的时候,你可能会说「你能在婴儿房的监控里看到我家小孩吗?」AI 说:「能看到」。你接着问:「他在睡觉还是在玩」,我们也希望得到一个准确的答案。又或者人类和机器人组队,共同完成搜救任务,机器人走到危险区域后,人类问:「你身边有没有哪个房间在冒烟?」机器人回答:「有,有一个房间」,然后人类说:「那就走进去找找有没有人」。
论文中,Facebook 的研究人员们提出了一种新的训练框架,它可以用于训练神经网络序列生成模型,尤其适合用于基于事实的对话生成。这类模型的标准训练范式是最大似然估计(MLE)或者最小化人类回应的交叉熵。然而多个不同领域的研究中都发现,用 MLE 方法训练出的神经网络对话生成模型(G)会经常出现喜欢回答「安全的」、通用化的语句的问题(比如「我不知道」,「我说不上」)。相比之下,对抗性对话模型(D)经过训练后可以列出一系列候选的人类回答,在自动度量、丰富性、信息量方面带来比生成式模型更好的表现。然而,D 这样的模型在实际应用中效果不好,因为无法让它和人类之间进行真正的对话。Facebook 的这项研究希望在这两个方面都达到最佳的表现,要像 G 一样能起到实际的帮助,也要像 D 一样在几个方面有优秀的表现。他们的方法就是把 D 中的知识迁移到 G 中。
论文的主要贡献是提出了一个端到端可训练的生成式视觉对话模型,其中,G 接收来自 D 的梯度,作为G生成的序列样本的感知损失(不是对抗性损失)。作者们在这个离散分布中应用了近期提出的Gumbel-Softmax(GS)近似;具体来说这是带有一个 GS 采样器序列的增强后的 RNN 网络,并且配合一个直通的梯度估计器,这样就可以提供端到端训练需要的可微性。作者们同时还提出了一个强大的视频对话编码器,还加入了用于编码回答语句的自我注意力机制,和一个度量学习损失,都帮助 D 更好地在问题的回答中抓到语义上的相似性。整体来说,作者们提出的模型在 VisDial 数据集上以2.67%(recall @10)的显著优势超越了此前的最好成果。项目代码地址为 https://github.com/jiasenlu/visDial.pytorch
(雷锋网 AI 科技评论注:在之前一篇文章中,Facebook 也更细致地介绍过自己在视觉对话方面的研究成果,详情请看 能看图回答问题的AI离我们还有多远?)
ELF: An Extensive, Lightweight and Flexible Research Platform for Real-time Strategy Games
ELF:一个用于即时战略游戏的可拓展、轻量、灵活的研究平台
ELF是一个可拓展、轻量化设计、高灵活性的强化学习研究平台,它可以提供并行化的游戏环境模拟。在ELF的基础上,作者们实现了一个高度定制化的即时战略游戏(RTS)引擎,并且包含了数个游戏环境。其中一个游戏 Mini-RTS 是一个微缩版本的星际争霸,其中包含了游戏中的关键变化点,而且在笔记本上就可以达到165K帧/秒的运行速度,要比其它的平台快一个数量级。在实验部分,作者们只用了一块 GPU 和数个 CPU ,就端到端地训练了一个玩 Mini-RTS 的 AI,它能以超过70%的胜率击败基于规则的系统。
(雷锋网 AI 科技评论按:这篇论文的详细解读见 详解Facebook田渊栋NIPS2017论文:让大家都能做得起深度强化学习研究的ELF平台)
Fader Networks: Manipulating Images by Sliding Attributes
Fader网络:调节属性,操控图像
论文简介:这篇论文中作者们提出了一种新的编码解码器架构,经过训练以后,可以利用对抗性训练直接隐含空间内对图像间主要信息和特殊属性值进行解耦,从而完成图像的重构。这个解耦过程使得我们可以控制其中的属性,进而生成面部照片的多种变化结果,比如假想一个人年轻时候和年老时候的样子,同时还能保持足够的自然度。目前的顶级方法多数都依靠训练一个像素空间的对抗性网络,并在训练时选取不同的属性值。与这些方法相比,论文中所提的方法用到的训练方法要简单得多,而且拓展到同时改变多个属性值的时候也有不错的表现。
Gradient Episodic Memory for Continual Learning
用于连续学习的梯度片段记忆
论文简介:机器学习在有一件事上一直做得不好,那就是学习新问题的时候如何不忘记之前完成过的任务。在这篇论文中,作者们提出了一种新的学习度量,用于评估模型如何在一系列学习任务中迁移知识。最终,作者们提出了一个新的顶级表现的算法,GEM,梯度片段记忆,它使得学习机器在学习新任务的时候也可以不忘记以往学到的技能。
Houdini: Fooling Deep Structured Prediction Models
Houdini:如何骗过深度神经网络的预测模型
论文简介:在尝试评估、提升学习机器的健壮性时,生成对抗性样本是非常重要的一步。目前为止,多数的方法都只在分类任务中起作用,并且无法用来衡量真实遇到的问题中的模型表现。这篇论文中作者们提出了一种新颖灵活的方法,称作 Houdini,它专门为刚才提到的情境生成对抗性样本作为模型最终表现的评估手段,不管是还是。作者们成功地把 Houdini 用于了多种不同的应用场景中,包括语音识别、位姿估计和语义分割。在所有这些场景中,基于 Houdini 的攻击都比用于训练模型的传统代理方法取得了更高的成功率,同时 Houdini 中用到的对抗性扰动也要更容易理解。
One-Sided Unsupervised Domain Mapping
单向无监督主题映射
论文简介:2017年的重大发现之一就是对于两个不同的视觉主题,不给定任何匹配的训练样本也可以学到它们之间的模拟。比如,给定一个手提包的照片,这些方法就可以找到匹配的鞋子,即便它们从来没有见到过这样的搭配。近期的方法都需要学习从一个主题到另一个主题的映射,然后再学习反向的映射。在这篇论文中,作者们提出的方法无需完成这样的整个过程,所以效率就高得多。同时,这种方法得到的映射还要明显更准确。
On the Optimization Landscape of Tensor Decompositions
张量分解的优化状况的讨论
这篇论文中,作者们分析了随机超完备张量分解问题的优化状况。这类问题在无监督学习中有许多应用,尤其是在学习隐含变量模型时。实际应用中,在非凸目标下可以高效地用梯度上升方法解决这种问题。作者们的理论结果表明,对于任意的小常数 ϵ>0,在函数值 (1+ϵ)-因子 大于函数自身期望的一系列点中,所有的局部最大值都趋近于全局最大值。
Poincaré Embeddings for Learning Hierarchical Representations
用于学习层次化表征的 Poincaré 嵌入
在文字和计算图这样的符号化数据的建模过程中,表征学习这种方法的价值已经变得无比重要。符号化数据通常显示出带有隐含的层次化结构的特点,比如,所有的海豚都是哺乳动物,所有哺乳动物都是动物,所有动物都是生命,等等。如果能够捕捉到这种层次化的结构,人工智能的许多核心问题都可以因此获益,比如对继承的推理,或者建模复杂关系。这篇论文中,作者们提出了一种用于表征学习的新方法,它可以同时提取层次化结构和相似性的信息。他们的做法是改变了背后的嵌入空间的几何结构,并且提出了一种高效的算法来学习这些层次化嵌入。作者们的实验表明,对于带有隐含层次的数据,他们提出的模型在表征容量和泛化能力方面都要显出高于标准方法。
Unbounded Cache Model for Online Language Modeling with Open Vocabulary
用于不限定词汇的在线语言建模的无边界缓存模型
如果模型的训练数据和测试数据的分布有所变化,现代的机器学习方法表现出的健壮性通常不好。举例来说,这种问题就会出现在用 Wikipedia 训练模型,然后用新闻数据测试模型的时候。在这篇论文中,作者们提出了一种大规模、非参数化的记忆组件,它的作用是帮助模型动态适配新的数据分布。作者们把这种方法用在语言建模中,其中的训练数据和测试数据来自两个不同的主题(比如一个是 Wikipedia,一个是新闻)。
VAIN: Attentional Multi-agent Predictive Modeling
VAIN:基于注意力的多智能体预测建模
预测一个大规模社交系统或者物理系统的行为,都需要对其中的不同个体之间的互动进行建模。近期的研究进展,比如神经网络,已经通过对每次互动建模的方式大幅度提升了预测质量,然而这种方法同时也有着过于高的计算资源消耗。在这篇论文中,作者们把“计算昂贵”的互动建模模型换成了一个简单的注意力机制模型,它有着类似的准确度,但计算成本要低得多。这种计算方法的时间复杂度线性增加的特质,也使得它可以用在规模大得多的多智能体行为精确预测模型中。
论文打包下载:https://pan.baidu.com/s/1eS3w9OY 密码: kn7v
Tutorial
Geometric Deep Learning on Graphs and Manifolds,图和流形的几何深度学习。Yann LeCun在场;当地时间12月4日星期一,下午2:30~4:45,Hall A。
Workshop & 研讨会 (有 Facebook 成员组织或参加的)
Black in AI Workshop,AI 领域中的黑人 Workshop
Deep Learning at Supercomputer Scale Workshop,超级计算机规模的深度学习 Workshop。12月9日星期六早8点到下午5点,Facebook 研究院、DeepMind、Salesforce 研究院、OpenAI、谷歌研究院、百度研究院等多个机构的研究人员将进行演讲
Deep Reinforcement Learning Symposium,深度强化学习研讨会。12月7日星期四下午2点到9点(5点到7点 Poster+零食时间),DeepMind 的 David Silver 将进行开场演讲介绍 AlphaGo 中的深度强化学习,苹果 AI 总监 Ruslan Salakhutdinov 也有演讲,主题为「神经地图:为深度强化学习构建记忆」
Emergent Communication Workshop,新兴语言和沟通 Workshop
Interpretable Machine Learning Symposium,可解释的机器学习研讨会。12月7日星期四,下午2点到9点半(6点到7点 Poster+晚餐时间),地点 Hall C,Yann LeCun 会参加8点半开始的最后一项圆桌讨论
Learning Disentangled Representations: from Perception to Control Workshop,学习解耦的表征:从感知到控制 Workshop。12月9日星期六早8:30到晚6:00,计划邀请 Yoshua Bengio 在下午3:30演讲。
Learning in the Presence of Strategic Behavior Workshop,学习策略性行为的出现 Workshop
Machine Learning on the Phone and other Consumer Devices Workshop,手机以及其它消费级设备上的机器学习 Workshop。12月9日星期六早8点到下午6:30,地点 102 A+B。
Machine Learning Systems Workshop,机器学习系统 Workshop。12月8日星期五早8:45到下午18:15,其中贾扬清会介绍Caffe2,Jeff Dean 在下午2:50演讲介绍机器学习系统,也有关于ONNX和PyTorch的演讲。
Optimization for Machine Learning Workshop,机器学习优化 Workshop
Women in Machine Learning (WiML) workshop,机器学习界的女性 (WiML) workshop
Workshop on Automated Knowledge Base Construction (AKBC),自动知识基础构建 Workshop
Workshop on Conversational AI : Today's Practice and Tomorrow's Potential,对话 AI Workshop:今日的实践激发明日的潜力
Workshop on Visually-Grounded Interaction and Language (ViGIL),基于视觉内容的交互和语言 (ViGIL) Workshop
Facebook 在 NIPS 2017中的论文和相关活动就介绍到这里。Facebook 的10篇论文打包下载地址为:https://pan.baidu.com/s/1eS3w9OY 密码: kn7v。雷锋网 AI 科技评论会继续跟进 NIPS 2017进行全方位报道,请继续关注哦。
相关文章: