雷锋网按:12 月 5 日,在经过一天的Tutorial预热后,加州长滩举办的第 31 届 NIPS 大会进入正会的阶段,所有论文也将在此后的三天内进行展示。 据统计,本次NIPS大会总共接收 3240 篇论文,其中 678 篇被收录。本次大会共有超过8000人注册参会,NIPS大会在机器学习理论研究方面的地位毋庸置疑。
在昨天(12月4日),大会官方公布了本次大会的三篇最佳论文(Best Paper Award)和一篇时间检验奖论文(Test of Time Award)。而在大会的议程安排中,第一篇讲解的论文就是获得了时间检验奖论文:《Random Features for Large-Scale Kernel Machines》。雷锋网认为,这也表明这一奖项在NIPS大会眼中的重要性:最佳论文可能是当年观点最新颖、最能打动评审者的论文,但这种新颖的观点在某种程度上仍有待时间证明。而从历年大会的论文表现看,那些“最佳论文”可能起跑占优,但在时间的检验下却往往败下阵来,而往往有一些当年不起眼的论文,在此后的很长一段时间逐步显现出自己的长远影响力,而这样的论文正是人工智能社区长期发展所需要和被鼓励的。
在大会现场,论文作者之一的Ali Rahimi发表了精彩的论文解读和获奖演讲。除去对文章本身的技术讲解,给雷锋网印象最深的是,在演讲中, Rahimi回顾了其十年前顶着“学术警察”对于机器学习这门新学科的质疑前进的过程,并提出经过十年的发展,机器学习需要从野蛮生长到建立一个完整的体系的过程,并号召大家去为机器学习的理论框架添砖加瓦。
Rahimi的演讲雷锋网摘编如下(对于演讲中的技术讲解,雷锋网已做相应简写,关于论文的技术部分请参阅原论文):
谢谢,得到这个奖真好。但我要说,拿到这个叫做“时间检验奖”的奖项并不会让你感觉你老了,而是所有公司、所有课题组成员的激励。如果将这一系列论文当做一个三部曲,那么最好的东西总是留在最后,而不是最初。Ben和我已经不再年轻,所以如果你能容忍我老年人的絮絮叨叨,我想把你带回我们写这篇论文的2006年,那个时候,恐龙还在地球上游荡,我和Ben还年轻力壮,身手敏捷。
(Ali Rahimi提到的“三步曲”的三篇论文)
在2006年的NIPS上,深度学习就像一块扔进水塘里的石头一样激起了波澜。当时的深度学习训练算法复杂,结果比PCA和SPMS等线性算法略微占优,在当年的Workshop上结果令人信服。但也有人说,应该拿深度学习与如支持向量机等非线性算法做比较,但当时我们缺乏数据集,万事开头难。
当时,Ben和我都在随机算法上各自奋战:Ben研究压缩感应,我研究用于加速计算机视觉的二分图匹配的架构。在通过两封邮件后我们成了战友,也导致了这篇论文的诞生。
我们很快找到了方法。实际上这个方法效果很好,于是我们开始计划设置一个Baseline以便可以和非线性方法进行比较,但当时我们无法找到任何代码来进行比较,在这过程中,我们也经受了不少质疑和嘲笑。
为了准确地用这些随机特征去构造一个核近似映射,你可能需要用到几万个随机特征,但在我们的试验中我们只用了几百个特征,而且在一些试验中,我们的近似方法就取得了不错的结果。更让人感到惊奇的是,在一些试验中我们的近似方法的测试错误比我们试图模拟的原始的核机器方法更低。
这从现在来看很容易解释,而在当时,机器学习的概念刚刚处于萌芽阶段,刚从一个学术会议的想法变成一个更严密的理论体系,在NIPS大会有一些老学究,他们就像“学术警察”一样,他们质疑这个想法的严密性,如果你不走运,你的研究会被他们批得一文不值。但我们最后决定还是要提交这篇论文,去做一件我们认为正确的事,去挑战这些“学术警察”。幸而我们最终找到了对于这一现象的一个合理解释。
这就是我们的算法。你无需讨论内核,只需要从你的数据集中独立绘制一组函数,然后调整他们的权重,就可以得到更低的Loss,我们在第二篇论文中证明了这一点。我们使用傅里叶特征的方法,同样,用三层的神经网络可以任意地近似模拟希尔伯特空间中的函数,你无需讨论内核以证明特征。最后在第三篇论文(Random kitchen sinks: replacing optimization with randomization in learning)中我们提出了Random Kitchen Sinks,为径向基函数核构造一个近似映射,我们跳出了与传统方法比较的圈子,为深度学习提供了一个Baseline,之后,这一方法被越来越多人应用和改善,直到今天,我仍然在使用随机特征方法。
到2017年的今天,在机器学习领域我们已经取得了难以想象的进步。我们可以自由地共享代码,使用常见的任务基准,如无人驾驶、自动为照片加标签、语音转文字、翻译等方面的应用,都在表明人工智能时代正在到来,研究机器学习的公司得到了数十亿美元的估值,应该说很多方面比起我们当年那个时候要好得多,但有些地方值得我们警惕。
今天我们会说,“人工智能就是新的电力”。但我想提醒大家的一点是,今天的人工智能又何尝不像炼金术呢?炼金术的确对时代有推动,是现代化学等科学的基础,但当年的炼金术师们同样认为,用水蛭可以治疗疾病,可以将其它金属变成黄金,用1700年的物理和化学方法来面对2000年的星辰大海,其结果可想而知。
我并不是说炼金术没有用——如果你只是做一个照片分享这样的应用,炼金术完全OK。但我们希望用人工智能解决的,是诸如建立一套制度体系,解决医疗问题、改变沟通方式、影响选举等大问题,我希望未来我们生活的社会是一个严谨的、有据可查的体系,而不是像炼金术一样。甚至我有些怀念那些“学术警察”,为什么这样说呢?你们当中有多少人从零开始搭建一个深层网络并训练它,当它表现不佳,让你感觉自己做错了事情一样?如果是,请举手(现场不少人举手)。我自己也是这样,每三个月就会这样发作一次。我要说的是,这不是你的错,是梯度下降的错(众笑)。当我们遇到问题时,我们会各种猜想,例如这是否只是局部最优,或者是个鞍点?但并不是这样。
我理解各位的痛处,这里有一封我收到的邮件,我念给大家听一下(见上图,略)。我有收到很多类似的邮件,因为我们为了优化,我们采取简单粗暴的技巧去降低Loss,而不是去了解当中的关系,这也给人工智能这一门神秘的学科又增加了更多的神秘。我们可以使用我们不了解的技术,例如我不了解飞机飞行的原理不影响我搭飞机一样,但我知道这背后有一整套空气动力学原理,知其然,所以知其所以然。我们现在知道神经网络有用,但进一步想,难道你不想知道如何优化神经连接和减少内部协变从而加快梯度下降,或者神经元之间联系和协作的原理是怎样的吗?我们对神经元的模拟已经成为我们建立深度网络的基本工具,但作为一个领域,但我们对其几乎一无所知。
想象这样不同的两个你:一个你在过去的一年中尝试不同的技巧去刷分,而另一个你在过去一年中通过不同试验,去试图了解你所观察到的各种奇怪现象,去寻找它们的根源。我们之前做过很多试验,我们可以使用更多的“梯子”,但这些简单试验和梯子都是为了让我们理解更复杂的系统的基石。
想象一下,如果我们现在有一个线性系统求解器或者矩阵分解的引擎,它们可以加快数据的处理和训练,处理数以百亿计的变量,并成为真正的产品——要实现这一点当然是一个艰难的数学问题或者困难的系统问题,但这正是我们这个群体、社区需要解决的问题。这也是为什么我现在希望大家更多去理解这些技术背后的严格的原理和关系,而不是像炼金术师一样工作。我很高兴获得这个奖,而且认识了你们当中的很多人。我希望在未来,我们可以共同为之努力,把机器学习从“炼金术”变成真正的“电力”,谢谢。