作者 | 蒋宝尚
编辑 | 丛 末
发明 LSTM 的大神Jürgen Schmidhuber和图灵三剑客在学术界的恩怨情仇是众所周知的事情了。
2015年的时候,在Hinton、Bengio、LeCun还未获得图灵奖之前,Jürgen就曾发文炮轰三位大神联合发表于 Nature 的综述文章“Deep Learning”。列出了九条条理由指责三巨头没有足够尊重前人的成果,没有提及深度学习之父、没有引用远古的BP思想等一些研究成果......
昨日,Jürgen再发博客批评2019年的本田奖颁给Hinton,博客主题是“停止把奖项颁给错误的人”,针对Hinton获奖的六条理由,给出了六条批评意见。
在文章中,c首先承认了Hinton在人工神经网络和深度学习方面做出了重大贡献,但批评本田奖的颁奖词把他人的根本发明归功于Hinton。
整篇博客围绕“Hinton 白嫖了前人以及我的工作贡献,却只字未提”论点,以公开发表的论文以及新闻稿为论据,有理有据的展开了论证工作。
1、本田奖:Hinton博士让深度学习广泛应用,包括创造了反向传播方法。
Jürgen:Hinton和他同事确实对深度学习做出了某些重大贡献,例如波尔兹曼机、胶囊网络等技术,但是将反向传播归功于他完全错误。且不说1985年那篇“反向传播”文章中,Hinton只是第二作者,而在这篇文章三年之前,将此方法用于神经网络的训练的思想就由Paul Werbos提出。
另外,1965年,Ivakhnenko和Lapa提出了第一个通用的、适用于任意多层的深层多层感知器的有效学习算法。
Ivakhnenko在1971年的论文已经描述了一个有8层的深度学习前馈网络,比1985年Hinton工作的要深得多.....这些奠基性的工作,Hinton近几年一嘴都没提过。
2、本田奖:2002年,Hinton提出了限制性波尔兹曼机器(RBM)的快速学习算法,此类方法让深度学习更加强大,也导致了目前的深度学习革命。
Jürgen:Hinton的神经网络无监督的预训与当前的深度学习革命无关。而且,他的深度前馈神经网络是我1991年类似工作的翻版。
Hinton在2006年的那份工作也和我使用的被称为神经历史压缩器类似。1993年我的方法已经能够解决先前一些无法解决的“非常深度学习”任务,然后,我们用更好的,纯监督的LSTM代替了历史压缩器(history compressor)。
所以说,我的实验室曾两次率先从无监督的转变监督学习,主导了2010年代初的深度学习革命。
3、本田奖:2009年,Hinton博士和他的两个学生利用多层神经网,在语音识别方面取得了重大突破,直接导致了语音识别能力的大幅提升。
Jürgen:这太扯了,最棒的端到端神经语音识别器是基于我的两个方法:1.长期短期记忆;2.连接主义时序分类算法。在2017年的时候,我们的团队就成功地将时序分类算法(CTC)训练的LSTM应用于语音。到2015年时候,CTC-LSTM大大改善了Google的语音识别技术。几乎所有的智能手机都支持这种功能。Google的2019 年设备语音识别(2019年不再在服务器上)仍基于 LSTM。
4、本田奖:2012年,Hinton博士和另外两名学生的工作彻底改变了计算机视觉。
Jürgen:Hinton的团队成功主要归功于用于加速CNN的GPU。
2011年的时候,我在瑞士的团队就做出了基于GPU的CNN,称作DanNet的网络实际上是第一个突破,他比早期网络更加深,而且当时它就表明:深度学习的效果远远好于现有的最先进的图像识别对象。
DanNet在2011年硅谷的IJCNN大会上大放异彩的成绩就充分说明了这一点。如今IBM、西门子、谷歌和许多初创公司都在用这种方法。
现代计算机视觉的大部分工作都是我2011年的延伸。
5、本田奖:Hinton发明了“dropout”。
Jürgen:“dropout”实际上是Hanson早先的随机Delta规则的一种变体。Hinton在2012年发表的论文并未引用这一点。此外,我们已经在2011年证明,dropout对于赢得计算机视觉竞赛并获得超过人类的成绩并不是必要的 ,唯一真正重要的任务是使CNN在GPU上更深、更快。
6、本田奖:Hinton的贡献史无前例、不可或缺。
Jürgen:我才是!当前在计算机视觉、语音识别、语言处理、手写识别、机器人技术、游戏、医疗影像等领域产出的应用,其中2~6都依赖于我们的LSTM。
这篇批判文章,距离本田奖的颁发已经有半年之久,经过这么长时间的准备,Schmidhuber用近百篇参考文献证明,本田奖颁给Hinton就是个错误。
Schmidhuber认为:Hinton最引人注目的工作是推广了其他人创造的方法,而且从来没有在论文中提到来源。本田应该纠正这一点,不应该把不属于他的原创工作归结到他的身上,也不该让企业公关行为扭曲了科学事实。
此文一出迅速在reddit上面引起广泛讨论,批评支持皆有,但批评居多。大家都在说,发明人或许很重要,但是最重要的人是传播者,Hinton获得多类奖项合情合理。
(雷锋网)
Jürgen很棒,但是没有三巨头,我们不会用BP来训练神经网络。
(雷锋网)
BP在数学上很普通,重要的是,Hinton将它引入了神经网络!
(雷锋网)
我们应该把奖颁给实际改变世界的人,而不是仅仅第一个发明或者发现事物的人!
还有人提出疑问:那么我该在论文中引用Schmidhuber和Hinton么?
在2019年,在图灵奖颁发给深度学习三巨头:Yoshua Bengio、Geoffrey Hinton、Yann LeCun的时候,有不少人质疑为什么奖项不颁发给Schmidhuber,若单论贡献Schmidhuber也是深度学习先驱者,他发明的LSTM对学术界和工业界的影响不亚于获图灵奖的某个人。
国内著名学者周志华认为 LSTM 是教科书级的贡献。做为瑞士Dalle Molle人工智能研究所的联合主任,除了在1997年提出LSTM之外,他还在1992年提出的一种PM(Predictability Minimization)模型,或者或为GAN的变种。
2011年JürgenSchmidhuber还与他的博士后学生在GPU上实现CNN(卷积神经网络)的显著加速,现在这种方法已经成为计算机视觉领域的核心。
而在谷歌学术上,Schmidhuber的LSTM就已经超越反向传播,登顶20世纪AI论文高引第一名。如此优秀的学者,在学界总是充满争议,是因为他的研究总是和其他人的研究莫名撞车,不光和图灵奖三剑客有过纠纷,还曾跟Ian Goodfellow争吵过GAN到底算谁的。
《硅谷钢铁侠》的作者在2018年5月写过一篇Jürgen Schmidhuber的特稿,题目是《这个人是AI圈想要忘记的教父》。这篇文章提到,在大多数学术界之外,Schmidhuber仍然很不为人知。主要是因为学术圈里的同伴不喜欢他,不少同行评价他自私、狡猾,给人带来痛苦。
由于Schmidhuber频繁在学术期刊和会议上怼研究人员,打断他人演讲要求同行承认他们借用甚至窃取了他的想法,后来业内创造了一个动词”Schmidhubered“,谁被别人攻击了就可以用Schmidhubered。
LeCun也曾在一封email回复中写道:“Jürgen 对众人的认可过于痴迷,总是说自己没有得到应得的很多东西。几乎是惯性地,他总是在别人每次讲话结束时都要站起来,说刚刚提出的成果有他的功劳,大体上看,这种行为并不合理。”
我们顺着LeCun的回复思考,痴迷于众人的认可是否重要?或者说奖项是否能够代表贡献?这个回答从历史的角度来看似乎能够说句“是”。
学过微积分的都知道,有个基本定理称为牛顿-莱布尼茨公式,牛顿和莱布尼兹在谁是微积的创立者上,二人曾争论不休。鉴于当时牛顿皇家学会社会地位,如果莱布尼茨不拿出命来争,恐怕这个定理会被改名为牛顿公式,那么他的贡献也会被埋没。
定理的命名何不看做是一种奖项?能够让自己的工作得到别人的认可,知道自己研究能够带给别人帮助是顶尖科学家毕生的追求。如果奖项不本着公平、公正的态度,如果奖项的评选让资本、势力来干预,那会寒了做科研人的心。
这种资本操控技术认可的例子在科学历史上不是没有发生过,例如还是青年的特斯拉就因为资本的势力被爱迪生将27项专利转入爱迪生通用公司。获得资本加持的爱迪生如今还在小学教科书上表现为一生拥有2000多项发明、1000多项专利,一天不申请专利就浑身难受的发明狂人。
事实上,爱迪生一生发明无数,但不少都是其公司工程师研究出来的,然后强行以他的名字申请专利。他抢先注册了不少别人的专利,从而构建了专利网络来打压对手。而特斯拉晚年凄凉、穷困潦倒,最终死在了纽约一旅馆3327房间,并留下一大笔债务未还。
所以,强者愈强,弱者愈弱的马太效应在学界上也适用,如果在学术上能够获得非常多的奖项,那么更多的奖项也会随之而来,也会有更多的话语权。
LSTM的发明人Schmidhuber的处境或许没有莱布尼兹和特斯拉那么困顿,那种声嘶力竭要求认可,要求有更多的“奖项”,要求在论文中尊重原创者的做法非常相似。
目前Schmidhuber的心情或许可以用下面的这张图片表现,虽然两者表达的不是一个事情,但都表现出了那种绝望,“我真只吃了一碗”可以换成“这项工作真是我的”。