ICLR 2017 4 月份马上就要召开,OpenReview 的结果也陆续出来。既然是一项学术会议,自然就涉及到论文的录取与评审。其中,一篇早在去年就火遍各大媒体的论文遭到了拒绝,并引发了一场公开辩驳(撕逼)。其中缘由到底是怎样?一起和雷锋网 AI 科技评论一起来看看吧。
不知看官是否还记得 大明湖畔的夏雨荷 去年 11 月的一篇论文——《LipNet: End-to-End Sentence-level Lipreading》,由牛津大学人工智能实验室、谷歌 DeepMind 和加拿大高等研究院 (CIFAR) 联合发布,当时雷锋网 AI 科技评论也做过相关报道。此文一出,很快便引来了众多的关注,第一及第二作者 Yannis Assael 和 Breandan Shilingford 也是采访不断。
这篇论文介绍了利用机器学习实现语句层面的自动唇读技术 LipNet,它采用了一种能够将可变长度的视频序列映射为文本的模型,采用了时空卷积、LSTM 及CTC loss,并完全是以端到端的方式训练的。结论显示,在 GRID 语料库上,LipNet 实现了 93.4% 的准确度,超过了经验丰富的人类唇读者和之前的 79.6% 的最佳准确度。而且,这一转换文本的速度几乎是实时的。
论文火到什么程度呢?Nvidia CEO 黄仁勋在 CES 2017 上提及了他们与牛津大学的 LipNet 团队有合作,研发读唇深度学习网络模型的应用,并表示这一成果将应用于 Nvidia 的协同驾驶技术上。
而它为何突然蹿红,经雷锋网 AI 科技评论与三位相关专业的研究生求证讨论后,尝试总结了如下三点原因:
1. 大 IP 的渲染。牛津大学人工智能实验室、谷歌 DeepMind 和 CIFAR 三家机构强强联手,大家心中的预期会提升不少,也会觉得这应该是一项非常有意义的发现。
2. 技术层面的提升。传统的唇读技术是根据视觉特征及预测来实现的,即使是端到端的训练,目前也只能实现单个词的分类,而不是语句层面的预测。LipNet 的提出是第一个在唇读领域将深度学习应用于端到端学习的模型。
3. 应用领域接地气。世界上绝大多数人都采用语言交流,读唇术如果能获得广泛应用,能够帮助更多有听力障碍的人,甚至还能应用到手机语音助手领域。因此广泛应用的可能性又把这篇论文提升到了一个高度。
4. 媒体的渲染引发了病毒式传播。当时有某些媒体过于乐观,将它与《2001 太空漫游》里的飞船主控计算机 Hall 类比,认为人类离读懂唇语的机器已经不远,也有不少媒体发表了担忧,认为这将让人类毫无隐私可言。虽然这些只是猜测与联想,但这样的渲染也无疑吸引了不少读者的关注。
就是这样一篇聚光灯下的论文,投递了 ICLR。花开两朵各表一枝,现在 AI 科技评论来说说一个神奇的会议——ICLR。
ICLR 神奇在哪?它成立于 2013 年,比起资历久远的其它大会实在是年轻得可以,甚至还没有被 CCF 收录,也就是说连 C 类会议都算不上,但它却凭借出色的论文质量得到了越来越多的关注,经常与 NIPS、CVPR 等国际大会相提并论。MXNet 的李沐在与雷锋网交流的时候,他也向 AI 君推荐了 ICLR,认为非常值得一去。
在 2013 年,Yann LeCun 和 Yosha Bengio 联合发起了这个会议,希望能在一个新的小型场所集中讨论「学习表征方法」,也因此而取名为「International Conference on Learning Representations」。
ICLR 的 Open Review 环节,就是 LeCun 与 Bengio 倡导的一种评审方式。所有的论文都会直接发布在 arXiv 上,而在投稿截止后,所有的论文投稿都会在 openreview.net 上公开评审。区别于 double blind 的论文审阅流程,投稿人与评审可以在这个公开场合进行交流与评阅。雷锋网 AI 科技评论认为,直接在网上公开论文及评审流程能够提升研究迭代效率,无需等待数个月的评审环节。但就像公开阅卷一样,如果学校与姓名露出(特别是论文有大牛加持的情况下),论文可能会产生不必要的光环效应,评审人会形成一定的心理预期,这样可能会导致「盛名之下其实难副」的情况。
但实际上这种担心是多余的,毕竟这篇在去年火得一塌糊涂的 LipNet 论文,在今年就遭遇了 ICLR 的无情拒绝。
其中与评委争论得最为激烈的就是导师 Nando de Freitas,作为牛津大学机器学习教授,DeepMind 研究科学家,还是 CIFAR 的 Fellow,论文遭到质疑甚至面临被拒的风险,Freitas 在 Open Review 上不仅据理力争,从行文上看还有语出不逊咄咄逼人之嫌,而评审同样也不客气,直接开炮,简直隔着屏幕都能感受到唇枪舌剑的紧张氛围。
比如说,Freitas 直言评审的意见更新毫无价值,吐槽评审给出的修改意见简直是居高临下,站着说话不腰疼,完全是一派胡言!
而评审也是一点不手软,扬言「哦,这么直接应用深度学习的方法真是一点技术含量也没呢,要是我在什么新领域上试试深度学习,结果应该也不错的。」然后还把之前给论文的评审意见(原本的意见是推荐上 workshop)删掉了。
本着社会主义核心价值观的原则,AI 科技评论就不全文贴出了,大家稍微感受一下就好,想看完整版的可以点此处查看。
几个回合后,双方都感受到了自己实在是太不礼貌了,停止了语言上的攻击。Freitas 在 1 月 23 日回复了评审人的意见,虽然语气软了不少,但隐约看出态度还是很强势的。
「我为我的无礼感到抱歉,但我坚决不同意您的意见。」
接下来他将论文的走红始末回顾了一番,翻译过来大概意思就是:我们周五把论文挂了出来,结果隔天就在 Reddit 上走红了,而且帖子的标题的指向是我们已经取得了超人类的通用唇读性能。Neil 在 Twitter 上指出了这一点,我们在周日也马上进行了修改。但在周一的时候,论文已经获得了广泛的传播,(所以不是我们在炒作)。
而针对其中的观点,Freitas 又逐一做出了反驳。除了继续佐证自己的观点,Freitas 还针锋相对地提醒还有两位评审没有回答他提出的尖锐问题。虽然嘴上道了歉,但还是毫不服软,看来真的是和评审杠上了。
最终评定结果于 2 月初终于贴出,AI 科技评论摘编重点如下:
最终结果:拒绝(Reject)
评论:
首先要说明的是,评审主席不看 Twitter,也不看 Reddit/ML 这样的东西,所以以下的评审意见纯粹是基于文章本身及 OpenReview 的讨论结果而定的。
(雷锋网翻译版本:不要和评审们扯文章有多大影响力,我们只从论文出发。开头就是一刀啊,可以预见接下来的惨烈……)
ICLR 的评审过程初衷是为了创建作者与评审者两者的建设性讨论,而讨论的目的是为了让作者们在这个过程中有所精益。
(雷锋网翻译版本:目的是为了学术圈的共同进步,所以经历这么长时间的扯皮也是为了你们作者好啊。)
在讨论的过程中,虽然一些评审提出了这篇论文的积极作用,但实际上并没有任何证据显示评审会因为它在社交媒体的传播力而影响判断(甚至是意识到这种影响)。
(雷锋网翻译版本:再次重申媒体影响力不会影响对论文的判断,所以不要拿这个说事。)
作者认为,评审们会因为媒体报道而产生偏见,但这一点并不成立。从讨论中我们可以看出,作者与评审在论文的创新度、原创度及研究意义上有着很大的分歧。虽然作者拥有与评审自由辩驳的权利,但使用了像「一派胡言」、「毫无道理」、「居高临下」、「目中无人」(雷锋网按:以上几个词为小编强行翻译,原词分别为"absolute nonsense", "unreasonable", "condescending"及"disrespectful")并无益于科学的建设性讨论,而为了提升论文质量花费了大量时间的 ICLR 评审们也感到了作者深深的冒犯之意。
(雷锋网不入流翻译:就算是观点不一样,但用那些不礼貌的词,真的大丈夫?对得起我们评审这么花心思为你审核文章吗?)
随后,评审给出了两个结论:
1. 评审们非常重视论文的创新度及研究意义。
2. 经过审阅,论文确实还没有达到入选 ICLR 的标准。「论文是一篇应用性论文,作者提出了第一个用机器学习实现端到端的语句层面唇读技术。」
当然,优点自然有,但不足之处也不少,雷锋网摘编主要内容与读者们分享,主要集中于三个方面。
1. GRID 数据集依然比较局限,论文基于此得到的结论自然也不足以成为震撼的研究性进展。
2. 论文在某些地方存在夸大的地方,至少在表述上存在问题。
3. 论文的某些论据不够翔实。
最后又总结了一番:
此文的缺点在于,在研究深度学习的相关应用时,它并没有做出巨大的技术贡献,也没有提出任何超出目前应用领域的新见解。
这一句,让人心服口服。
前段时间雷锋网 AI 科技评论在与 MXNet 的李沐聊天时,在讨论工业界与学术界的交融问题时也提及了这件事。李沐丝毫没有掩饰他对这篇论文的欣赏之情,也表达了其被拒绝的惋惜之情。他认为这篇论文实际上写得很不错,只是不符合 ICLR 的评审标准。论文里提及能将唇语的判别能力提升 10%,对于工业界也是一个很大的突破。不过,好的结果对工业界有用,但从研究的结果来说,不一定就与突破划上等号。就像李沐此前所提及的一样,工业界追求的是「how」,而学术界看重的是「why」,产品与研究的方向完全不同,前者追求效果,能做出东西来就是胜利,而后者更看重创新。
「NIPS 看重的是偏理论的东西,有的论文甚至一行代码没有也能入选,而 ICLR 希望做出来的东西具有洞见,需要的是能利用现有的东西解释其中的原因。」
李沐随后也向雷锋网 AI 科技评论分享了他做学术研究时的一些心得,「做学术研究时最重要的是想法,也就是说你对这个东西有什么看法,并且能想得透彻,写得明白(让评审看懂),而第二点在于,做这个东西你是否有什么洞察,能给出深层次的解释,第三点才是这个方法的结果好不好。」
这样看来,LipNet 的论文无法入 ICLR 的法眼,根本原因在于将应用型的论文投递到了追求理论创新的大会上。雷锋网 AI 科技评论小编揣测,大概是 Freitas 对于论文取得的工业界成果非常自信,认为拿下 ICLR 十拿九稳,没想到在学术圈却没有获得预期的认同,所以才会气得跳脚,说出那些冲动的话吧。
自此事情已经告一段落。雷锋网小编就顺嘴提个八卦:时间还得推移到 2012 年的 CVPR 上,当时 LeCun 已经是大名鼎鼎的机器学习大牛,他的论文得到了很好的实验结果,但评审认为论文并没有说明为何能得到这个结果,因此把他的论文给拒绝了,LeCun 自此表示,不再向 CVPR 投递论文。
历史总是相似的,在 LeCun 组建的 ICLR 大会上,类似的场景再度上演。虽然后来 LeCun 还是向 CVPR 投递了论文,只是不知道这一次,当事人们和看客们,又会做何感想呢?