也许我们应该要求每篇论文都要在摘要里面用一两句话说明他们提出的方法有哪些局限和不足。这样,很多的科学成果误读和狂热都可以在一开始就避免。
推特网友 Sebastian Risi,2019-10-28
雷锋网 AI 科技评论按:纽约大学心理学教授 Gary Marcus 曾是 Uber 人工智能实验室的负责人,如今他是 Robust.AI 的创始人和 CEO,近期他还出版了一本书《Rebooting AI》。但 Gary Marcus 并不是对深度学习的学术和应用成果津津乐道的技术人物,相反地,他经常对深度学习领域「泼冷水」,2018 年时他就曾在 arXiv 上公开文章,指出深度学习存在十个问题。
近期 Gary Marcus 又发表了一篇文章,更针对性地指出 AI 相关的信息传播也有很大的问题,不仅媒体经常夸大报道,许多研究结构和学者也对 AI 的能力夸下海口。Gary Marcus 认为这是危险的,结合很多具体例子对这种风气进行了批评。雷锋网 AI 科技评论全文翻译如下。
媒体从来都会以满腔的热情报道 AI 或者纳米或者量子之类的科学领域的新进展,哪怕只有指甲盖大的成果也经常被说成是重大突破,然后不久之后就能改变整个世界云云。我们必须承认,有时候科学成果的意义确实被低估了,比如晶体管刚刚发明的时候并没有引发什么热潮,也没几个人在互联网刚刚出现的时候就预期到了它在几十年后迸发出的巨大潜力。
可是,随着每个晶体管、互联网这种级别的新成果出现,同时还会有成千上万被过度报道的小成果,这些想法或者产品设计可能从来都不会变成实物,又或者声称实现了室温核聚变之类的壮举但再也没有人能重现,最终只能静静地躺在文献库或者图书馆里,当初设想的美好愿景全都成了过眼云烟。
之所以会出现这样的状况,是因为普通大众太喜欢听技术革命的故事了,小的技术进步要写得仿佛很大才能引起他们的兴趣。而研究人员们也经常成为媒体的共犯,因为他们也需要公众的关注度,这对他们的科研资金申请能产生切实的影响。可以说,当前这种科研成果经常被吹嘘炒作、然后就被悄悄遗忘的风气,不管是媒体还是相当一部分研究者都已经习以为常,乃至觉得「应当如此」。
过去的几周里刚好有那么几个好多知名媒体都在报道的大新闻,但可惜这几个报道都很有误导性
一
11 月 24 号,《经济学人》杂志发表了对 OpenAI 的 GPT-2 文本生成系统的采访,而且故意说 GPT-2 给出的这些回答是「未经编辑的」,而实际上,每个回答都是从 GPT-2 生成的 5 个候选回答中由人类挑选的,挑选标准是要语意连贯而且幽默。这篇报道让大众以为能与人类自然交流的对话 AI 其实近在眼前了,但其实这只是一场表演。
知名 AI 专家 Erik Bryjngjolffson 转推了这篇采访,评价说这个采访「令人印象深刻」,以及「这些回答要比很多人类的回答还要通顺有趣」。从技术角度来说,这种通顺程度一方面来自于 GPT-2 训练时搜集使用了海量的人类撰写的句子,另一方面也是人类记者们精心挑选出了通顺有趣的句子。所以作为圈内人的 Erik 本意是挖苦他们戏演得太假,在外行眼里却成了对这个系统、对这篇采访的高度赞扬,反倒对误解的传播推波助澜。后来 Erik 又发了一条推特澄清他的本意,但阅读量只有原来那条的 1/75 而已——这倒并不奇怪,吹捧巨大成果就是比严肃的澄清辟谣容易传播多了。
二
OpenAI 设计了一组神经网络,可以让机械臂学会玩一个专门定制的魔方。对外宣传的时候,OpenAI 在技术博客里用了一个有迷惑性的视频,让人误以为这个系统已经能从认识层面上理解魔方,但实际上它并没有真的学会如何解魔方。(实际上,仅仅针对求解魔方这个问题,1992 年的时候就有人提出了基于符号计算的解魔方算法,它不需要经过学习)
在这个视频里还有几件事没有体现出来,不仅这个定制的魔方是带有蓝牙传感器的,而且,在最好的情况下,随机打乱的魔方中也只有 20% 被成功还原了。在媒体报道里,这些细节都被忽略了,比如华盛顿邮报的报道是这样的「OpenAI 的研究人员说他们并没有明确地给机器编程教会它解魔方」,仿佛暗示解魔方是它自己学会的;后来华盛顿邮报发出了一则更正「更正为:OpenAI 的研究重点是让机械臂控制魔方的转动,而不是魔方的解法」。但是,正如前一个故事,会读这则更正启事的人,和阅读了原来的故事然后被误导的人相比,数量可谓不值一提。
三
还有两篇宣称用神经网络解决物理问题的论文也被过度报道了,甚至包括麻省理工科技评论(MITTR)这样的著名学术媒体,两篇论文仅仅是解决了复杂问题的经过高度简化后的某几个状况而已,但却被报道得仿佛完全解决了本来那个复杂问题一样。比如,有的报道写道「神经网络解决三体问题可以比传统方法快 1 亿倍」,但首先,神经网络做的不是解决,而是近似计算,它仅仅近似计算了高度简化过后仅剩 2 个自由度的状况(简化前有 10 个自由度),而且这些天体的质量还要相同。(详细论文解读见这里)
MITTR 的文章广为传播之后,我和 Ernest Davis 也撰写了一篇详细的批评文章,不过,这篇文章的转发数量,大概也就只有 MITTR 文章的 1/75 这个数量级而已。
不幸的是,AI 科研成果过度炒作的风气并不仅仅出现在媒体中。自从 AI 这个概念出现的几十年以来,即便是 AI 学术研究的领军人物里也有给它煽风点火的。从一开始就是这样,1960 年代,AI 研究的几位奠基人就觉得可以集中精力研究,一个夏天搞定计算机视觉,以及十几年时间搞定通用人工智能。但如今,仅仅是计算机视觉都还没完全解决,通用人工智能更连门都没有摸到。
这种过度乐观的情绪在近几年也是一样,我们来看看这几位著名 AI 学者的例子:
卫报在 2015 年采访了「深度学习教父」Geoff Hinton,他们的采访文章标题是「谷歌距离开发出类人智慧又近了一步」。在卫报的采访中,Hinton 表示他加入谷歌后开发的新技术可以「帮助攻克人工智能中的两大核心挑战:掌握自然的、对话级别的语言能力,以及做出逻辑推理」,而且「马上就能开发出有逻辑能力、自然语言对话能力、甚至能和人开玩笑的算法」。如今,四年过去了,我们还没见到什么能在没有外人干预下就能和人进行自然语言对话的机器,而且也没见到什么能理解、推理物理世界现象的系统。
差不多一年之后,Hinton 表示放射科医生就像「已经踩在了悬崖边上但是还没探头往下看的郊狼」,他想表达的意思是「如果你现在的工作是放射科医生的话,你的工作岌岌可危」;他还补充道「我们现在应该停止培养更多的放射科医生了。很明显,在 5 年内深度学习就会比放射科医生做得更好」。在 2017 年纽约客的采访中,Hinton 又表达了一次这个观点。也就是这个时间前后,上百个深度学习医学影像分析创业公司出现了,但目前还没有放射科医生真的被取代,而且目前大家最乐观的猜测也就是深度学习可以成为医生的帮手,而不是在短期内就取代他们。Hinton 当时的话吓坏了不少医院的放射科,然后带来了负面影响:世界上许多地方的医院放射科现在是缺少医生的。
2016 年 11 月,在哈佛商业评论上,另一位深度学习知名人物吴恩达在文章中写下「如果一个普通人做某项任务的过程中,只需要思考不超过一秒钟时间就可以想通,那么这项任务很有可能可以用 AI 技术自动化,现在或者就在不远的将来。」更具体的表述是,某项任务能否通过 AI 技术实现自动化,基本上取决于这项任务的本质、能采集到的数据,以及这两者之间的关系。
对于棋类游戏这样的封闭结局问题,我们可以很方便地通过模拟采集到大量数据,吴恩达的理论就被证明是正确的;但是在对话理解这种开放结局的场景中,我们没法进行完整的模拟,吴恩达的理论目前都是无效的。如果企业领袖和政策制订者们能更明白当前的技术能解决哪些问题、不能解决哪些问题肯定是一件好事,但吴恩达的文字在其中增加了许多模糊之处。
2015 年 5 月,连线杂志根据对当时担任 Facebook 人工智能研究院负责人的 Yann LeCun 的采访发表了一篇报道,表示「深度学习很快就会给我们带来非常聪明的机器人」。无需多言,非常聪明的机器人到现在也还没看到。正如机器人技术专家 Pieter Abbeel 近期在演讲中说的,从实验室中的机器人技术演示,到机器人走入真实世界、做出智慧行为,其中还有很长的路要走。
另一方面,学术成果被误读的学者们通常都会保持沉默,说他们是默许了也可以。OpenAI 的首席科学家 llya Sutskever 就发推特表示《经济学人》对 GPT-2 的采访挺好的。当后来确认了采访里 GPT-2 的回答都是人工挑选出来的之后,我问了 Sutskever 是否还认同当时自己做出的评价,但 Sutskever 没有回答。
再往前数一个月,OpenAI CTO Greg Brockman 自己就做了不少手工挑选的工作。他发推特说「我们把一篇 GPT-2 生成的短文投稿到了《经济学人》的青年作者文章栏目。其中一位评审者,并不知道这篇短文是 AI 写出来的,给出了这样的评价:文章用词考究,提出的观点都有证据支撑,不过思路的原创性并不高。」但 Brockman 没有说的是,还有几位评审者对这篇短文的评价要低很多,比如来自评审者 2 的「文章没有很快体现出论点,论点也并不新颖,太模糊,太激烈,有很多修辞问题」,评审者 6 也给出了非常低的评价「这篇短文并没有给问题做出完整的解答,也没有带来新的观点;它的论述水平不高,文章的用词、结构也很一般。除此之外,我觉得文章体现出作者对当前的气候策略以及 IPCC 撰写的科学文献都没有很好的理解」。对于读者来说,只要他们没有去查这个完整故事、只是读了 Brockman 的推特的话,是完全意识不到存在这样低的评价的。(其实,机器学习领域内的许多研究人员一直都觉得 OpenAI 一开始表示 GPT-2「太危险了所以不可以公开发布」的行为本身就是小题大做、言过其实)
学术研究人员们还有一个习惯也给「真正的 AI 近在眼前」的论调添油加醋,比如 DeepMind 就经常在论文里用专门的篇幅描写他们的成果未来的潜力,但是又很少提及潜在的限制是什么——如果是作为严谨的科学成果进行讨论,只说优点不谈缺点应该算不上正确的下结论的方式。另一方面,他们还会对论文中的实验场景设定做类比和引申,表明他们正在研究非常难的问题、正在攻克非常宏大的挑战,暗指他们目前使用的技术还可以解决更多的困难和挑战。但是我们需要知道,即便是比较复杂的游戏,也还和现实世界不是一回事。DeepMind 撰写的围棋 AI AlphaGo 和星际 2 AI AlphaStar 的论文都是这样,对潜在的限制几乎没有讨论。
好在并不是机器学习领域的所有学者都对自己的成果吹个没完,就在这一年中我先后听了 Pieter Abbeel 和 Yoshua Bengio 的演讲,都既精彩又克制,在介绍深度学习(以及深度强化学习)的优秀表现的同事,也坦诚指出了我们面前还有多少挑战、我们离终点还有多远。(具体来说,Abbeel 着重指出实验室的机器人技术成果和能在现实世界中工作的机器人之间还有很远的距离,Bengio 则强调了在现有的 AI 模型中加入因果推理能力的必要性)。我多希望他们这样的态度能成为机器学习领域的正常状态。当这不是常态的时候,政策制订者和普通大众很容易觉得迷惑,因为报道中的偏倚总是倾向于夸大成果而不是掩盖它,所以普通大众害怕的那个 AI 形象其实不仅现在不存在,可见的未来中也不会出现。
那么,这对做 AI 应用的、AI 商品化的人有什么损害呢?毕竟,如果鼓吹之下有更多的公众关注、更多的资金投入、更多的人员加入,也许我们实现通用人工智能的速度也能更快,似乎也不是什么坏事?
在我看来这是普通人遇到的一场悲剧,许多人看中了同一片领域里有机会,然后一拥而上、竭泽而渔,最后谁都落不到好下场。具体到 AI 这里,如果公众、政府、投资机构都发现 AI 其实只是画饼、AI 的长处短处其实和现实需求没有相符之处,那么一个新的 AI 寒冬可能就会到来。(1974 年开始的那个 AI 寒冬就是早期的狂热吹捧变成失望之后的后果)
我们现在从事后来看的话,有很多当时的热门事件其实都预兆了悲剧的结果:
聊天机器人:Facebook 在 2015 年公布了一个名为 M 的聊天机器人系统,声称它可以给个人助理的能力范围带来革命性的升级。当时还没有成熟的 AI 技术可以实现他们设计的功能,但他们认为这是一个凭数据就能解决的问题,人类只需要回答最开始的几个问题,然后深度学习就会把后续的都搞定。等时间到了 2018 年,这个项目被取消了。
总体来说,2015 年的时候大家都对聊天机器人有充足的热情,然后如今领域内已经形成了共识,以目前的 AI 技术只能处理一部分有内容限制的对话,即便这样也无法保证完全可靠。当时做出承诺很容易,但是要做到就太难了。
医疗诊断:IBM Watson 也承诺了很多做不到的事情,以至于医疗机构 MD Andersen 癌症中心由于对结果不满所以终止了和 IBM Watson 的合作。现在看来,IBM 说要用 Watson 做医疗诊断肯定有吹嘘的成分。可能也有很多人期待 DeepMind 进入医疗诊断市场,因为 DeepMind 也和很多医疗机构有合作,可以获取很多数据,而且也有大量的计算和智力资源。但现实是,DeepMind 也一直都没有拿出什么有说服力的成果(DeepMind 的医疗业务也已经转给了谷歌)。即便只是在简单的、主要关注感知、额外带有一点点自然语言理解即可的医学图像分析任务中,把实验室成果搬到真正的医院里原来也相当困难。
假新闻检测器:2018 年 4 月,Facebook 创始人&CEO Mark Zuckerberg 告诉美国国会,在未来的 5 到 10 年里 AI 可以开始帮助检测假新闻,但在今年(2019年)5 月,Facebook CTO Mike Schroepfer 表示无法承诺在短期内做出可见的成果
无人驾驶汽车:按照 Elon Musk 的承诺,2020 年的时候我们就会有完全自主驾驶的汽车了,但目前整个自动驾驶研究领域的共识是,完全的自动驾驶要比大多数人预计的难得多,如果想要在高度限定的路况之外实现完全的自动驾驶,我们还需要很多年的时间
如今,政府、大企业、风投都在 AI 相关领域做了许多投资,这其中的一大部分是直接针对深度学习的;而如果这些投入的资金发现深度学习的能力原来这么有限、原来当初的愿景这也实现不了那也实现不了,那么整个领域都会受到影响。如果完全的自动驾驶、对话机器人只是乐观地比原来预期的时间迟一两年,那可能并不是什么大问题。但这些技术、以及其它向大众承诺了的 AI 技术推迟的越久,我们面临一个新的 AI 寒冬的风险就越大。
综上所述,有关 AI 的信息和报道出现不准确是常事。虽然也存在一些准确的报道,但即便是知名的新闻媒体也时不时会对学术结果做出错误的解读;企业出于自身宣传需要,常常在其中推波助澜;学术研究人员们,即便是知名的学者,也常常默许了对自己成果的错误解读,不做任何公开澄清。
有一部分信息是准确的:有些学者对于方法的不足非常坦诚,有些报道对成果的理解非常准确。但总体来说,整个风气仍然偏向于把任何的小成果不断放大,乐于宣称有各种革命性的改进。
这一切的后果可能会对这个领域产生反作用,过度激活的公众热情带来了当前的 AI 热潮,然后在公众变得失望之后带来下一个 AI 寒冬。
在 Rebooting AI 中,Ernie Davis 和我一同提出了六条建议,每一条都希望可以帮助读者、记者们核对自己看到的信息是否客观、全面,以及让研究者们更慎重地评价自己的成果。
把所有的修辞、比喻都去掉,这个 AI 系统究竟是执行什么样的任务的?(一个「阅读系统」所做的是和人一样的「阅读」吗?)
结果的泛化能力怎么样?(一个可以在美国凤凰城工作的自动驾驶系统,在印度孟买也能工作吗?一个能解魔方的机械臂,能用来开汽水吗?这都需要多少训练?)
有没有可以供感兴趣的读者自己实验的 demo?
如果宣称 AI 比人类的表现要好,那么是比怎么样的人表现更好?要好多少?(只拿很少的薪水的众包标注员真的能准确体现人类的能力吗?)
假设我们认可某个 AI 在某项具体任务上比人类的表现更好,那么这距离我们造出真正的 AI 又还有多远?
系统的鲁棒性如何?能不能不经过重新训练就在别的数据集上也发挥出这样的表现?(AlphaGo 在 19x19 的正方形围棋盘上表现不错,但如果换成长方形棋盘,就需要重新训练这个系统。迁移能力的缺失一目了然)
最后,如果每篇学术论文/技术报告以及媒体报道的最后都能加上几句冷静有建设性的、针对缺点的自我评价的话,能明显帮助避免大家对 AI 继续抱有不切实际的期待。
via thegradient.pub/an-epidemic-of-ai-misinformation/,雷锋网 AI 科技评论编译