在日常生活中,我们需要一些「标准」来衡量个人的行为。
而在科研工作中,研究人员也需要一些「基准」来评估模型的性能。
因此,不管是普遍的「标准」还是特定的「基准」,它们都有一定的参考意义。
然而,如果有一天我们发现这些「参照物」与实际生活渐行渐远时,它们该往何处去?
近日,由加州大学伯克利分校、华盛顿大学和谷歌研究院合著的论文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基准定义的模糊任务在促进智能理解上的局限性,就像用有限的博物馆来代表整个世界一样。
论文地址:https://openreview.net/pdf?id=j6NxpQbREA1
在这篇论文中,研究人员阐述了机器学习(ML)对通用任务框架(CTF)的过度依赖,因为这个框架不恰当地演变成我们今天所理解的这些声称评估「通用能力」的基准。值得注意的是,研究团队并不否认这些基准的实用性,而是希望指出将其作为框架存在的固有缺陷。
这篇论文最能引起共鸣的一点就是用故事书作为引子,且将情节贯穿全文,使得论文的研究内容更为直白易懂。
这本书就是1974年出版的《Grover and the Everything In the Whole Wide World Museum》,书中的主人公Grover参观了一家声称展示「整个世界」的博物馆。
该博物馆的每个展厅都陈列着不同类别的东西,有些类别是随意和主观的,比如「你在墙上看到的东西( Things You Find On a Wall )」和「房间里能让你挠痒痒的东西( The Things that Can Tickle You Room )」;有些类别则非常具体的,例如「胡萝卜屋( The Carrot Room )」,而另一些则含糊不清,如「高大的厅堂( The Tall Hall )」。
当Grover认为自己已经参观完博物馆的一切时,他来到写着「其他东西(Everything Else)」的大门前。打开门后,却发现自己置身于外面的世界。
作为儿童故事,Grover的经历是荒诞的。然而,在实际的研究中,例如人工智能尤其是ML领域,也存在类似的固有错误逻辑,其中许多流行的基准依赖于固有的错误假设。
这篇论文的研究人员认为,在诸如「视觉理解」或「语言理解」之类的模糊任务中,作为衡量一般能力进展的基准,与有限的博物馆在代表「整个世界的一切」方面一样无效,且这两个谬论的原因是相似的,即本质上是基于特定的、有限的且局限于上下文的环境。
GLUE或ImageNet之类的基准测试常常被提议为验证任何给定模型性能的基本通用任务的定义。其结果是,通过这些基准数据集证明合理的结论往往远远超越了它们最初设计的任务,甚至超出了最初的开发目标。
尽管作为迈向「通用目标」的标志,这些基准存在明显的局限性。事实上,这些基准的开发、使用和采用表明了一个结构有效性的问题,其中涉及的基准——由于它们在特定数据、度量和实践中的实例化——不可能捕获任何具有代表性的关于它们的普遍适用性的结论。
论文的作者们认为测量通用能力的目标(即通用对象识别、通用语言理解或领域独立推理等目标)不能充分体现在数据定义的基准中。研究人员注意到,当前的趋势不恰当地扩展了CTF范式,以将其应用于与现实世界目标或背景不同的抽象表现任务。
从历史上看,CTF的开发正是为了引入实用导向和严格范围的人工智能任务,即自动语音识别(ASR)或机器翻译(MT),其中所需的验证是基准是否准确地反映了计算机在现实环境中所要求的实际任务。这一波定义不明确的「通用」目标则完全颠覆了其引入的意图。
与其把Grover的经历当成儿童故事来看,倒不如说这是一则深刻的寓言故事。当Grover打开「其他东西」的大门时,却发现自己置身于博物馆外的大千世界。故事的结尾或许已经预示了这个研究的结论,ImageNet之类的基准定义必然不能代表适应所有现实世界模糊任务的「通用目标」。
因此,这篇论文确实有许多值得讨论和深思的地方。ImageNet存在不足,那其他基准定义就是完美无缺的吗?除了ImageNet,目前在通用对象识别上还有更好的参照基准吗?该如何看待以及解决基准定义越来越「不基准」这个问题?
外行看热闹,内行看门道,这么头疼的问题就应该交给专业人士。
迎面向我们走来的是第一位评委,该评委发出了“反对CV和NLP的“通用”基准中令人信服的观点!(A compelling argument against "general" monolithic benchmarks in vision and NLP)”的赞叹,因为他觉得这篇论文史料详实,观点明确,分析到位,着实令人信服。
论文的研究人员先在文中铺垫了大量的背景知识,向读者展现了通用人工智能和基准测试的相关研究,并分析了ML的基准测试何时开始作为评估范围狭窄的任务性能的标准化方法。最后,结论就水到渠成了:通用语言理解和通用对象识别的基准本质上是有缺陷的,因为它们应用于狭窄的范围。
最后,这位评委真诚地希望计算机视觉和NLP社区能认真对待这篇论文,因为他认为该论文对在这两个领域取得更有意义的进展做出了宝贵的贡献,而不仅仅是追求最先进的技术。
但美中不足的是,既然发现了ImageNet基准存在局限性,那有什么办法可以减少对这些通用标准的过度依赖?看来论文的研究人员也还没找到这个问题的答案。
而第二位评委对这篇论文的评价是:通用人工智能基准的谬论(The Fallacy of Benchmarks for General Artificial Intelligence )。因为这篇论文的受众主要是AI领域的研究人员,所以作者在前文回顾了通用AI的相关基准,一下拉近了与读者的距离。此外,引用Grover的故事也使得该论文有趣易懂。
即使这篇论文的开头存在表述问题,未能无缝衔接主题,但瑕不掩瑜,评委二号高度赞扬了这篇论文为ML领域的研究指明了方向。
接着,评委三号也带着他的观点款款走来:好论文!但改一下结构就更好了(Well argued paper, with some reorganization suggested)。这位评委指出,这篇论文最大的亮点是观点独特且论据充足。但也发出了和第一位评委相同的疑惑:所以,有什么解决方案可以减少对通用标准的过度依赖?
不同于前三位评委的「慷慨」,第四位评委只给出了5分的评价,认为这篇论文只是:当前基准测试的简史(History of the benchmarks we use today)。从这个评语不难看出,这位评委觉得这篇论文列举了很多基准测试且强调了它们的局限性,但作者团队并没有采取任何立场。
最后,评委五号不见其人,先闻其声:很棒!但还有上升空间(Great, but improvements needed)。第五位评委认为这篇论文在梳理和总结相关工作的方面做得非常好,同时有大量的研究支撑文中的论点,希望这篇论文能引起相关领域研究人员的重视。
正因为对这篇论文寄予了极高的期望,因此评委只给出了6分的评价,同时罗列了非常详细的修改建议,希望论文的作者能加以改进。
看完五大评审的官方评论,总结起来基本就是:论文不错,观点新颖,论据充分,要是能提出解决方案就更好了。此外,有三位评委都不约而同地希望这篇论文能引起相关领域的重视。
Reddit上关于这篇文章的讨论热度也不小,我们来看看神通广大的网友怎么说。
某位网友一针见血地指出,虽然ImageNet等基准测试像「有限的博物馆」一样存在不足,但却是目前我们训练模型最有力的工具。
确实,就像上述评委提到的,ImageNet是有局限性,但是否有更好的解决方案?因此,有热心网友为论文的作者修改了摘要:没有任何数据集能够捕捉所有细节的全部复杂性,就像没有博物馆可以包含整个世界中所有的事物一样。
一些网友则认为论文不错,尤其是「芝麻街」故事情节的插入加深了他们对该论文的理解。
这些网友觉得,用「无法展示一切的博物馆」类比「ImageNet在一些模糊任务上的局限性」非常恰当。
大概论文的作者们也没想到,写个文章还能为一本书代言,有网友调侃:宇宙万物的答案就隐藏在这本「芝麻街」故事书中。
更多网友表示赞同论文作者的观点,毕竟相比解决问题,发现问题太容易了。(狗头)
所以,解决方案究竟在哪?
就算博物馆「无法展示一切」,也没有人能否定其价值。同理,ImageNet这类基准定义的存在意义也不容置喙。不断发现问题并解决问题,历史的车轮才会滚滚向前(狗头)。
参考链接:
https://openreview.net/forum?id=j6NxpQbREA1
https://www.reddit.com/r/MachineLearning/comments/r45wdo/r_ai_and_the_everything_in_the_whole_wide_world/