继斯坦福100名作者合作发布「Foundation Model」研究综述、智源集合100位作者发布大模型研究综述(后被曝「翻车」)后,近日,AI 圈又出现了一篇集结超过百位作者合著的论文!
这篇论文(“Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models”)由谷歌发布,聚集了442名作者!
在论文的 PDF 文档里,作者列表就占了一整页:
把所有名字排版在同一页,若想找出某一作者名字还是挺考验视力的。
规模庞大,作者之一 William Fedus 感慨这还真是 It takes an army 啊。
文章七七八八总计 100 页,参考文献从 51 页开始,占篇幅的一半。
由于研究参与者人数太多了,一句两句说不清楚谁的贡献更大一些,干脆在文章专门设置一个章节阐述诸公心血。
篇幅不多,也就 15 页。
列举的核心贡献有 Guy Gur-Ari、Ethan Dyer、Ambrose Slone 等人,他们执行大语言模型新基准 BIG-bench github 代码基础设施和文档等工作。
还有Review的、提供任务的……
但是,这些特别提及的核心贡献者并不在文章作者栏之首,因为本文没有区分第一作者,作者栏顺序是按姓氏字母顺序排列的。
推特上反响还不错,有读者说该工作“似乎是个金矿,非凡的合作 ?? ”。
还有评论称:“对组织者在推动这项工作完成方面的领导力表示极大的赞赏!令人兴奋的大规模合作模式,造福整个社区。”
(好奇谷歌集结了这么多人合著,有没有做「论文查重」?咱也不敢说,咱也不敢问)
那么,这篇工作究竟讲了些什么?
据了解,此文是谷歌将 BIG-Bench 的论文和 GitHub 公开。
BIG bench由 204 项任务组成,任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等领域的问题。
在 Jeff Dean 等人架构的 PaLM 模型中,研究人员在 BIG-Bench 的大模型专用基准上进行了多项任务测试。
该研究持续了 2 年时间,上百人之中不乏工作单位变动的。
谷歌之所以推出大模型新基准,是因为随着语言模型的规模不断扩大,其性能得到了改进,一些新性能可能具有潜在的变革性影响,但还未得以明确。为了评估现存语言模型的性能和局限性,作者团队特地引入了基准BIG-bench。
Beyond the Imitation Game 基准(BIG-bench)的GitHub 资源库包括:
超过 204 个语言任务。如 BIG-bench 审查标准那样,基准任务涵盖了不同的主题和语言,并且是目前的模型所不能完全解决的。
BIG-bench Lite:一个小型、且具有代表性的任务子集,比在整个基准上进行更快的评估。
实现基准 API 的代码:支持在公开可用的模型上进行任务评估,并实现新任务的轻量级创建。
对规模横跨六个数量级的密集和稀疏语言模型的详细评估结果,以及由人类评估员建立的基线结果。
BIG-bench支持两种类型的任务:JSON和编程任务,其中大约80%的基准任务是JSON任务。
JSON任务由JSON文件定义,该文件包含由输入和目标组成的示例列表。通过使用标准指标(如ROUGE)或基于模型分配的概率(如回答多项选择题),将生成的模型输出与目标进行比较来评估性能。基于示例的JSON任务规范还允许进行简单的少样本评估。
另外大约20%的基准任务是程序化的,它们用Python编写,能够在多轮查询中直接与模型交互,并且能够使用自定义度量来衡量性能。使用模型对象调用编程任务,可以使用以下方法查询模型:
作者团队在 BIG-bench 上评估了多个语言模型的能力,模型大小从数百万到数千亿个参数,包括 OpenAI 的 GPT 模型、Google 内部密集 transformer 架构和 Switch 式稀疏transformer的性能等等。
尽管语言模型因其大规模而具有良好的性能,但相比于人类,它们在BIG-bench上的表现仍然很差。
他们还评估了谷歌自家的PaLM模型,结果表明其性能击败了在PaLM之前的其他模型(狗头),尽管PaLM仍然低于最好的人类评分者(如下图中的深蓝色虚线),但它已经超过了BIG-bench Lite分区上平均人类评分者(如下图中的蓝色虚线)。
在一些任务上,语言模型的性能随规模的增大而平稳提升;而在另一些任务上,语言模型会在某个特定规模上突然产生突破性的表现。
经过评估,他们还发现,随着模型规模的扩大,它们的社会偏见性越来越突出。对此,一个可能解释是较大的模型在匹配其训练集中的偏差方面做得更好。不过,当上下文清楚表明偏见不可取时,偏见就会随着规模的扩大而减少。
这一结果强调了针对机器学习系统公平性的研究、工程和政策努力的重要性。
要解决模型中的社会偏见问题,作者团队给出三个发现:1)在上下文广泛或模棱两可的情况下,偏见通常会随着规模的扩大而增加;2)在狭窄、明确的上下文中,偏差会随着规模的增大而减小;3)可以通过选择适当的提示来引导偏见。
图注:对于明确或积极提示的上下文,偏差可能会随着规模的变化而减少,或更稳定
他们还发现,模型在英语任务上的表现优于非英语任务,在涉及低资源语言的任务上表现尤其糟糕。在一些情况下,低资源语言任务的性能没有随着模型规模的增大而提高,而相应的英语任务的性能则会随着规模的增大而提高。
总体上,稀疏模型的性能与使用多 2 倍推理成本的密集模型一样好,它们的校准效果与使用多出约 10 倍推理计算的密集模型一样好。
当手动检查模型输出时,团队发现,模型在一定规模后开始生成电影标题,在更大的规模下会开始识别表情符号的语义,并且在某些情况下以最大的规模输出正确的答案。一个有代表性的例子如下图所示:
图注:根据精确的任务指标,在 emoji_movie 识别上的表现会显得很突然或渐进。
此外,他们发现,模型的编程能力十分主观。即使是通过具体的任务进行量化,语言模型的能力和跨规模的轨迹也比我们所想的要主观得多。
再联想这两天吵得如火如荼的「AI 是否具备人格」……
大家怎么看?
参考链接:
https://arxiv.org/pdf/2206.04615.pdf
https://github.com/google/BIG-bench
雷峰网雷峰网(公众号:雷峰网)