又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

百位作者合著论文谷歌 442名作者

作者：我在思考中

2022/06/14 10:37

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

作者 | 李梅、刘冰一

编辑 | 陈彩娴

继斯坦福100名作者合作发布「Foundation Model」研究综述、智源集合100位作者发布大模型研究综述（后被曝「翻车」）后，近日，AI 圈又出现了一篇集结超过百位作者合著的论文！

这篇论文（“Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models”）由谷歌发布，聚集了442名作者！

在论文的 PDF 文档里，作者列表就占了一整页：

论文地址：https://arxiv.org/pdf/2206.04615.pdf

GitHub：https://github.com/google/BIG-bench

把所有名字排版在同一页，若想找出某一作者名字还是挺考验视力的。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

规模庞大，作者之一 William Fedus 感慨这还真是 It takes an army 啊。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

文章七七八八总计 100 页，参考文献从 51 页开始，占篇幅的一半。

由于研究参与者人数太多了，一句两句说不清楚谁的贡献更大一些，干脆在文章专门设置一个章节阐述诸公心血。

篇幅不多，也就 15 页。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

列举的核心贡献有 Guy Gur-Ari、Ethan Dyer、Ambrose Slone 等人，他们执行大语言模型新基准 BIG-bench github 代码基础设施和文档等工作。

还有Review的、提供任务的……

但是，这些特别提及的核心贡献者并不在文章作者栏之首，因为本文没有区分第一作者，作者栏顺序是按姓氏字母顺序排列的。

推特上反响还不错，有读者说该工作“似乎是个金矿，非凡的合作 ?? ”。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

还有评论称：“对组织者在推动这项工作完成方面的领导力表示极大的赞赏！令人兴奋的大规模合作模式，造福整个社区。”

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

（好奇谷歌集结了这么多人合著，有没有做「论文查重」？咱也不敢说，咱也不敢问）

那么，这篇工作究竟讲了些什么？

大模型新基准：BIG-Bench

据了解，此文是谷歌将 BIG-Bench 的论文和 GitHub 公开。

BIG bench由 204 项任务组成，任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等领域的问题。

在 Jeff Dean 等人架构的 PaLM 模型中，研究人员在 BIG-Bench 的大模型专用基准上进行了多项任务测试。

该研究持续了 2 年时间，上百人之中不乏工作单位变动的。

谷歌之所以推出大模型新基准，是因为随着语言模型的规模不断扩大，其性能得到了改进，一些新性能可能具有潜在的变革性影响，但还未得以明确。为了评估现存语言模型的性能和局限性，作者团队特地引入了基准BIG-bench。

Beyond the Imitation Game 基准（BIG-bench）的GitHub 资源库包括：

超过 204 个语言任务。如 BIG-bench 审查标准那样，基准任务涵盖了不同的主题和语言，并且是目前的模型所不能完全解决的。

BIG-bench Lite：一个小型、且具有代表性的任务子集，比在整个基准上进行更快的评估。

实现基准 API 的代码：支持在公开可用的模型上进行任务评估，并实现新任务的轻量级创建。

对规模横跨六个数量级的密集和稀疏语言模型的详细评估结果，以及由人类评估员建立的基线结果。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

BIG-bench支持两种类型的任务：JSON和编程任务，其中大约80%的基准任务是JSON任务。

JSON任务由JSON文件定义，该文件包含由输入和目标组成的示例列表。通过使用标准指标（如ROUGE）或基于模型分配的概率（如回答多项选择题），将生成的模型输出与目标进行比较来评估性能。基于示例的JSON任务规范还允许进行简单的少样本评估。

另外大约20%的基准任务是程序化的，它们用Python编写，能够在多轮查询中直接与模型交互，并且能够使用自定义度量来衡量性能。使用模型对象调用编程任务，可以使用以下方法查询模型：

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

BIG-bench 的评估发现

作者团队在 BIG-bench 上评估了多个语言模型的能力，模型大小从数百万到数千亿个参数，包括 OpenAI 的 GPT 模型、Google 内部密集 transformer 架构和 Switch 式稀疏transformer的性能等等。

尽管语言模型因其大规模而具有良好的性能，但相比于人类，它们在BIG-bench上的表现仍然很差。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

他们还评估了谷歌自家的PaLM模型，结果表明其性能击败了在PaLM之前的其他模型（狗头），尽管PaLM仍然低于最好的人类评分者（如下图中的深蓝色虚线），但它已经超过了BIG-bench Lite分区上平均人类评分者（如下图中的蓝色虚线）。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

在一些任务上，语言模型的性能随规模的增大而平稳提升；而在另一些任务上，语言模型会在某个特定规模上突然产生突破性的表现。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

经过评估，他们还发现，随着模型规模的扩大，它们的社会偏见性越来越突出。对此，一个可能解释是较大的模型在匹配其训练集中的偏差方面做得更好。不过，当上下文清楚表明偏见不可取时，偏见就会随着规模的扩大而减少。

这一结果强调了针对机器学习系统公平性的研究、工程和政策努力的重要性。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

要解决模型中的社会偏见问题，作者团队给出三个发现：1）在上下文广泛或模棱两可的情况下，偏见通常会随着规模的扩大而增加；2）在狭窄、明确的上下文中，偏差会随着规模的增大而减小；3）可以通过选择适当的提示来引导偏见。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

图注：对于明确或积极提示的上下文，偏差可能会随着规模的变化而减少，或更稳定

他们还发现，模型在英语任务上的表现优于非英语任务，在涉及低资源语言的任务上表现尤其糟糕。在一些情况下，低资源语言任务的性能没有随着模型规模的增大而提高，而相应的英语任务的性能则会随着规模的增大而提高。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

总体上，稀疏模型的性能与使用多 2 倍推理成本的密集模型一样好，它们的校准效果与使用多出约 10 倍推理计算的密集模型一样好。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

当手动检查模型输出时，团队发现，模型在一定规模后开始生成电影标题，在更大的规模下会开始识别表情符号的语义，并且在某些情况下以最大的规模输出正确的答案。一个有代表性的例子如下图所示：

图注：根据精确的任务指标，在 emoji_movie 识别上的表现会显得很突然或渐进。

此外，他们发现，模型的编程能力十分主观。即使是通过具体的任务进行量化，语言模型的能力和跨规模的轨迹也比我们所想的要主观得多。

再联想这两天吵得如火如荼的「AI 是否具备人格」……

大家怎么看？

参考链接：

https://arxiv.org/pdf/2206.04615.pdf

https://github.com/google/BIG-bench

https://twitter.com/jaschasd/status/1535055886913220608/retweets/with_comments

雷峰网(公众号：雷峰网)雷峰网