资讯 人工智能学术
此为临时链接,仅用于文章预览,将在时失效

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

作者:我在思考中
2022/06/14 10:37
又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……
作者 | 李梅、刘冰一
编辑 | 陈彩娴

继斯坦福100名作者合作发布「Foundation Model」研究综述、智源集合100位作者发布大模型研究综述(后被曝「翻车」)后,近日,AI 圈又出现了一篇集结超过百位作者合著的论文!

这篇论文(“Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models”)由谷歌发布,聚集了442名作者!

在论文的 PDF 文档里,作者列表就占了一整页:

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……
论文地址:https://arxiv.org/pdf/2206.04615.pdf
GitHub:https://github.com/google/BIG-bench

把所有名字排版在同一页,若想找出某一作者名字还是挺考验视力的。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

规模庞大,作者之一 William Fedus 感慨这还真是 It takes an army 啊。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

文章七七八八总计 100 页,参考文献从 51 页开始,占篇幅的一半。

由于研究参与者人数太多了,一句两句说不清楚谁的贡献更大一些,干脆在文章专门设置一个章节阐述诸公心血。

篇幅不多,也就 15 页。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

列举的核心贡献有 Guy Gur-Ari、Ethan Dyer、Ambrose Slone 等人,他们执行大语言模型新基准 BIG-bench github 代码基础设施和文档等工作。

还有Review的、提供任务的……

但是,这些特别提及的核心贡献者并不在文章作者栏之首,因为本文没有区分第一作者,作者栏顺序是按姓氏字母顺序排列的

推特上反响还不错,有读者说该工作“似乎是个金矿,非凡的合作 ??  ”。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

还有评论称:“对组织者在推动这项工作完成方面的领导力表示极大的赞赏!令人兴奋的大规模合作模式,造福整个社区。”

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

(好奇谷歌集结了这么多人合著,有没有做「论文查重」?咱也不敢说,咱也不敢问)

那么,这篇工作究竟讲了些什么?


1

大模型新基准:BIG-Bench

据了解,此文是谷歌将 BIG-Bench 的论文和 GitHub 公开。

BIG bench由 204 项任务组成,任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等领域的问题。

在 Jeff Dean 等人架构的 PaLM 模型中,研究人员在 BIG-Bench 的大模型专用基准上进行了多项任务测试。

该研究持续了 2 年时间上百人之中不乏工作单位变动的。

谷歌之所以推出大模型新基准,是因为随着语言模型的规模不断扩大,其性能得到了改进,一些新性能可能具有潜在的变革性影响,但还未得以明确。为了评估现存语言模型的性能和局限性,作者团队特地引入了基准BIG-bench。

Beyond the Imitation Game 基准(BIG-bench)的GitHub 资源库包括:

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

BIG-bench支持两种类型的任务:JSON和编程任务,其中大约80%的基准任务是JSON任务。

JSON任务由JSON文件定义,该文件包含由输入和目标组成的示例列表。通过使用标准指标(如ROUGE)或基于模型分配的概率(如回答多项选择题),将生成的模型输出与目标进行比较来评估性能。基于示例的JSON任务规范还允许进行简单的少样本评估。

另外大约20%的基准任务是程序化的,它们用Python编写,能够在多轮查询中直接与模型交互,并且能够使用自定义度量来衡量性能。使用模型对象调用编程任务,可以使用以下方法查询模型:

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……



2

BIG-bench 的评估发现

作者团队在 BIG-bench 上评估了多个语言模型的能力,模型大小从数百万到数千亿个参数,包括 OpenAI 的 GPT 模型、Google 内部密集 transformer 架构和 Switch 式稀疏transformer的性能等等。

尽管语言模型因其大规模而具有良好的性能,但相比于人类,它们在BIG-bench上的表现仍然很差。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

他们还评估了谷歌自家的PaLM模型,结果表明其性能击败了在PaLM之前的其他模型(狗头),尽管PaLM仍然低于最好的人类评分者(如下图中的深蓝色虚线),但它已经超过了BIG-bench Lite分区上平均人类评分者(如下图中的蓝色虚线)。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

在一些任务上,语言模型的性能随规模的增大而平稳提升;而在另一些任务上,语言模型会在某个特定规模上突然产生突破性的表现。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

经过评估,他们还发现,随着模型规模的扩大,它们的社会偏见性越来越突出。对此,一个可能解释是较大的模型在匹配其训练集中的偏差方面做得更好。不过,当上下文清楚表明偏见不可取时,偏见就会随着规模的扩大而减少。

这一结果强调了针对机器学习系统公平性的研究、工程和政策努力的重要性。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

要解决模型中的社会偏见问题,作者团队给出三个发现:1)在上下文广泛或模棱两可的情况下,偏见通常会随着规模的扩大而增加;2)在狭窄、明确的上下文中,偏差会随着规模的增大而减小;3)可以通过选择适当的提示来引导偏见。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

图注:对于明确或积极提示的上下文,偏差可能会随着规模的变化而减少,或更稳定

他们还发现,模型在英语任务上的表现优于非英语任务,在涉及低资源语言的任务上表现尤其糟糕。在一些情况下,低资源语言任务的性能没有随着模型规模的增大而提高,而相应的英语任务的性能则会随着规模的增大而提高。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

总体上,稀疏模型的性能与使用多 2 倍推理成本的密集模型一样好,它们的校准效果与使用多出约 10 倍推理计算的密集模型一样好。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

当手动检查模型输出时,团队发现,模型在一定规模后开始生成电影标题,在更大的规模下会开始识别表情符号的语义,并且在某些情况下以最大的规模输出正确的答案。一个有代表性的例子如下图所示:

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

图注:根据精确的任务指标,在 emoji_movie 识别上的表现会显得很突然或渐进。

此外,他们发现,模型的编程能力十分主观。即使是通过具体的任务进行量化,语言模型的能力和跨规模的轨迹也比我们所想的要主观得多。

再联想这两天吵得如火如荼的「AI 是否具备人格」……

大家怎么看?

参考链接:

https://arxiv.org/pdf/2206.04615.pdf

https://github.com/google/BIG-bench

https://twitter.com/jaschasd/status/1535055886913220608/retweets/with_comments
又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

雷峰网雷峰网(公众号:雷峰网)

长按图片保存图片,分享给好友或朋友圈

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

扫码查看文章

正在生成分享图...

取消
相关文章