性能堪比GPT-3，但参数量仅为0.1%，LMU团队推出NLP最强文本生成模型

GPT-3 NLP

作者：贝爽

2020/09/22 18:07

模型越大，性能越佳？答案可能是不一定。

在NLP领域，谈到超大模型必然想到预训练语言模型GPT-3，自今年3月份对外开放以来，其因超大模型和超强性能频频刷屏。

GPT-3拥有1750亿参数量，约有700G大小，一次训练成本高达上百万美元。1750亿是什么概念？去年2月份，OpenAI推出的GPT-2参数量为仅15亿，是它的1\116。

与今年微软推出的Turing NLG（170 亿参数），英伟达的 Megatron-BERT（80 亿参数）相比，也要高出10多倍。

不过，超大模型带来的性能表现也是显而易见的。最近《卫报》刚刚发布了一篇由GPT-3撰写的文章，因文本内容堪比人类而再次引起热议。

但现在，同样的文本生成效果，其参数量可能只需要GPT-3的0.1%。

近日，慕尼黑路德维希·马克西米利安大学（LMU）AI研究团队公布了一项最新研究成果，即在文本生成方面，仅用2.23亿参数量，就可以到达GPT-3的效果。

性能堪比GPT-3，但参数量仅为0.1%，LMU团队推出NLP最强文本生成模型

这项研究论文已发表至预印论文库arXiv，论文摘要中显示：

我们证明了使用参数小几个数量级的语言模型也可以获得类似GPT-3的性能。这是通过将输入文本转换成包含任务描述的完形填空，并结合梯度优化来实现的。此外，利用未标记的数据也可以进一步改进；我们确定了使用小语言模型理解自然语言所需的几个关键因素。

接下来，我们具体看一下这项技术的实现原理。

基于PET系统的文本生成模型

论文中介绍，LMU研究团队采用的是一种称为模式开发训练（Pattern-exploiting Training，PET）的方法。该方法是一种半监督训练，可将输入示例重新编写为填空样式的短语，在参数量少的环境下明显优于常规的监督训练。

具体来说，PET将完形填空问题的重新表述与基于梯度的规则微调相结合，弥补了GPT-3大模型的弊端。同时，它不需要对数据进行标记，而且能够适用于多个令牌的预测任务。

经过SuperGLUE的基准测试，PET及其迭代版的性能都优于GPT-3，而且参数量少了三个数量级。

性能堪比GPT-3，但参数量仅为0.1%，LMU团队推出NLP最强文本生成模型

具体来说，PET通过训练各个PVP（Pattern-verbalizer）模型，将其合并、输出，以在在制作的软标签上训练新模型来获得最终的效果。论文中，研究人员采用了32个示例基于ALBERT对PET和GPT-3进行了测试。其最终结果如下：

性能堪比GPT-3，但参数量仅为0.1%，LMU团队推出NLP最强文本生成模型

可以看出，ALBERT和PET的表现类似于超大模型GPT-3，其体积增大了785倍，而且平均来说，PET的表现要比GPT-3稍好。iPET为三项任务带来了新的改进，其中最显著的是CB，但是MultiRC的性能略有下降。

需要强调的是，iPET可训练多模型，甚至可以在没有任何训练数据的情况下使用。

与GPT-3类似，PET在WiC中的随机性并不高，这很难作为语言建模任务重新表述。ReCoRD是GPT-3始终优于PET和iPET的唯一任务。尽管PET表现强劲，但它的表现显然比普通全尺寸SuperGLUE训练器上训练的最先进的模型还要差。

经研究发现其影响性能的因素包括以下几点：模式和描述器的选择，未标记和标记数据的使用，以及底层语言模型的属性。

在以前的研究中，包括GPT-3，YI。这些重新表述可以处理更加复杂的任务。为了研究模式和描述器的重要性，研究人员比较了三组不同的PVP（pours、pGPT-3、pcomb），并使用PET对ALBERT进行了模式训练，结果如下图：

可以看出，pGPT-3在RTE上的性能优于pours，而pours在MultiRC上的性能要好得多。这一反差表现正说明了将任务表达为完型填空的重要性。

另外，为了研究未标记数据对于PET的重要性。研究人员比较了PET中最终分类器的性能与单个pvp对应的模型集合的性能。以下为每个PVP训练三个模型后的结果：

性能堪比GPT-3，但参数量仅为0.1%，LMU团队推出NLP最强文本生成模型

这表明，如果目标仅仅是获得良好的性能，那么无标记数据是不必要的，但是，它需要获得一个单一的、轻量级的模型作为最终分类器。

接下来，为了研究底层模型与PET性能的相关性。研究人员将ALBERT与RoBERTa large和GPT-2 medium进行了比较，结果如下图：

性能堪比GPT-3，但参数量仅为0.1%，LMU团队推出NLP最强文本生成模型

可以看到，使用ALBERT作为底层模型对于PET的性能至关重要；将ALBERT替换为RoBERTa，其平均性能下降了8个点。不过，RoBERTa仍然明显优于GPT-3，因为GPT-3要大两个数量级。

重要的是，使用GPT-2的PET比其他两种模型的性能差很，其性能下降的一个关键原因可能是，与GPT-3一样，GPT2是一个单向模型，它需要比较两个文本序列。

因此，底层模型的双向性对于PET来说很重要，因为它消除了掩码令牌在最后的需求，能够在创建模式时表现出更大的灵活性。

论文的结论中表明，通过PET训练方法，可以在参数量少三个数量级的情况下，在SuperGLUE测试中实现类似GPT-3的性能。PET是一种将任务重新定义为完形填空问题，并为不同的重新表述训练一组模型的方法，它能够用于需要预测多个令牌的任务。

需要说明的是，该项研究证明了：在文本生成领域，小模型达到高性能表现的可能性，但它并不意味着超过了GPT-3，或者实现了GPT-3的所有功能。

LMU研究团队也指出：“它不会在所有任务中都胜过GPT-3，我们目的是希望使用更适度的硬件来突破AI界限，为研究人员开辟新的思路和途径。”

简单来说，通过GPT-3，超大模型所带来的性能显而易见，那么相对简单的模型能够带来哪些可能性，是该项研究的初衷，它意在激励研究者提出更智能、更高效的新模型。

虽然PET系统比大规模的GPT体系具有更少的功能，但它表明了我们可以通过更易于管理的规模来获取与大模型等效的方法。

另外，需要强调的是，GPT-3在功能及性能方面达到了前所未有的高度，但其内部也存在明显的缺陷。比如OpenAI团队曾公开声明，GPT-3存在一些算法局限，但由于训练成本过高，并不打算对其进行优化。因此，GPT-3距离“理想”Transformer还很遥远，仍有很大的改进空间。

引用链接：雷锋网雷锋网雷锋网

https://arxiv.org/pdf/2009.07118.pdf

https://us13.campaign-archive.com/?u=67bd06787e84d73db24fb0aa5&id=ef5072d878