雷锋网AI科技评论按:那个能从短句续写出成篇文章、续写故事水平达到人类水准的 AI - OpenAI GPT-2 最近又有新动作了!8月21日,OpenAI 公开发布了大规模的含有 774M 参数的预训练模型、发布了一份针对这个大小的模型的技术报告,也公布了一些合作进展。GPT-2从今年年初的初次见面到现在,OpenAI都做了些什么呢?
先来回顾一下它创造的辉煌历史
OpenAI 的 GPT-2 是 GPT 的直接技术升级版,拥有多达 1558M模型参数,并在多 10 倍的数据上进行训练。训练数据是来自互联网的 40GB 高质量语料。
该模型不仅可以根据给定的文本流畅地续写句子,甚至可以形成成篇的文章,就像人类的续写文章一样。虽然还存在一定的问题,例如文字重复,错误的世界观不自然的切换话题等。但在成功的例子中模型生成的文本多样、全面,对事件的介绍也完全符合逻辑标准, 接近人类的表达质量,这已经可以说是非常惊人了。抛出一个例子先随(雷锋网)随意感受一下。
由于OpenAI认为这个模型的文本生成能力太强,所以他们做了一件与学术惯例不同的事情:当今的NLP研究人员们公开新模型的时候,除了开源模型的代码(可以制作一个空白模型),还会同步公开一个预训练模型,可以直接用在任务中或者为别的任务做进一步的微调;OpenAI训练了多个不同大小的模型,最大的模型含有1558M个参数,但OpenAI只公布了最小的、含有124M个参数的预训练模型,因为他们声称更大、文本生成能力更强的模型“有遭到恶意滥用的风险”。
OpenAI的语言模型GPT-2一经面世就引发了社会各界的强烈讨论,讨论的内容包括:这项研究的正面价值大吗、人类水准的虚假文本会带来怎样的社会影响、AI热潮以及OpenAI未来的科研目标到底如何,甚至还有人质疑OpenAI此举是夸张炒作(故意把模型吹得很厉害的样子)。
针对OpenAI的语言模型本身还存在不足,它所带来的社会效益以及可能引起的恶意使用者滥用的问题方面,其实研究人员也有自己的考虑,几个月来也从没停下脚步,接下来就让我们来看看他们的工作进展。
协调是很困难的,但也并不是没有可能。到目前为止, 1558M个参数的语言模型还没有被公开发布,尽管多个组织已经开发了系统来训练这些模型,或者公开讨论了如何训练更大的模型。自2月以来,工作人员已经与超过五组复现GPT-2的团队进行了交流。
合成文本具有信服力 研究人员的合作伙伴Sarah Kreps和Miles McCain在康奈尔大学的“外交事务”杂志上发表了研究报告:人们觉得GPT-2生成的文本样本的说服力几乎和纽约时报上的真实文章相当(72%的人认为GPT-2生成的文章是可信的,纽约时报文章则为83%)。除此之外,华盛顿大学AI2研究院的研究也表明,一个名为“GROVER”的系统生成的宣传文章比人类写的还要受欢迎。这都让OpenAI的研究人员们在考虑发布语言模型时更为谨慎。
检测也并不是一项简单的工作 实践中,研究人员更希望检测器能检测出绝大部分的生成文本,减少滥用,同时也避免错误地检测出确实由人类撰写的文章。模型的恶意使用者可能使用各种采样技术(包括拒绝采样)或微调模型来逃避检测。一个理想的系统应当在各种不同的生成文本上达到非常高(99.9%到99.99%)的准确率。研究表明,目前基于ML的方法的准确率只能达到90%到95%之间而已,而对语言模型进行微调将会进一步降低精准确率;虽然有一些值得尝试的方案但这仍然是一个非常困难的研究问题。研究人员认为,文本的统计检测需要与人工判断和元数据相补充,以便有效地制止滥用语言模型的状况。
OpenAI目前已经与四家领先的研究机构合作,共同分析GPT-2模型,包括此次新发布的774M参数GPT-2模型和尚未公开发布的全尺寸GPT-2模型。在此次同步公开的技术报告中涉及了一些初步的结果,其中一些分析结果也会影响是否公开发布1558M参数模型的考虑。OpenAI还制定了一项非商业法律协议,以促进组织之间的模式共享,为了帮助其他人启动此类共享计划。
具体的合作内容:
l Cornell大学正在研究人类对语言模型产生的数字信息的敏感性。
l 关于恐怖主义、极端主义和反恐的Middlebury Institute 国际研究中心(CTEC)正在探索GPT-2是如何被恐怖分子和网络极端分子利用的。
l Oregon大学正在开发一系列的“偏差调查”来分析GPT-2中的偏差。
l Texas大学Texas分校正在研究在对特定领域数据集上的模型进行微调后, GPT-2输出的统计可检测性,以及不同语言模型之间检测传递程度。
这些合作伙伴的研究将适应OpenAI未来的发布决策,通过观察774M参数模型的使用情况,以了解大型模型的还需要考虑哪些因素。作为分阶段发布策略的一部分,OpenAI目前的计划是在几个月内发布1558M参数模型。但根据合作伙伴调查结果,或者如果有恶意使用的774M模型的情况发生,那么可能会适当的做出调整。随着时间的推移,大型模型固有的问题将会有所增加,而不是减少。
2019年2月
OpenAI首次公布GPT-2论文以及发布小型124M参数的GPT-2模型。雷锋网 AI 科技评论报道见 https://www.leiphone.com/news/201902/A0LIv4qeizhuABLF.html
2019年3月
The Partnership on AI与OpenAI共同举办了晚宴,讨论出版规范。
2019年5月
分阶段发布中型335M参数模型以及大型模型的输出数据集,发布检测基线,帮助人们了解如何检测像GPT-2这样的模型的输出。
2019年6月
OpenAI出席美国国会听证会,解释合成媒体的含义,包括对合成文本的讨论。开始与人工智能合作伙伴开展研究合作,以发布人工智能研究规范,尝试与不同的研究机构展开合作。
2019年7月
DeepTabNine基于GPT-2开发代码自动补全应用;用自回归Transformer模型生成多圈对话响应;生成文本的统计检测和可视化。
2019年8月
Thoughtful Technology Project的研究人员和剑桥大学一同发表了一篇论文,主题是“减少合成恶意滥用的工作文件媒体研究:机器学习的注意事项和潜在发布实践”。
小结:
雷锋网认为:AI智能作为现代科技的风向标,所面临的机遇和挑战前所未有。OpenAI作为其中的一个代表,发表惊人的研究成果的同时也引发了人们对许多问题的注意,比如除了研究机理和参照的数据集,还需要关心强大的模型是否会被恶意滥用等相关的社会道德问题,几个月来OpenAI的研究人员也一直在努力继续研究和协调,相信他们最终能找到完善的答案。
拓展阅读:
1、 OpenAI博客链接:https://openai.com/blog/gpt-2-6-month-follow-up/
2、故事达到人类水平的AI,OpenAI大规模无监督语言模型GPT-2
https://www.leiphone.com/news/201902/wuK3G9qDcrf5dX0r.html
3、OpenAI不公开发布GPT-2,应该反对还是赞同?
https://www.leiphone.com/news/201902/A0LIv4qeizhuABLF.html