当前,人工智能技术和应用的快速演进,引领了科技和产业进入了新一轮的变革,成为国际竞争的新焦点,经济发展的新引擎。
尤其是ChatGPT的出现,刺激了以大模型为代表的通用人工智能技术的发展,同时还引发了新一轮的技术革命,进而带动了智算产业的快速革新。
时间回到2020年5月份,彼时OpenAI发布了GPT3,拉响了大模型这场马拉松式的竞赛,缘何其能成为出发点,通过观察了解发现,GPT3发布时,OpenAI就提出了一种全新的大模型训练和应用模式,即基础大模型通过训练后,通过零样本,或者是小样本提示的形式直接赋能行业的应用。
继而在GPT3发布后,OpenAI持续聚焦在基础模型能力的提升上,2021年8月,OpenAI作出了GPT3.5相关的路演,在基础大模型上,引入了指令微调,通过这种技术手段尝试将模型的能力和人的意图拉齐,从而使模型从预训练阶段到微调阶段能真正理解人的意图,输出的答案能更真实,且更符合人意图的回答。
可以说,GPT3吹响了大模型竞赛的号角,而GPT3.5则把这场竞赛推向了一个小高潮,而这并不是让这整个大模型行业震惊的。今年GPT4的问世,才是让大模型竞赛达到了白热化阶段的新技术栈。
对于国内市场来说,大模型毫无疑问是一项新事物,国内各厂商为了能吃到第一波红利,纷纷选择入局,这就出现了今年4、5月份大模型密集发布的局面,百度文心一言打响头炮,阿里千义通问、腾讯混元等紧随其后,当然昔日的老牌AI公司,诸如商汤、旷视、云从、依图等也选择进行的相应的布局。
观察下来发现,这些公司有着丰富的技术经验积累和充足的财力物力,但似乎之前并没有大模型方面的相关积累。
而浪潮信息较这些企业,对大模型的布局要稍早些。雷峰网了解到,浪潮信息对大模型的研究要追溯到2021年,这一年,浪潮信息发布了2457亿参数的源1.0大模型,这也是当时业界规模最大的中文语言大模型。源1.0大模型具备很强的中文理解、写作能力,是比较经典的Transformer模型结构。每个Transformer里面包含一个典型的Attention层和前馈层。也就是说,源1.0的模型结构和GPT3的结构是比较类似的。
另外,值得注意的是,源1.0大模型还开源了代码,开放了API。尝试通过这些代码、API以及数据的开源赋能开发者,赋能产业用户,以开发更强的模型和应用。
但是对于模型来说,业界最为关注的还是参数,因为参数的大小往往代表着其智能程度,源1.0大模型为何能做到如此大的参数量?究其原因,主要在于其无论在算法、数据还是算力层面,都做到了超大规模和巨量化。
算法方面,相比于1750亿参数的英文语言模型GTP-3,源1.0共包含2457亿个参数,是前者参数量的1.404倍;数据方面,源1.0把近5年整个中文互联网的浩瀚内容全部「读」完了。通过自研的文本分类模型,获得了5TB高质量中文数据集,在训练数据集规模上领先近10倍;算力方面,源1.0共消耗约4095PD(PetaFlop/s-day),而GPT-3消耗了3640PD计算量,计算效率大幅提升。
而今年大模型爆火后,浪潮信息选择持续更新迭代大模型的能力,并于近日发布了源2.0大模型,值得注意的是,浪潮信息仍然选择将其全面开源。其中包括1026亿、518亿、21亿三种参数规模的模型。
据浪潮信息人工智能软件研发总监吴韶华介绍,与源1.0一样的是,源2.0主要围绕算力、算法、数据三方面进行了改进,但不同的是,基于对这三方面的改进,训练出了比源1.0参数更小,但各方面能力均能赶超源1.0的模型。
首先,算法方面,源2.0提出并采用了一种新型的注意力算法结构——局部注意力过滤增强机制(LFA:Localized Filtering-based Attention)。
LFA通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征。这使得模型可以在使用更少的训练算力、更小的模型参数的情况下,同样可以获得更高的模型精度和涌现能力。
其次,数据方面,源2.0通过使用中英文书籍、百科、论文等高质量中英文资料,降低了互联网语料内容占比,并结合高效的数据清洗流程,为大模型训练提供了高质量的专业数据集和逻辑推理数据集。
吴韶华也特别强调道,为了获取高质量的数据,除了引入从互联网上获取到的数据外,我们还会引入了一部分独特的数据,在构建我们的社群数据和代码数据的时候,为了得到高质量的中文的社群数据,我们从2018年到2023年,把互联网上所有中文网页中涉及到的社群数据网页全提取出来,加工清洗,最后获取到了约10GB的数学数据。
再者,算力方面,源2.0采用了非均匀流水并行的方法,综合运用“流水线并行+优化器参数并行+数据并行”的策略,让模型在流水并行各阶段的显存占用量分布更均衡,避免出现显存瓶颈导致的训练效率降低的问题。
据吴韶华介绍,为了对算法能力有定量的分析,还构建了两个性能模型。一个是针对经典的张量并行、流水并行、数据并行,构建的计算模型。二是性能模型,主要考虑到流水并行,数据并行,以及优化器参数并行,对整个计算时间的影响。
当然,浪潮信息也对源2.0进行了各种测试,结果显示,在数理逻辑、数学计算、代码生成能力方面大幅提升,且在HumanEval、AGIEval、GMS-8K等知名评测集上的表现,超过了ChatGPT的精度,接近GPT-4的精度。
同时经过验证,源2.0大模型算力集群的线性扩展效率为47.3%,远高于同类千亿参数大模型的算力集群线性扩展效率(业界普遍算力效率为27%-35%)。
以下是雷峰网和浪潮信息的对话:
雷峰网:源2.0和源1.0相比,是不是源2.0的使用场景更多了?
吴韶华:大模型基于什么样的数据训练,最终也会呈现出之相关的能力。源1.0作为一个基础模型,当时的数学数据非常少,代码数据也非常少,源2.0为了得到数学的数据,清洗了很长时间才获得了少量的质量高的数据。所以从数据角度来说,源2.0的能力边界远超过源1.0。
主要体现在能力上的提升,比如代码能力,数学能力,逻辑推理的能力,当然不仅仅包括数学能力,也包括物理等相关的能力,实际都比源1.0要好不少。当然,源1.0中的一些基础能力,比如写作的能力,中文语言理解的能力,源2.0都具备。
另外,源2.0还具备中英文翻译的优势,源1.0中95%的数据都是中文数据,但2.0里边中英文的数据基本都是平衡的,所以源2.0能同时支持中英文。
雷峰网:为什么选择从算力、算法、数据三方面改进?出于什么样的考虑?
吴韶华:源1.0开源后,其中我们接触到了大量的客户,在这个过程中发现想要在客户的场景中落地其实需要投入大量的时间和经历,确实源1.0存在很多不足。实际上这是所有类似于GPT3大模型普遍会面临的问题。所以我们一直思考,怎么提升模型的能力更好的让大模型落地。这是我们做这个事情的最核心的出发点。
另外,还有一些外界因素,不可否认,OpenAI发布了GPT4对业界的冲击非常大,因此,我们也在思考,如何把模型能力提升到接近GPT4的水平。我们认为应该算法、数据以及算力等方面来齐头并进。结果也显示通过这样的方式,源2.0确实在各方面都有着比源1.0更出色的表现。
当然,我们现在做的工作,只是开了一个头,尤其是在算法方面,未来我们会我沿着这个方向继续挖掘出更有价值的东西。
雷峰网:和其他企业相比,源2.0的创新和差异点是什么?怎么定位自己?
吴韶华:从1.0到2.0我们始终聚焦在基础模型能力的提升上,因为我们一直认为只有基础模型能力提升了,才能更好的落地到各行业的各场景中。我觉得这可能是我们跟其他企业最大的不同。当然,我们也有很多志同道合的伙伴,可能中间会出现一些分歧,但这都是正常现象,只是大家选择了不同的道路而已。
雷峰网:除了基础大模型,没有考虑做行业模型吗?
吴韶华:客观来讲,大模型分为基础大模型,以及大模型在不同行业的落地,我们不把这种模型称作行业大模型,而是说大模型在行业的应用。实际上是这样的关系。
从源本身说,我们的目标是非常清晰的,就是发挥整个团队的优势,加上对产业的理解,不断提升基础大模型的能力。聚焦到具体行业的落地,我们希望生态伙伴去完成,比如开发者社区、软件开发商,行业客户等,他们可以基于源基础大模型做行业数据的微调,去生成他们专有的大模型,他们可以基于你的方法,训练出不同尺寸、不同场景的模型。我觉得这是一个非常好的方式。浪潮信息的重点是为整个社区,整个产业持续提升基础大模型的能力。
雷峰网:您认为架构的调整,比如Transformer到现在的GPT,能解决大模型的幻觉问题吗?
吴韶华:架构的改进有助于在一定程度上能缓解幻觉的发生,但幻觉不是一个孤立的问题,它不仅和模型结构有关,和数据以及训练方法也有很强的关联性。所以模型结构是一个因素,数据是一个因素,训练方式是另外一个因素。所有因素加在一起,才能有效的缓解幻觉问题的出现。
我觉得幻觉问题很难永远彻底的解决,因为毕竟现在的大模型都是基于概率的预测。既然是概率的话,总会有正确率高的时候,总会有一些异常事例存在。这是我个人的理解。
雷峰网(公众号:雷峰网):源2.0和1.0一样维持开源,您怎么看待开源和闭源?
吴韶华:开源大模型和闭源大模型,其实很像安卓系统和IOS系统,未来很长一段时间可能会共存,这是很自然的现象。
开源大模型可以带动整个产业的协同发展,这是开源最本质的好处。我们可以回顾一下过去所有成功的开源项目,实际上都是整个社区的共同贡献才成就了一个大的项目成果。所谓开源就是“我为人人,人人为我”,这是我对开源非常重要的体会。
雷峰网:目前很强的模型类似GPT4其实是保持闭源的?
吴韶华:GPT4是闭源的。我们不知道它怎么能有如此好的表现,包括流行的代码测试等都有非常好的表现。它把所有的工作都封闭起来了,实际上没有人知道它是怎么实现的。在这个情况下,只有一家公司拥有一个非常领先的能力,是不利于产业的健康发展的。因为这样其他人没有办法提供一个类似能力的模型,我们希望大模型这个产业能够百花齐放,百家争鸣。
实际上我们今天做的好多工作,都是在坚持走开源的路线,包括开源代码,开源模型,也许我们的模型还不能在每个方面都媲美GPT4,实际上我们也没有做到这一步,但起码能在某些方面,展现出一个比较先进的能力,这样开发者用户就能在我们的模型上做一些非常棒的应用体验,这对生态的发展是非常重要的。
今天我们把源2.0的工作方法都贡献出来了,其实就是把整个社区的智慧都释放出来了,大家一起构建生态,我觉得以中国当前的发模型发展环境来看,这可能是一条能尽快追赶OpenAI的可行路径。
雷峰网:坚持始终开源,不怕被别人反超吗?
吴韶华:源2.0是开源的,业界很多模型也是开源的。对于用户来说,最后是否会变成一家独大?比如是用了源2.0,就不用其他模型了,用了其他的,就不用源2.0了?其实不是这样的,我们认为未来生成式AI是一个多元化的生态,每个模型都有最擅长的地方,比如A模型擅长这部分,B模型擅长那部分...大家加起来可能就会整合出一个能力超强的模型。我们认为这个情况在未来一定会出现的。