导语:国内180 余家大模型企业的共同诉求
「现在是不是很多人打电话要卡?」
「这段时间确实是。」
2023 年 8 月,在青岛 2023 年CCF全国高性能计算学术年会(CCF HPC China 2023)的现场,笔者见到了北京超级云计算中心CTO甄亚楠。
算力、算法、数据被称为大模型时代的三驾马车。业界多宣传算法先进性,但算力其实是各家的大后方重要据点,很少有企业愿意将自己有多少张卡开诚布公地讲出来。提及这个问题时,甄亚楠很淡定。毫不掩饰北京超级云计算中心的实力与资源。
「数据显示中国现在有 79 家大模型公司,实际我们接触过程中,这个数字高达 180+。」
2011年11月1日正式奠基的北京超级云计算中心(以下简称北京超算)一开始就赢在了起跑线上,背后超强的CPU及GPU资源,在大模型时代显得尤为瞩目。
ChatGPT的火爆使得各大厂商对于高端算力资源的需求愈发旺盛,形成了需求与供给间的巨大鸿沟。这对于北京超算而言,既是机遇,又意味着巨大的挑战。在交流的过程中,甄亚楠也为展示了他对于这一浪潮的深度思考。
据OpenAI报告,训练一次 1746 亿参数的 GPT-3模型需要的算力约为 3640 PFlop/s-day。即假如每秒计算一千万亿次, 也需要计算 3640 天,此外目前大模型训练所需算力的增速保持在3-4个月/倍速度增长,远超摩尔定律 18-24个月/倍,如此大规模的算力需求,GPU一卡难求成为行业共识。
但与大众所认知的不一样,AI所需要的算力与传统超算其实还存在着略微的差异。在传统的超算领域里边,算力主要依托于CPU,然后以及内存来帮用户去解决科学计算的问题。但是在人工智能领域里边, 我们常常听到的都是GPU。这其实与GPU的独特性能有关。而人工智能和机器学习最流行的算法即为深度神经网络计算,其核心为超大规模矩阵计算,在这方面,GPU在矩阵计算方面十分出色,所以GPU之于AI可谓是相当契合。
「我们也是关注到了这一点,并且业内目前有非常多的科学计算的程序以及人工智能相关的一些框架,都可以支持GPU的计算加速,这样的话也可以有效得到计算结果的产出。」甄亚楠表示。
从甄亚楠的回答中,我们也能间接得出北京超算能获得众多用户青睐的原因,一方面是北京超算对于模型算力底座的持续搭建,另一方面也来自于其不断创新的商业模式,北京超算对算力进行租赁,用户只需要支付实际使用所需的计算量与计算时间,大幅度降低运营成本,成为大模型时代绝佳的算力支持。
谈到大模型的未来,甄亚楠表示,未来具有太多不确定性,但不管怎样,百模大战之下的算力需求已成肉眼可见的行业趋势,北京超算对未来的规划也十分清楚明晰。目前除了北京以外,北京超算已经在内蒙古、宁夏等地建设了大型算力中心,未来也有规划继续去扩容算力中心的地域以及规模。在面向于用户应用场景,采用了按需建设的一个算力资源建设模式,根据用户的实际业务需求来去建设匹配用户业务的算力资源。
以下是雷峰网和甄亚楠的对话:
雷峰网:大模型热潮对于算力资源带来了哪样的机遇与挑战?北京超算在这方面有哪些布局?
甄亚楠:大模型训练对于今年的算力来讲是一个非常大的机遇,同时也伴随着相应的挑战。机遇主要体现在大模型算力需求量属于爆发式增长。对于算力中心来讲,需要有非常庞大的计算能力来去进行有效支撑。但是,现在从大模型算力的供给量而言,我们现在还是受到了一些瓶颈上的制约,所以我们一方面在积极寻找优质的加速卡资源,来保障用户在大模型计算过程中有效的、短期的算力资源。另一方面我们拥有强大的算力服务能力,持续性输出给大模型客户,比如算力资源建设能力、后方保障能力等。
同时,面向于大规模计算的业务场景,未来是否有持续性的算力需求,我们也正在持续的观察中。我们希望能够和大模型的算力合作伙伴保持长期的稳定的合作关系,为未来的算力发展以及算力规划,去提供有效数据,从而更有效地服务于业务场景。
今年年初我们就已经制定了超过万张GPU卡的算力的建设规划,到目前为止已经有部分的算力资源上线,并且服务了国内比较多的大模型的算力客户,保障了用户业务的有效开展,也希望后续我们的算力资源能够持续为大模型的客户提供有效保障。
雷峰网:北京超算构建超算架构模式,最开始布局是起源于什么时候,是基于哪样的初衷与考虑呢?
甄亚楠:北京超级云计算中心成立于2011年,自成立之初一直都在做超算相关的一些业务,也就是采用通用算力来去解决科学计算和工程计算中所遇到的一些计算密集型的问题。
我们从2019年开始布局AI算力,也就是通过GPU以及其他的加速卡,来给客户提供算力上的一些服务和支撑。通过算力服务来保证用户在人工智能的场景里边可以得到有效的支撑。
在服务的过程中,我们其实也看到了在传统的深度学习以及大模型领域,用户对于算力资源的需求量比较丰富,我们希望能够在多场景的情况下,比如说在自然语言处理、声音识别、自动驾驶等多个场景里边给客户去提供支撑服务。
到目前为止,从产品的角度来讲,北京超算已经形成了基于超算架构的算力资源,以及基于云主机的算力资源,既可以满足用户在大规模并行计算上边的算力需求,也可以满足用户在传统科研、教育过程中所需的算力需求。在平台上,我们会集成用户所常用的一些深度学习框架或者是一些开源的数据集,可以保证用户在使用过程中得到一个高效稳定的环境。
雷峰网:以超级计算机为代表的超算架构能力能够提升大模型训练的效果、收敛以及预测的精准度。北京超算是如何做到这一点的?
甄亚楠:目前在大模型的业务场景里边,参数量的增长速度比较大,参数增长量和整个计算量基本上是成正比的关系。用户对于计算量和精度的高要求,离不开算力的支撑。我们会通过增加GPU算力资源,同时通过对用户场景的应用性能分析,综合判断客户在计算过程中究竟需要怎样的算力资源。首先我们要保证给客户去提供稳定可靠的算力资源,保证这些算力在用户环境上是可用的;同时,我们还需要针对用户的业务场景去提供多种多样的算力服务,既包括了我们整个系统级服务,平台级服务;针对于各种实际场景,我们也可以去提供深入针对代码级的优化服务,从而提供非常好用的算力环境;我们也将持续去优化算力成本,以及平台的计算时长,保障用户的降本增效。
雷峰网:超级计算机通常使用的是高性能的CPU和大量的RIM,而AI计算通常是更加依赖于GPU和其他的专门的硬件,对于传统超算的与AI运算所需要的硬件之间的差异与融合,您是如何看待的?
甄亚楠:在传统的超算领域里边,我们主要依托于CPU以及内存来帮用户去解决科学计算的问题。但是在人工智能领域里边,GPU在矩阵计算方面具有独特优势,所以在GPU以及显存方面,我们可以给用户带来非常高的性能上的提升。在人工智能以及部分的科学计算场景里边,目前都已经采用了GPU加速卡来作为计算加速的有效部件,那么我们也是关注到了这一点,目前业内有非常多的科学计算的程序以及人工智能相关的框架,都可以支持GPU的计算加速,有效促进计算结果的产出。
雷峰网:超算对应的数据存储量和存储种类都在快速增加,北京超算的超算架构模式整合了国内各大中心的算力资源,在数据存储方面是否有针对性的一个优化计划?
甄亚楠:在存储方面,无论是科学计算还是人工智能计算都面临着以下几方面的需求与挑战:
一方面是存储容量的增加,随着大模型相关的业务的开展,用户对于存储容量的需求相对来说还是比较大的。
另一方面,大模型对于存储IO性能的要求在逐渐提高,在计算过程中伴随着大量的数据的读取,我们如何去提供高效的数据存储空间,能够既可以满足用户容量的需求,又可以满足用户读写上的需求,这个是用户非常关心的一个点。
此外,对于整个存储服务领域,我们能不能提供有效的存储解决方案,既可以保证用户数据的安全性,又可以让用户轻松的在云端完成自己数据的管理。
北京超算提供了多种的存储解决方案,一方面我们可以提供基于SSD的存储空间,保障了用户的数据存储变得高效;同时我们也可以提供基于PB级的大容量的存储空间,可以存储用户更多的数据;针对于企业级客户,或者是针对于私有数据的客户群体,北京超算也可以提供独立的存储空间来保障用户的数据,使客户得到有效安全的存储;同时我们也提供分布式文件系统,来保证用户数据业务的安全性和稳定性。
雷峰网:在处理人工智能大规模训练的时候,与普通的计算方式相比,异构计算和大规模并行计算有哪些显著优势?
甄亚楠:异构计算目前主要是指采用CPU+加速卡的模式来给用户去提供对应的算力服务。这块主要是基于应用场景来开展,我们一般去处理这种场景的话,都是从用户的应用程序来出发,如果用户的应用程序只支持传统的CPU计算,那么它的业务场景基本上都维持在CPU计算的场景里边。但是现在我们很高兴地看到不管是常用的计算软件还是针对性的国产计算软件,基本上都支持了CPU+加速卡的异构计算模式。我们也相信未来会有更多的计算软件加入到异构计算的这个场景里面去。
北京超级云计算中心,现在也在积极地部署异构算力资源,通过多种资源的多元化来保证用户不同业务场景的有效服务。
3、暗礁之上,持续突围
雷峰网:收集、策划和清洗数据是模型生产中非常大的一个挑战,超算架构模式能否在一定程度上解决这个问题?
甄亚楠:数据的清洗和处理是整个人工智能在发展过程中“三驾马车”里面非常重要的一方面。整个大模型计算的过程中,北京超级云计算中心可以为用户提供非常稳定的大规模算力资源,同时也可以给用户去提供高效的数据处理空间。用户在进行数据处理的过程中,一般是基于自有的算力环境来解决的,主要进行数据的标注和处理。但是一旦到了大量计算,就需要把用户的数据迁移到北京超级云计算中心的算力资源上,来进行大规模的并行计算。所以综合而言,超算架构模式能在一定程度上帮助用户解决数据清洗的问题。
雷峰网(公众号:雷峰网):AI进入了产业周期,大家对于AI基础设施的关注度越来越高,对于业界常说的“端、边、云”全场景AI基础设施,您如何看待?
甄亚楠:AI业务的上下游产业链相对来说比较长,算力其实有多元化的不同种类。北京超级云计算中心所提供的算力资源,主要是给用户去解决离线业务的大规模并行计算,而对于相关软件算法的初创期,如果有大量的模型求解任务需要进行现实环境下的大规模计算,这种场景更适合于放在超算中心来完成。
针对于部分用户在实际投入生产的业务来讲,这些业务的话可以通过“云、边、端”联动的方式,来得到有效的支撑。
雷峰网:在超算体系中,芯片操作系统以及各种应用等方面的国产化趋势越来越明显,您如何看待国产化趋势?国产化过程中是否有存在一些困难与挑战?是如何克服的?
甄亚楠:我们非常关注芯片、软件以及服务生态国产化方面的相关进展。同时,在服务用户的过程中也发现了相关需求,比如说相较于通用算力,用户在使用国产算力上时,是不是会有性能上的差异,以及国产工业软件的功能以及精度,是不是与国外软件会有一定的差异性。用户在使用过程中也非常关注这些软件如何高速有效的移植到国产芯片上,以及移植完成以后是不是可以达到类似于通用芯片的计算性能与效果。所以在这一方面,北京超级云计算中心希望和国内的芯片厂商以及软件的研发单位,共同打造我们的国产生态。
同时,我们也希望能够通过北京超算的算力服务平台,将更多优质的国产芯片和国产工业软件提供给用户来进行使用。
雷峰网:未来,北京超算还有哪些规划与布局呢?
甄亚楠:算力资源方面,目前除了北京以外,我们已经在内蒙古、宁夏等地建设了大型的算力中心,同时也有规划继续去扩容算力中心地域以及算力中心的规模。
同时,在应用场景方面,我们采用了按需建设的算力资源建设模式,根据用户的实际业务需求来去建设匹配用户业务的算力资源。这样可以使用户业务得到有效的适应,来提升用户业务的性能。
从整个产品规划的角度而言,北京超算目前已经形成了4大产品线,基于超算云和智算云分别去提供 CPU以及GPU相关的算力资源,同时也衍生出了“行业云”的解决方案。可以在工业仿真、气象海洋、生命科学等领域为用户提供非常强的行业解决方案,保证用户可以在特殊的行业场景里边能够将业务和算力进行有效的结合。
同时我们也提供「设计仿真云」,可以面向于CAD场景,给用户去提供非常有效的设计环境。
基于北京超算十余载的服务经验,如今,我们也逐渐在将强大的运营能力进行有效输出,帮助相关的政府/企业建设算力中心,同时提供有效的运营服务,来帮助他们去提升整个平台的运营效率和运营效果。