万卡集群，进入AI核心圈的入场券

夸娥万卡集群摩尔线程AI 智算中心

作者：包永刚

2024/07/08 18:13

OpenAI的单点集群大概5万张卡，谷歌2.6万张卡，Meta2.45万张卡。

万卡集群，进入AI核心圈的入场券

顶级的AI公司已经为这场“暴力美学”的竞赛，设定了单点集群万卡的门槛。

华为昇腾AI集群规模在去年7月已经扩展至16000卡。去年10月科大讯飞启动万卡集群算力平台“飞星一号”。

今年3月，天翼云上海临港国产万卡算力池启用。4月，中国移动宣布今年将商用3个自主可控万卡集群。

摩尔线程创始人兼CEO张建中在2024世界人工智能大会（WAIC）前夕的摩尔线程AI DAY 暨万卡智算集群解决方案发布会上表示，“AI主战场，万卡是最低标配。”

可实现万卡集群至少面临6个层面的挑战，国内公司如何实现国产算力的万卡智算集群？

AI主战场，万卡是标配

最近两年火爆的生成式AI，被许多人称为“暴力美学”。

也就是在数据量足够大、模型参数数量大到一定程度，模型的精度、准确度会出现智能涌现会，突破传统大模型的准确度。

比如，在自然语言理解场景，当算力参数量和数据量综合算力达到10的23次方时，准确度有极大的飞跃。

万卡集群，进入AI核心圈的入场券

这个规律被称作Scaling Law。与Scaling Law相伴的是对算力的指数级增长。

比如训练GPT4，大概需要1千张H100的算力，而如果使用A100则需要3万张。

“GPT5需要的算力是10万卡。”张建中认为。

这是基于假设Scaling Law按照线性比例成长，估算参数、数据量和算力之间的关系。

从GTP3到GPT4，模型的参数从百亿到万亿，100倍的参数增长，数据量也从几TB到几十TB，是10倍的提升，两者一乘，整个算力的需求就是1000倍的提升。

满足Scaling Law的唯一办法就是建立一个单点超大规模算力集群。

“只有这样，才可以把这个大模型在一个地方，一个网络，单节点之内把它训练完成。”张建中指出。

假设训练一个5000亿参数的模型，15TB的数据，如果使用1000P的集群，三年都训练不完。如果要在一个月内，甚至1-2周内训练完5000亿参数的模型，至少要1万P的算力集群。

“从今年开始，所有智算中心万卡是最低标配，万卡以上的智算中心才有价值。”张建中认为。

Scaling Law持续奏效的同时，还不能忽视算法和架构的演进。

目前，Transformer架构虽然是主流，但新兴架构如Mamba、RWKV和RetNet等不断刷新计算效率，加快创新速度。

“有公司专门为Transformer架构做加速计算，这个创意很好，但如果很容易实现一定会被融合到GPU当中，成为GPU当中的Transformer引擎。我们相信未来还会出现各种架构的变种，要支持不停出现的新框架，只有一个办法，就是通用且能持续发展的计算平台。”张建中表示。

那就应该建设一个万卡规模加上通用可扩展的智算中心，这面临众多挑战。

万卡智算中心的6大难题

有统计数据，2024年国内有上百个在建的智算中心。这是一项超高额的投入，建设几万P的智算中心成本高达几十亿，更大算力规模则需投资上百亿。

“连市场客户都没有就盲目建设智算中心肯定不对，不是所有人都应该去建算力中心，应该由专业的人干专业的事。”张建中进一步表示，“智算中心是否好用，能否通用，能不能稳定运行，有没有能力运营都是建设智算中心需要考虑的事情。”

很多客户喜欢喜欢DIY，但张建中建议不要太多DIY，而是采用整体解决方案，这样集群买回去之后马上就可以用起来，能够避免风险。

特别是从千卡到万卡集群，不是简单的堆叠，复杂度指数级增加，国产千卡/万卡超级系统工程面临着6大难题：包括超大规模组网互联、集群有效计算效率、训练高稳定性与可用性、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算。

“可以把万卡想象成一个万人团队，需要有非常强的沟通机制，才能协同的把一件事情完成。”摩尔线程CTO张钰勃说，“对于万卡集群，仅靠单卡算力还不够，提供匹配单卡算力的通讯也至关重要。”

卡间互联和交换机是关键。雷峰网(公众号：雷峰网)了解到，摩尔线程千/万卡集群的卡间互联是自研的MTLink，和NVLink作用相同，目前已经演进到MTLink2.0版本。

“我们还没有交换机芯片，是用行业里的交换机芯片去搭建我们的集群。”张建中透露，“后期我们会自主研发，或者是和行业合作伙伴一起研发下一代大规模的交换机。”

互联之外的另一个难题是稳定性。

“集群规模越大越不稳定。”张建中对雷峰网表示，“千卡集群故障率可能做到0.1%就可以，万卡集群要提升到0.01%甚至是0.001%，这对硬件设计和生产制造都是很大的挑战。摩尔线程投入了很多，确保架构本身的稳定性，以及让芯片的平均无故障时间更长。”

散热也是提升万卡集群稳定性的关键，千卡集群还可以考风冷解决，万卡就需要液冷保证集群的稳定运行。

“还需要不同的容错机制，在出问题的时候硬件自动恢复，而不是靠软件。”张建中表示。

为此，摩尔线程推出了智算中心全栈解决方案夸娥（KUAE），以全功能GPU为底座，构建了夸娥计算集群为核心的基础设施、夸娥集群管理平台（KUAE Platform）以及夸娥大模型服务平台（KUAE ModelStudio）的一体化交付的解决方案。

万卡集群，进入AI核心圈的入场券

夸娥智算集群也可以实现从千卡至万卡集群的无缝扩展。

夸娥国产万卡万P智算集群的差异化优势

全新一代夸娥智算集群实现单集群规模超万卡，浮点运算能力达到10Exa-Flops，大幅提升单集群计算性能，能够为万亿参数级别大模型训练提供坚实算力基础。

万卡集群，进入AI核心圈的入场券

同时，夸娥万卡集群达到PB级的超大显存总容量、每秒PB级的超高速卡间互联总带宽和每秒PB级超高速节点互联总带宽，实现算力、显存和带宽的系统性协同优化。

算力利用率（MFU）方面，千卡夸娥集群MFU有50%多，万卡夸娥集群的MFU目标是60%。

稳定性层面，摩尔线程夸娥万卡集群平均无故障运行时间超过15天，最长可实现大模型稳定训练30天以上，周均训练有效率在99%以上。

月级长稳训练远超行业平均水平，得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制，包括软硬件故障的自动定位与诊断预测实现分钟级的故障定位，Checkpoint多级存储机制实现内存秒级存储和训练任务分钟级恢复以及高容错高效能的万卡集群管理平台实现秒级纳管分配与作业调度。

夸娥智算集群还有一个对所有用户来说非常友好的特性——CUDA兼容。

“我们的产品跟国内外主流生态在兼容性方面做的很好，开发者移植到夸娥集群几乎不需要修改代码，迁移成本接近0，可以在数小时之内就完成迁移工作。”张钰勃表示，“当然用户可能需要花数天的时间去调优性能，但整体的迁移成本很低，并不需要几周这么长的时间。”

在诸多的智算中心中，张建中认为摩尔线程夸娥的差异化优势在于，是国内唯一一家用全功能GPU实现通用加速计算的公司。

“摩尔线程有1000多人，我们花了4年时间，把GPU的图形能力、编解码能力、科学计算能力、人工智能训练推理能力都做了提升，我们希望能够搭建首个中国本土通用型的万卡集群。”张建中指出。

摩尔线程的GPU也几乎适配了所有国产CPU，这也是夸娥智算集群的差异化所在。

“我们与国内所有的CPU、操作系统一起打造了一个生态系统，叫PES联盟，形成一个本土化完整生态。”张建中说。

万卡集群，进入AI核心圈的入场券

不少人都知道摩尔线程的GPU能做图形渲染，却忽视了基于摩尔线程全功能的GPU能够实现的AI功能。摩尔线程的夸娥千卡集群，已经有包括无问芯穹、清程极智、360、京东云、智平方等合作伙伴。

在摩尔线程夸娥千卡集群上，360分别部署70亿、700亿参数大语言模型，全程软硬件即插即用，工作有效训练时间占比100%；全程稳定无软硬件故障，集群有效训练时间占比100%。

京东基于摩尔线程夸娥集群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模型推理测试，Chatglm2-6B推理测试，S4000的单卡推理性能是RTX 4090D性能的1.26倍，其他两个模型，S4000性能均能达到RTX 4090D性能的90%左右。

夸娥万卡集群，摩尔线程与中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司，分别就青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目进行了战略签约。

接下来，夸娥万卡智算集群就将考验摩尔线程能够作为一家系统级公司，解决国内AI算力紧缺的难题。

张建中要带领摩尔线程做难而正确的事。