英伟达「三芯」策略初步奏效 | ISC 2022

作者：包永刚

2022/05/31 08:05

相比几年前谈论的重点只有GPU，在拥有CPU和DPU之后，英伟达作为系统公司能够谈论的话题更加丰富。

在刚刚过去的Computex和时隔两年重新回归线下的ISC 2022（国际超级计算机大会），英伟达都展示了诸多其GPU、CPU、DPU的最新合作成果，这在很大程度上表明了英伟达的“三芯”策略已经初见成效。

英伟达「三芯」策略初步奏效 | ISC 2022

另外，英伟达在混合量子计算中的成果，也体现了其在高性能计算领域的前瞻性布局。

当然，英伟达CEO黄仁勋也在与媒体的交流中再次强调，“英伟达是一家系统公司，提供从硬件到系统软件的全栈方案，客户可以按照其需求选择我们的产品。加速计算的世界与CPU截然不同，我们的产品和方案非常独特。”

英伟达的“三芯”到底如何加速那些世界上最快的加速系统？

独特的CPU+GPU组合

GPU作为英伟达发明的产品，也是英伟达的标签，在今年GTC 22上，雷峰网(公众号：雷峰网)介绍了英伟达最新一代Hopper架构GPU H100发布，相比两年前的Ampere架构A100 GPU，实现了数量级的性能提升。

黄仁勋表示，20个 H100 GPU 便可承托相当于全球互联网的流量，使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。

不过，相比GPU，英伟达的Grace CPU更能吸引外界的关注。市场上已经有很多优秀的CPU产品，英伟达在这样的背景下推出CPU让人感到意外，也让人好奇Grace CPU的不同之处。

当被问及Grace CPU有何独特之处时，黄仁勋说，“Grace旨在比其它CPU更好地解决与数据处理有关的问题，能够更高效处理大量数据，并且与我们的GPU紧密结合，更好地完成解决AI任务。”

英伟达的Grace CPU超级芯片集成了两个基于Arm的CPU，有多达144个高性能Arm Neoverse核心，并且带有可伸缩矢量扩展和1 TB/s的内存子系统，支持最新的PCIe Gen5协议，可实现与GPU之间最高性能连接，同时还能连接NVIDIA ConnectX-7智能网卡以及NVIDIA BlueField-3 DPU。

由此看来，英伟达在设计Grace CPU之处就已经非常明确要将其所有硬件产品之间很好地互联。这也容易理解，随着摩尔定律的放缓，异构计算成为了未来趋势，作为提供高性能计算产品的公司，英伟达有这样的布局也十分合理。

ISC 2022上，英伟达CPU+GPU的产品组合获得了认可，美国和欧洲的领先超级计算中心都将率先采用这两款超级芯片。

美国阿拉莫斯国家实验室（LANL）今日宣布，其新一代系统Venado将成为美国首个采用NVIDIA Grace CPU技术的系统。Venado是使用HPE Cray EX超级计算机构建而成的异构系统，将同时配备Grace CPU和Grace Hopper，这一系统建成后的AI性能预计将超过10 exaflops（10的18次方，百亿亿次）。

另一个率先采用英伟达Grace CPU和GPU的系统是瑞士国家计算中心的新系统Alps，基于HPE Cray EX超级计算机构建，这是一个通用系统，向瑞士及其他国家的研究者开放。

英伟达还宣布，源讯、戴尔科技，技嘉科技、慧与、浪潮、联想和超微宣布计划部署基于Grace CPU和Grace Hopper超级芯片的服务器。

DPU带来的大幅性能提升

DPU是一个新概念，在英伟达带动下成为备受关注的产品，涌现了大量初创公司以及资本的投入

DPU的核心价值是将通信和计算负载从CPU卸载，进而获得巨大的性能提升。不过DPU能够带来的具体的性能提升，仍然需要实践证明，英伟达借着ISC 2022给出了一些案例。

英伟达「三芯」策略初步奏效 | ISC 2022

洛斯阿拉莫斯国家实验室（LANL）的杰出高级科学Poole 正与英伟达进行一项为期多年的广泛合作，旨在将计算多物理应用的性能提高30倍。这其中包括使用 BlueField 及其NVIDIA DOCA软件框架在计算存储、模式匹配等。

LANL 已经感受到网络计算的强大功能，加速闪存盒（ABoF）将固态存储与DPU和InfiniBand加速器相结合，可为 Linux 文件系统的关键性能部分提供加速。它的性能高达同类存储系统的30倍，并将成为 LANL 基础架构中的关键组件。

俄亥俄州立大学的研究人员展示了 DPU 如何将一个HPC热门编程模型的运行速度提高 21%。他们通过卸载消息传递接口（MPI）的关键部分，加速了P3DFFT，这是一个用于众多大规模HPC仿真的数学库。

对于运行药物研发或飞机设计等HPC仿真应用的超级计算机，DPU也能够带来高达两位数的性能加速。

欧洲的多个研究团队正利用BlueField DPU 加速 MPI 和其他 HPC 工作负载。英格兰北部的达勒姆大学正在开发一款软件，用于在 16 个节点的 Dell PowerEdge 集群上使用 BlueField DPU 以实现 MPI 作业的负载均衡。剑桥大学、伦敦和慕尼黑等的研究人员也在使用 DPU。

DPU也在用于加速分子动力学研究，还能用于气候学、天体物理学、大数据、AI 和更多方面的研究。这些研究人员也在考虑如何使用新一代的BlueField-3 DPU 的核心功能。

三芯策略初步奏效，布局量子计算

高性能计算系统对于算力有着更高要求，也有独特需求，在英伟达拥有了GPU、CPU和DPU之后，它能够实现更多的硬件组合，再配合上层的软件系统，能够更好满足前沿应用和更高计算的需求。

通过ISC 2022的众多成果展示，也能看到英伟达的三芯策略已经初见成效，不同的产品和产品组合已经在HPC、AI等应用中实现性能的显著提升。

不止于此，英伟达还在布局前沿的量子计算。

英伟达「三芯」策略初步奏效 | ISC 2022

量子计算有两大优势，一个是可以为海量数据的并行计算（性能）带来指数级别的提升，这种强大的功能，可以运用在包括金融、数据的搜索处理等领域。另一个是量子计算编译在电子原子上，在模拟方面会表现的非常自然，例如新材料的发现，生物医药的药物合成。

不过，量子计算的实现还有很多挑战。随着量子系统的发展，下一个重大飞跃是朝混合系统迈进：量子计算机和经典计算机协同工作。

因此，摆在面前的一个重要任务就是将传统系统和量子系统桥接到混合量子计算机中。GPU适合与量子计算协同工作，能大幅降低经典计算机和量子计算机之间的通信延迟，解决当今混合量子作业面临的主要瓶颈。

英伟达「三芯」策略初步奏效 | ISC 2022

据悉，已经有数十家量子组织已经在使用 NVIDIA cuQuantum 软件开发套件，在GPU上加速其量子电路模拟，能够在主要的量子软件框架上实现加速计算。比如，AWS展示了cuQuantum如何在量子机器学习工作负载上实现高达900倍的加速。

在经典计算的层面，英伟达不断通过丰富硬件产品和软件生态保持争力，面向未来的量子计算，英伟达也做好了准备。