雷锋网消息,本周三,MLCommons 公布最新 MLPerf Inference V 1.1 基准测试(Benchmark)结果。与 V 1.0 版本相比并无太大区别,只不过在边缘推理的测试场景中,串流传输被弃用,不再作为基准测试的一部分。
新一轮基准测试中,在 AI 领域占优势的英伟达依然是唯一一家提交了从数据中心到边缘所有 MLPerf 基准测试类别数据的公司。不同的是,此次基准测试中,英伟达第一次在 Arm 系统上进行数据中心测试,并取得不错的成绩。
Arm 服务器推理性能接近 x86
由于能效性能的不断增长和强大的软件生态系统,Arm 架构正在向全球各地的数据中心进军,而在此次MLPerf 基准测试中,Arm 服务器也被纳入其中。
英伟达展示的基准测试结果表明,如果以 A30 GPU 为标准,基于 x86 服务器和 Arm 服务器的处理速度均有提升。离线(Offline)测试中,基于两种服务器的 A100 处理速度差别不大,相比于 A30 的处理速度均有接近 2 倍的提升;服务器(Server)测试中,A100 相比于 A30 有 1 至 3 倍的提升,在语音识别 RNN-T 模型中,基于 x86 的 A100 处理速度与基于 Arm 服务器差别较大。
另外,本次基准测试中,A100 也同时基于 Ampere Altra CPU 的 Arm 服务器和英特尔的 x86 服务器上进行了测试。
作为 GPU 加速的平台,在 AI 推理工作中,使用 Ampere Altra CPU 的 Arm 服务器的性能稍逊于具有类似配置的 x86 服务器,但在 3D-Unet 工作负载测试中,基于 Arm 服务器的 A100 性能得分超过了 x86 服务器。
一直以来支持所有 CPU 架构的英伟达表示,十分高兴能够看到 Arm 在同行评审中的行业基准测试中能够证明其 AI 性能。
Arm 高性能计算和工具高级总监 David Lecomber 表示: “最新推理结果表明,Arm CPU 和 NVIDIA GPU 驱动的 Arm 系统已能够应对数据中心中的各种 AI 工作负载。”
AI 推理性能四个月内提升 20%
此次基准测试中,英伟达一如既往地展示了其 AI 推理性能,英伟达凭借其架构设计配合软件再次取得突破。
与 MLPerf 0.7 版本相比,本次测试中英伟达 A100 GPU 各类工作负载得分均有提升。其中,医学图像 3D U-Net 模型涨幅高达 150%,语音识别 RNN-T 模型测试涨幅高达 130%。
事实上,在今年 4 月份 MLPerf 1.0 版本中,A100 GPU 的推理能力就已经在推荐系统模型 DLRM,语音识别模型 RNN-T 和医疗影像 3D U-Net 模型方面有一定提升,提升幅度最高达 45%,而此次又取得新突破,相比四个月前提升了 20%。
根据英伟达的介绍,其完整的 AI 软件堆栈是提升其 GPU 性能的关键。
英伟达 TAO Toolkit 可以简化迁移学习过程,用户能够在熟悉的环境中优化模型;英伟达 Tensor RT 软件对 AI 模型进行了优化,使其能够最有效地运用内存并且实现更快的运行速度。Trition 推理服务器能够简化云端、本地数据中心或边缘的服务部署,支持不同应用中的欺诈检测、包裹分析、图像分割等各类任务。
此外,在多实例 GPU(MIG)技术的支持下,英伟达 A100 能够提升将近 7 倍的 GPU 资源,即在一块 GPU 上运行 7 种工作负载,而 A30 只能支持 4 种工作负载。
英伟达的 AI 优势不仅仅体现在自家 GPU 的得分上,此次基准测试中,共计 7 家 OEM 厂商提交了 22 个 GPU 加速平台,这些服务器中大多数都是英伟达认证系统,很多型号都支持上个月正式发布的英伟达 AI Enterprise 软件。
英伟达的 AI 技术已经得到广大生态系统的支持,此次与 Arm 系统的合作,也从侧面反映了英伟达进军 Arm 的决心。
文中图片源自英伟达官方 雷锋网雷锋网雷锋网
相关文章: