所有人的目光聚焦在生成式AI时,Arm同样如此,还提出了非常具体的目标。
一年一度的 Arm Tech Symposia 年度技术大会深圳站,Arm 终端事业部产品管理副总裁 James McNiven表示,“预计到2025年底,全球将有超过1000亿台Arm设备具备 AI 能力。”
对于Arm架构芯片出货量已经超过3000亿颗的Arm来说,这是一个可以轻松达成的目标吗?
“我不会说这是一个非常轻松就能达成的目标。”James McNiven对雷峰网(公众号:雷峰网)表示,“我们与生态合作伙伴一起能够达成这个目标。”
为了达成这个目标,Arm有一些列动作,包括为生成式AI计算进行的持续的架构演进,提供易于使用的软件工具,以及特定面向行业的整体解决方案,还有更广泛的合作。
为生成式AI演进的架构
Arm一直在根据市场需求持续演进其架构保持其领导地位。
比如2011年Armv7-A中引入了Neon,Neon是高级单指令多数据(SIMD)指令的一种实现方案。
2016年Armv8-A 中引入了 SVE,2021 年 Armv9-A 中引入了 SVE2,它们提供可变长度寄存器。
2021年Armv9-A中引入了SME和SME2。SME引入了两个关键的新架构特性:Streaming SVE模式和ZA存储,新特性使SME 和 SME2 能够高效地处理矩阵和基于向量的工作负载。
SVE2和SEM的架构扩展也是Arm未来十年架构演进的重要方向。
Armv9 CPU中的SVE2对于加速视频解码和图像处理有显著作用。
联发科最新的旗舰芯片天玑9400,就是借助SVE2让联发科的芯片协助开发者和终端提升视频和图像处理,提供更好的照片质量,并为用户在观看流媒体视频和浏览社交媒体应用程序时提供了更好的续航能力。
SME建立在SVE2的基础之上,新增了高效处理矩阵的能力,是一个增强矩阵操作的架构扩展。
Arm SME能够显著提升Arm CPU上处理现有AI和ML应用的能力,加速很多利用矩阵运算的应用,例如 AR、VR 和图像处理。
这也意味着,从2015年使用Armv8(NEON)架构的Cortex-A73 CPU开始,Arm在AI领域的投入就已经转化为产品。Arm将实现的1000亿台设备具备AI能力的目标,也覆盖从Armv8(NEON)到Armv9(SVE2/SME)的所有产品。
可扩展的计算平台只是Arm满足生成式AI时代需求的技术底层。对于芯片设计公司来说,关注可扩展能力的同时,也关注性能和产品上市时间。
面向不同行业推出计算子系统,加速产品上市
芯片行业不变的追求就是以更小芯片面积和更低功耗实现更高性能,性能总是会成为首先被关注的焦点。
基于Armv9.2架构的Arm Cortex-X925在Geekbench 6.2基准测试中创下新高,实现了15% 的每时钟周期指令数 (IPC) 提升。
Arm Cortex-X925显著的性能提升得益于L2缓存从2MB增加到3MB,增强了整体性能和能效。再结合Cortex-X925 在更快速、更高效预取数据和复杂指令的能力后,效果更佳明显。
除此之外,Cortex-X925也充分利用3纳米工艺的优势,在需要时以更高的频率运行 CPU,从而提高响应速度、应用启动速度和浏览器性能并且保持能效优势。
Cortex-X925中矢量管线50%的Integer8 TOPS 提升,可加快智能手机上的AI应用响应速度。
即便Arm的设计足够优秀,想要加速产品上市进程,还需要整体解决方案。为此,Arm推出了Arm 终端计算子系统 (CSS),CSS具备最新的 Armv9 CPU、Arm Immortalis GPU、基于3纳米工艺生产就绪的CPU和GPU物理实现,以及最新的 CoreLink系统互连和系统内存管理单元 (SMMU)。
Arm终端CSS提升了30% 以上的计算和图形性能,AI推理速度也提高了59%,以应对各种严苛的工作负载,适用于广泛的AI应用。
“Arm终端CSS的关键在于Arm目前性能最强、效率最高、功能最广泛的CPU集群,带来最佳的性能和能效。”James表示。
不止是CSS,面向更高性能的云端Neoverse CPU,Arm也已经推出了Arm Neoverse CSS。雷峰网了解到,Arm接下来还将推出面向汽车市场的Arm CSS for Auto。
加速实现AI目标,Arm Kleidi 软件库是关键
Arm的计算子系统性能要被充分发挥,软件非常关键。
“开发者需要统一的开发平台,换言之,我们要让开发者不需要关心底层硬件,让他们完成一次代码编写后就可以部署到不同的解决方案中。”James 同时表示,“基于Arm平台超过2000万的开发者对于软件平台也有易于使用的要求。”
面向生成式AI的时代,Arm推出面向热门AI框架的Arm Kleidi软件库。
KleidiAI的命名来自于希腊语“kleidi”,意为“钥匙”,象征其在提升Arm CPU上AI性能方面发挥着关键作用。
Kleidi 软件库包含面向AI工作负载的KleidiAI,和面向计算机视觉工作负载的 KleidiCV。
KleidiAI的明显优势在于,Arm直接与领先的AI框架合作,Kleidi软件库直接嵌入在包括 MediaPipe、LLAMA.cpp、PyTorch和 TensorFlow Lite的 AI 框架中,开发者无需进行任何操作,不会增加额外工作量。
Arm近日也宣布成功将Arm KleidiAI软件库集成到腾讯混元自研的Angel机器学习框架,能够持续为跨操作系统的不同基于 Arm 的设备带来显著的性能提升。
与不包含优化的实现方案相比,在Arm Cortex-X925 CPU 上,使用集成了KleidiAI的llama.cpp的Meta Llama 3和微软 Phi-3 大语言模型 (LLM) 的词元 (Token) 首次响应时间加快了190%。
Arm的工程团队只用不到24小时就测出了Llama 3的优化性能,充分体现了KleidiAI易于集成的特性。
软件库中的KleidiCV,能够加速许多摄像头用例中的计算机视觉管线。基于KleidiCV集成,全球最的的计算机视觉库OpenCV发现各种图像处理任务的典型性能提升高达75%。
值得注意的是,Arm Kleidi 软件库适用于从终端到云端的各种应用场景。
更广泛的生态合作
“AI比历史上其他计算技术都更耗电和内存。”James表示,“先进封装作为解决AI计算挑战的新方法,我们要驱动基于Arm的小芯片生态的繁荣。”
这就离不开Arm全面设计 (Arm Total Design)生态的壮大,这个生态中除了Arm的软件和固件,还有先进的代工厂、芯片设计公司、EDA、内存、第三方IP等公司。
对于Arm,只有不断拓展自己的边界,成为平台公司,更有利于加速实现明年底1000亿台Arm设备具备运行AI能力目标的实现,这也将帮助Arm在生成式AI时代保持领先优势。