亚马逊推出第二代Arm服务器芯片Graviton2，能否快速替代x86？

2019/12/07 15:50

雷锋网按：数据正在成为越来越重要的资源，但挖掘数据的价值面临挑战。这其中，处理器的效率以及成本都非常关键，因此看到在大数据和AI时代，越来越多拥有大量数据或提供云服务的公司都相继推出自研的处理器。亚马逊就是其中的代表，他们在近日的re：Invent上推出了Arm架构的服务器处理器Graviton2。这是否意味着x86架构处理器将会被替代？

关于re：Invent的更多报道，请查看雷锋网发自现场的《芯片问世、Outposts上市、SageMaker大更新，AWS如何成为“规则改变者”？》报道。

亚马逊推出第二代Arm服务器芯片Graviton2，能否快速替代x86？

最终，设计良好的Arm服务器芯片在数据中心中的表现如何将被证明。我们不必等待任何传统的和新贵服务器芯片制造商说服服务器合作伙伴来构建和支持，软件合作伙伴也可以加入并证明其堆栈和应用程序可以在芯片上运行。

亚马逊网络服务本身就是一个生态系统，它拥有很多自己的堆栈，因此它可以像在拉斯维加斯举办的re：Invent上将Graviton2处理器发布后，Marvell，Ampere和其人就可以尝试跟上。

AWS首席执行官安迪·贾西（Andy Jassy）宣布其与安纳布尔纳实验室（Annapurna Labs）共同设计的第二代服务器级Arm处理器，这意味着其向英特尔和AMD清楚地表明了，不需要x86处理器来运行大量工作负载。

使用x86芯片运行工作负载要付出高昂的代价，无论是租用还是购买，这就是AWS要自己设计芯片的重要原因。显然，这还处于早期，但是，如果有一半的大型或超大规模云服务提供商也效仿并构建Arm Neoverse架构的定制（或勉强定制）版本，并且相当积极，那么X86服务器芯片年发货量可能会在很短的时间内从X86迁移到Arm（两到三年）。

微软毫不掩饰地表示其希望50%的服务器使用Arm处理器，最近已开始在其“ Olympus”机架式服务器内部署Marvell的“ Vulcan” ThunderX2处理器。微软并没有透露其部署的规模，但是我们猜测它的数量为数万个，与其服务器机群中的数百万台机器无关。谷歌已经涉足相对大型的Power处理器，并且已经进行了一些部署，但同样不知道其规模。

有传言称谷歌是高通 “ Amberwing” Centriq 2400处理器最大的支持者，并且有传言称它可能会基于Arm架构自主设计SmartNIC处理器和服务器，但是鉴于专利授权问题，Google有可能直接使用开源RISC-V指令集。

阿里巴巴在过去三年一直涉足Arm服务器，并于7月宣布了基于RISC-V的玄铁910芯片。华为海思推出了64核鲲鹏 920，我们认为这是Arm推出的“ Ares” Neoverse N1设计的一种变体，目标客户可能是中国的超大规模客户，云服务提供商，电信公司和其他服务提供商。

实际上，我们认为亚马逊的Graviton2与鲲鹏920类似，它们可能从Arm Ares借用了大量设计。与所有Arm设计一样，它们不包括内存控制器或PCI-Express控制器，必须从第三方获得许可。

去年的这个时候，AWS推出了第一代Graviton Arm服务器芯片，具有16个运行在2.3 GHz的vCPU，采用台积电的16纳米工艺。AWS从未确认Graviton处理器是否具有16个不带SMT的内核或8个带双向SMT的内核，但我们认为它不具有SMT，而仅仅是一个的“ Cosmos”内核，是经过调整的Cortex-A72或Cortex-A75内核。

AWS的EC2计算设备上的A1可支持多达32 GB的主内存，并通过其服务器适配器提供高达10 Gb /秒的网络带宽，以及高达3.5 Gb /秒的弹性块存储（EBS）带宽。我们认为该芯片只有一个带有两个通道的内存控制器，类似于针对超大规模处理器的Intel XeonD。这并不是一个令人印象深刻的Arm服务器芯片，更像是一个强大的智能网卡芯片。

“在AWS的历史上，一个重大的转折点是我们收购了Annapurna Labs，这是由一群以色列非常有才华和专业的芯片设计和制造人才组成的团队，我们决定设计和制造芯片更强性能的芯片。” Jassy在re：Invent的开幕主题演讲中解释道。

“尽管包括我们在内的许多公司已经使用x86处理器很长时间了，英特尔是非常紧密的合作伙伴，并且我们也越来越多地开始使用AMD，如果我们想提高性价比，就意味着我们必须做一些创新。我们与安纳布尔纳峰团队合作，我们认为它们可以在性能和真正重要的方面提供有意义的差异，我们认为人们确实在广泛地做到这一点。他们开始使用的第一个芯片是基于Arm的芯片，我们称为Graviton芯片，该芯片是我们去年在A1实例中发布的，这是云中第一个基于Arm的实例，这些实例旨在用于扩展工作流，因此是容器化的微服务和Web层应用程序之类的东西。”

A1实例有成千上万的客户，但是正如我们过去和现在所指出的那样，就吞吐量而言，它并不是一个出色的服务器芯片，至少与同类产品相比没有。AWS知道这一点，其他人也知道。这是一种尝试。

“当我们启动A1实例时，我们想知道三个问题，” Jassy继续说道。“首先是：有人会使用它们吗？第二个问题是：合作伙伴生态系统是否会加强支持人们使用基于Arm的应用所需的工具链？第三个是：我们能否在Graviton芯片的第一个版本上进行足够的创新，以使您可以使用基于Arm的芯片来处理更广泛的工作负载？在前两个问题上，我们感到非常惊喜。可以在幻灯片上看到这一点，徽标的数量，客户的负载以我们未曾想到的方式使用A1实例，并且合作伙伴生态系统确实以非常重要的方式加强并支持了我们的基本实例。“

”第三个问题，我们是否真的可以在该芯片上进行足够的创新，我们不太确定，这是我们几年前开始在第二版Graviton原因的一部分，即使我们正在构建第一个版本，我们不知道是否能够做到这一点，这可能需要一些时间。”

亚马逊推出第二代Arm服务器芯片Graviton2，能否快速替代x86？

据我们所知，Graviton2更像是一个吞吐量引擎，并且看起来也可以在核心级别与现代x86芯片保持一致，而单线程性能是衡量标准。

拥有超过300亿个晶体管和多达64个vCPU的Graviton2芯片，同样，我们认为这些是真正的内核，而不是线程数量的一半。我们知道Graviton2是7纳米Neoverse N1的变体，这意味着它是Arm为帮助客户加快速度而开发的“ Ares”芯片的衍生产品。根据Arm的说法，Ares Neoverse N1的最高速度为3.5 GHz，内核没有内置多线程同步功能，介于2.6 GHz和3.1 GHz之间。

Ares内核具有64 KB的L1指令高速缓存和64 KB的数据高速缓存，并且跨内核的指令高速缓存在芯片上是一致的。Ares设计为每个核心提供512 KB或1 MB的专用L2高速缓存，并且核心复合体具有特殊的高带宽，低延迟通道，称为Direct Connect，将内核连接到网状互连，该互连将片上系统的所有元素连接在一起。按照Arm结合Ares的方式，它可以在单个芯片或整个小芯片中扩展最多128个内核。64核变体具有八个内存控制器和八个I / O控制器，以及32个核心对及其共享的L2缓存。

我们认为Graviton2看起来很像64核Ares参考设计，在其中添加了一些功能。其中一项功能是内存加密，通过启动时在服务器上生成的256位密钥完成，并且永远不会离开服务器。（尚不清楚使用哪种加密技术，可能是AES-256。）

亚马逊表示，Graviton2芯片的性能是首款Graviton芯片的7倍，浮点性能是2倍。第一统计数据在芯片级别有意义，而第二统计数据必须在核心级别，否则毫无意义。（AWS含糊不清。）从16核升级到64核可为提供4倍的整数性能，而从2.3 GHz升级到3.2 GHz则可提供39％的性能提升，而一直上升到3.5 GHz则可提供另外的50％的性能。最重要的是，整体收益是原来的6倍。

剩下的就是缓存体系结构，每时钟指令（IPC）和整个层次结构的内存带宽方面的改进。将浮点向量的宽度加倍很容易且足够正常。AWS表示，Graviton2芯片的单核高速缓存是其两倍大，并具有额外的存储通道（根据定义，它几乎必须如此），并且这些功能一起使Graviton2的存储速度比初代Graviton快5倍。坦率地说，令人感到惊讶的是它的速度并没有超过10倍，特别是如果Graviton2具有8个以3.2 GHz运行的DDR4内存通道时。

有趣的是，AWS将当前M5已经运行的vCPU与即将推出的基于Graviton2芯片的M6g运行的vCPU进行了比较。AWS并未具体说明在哪种实例配置上使用了哪种测试，因此以下数据可能是苹果、苹果酱和保龄球的混合体。M5实例基于Intel的24核“ Skylake” Xeon SP-8175 Platinum（主频为2.5 GHz）；该芯片是为AWS定制的，与库存的Xeon SP-8176 Platinum部件相比，内核少了四个，时钟速度（400 MHz）略高。

以下是在每个vCPU的基础上，Graviton2 M6g与各种工作负载相对于Skylake Xeon SP实例的堆叠方式：

SPECjvm 2008：+ 43％（估计）
SPEC CPU 2017整数：+ 44％（估计）
SPEC CPU 2017浮点数：+ 24％（估计）
Nginx的HTTPS负载平衡：+ 24％
内存缓存：性能提高了43％，延迟更短
X.264视频编码：+ 26％
使用Cadence Xcellium进行的EDA模拟：+ 54％

需要指出，这些比较使Arm芯片上的内核与超线程相对应（因此，单线程性能下降，从而提高了芯片吞吐量）。这些都是显着的性能提升，但是在比较中，AWS不一定会把其最好的Xeon SP放在首位。EC2 C5实例基于“ Cascade Lake” Xeon SP处理器，所有核心睿频频率为3.6 GHz，看起来它们有激活了超线程功能的一对24核芯片，可以在单个映像中提供96个vCPU。

R5实例基于Skylake Xeon SP-8000系列芯片（精确到未知），内核运行于3.1 GHz。看起来这些实例还具有一对启用了HyperThreading的24核芯片。在每个vCPU的基础上，它们都比M5实例快得多，并且在整个vCPU的吞吐量方面也更具可扩展性。这些C5和R5上的额外时钟速度很可能会弥补每个vCPU的性能差距。（但也很难确定。）

这里的主要观点是，我们怀疑这样是否可以使AWS相比从Intel购买处理器更便宜，如果成本减少20％就足以做到这一点，但是Jassy说，价格/性能优势约为40％。（大概是在将设计和生产Graviton2的实际成本与我们认为是M5实例中定制Skylake Xeon SP进行比较）。因此，AWS推出了Graviton2处理器以支持Elastic MapReduce（ Hadoop），弹性负载平衡，ElastiCache以及其云上的其他平台级服务。

对于其他人，Graviton2芯片将提供三种不同的配置作为EC2计算基础架构服务上的实例：

通用（M6g和M6gd）：1至64个vCPU和最多256 GB的内存
优化计算（C6g和C6gd）：1至64个vCPU和最多128 GB的内存
内存优化（R6g和R6gd）：1至64个vCPU和最大512 GB内存

“ g”表示Graviton2芯片，“ d”表示其具有用于实例上本地存储的NVM-Express闪存。所有实例将具有25 Gb /秒的网络带宽和18 Gb /秒的弹性块存储服务带宽。也将有裸机版本，看看AWS是否实施CCIX互连以创建两路甚至四路NUMA服务器还是坚持单路设计，这将非常有趣。

M6g和M6gd实例现在可用，计算和内存优化版本将在2020年可用。芯片，平台和软件堆栈现在都可以从同一家供应商处获得。关于服务器平台，我们什么时候可以这么说？

雷锋网编译，via The Next Platform

芯片问世、Outposts上市、SageMaker大更新，AWS如何成为“规则改变者”？

传亚马逊已研发出第二代 AI 芯片，比第一代至少快 20%