作为全球云计算领域的顶级峰会之一,2017 杭州云栖大会自然吸引了众多的行业参与者。这其中,除了拥有主场地位的阿里巴巴及其下属诸公司,最具存在感的当属英特尔。作为本次大会唯一的战略合作伙伴,英特尔以“以云端创新应对复杂需求”为口号,在多场论坛中充分介绍了自家在人工智能、云计算、大数据等核心领域的诸多技术优势。
其中,FPGA 技术作为英特尔反复强调的重点,成功地引起了雷锋网的注意。
FPGA(Field Programmable Gate Array,现场可编程门阵列)从一个专门领域的技术名词回归到主流技术发展的视野,其实是近两年的事情;尤其是随着整个行业对相关数据处理速度的要求大幅度提升,FPGA 的重要性被整个行业重新认识。
在涉足 FPGA 之前,英特尔在数据处理上其实一直有着自己的优势,它的英特尔®至强™处理器系列一直被众多云服务提供商,以及拥有私有云或自有IT基础设施的用户所认可和采用。然而随着数据的爆发式增长,形形色色的数据中心必须要承载复杂计算,处理更大的数据集,如进行大数据分析、机器学习等挑战性工作。这时候,数据中心如果还仅配备通用处理器,将难以兼顾多样化且日趋复杂的数据处理需求了。
这时候,英特尔就把目光转向了 FPGA。
从名称来看,FPGA 的一大重要技术特征,就是能在使用过程中对芯片硬件结构进行重新编程,以便适应新的任务,这种灵活的、可定制的特性是现有的CPU 和 GPU 都无法具备的。采用 FPGA 技术,用户可以先将芯片进行编程,用于机器学习;再将芯片重新编程,以用于逻辑计算……同一块芯片可以实现不同的自定义功能;如此一来,就可以大大提升运行特定任务时的数据处理能力。
根据报道,瑞士苏黎世联邦理工学院(ETH Zurich)开展的一系列研究发现,基于FPGA的某些应用加速相比 CPU/GPU 实现方案,其在单位功耗上的性能(即能效)可提升 25 倍,而时延则缩短 50 到 75 倍。FPGA同时还能实现出色的 I/O 集成,比如说 PCIe、DDR4 SDRAM 接口、高速以太网等。此外,在单芯片上实现高能效的同时,英特尔还可以利用FPGA在板卡级别提供较低功耗的系统方案。
更重要的是,基于 FPGA 的加速器,可部署在几乎所有类型的服务器中。
于是在 2015 年 6 月,英特尔宣布以167 亿美元的价格收购全球第二大 FPGA 厂商 Altera,这是英特尔成立以来涉及金额最大的一笔收购。当时英特尔高层称这次收购让英特尔与 Altera 的产品在数据中心内能更好地满足客户的需求,即兼顾更高的性能和更低的功耗。比如说,Altera的FPGA产品可以与英特尔至强处理器形成高度定制化、整合型的产品。
英特尔完成对 Altera 的收购之后,后者就发展成了英特尔可编程解决方案事业部 (Programmable Solution Group),专注于 5G 无线通讯、雷达和航天、网络、云计算、智慧城市和无人驾驶车辆等领域的 FPGA 业务;与此同时,英特尔也在积极地把处理器方面的先进技术和市场优势引入到Altera的产品中。
在 Altera 原有的高、中、低三条产品线布局的基础上,英特尔提出为不同客户需求提供不同类型的异构架构方案,包括分立的 CPU+FPGA、封装集成的 CPU+FPGA、以及将CPU和FPGA进行管芯集成的方案。
这些方案的异构优势明显,特别是通过集成,不但能够降低延时,提高性能和效能,更可以统一CPU和 FPGA 之间的工具流程,为不同的性能需求提供更广泛的体系结构支持。
收购 Altera 后不久,英特尔首次公开演示了基于英特尔14 纳米三栅极制程的 Stratix 10 FPGA 中集成的先进收发器技术,它可以支持1Gbps-56 Gbps 的数据速率;与前代产品相比,它在实现性能翻番的同时,还减少了 70% 的能耗。
该产品的一个亮点,是使用异构系统级封装(SiP)方法来集成收发器,收发器块和单片 FPGA 内核架构被英特尔的嵌入式多管芯互联桥接技术连接在一起,构成了SiP(System In the Package,封装内系统) FPGA。相对而言,这种FPGA的优势在于利用封装内部互联代替了片外通信,使通信带宽可以提升 10 倍,从而有效解决了传统 FPGA 的瓶颈。
英特尔目前已拥有 Stratix 10、Arria 10 、Cyclone 10、MAX 10等全系列 FPGA产品,并针对各种不同应用提供优化的成本、功耗和性能组合。
除了发力FPGA技术本身,英特尔作为服务器芯片领域的领先厂商,一直都在推动FPGA 与 CPU 整合的同时,积极扩展其在云计算和数据中心领域的应用。
英特尔可编程解决方案事业部成立以来,已陆续推出多款可与英特尔处理器协作的FPGA芯片产品,包括上文提及的Arria 10,Stratix 10及Cyclone 10系列。其中Arria 10 FPGA已经全面量产,并逐步部署在英特尔众多合作伙伴的系统和解决方案中,为它们带来数据处理速度上的大幅提升。就在本月,英特尔又公布了基于Arria 10 FPGA的英特尔可编程加速卡产品,这必将引发FPGA加速业务的更快速增长。
在利用FPGA加速数据中心应用的实际效果上,我们可以看到一些非常显著的例子,比如说SWARM64 在使用英特尔的 FPGA 加速技术后,实时数据分析速度可提高 5 倍以上,传统数据仓储提高 2 倍以上,存储压缩提高 3 倍以上。
而在基因测序中,博德研究所利用英特尔FPGA 的高性能并行处理能力,可以将 Pair-HMM 算法能力提高 50 倍,总业务效率提高 1.2倍。此外,Attala System公司也利用英特尔FPGA技术,将存储系统数据访问迟延降低了57%-72%。
然而,很多用户可能会在看到FPGA带来的卓越能效的同时,质疑它是否易于使用。传统的FPGA开发确实需要开发者具备深层次的硬件知识,这曾使系统和软件开发者遇到过不少使用FPGA的困难。而英特尔已通过各种努力大大简化了开发流程,其中特别值得一提的,是推出了面向英特尔至强处理器和FPGA的加速堆栈,内含驱动程序、应用程序接口 (API) 和 FPGA 接口管理器。搭配加速库和开发工具,该加速堆栈可节省开发人员的时间,支持在多个英特尔 FPGA 平台中重复使用代码,并能在英特尔 FPGA 和英特尔至强处理器之间提供性能优化的连接。
为进一步简化 FPGA 在服务器中的使用,英特尔最新公布的、基于Arria 10 FPGA的英特尔可编程加速卡产品支持内嵌和旁路加速,具备 FPGA 加速的强大性能和多功能性,也具有最小尺寸外形、低功耗和被动式散热器,可更为方便地部署在各种服务器中。
在本次杭州云栖大会现场,英特尔就使用基于Arria 10 FPGA的英特尔可编程加速卡产品,进行了执行大量图像识别任务的演示。该任务在 CPU 单独承载的情况下,能达到100% 的 CPU 占有率,而在英特尔可编程加速卡的辅助下,CPU的占有率稳定在40%左右,耗电功率仅为 40 余瓦。
除了已经得到广泛应用的 Arria 10 FPGA 芯片及其相关的可编程加速卡,英特尔 FPGA 芯片的高端之作 Startix 10 可编程加速卡,也在本次杭州云栖大会上亮相。实际上,在此前举行的 2017 年高效能芯片大会上,微软已宣布选择英特尔 Stratix 10 FPGA ,作为其新的深度学习加速平台的关键硬件加速器。
用户和合作伙伴的认可,也在进一步激发英特尔在FPGA 领域的探索步伐。
在上月举办的“英特尔精尖制造日”上,英特尔就率先展示了采用自有 10 纳米(10nm)FinFET 制程技术制造的 FPGA 产品(代号为“Falcon Mesa”),它们未来将被用于满足数据中心、无线 5G、网络功能虚拟化(NFV)、汽车、工业和军事/航天应用的加速和计算需求。
Falcon Mesa FPGA 产品家族将支持 112Gbps 串行收发器链路,以及包括 PCI Express Gen4 x16 在内的最新外围设备互联技术,可面向下一代数据中心,提供高达每通道 16GT/s 的数据传输率。此外,它还将支持第二代嵌入式多管芯互联桥接技术(EMIB)封装技术、下一代高带宽内存(HBM)和第二代 HyperFlex 架构等多项尖端技术。
正如英特尔可编程解决方案事业部亚太区副总裁庄秉翰(Hans Chuang)在本次云栖大会上所言:在人工智能和大数据时代,数十亿设备正在时刻产生海量数据;而无论是在数据分析领域,还是在云计算领域,英特尔 FPGA都能扮演重要角色,帮助收集和分析这些海量数据,使服务提供商、数据中心、云计算和存储系统能够有效地管理这些数据,并使网络能够快速向用户提供、分享大量的数据和内容。
由此可以想见,在“数据将成为核心资源”的未来,海量数据将对数据中心、云计算、数据终端等诸多层面产生新的挑战和需求,但毋庸置疑的是,FPGA 的潜力越是在这种情形下,越能得到更为充分的释放。想来,英特尔的 FPGA 技术,也必将是随着数据洪流水涨船高、大有可为。