新一轮的AI热潮对芯片提出了更高要求,不过,AI芯片的定义还没有严格和公认的标准。因此,可以运行深度学习算法的CPU、GPU以及FPGA和ASIC都可以被称为AI芯片。虽然都称为AI芯片,但在2019年AI落地的大背景下,AI芯片的效率更值得关注。
那么,在边缘端,FPGA能与专为边缘AI设计的ASIC共同推动AI的普及吗?
三大FPGA公司整体向上
历经并购和整合,目前全球排名前三的FPGA供应商分别是赛灵思、英特尔、莱迪思。有意思的是,前两大供应商在今年相继推出“最大”FPGA。8月,赛灵思宣布推出全球最大容量的FPGA Virtex UltraScale+ VU19P,这款FPGA基于台积电16nm工艺,集成350亿个晶体管、900万个系统逻辑单元,有每秒达1.5 Terabit的DDR4存储器带宽、每秒达f 4.5 Terabit的收发器带宽和超过2000个用户I/O。
三个月后的11月,英特尔宣布推出全球容量最大的FPGA Stratix 10 GX 10M,采用14nm工艺制造,集成了443亿个晶体管,核心面积约1400平方毫米,在70×74毫米的封装面积内拥有1020万个逻辑单元,还有25920个数据接口总线(EMIB),是此前记录的两倍多,每个接口吞吐量2Gbps,内部总带宽6.5TB/s,另有308Mb存储、6912个DSP(18×19排列)、2304个用户I/O针脚、48个收发器(0.84Tb/s带宽)。
显然,赛灵思和英特尔推出更大容量的FPGA为的是满足大数据以及云端AI的需求,将FPGA的应用从工业和汽车更多地拓展到数据中心。在半导体行业,头部效应尤为明显,即便市场份额排名第三,如果莱迪思也推出大容量FPGA,境遇可能会非常艰辛。
赛灵思和英特尔在FPGA市场的调整也给了莱迪思市场拓展的机遇。过去几年,莱迪思都专注于消费类市场,但消费类市场迭代速度非常快,需要根据不同的市场需求推出相应的产品。
莱迪思亚太区产品市场部总监陈英仁表示:“在市场需求不明确且快速变化的时候,技术很难复用。我们现在采用平台化的新模式,这样能够最大化设计复用,降低开发成本及加速产品迭代。”
莱迪思亚太区产品市场部总监陈英仁
FPGA适合边缘AI吗?
由此看来,莱迪思在市场的变化中找到了合适的定位和产品路线。不过FPGA要在边缘AI计算中应用,高成本和开发难度大是两个问题。对此,陈英仁表示,很多客户都用我们的FPGA进行量产,所以我们的FPGA价格非常友好。并且过去四年,莱迪思出货的FPGA数量在10亿片的量级,这也证明我们的产品非常可靠。
至于设计门槛,陈英仁指出,由于FPGA的生态环境不像C语言那样方便,所以大家觉得FPGA的设计门槛比较高。这又可以分成两部分,一部分是工具,莱迪思全新推出的平台CrossLink-NX会使用Radiant 2.0,调试工具做了很大改善,也支持业界标准的SDC,还加了ECO编译器,还有信号完整的分析,并且将持续保持更新,让懂FPGA的工程师能够更方便的使用。
另一部分是参考设计,对于那些不太懂FPGA的工程师,他们不知道这些工具的差异,需要一些参考设计才更容易上手,这也是莱迪思的强项。另外我们推出的sensAI,包含了评估、开发和部署基于FPGA的机器学习和人工智能解决方案所需的模块化硬件平台、演示示例、参考设计、神经网络IP核、软件开发工具和定制设计服务。这些都能够降低FPGA的设计门槛。
还有一点,FPGA本身就是并行处理,深度学习算法很多都需要并行处理,通过sensAI把AI模型转换之后,FPGA执行AI推理非常适合。
价格友好且设计门槛在降低,但FPGA想在边缘端应用,还需要有相对ASIC明显的优势才具备吸引力。对此,陈英仁对雷锋网表示:“我们专注于把FPGA的优势发挥出来,比如低延迟。另一个是FPGA能够快速导入市场。还有就是FPGA的弹性,因为FPGA本身就有可编程性的优势,I/O、配置都非常灵活。I/O接口的灵活性非常适合边缘端,可以接入各种传感器。”
他进一步解释灵活性在边缘端的重要性,如果从性能和功耗比的角度衡量, FPGA相比ASIC会显得没有优势。但FPGA可以提供不同的接口,这样就可以接不同的传感器,并且能够满足产品智能化升级的需求。特别是AI技术还在不断地演进,要对现有产品做升级的时候,由于ASIC的拓扑结构已经固化,如果一个电子广告牌想要增加一个传感器更好满足需求时,ASIC就很难,而用FPGA无论是用SPI还是USB接口都能轻松接入。
什么样的FPGA更适合边缘AI?
既然FPGA从成本、性能、开发门槛方面都在改变满足边缘AI的需求,那到底什么样的FPGA可以更好满足边缘AI需求?莱迪思给出的答案就是前面提到的CrossLink-NX。CrossLink-NX基于莱迪思NEXUS平台,有功耗降低75%、可靠性提升100倍、最小尺寸以及高性能网络边缘计算能力的特性。
具体而言,CrossLink-NX有192个可编程I/O,D-PHY速度达到2.5Gbps,逻辑单元达到40K,主要应用于视频桥接处理。
低功耗的实现是因为莱迪思在CrossLink-NX中使用了三星28nm FD-SOI的工艺,陈英仁介绍,我们选用的工艺中有一个很薄的Buried Oxide,可以把失效率降低100倍,也就是可靠性增加了100倍,并且静态功耗最高可以比竞争对手降低75%。
在性能方面,CrossLink-NX提供了17K-40K的逻辑单元,可以提供低功耗以及高性能模式,并且增加了很多嵌入式存储RAM,再加上DSP模块,让CrossLink-NX嵌入式存储器/逻辑比达到170bit,比竞争对手的产品高几倍,可以更有效地处理图形和AI推理。
高存储器/逻辑比的同时还实现了小尺寸,CrossLink-NX采用的是优化4输入查找表,使其产品能够实现小尺寸,在6x6mm的面积上就具备40K的逻辑单元。陈英仁认为,4输入的查找表到目前为止,甚至以后的产品都绰绰有余,因为我们追求的不是最高性能,而是低功耗以及由此带来的成本以及方便性。
当然,让CrossLink-NX更适合边缘AI的还有超快的I/O启动以及快速地I/O传输。在传输速度上,莱迪思使用的是硬核的I/O提升速率,通过MIPI D-PHY,速度从之前的1.5Gbps提升到了2.5Gbps。陈英仁表示,现在大部分的SoC的速度都是2.5Gbps,所以我们的FPGA可以更容易与SoC配合满足嵌入式视觉和边缘AI的需求。
启动速度方面,CrossLink-NX的I/O配置速度小于3ms,器件配置小于8ms,这个速度不仅相比MCU或SoC时间段很多,并且通过先把I/O配置好,电压已经固定,系统也就比较稳定。
雷锋网了解到,CrossLink-NX一开始会先支持工业级的温度,然后会进行车规认证。目前,CrossLink-NX已经有30多个客户开始试用,供货时间也比预期更加提前。
陈英仁还表示,软件和IP也准备就绪,未来sensAI也将支持CrossLink-NX。针对AI应用,我们还可能与第三方合作提供一站式方案,通过硬件成品在搭配上参考设计,让不懂FPGA以及AI算法的客户能够更加方便的应用。
雷锋网小结
边缘AI以及AI市场潜力巨大,在AI对芯片算力提出更高要求的时候,所有的芯片提供商都不想错过AI带来的机会。FPGA公司也不例外,只是FPGA本身更加擅长信号处理和网络加速等,但为了能够在大数据的AI的时代发挥更大的价值,排名第一和第二的FPGA公司都推出更大规模的FPGA,更好地满足云端AI市场。这给莱迪思一个很好的机会,通过计算平台化的方式,最大化复用技术的同时,还能向上一步进入工业和汽车市场。
为了更好地把握好这个机会,莱迪思的新品通过性能、稳定性、I/O各方面的优化,发挥FPGA在边缘AI中低延迟、高灵活性的特性,尽可能满足边缘AI计算的需求。对于市场而言,增加一种有竞争力的选择当然一件好事,至于市场的接受度如何,我们将保持关注。
相关文章: