AI的浪潮让科技巨头们也纷纷布局AI芯片,也让芯片领域再现多年未见的创业热潮。不过,摩尔定律的放缓以及经典的冯诺依曼架构瓶颈让AI芯片的进一步提升面临挑战,这也在很大程度影响AI的发展和落地。因此,AI芯片架构的创新对于AI发展意义重大。
本月,清微智能的首款可重构计算架构AI芯片量产,这种被称为全新类别的AI芯片的技术独特性在哪?以清微产品为代表的数据流驱动芯片能否成为AI芯片市场的主流?
可重构芯片为什么是全新类别?
可重构的概念早在20世纪60年代就被提出,但经过半个多世纪才终于获得突破。据悉,可重构芯片最早的技术源头可追溯到20世纪80年代末诞生的高层次综合理论和方法。2006年,意识到可重构计算架构对于提升芯片算力、降低功耗的巨大优势,魏少军教授牵头成立了清华大学可重构计算研究团队。成立至今的十多年,魏少军教授一直带领的团队进行可重构计算的研发。
魏少军教授此前接受雷锋网采访时表示,可重构计算架构芯片不属于CPU、GPU、FPGA、ASIC,它是全新类别芯片。
但是,由于可重构芯片具备软件、硬件双编程的特性,无论是在国内还是国外,可重构芯片很多时候被误解成FPGA。
魏少军近日撰文详细介绍了可重构芯片的技术原理,他以软件和硬件的可编程性两个轴构建坐标图说明了可重构芯片的独特性。第一象限可以归纳为动态可重构的芯片,有时称为RCP(Reconfigurable Computing Processor,可重构计算处理器)或CGRA(Coarse grained Reconfigurable Architecture,粗粒度可重构架构)等,其特点是软件硬件都可以编程、混合粒度、芯片的硬件功能随软件的变化而变化,应用改变软件、软件再改变硬件。
而且它与CPU等处理器有很多类似的地方,开发者不需要底层芯片设计知识。这类芯片与ASIC一样,具备很好的能量效率和计算效率等。显然,这种芯片的属性分类与以前不同,不可以将其与FPGA等混为一谈。
动态可重构芯片的属性分类
可重构计算架构的优势
清微创始人CEO王博接受雷锋网采访时更具体地解释了这一架构以及相比其他传统芯片的优势。他表示,CGRA计算架构通过空域硬件结构组织不同粒度和不同功能的计算资源,通过硬件运行时配置,调整硬件功能,根据数据流的特点,让功能配置好的硬件资源互连形成相对固定的计算通路,从而以接近“专用电路”的方式进行数据驱动下的计算。
可重构阵列在不同时刻可以配置成为不同的功能,进而进行数据驱动的ASIC计算
当算法和应用变换时,再次通过配置,使硬件重构为不同的计算通路去执行。
可重构阵列的PE在不同时刻可以配置成为不同的功能
王博进一步表示,CGRA最大的优势体现在两方面,一是没有传统指令驱动的计算架构取指和译码操作的延时和能耗开销,二是在计算过程中以接近“专用电路”的方式执行。对比来看,CGRA的计算能效平均可达CPU计算架构的1000倍以上、是GPU计算架构的100~1000倍、是FPGA计算架构的100倍以上,相比NPU能够有10倍以上的性能提升,CGRA基于配置方式执行,执行效率可以和ASIC相当,但是灵活性远远好于ASIC。
此外,CGRA架构算力可以弹性扩展,适用于从云端到边缘端对高能效和灵活性有综合要求的场景。
可重构架构优势突出为何今年才量产?
前面已经提到,魏少军教授早在2006年就牵头成立了清华大学可重构计算研究团队。2015年,可重构芯片因为第三次AI热潮也开始受到关注。2017年6月,清华大学可重构计算研究团队的第一代人工智能芯片Thinker-Ⅰ推出,并获2017 ACM/IEEE ISLPED会议设计竞赛奖。研究团队还在ISCA 2018发表了中国唯一第一作者论文。
到了2018年7月,北京清微智能科技有限公司在在北京中关村注册成立,基于十多年的技术积累,200多项技术专利,清微智能在不到一年的时间就成功量产了首款可重构芯片TX210,这款语音SoC芯片可以应用于智能手机、可穿戴智能设备、小家电、大家电、玩具、车载等场景。
从2006年清华大学可重构计算研究团队开始研究,到2015年AI芯片创业热潮开启,为何可重构架构的商用等到了2018年清微智能的成立?王博表示:“我之前一直在做智能硬件相关的产品,2017年,我当时所在公司为一款人脸识别智能门锁寻找芯片时,发现市场上根本找不到特别合适的产品,其实当时心里就存下了一个想法——为什么市面上会没有好用的芯片,困难在什么地方?因为跟清华大学微电子学研究所的尹首一教授也是旧相识,后来藉由种种机会,有过几次比较深入的沟通,也了解到他们所研究的这项技术对于芯片产业的意义研究AI芯片,当初的那个想法逐渐成型,并最终和尹老师他们一起在2018年成立清微智能。希望借助清华大学这支团队十多年的技术积累,结合我在AI领域的商业落地的经验,将可重构计算芯片商业化。”
显然,可重构架构芯片的商用化背后很重要的推动力就是众多电池供电的智能设备对低功耗AI芯片的需求。仅看智能音箱市场,根据市场研究公司Strategy Analytics发布的报告,2018年第四季度植入AI的智能音箱出货量从第三季度的2260万台增长到3850万台,增幅达95%,超过整个2017年的出货总量。报告还预测,2019年全球AIoT市场规模为51亿美元,到2024年,这一数字将增长至162亿美元,复合年增长率为26.0%。
王博顺势从AI芯片的需求方转变提供方,发挥可重构芯片的优势。
清微TX210
量产的可重构芯片究竟如何?
王博指出,清微的可重构芯片主要分为三个维度,从MAC层面支持不同的位宽重构,到执行单元层面支持不同算子重构,再到阵列层面支持不同功能重构。因此,清微的可重构芯片既可以是“乐高”层级的可重构,也可以是“面粉”层级的可重构。并且,配置过程运行速度非常快,动态重构的时间都是在纳秒级,在运行的过程中是无缝执行,客户根本感觉不到芯片的架构在实时切换,同时初始的配置也会很快,配置本身开销很小。
清微智能CTO欧阳鹏也透露,在可重构计算更低能耗和更强灵活性的基础上,清微在具体的芯片设计上又做了两方面深化。他表示:“我们的AI芯片支持从1bit-16bit的混合精度计算,同时,不同的神经网络层可以采用不同的精度表示,可实现实时切换精度。在具体实现过程中,可重构模式动态重组计算资源和带宽,根据精度表示,让计算资源和带宽接近满负荷进行计算,从而将混合精度网络下的计算资源和带宽的利用率逼近极限,高效支持多种混合精度的神经网络。”
“另外一方面,人工智能算法,除了神经网络中卷积层,全连接层等逻辑,还有非神经网络计算逻辑。传统AI芯片架构强调了神经网络逻辑的计算效率,却忽视了非神经网络逻辑的计算效率。清微的AI芯片针对神经网络部分和非神经网络均进行了计算效率考虑。针对非神经网络处理逻辑,从算法数据流图进行空间映射,以接近ASIC效率计算。同时,通过配置形成不同的电路结构来动态处理不同非神经网络计算逻辑,在保证灵活性前提下,计算效率有极大提升。” 欧阳鹏进一步表示。
雷锋网了解到,具备上述特性的清微TX210采用TSMC40ULP工艺,支持WLCSP和QFN两种产品封装,多级唤醒模式也很大程度降低了芯片功耗,工作功耗为mW级,VAD功耗仅uW级。同时,TX210结构灵活,支持多比特DNN神经网络,可以支持1-16bit位宽的神经网络计算,也支持FFT/MEL FILTER等。还有一个显著特点就是用极小的芯片面积支持丰富的接口和电源管理。
清微TX210 参数
除了硬件,清微也能在算法方面有所布局,采取自研+与科研院所合作的思路。目前清微与中科院、清华大学、乔治理工大学等开展了深入合作。自研方面,清微在算法压缩,量化以及硬件友好化设计方面有长期的积累。
软件方面,CGRA软件开发平台兼容通用的TensorFlow/Caffe/MEXNET等AI框架,用户无需改变他们的编程环境和习惯,软件开发平台可以自动完成转换、解析、编译、生成等过程,给用户提供友好的开发支持。
虽然用户可以实现无缝迁移,但王博还表示:“我们有一套自己的编译平台,用户可以从其它的框架直接迁移到我们芯片里。但我们内部还会做一些包括量化、压缩等与芯片相关的优化工作。”
王博强调,可重构芯片能否达到非常高的能效值,很大一部分决定于软件、工具链优化、调度的好坏。
根据清微的说法,采用算法+芯片的协同设计优化,TX210在典型信噪比下,唤醒识别率95%,误识别率小于24小时一次。据悉,TX210正式上市前,清微已与一些大型的互联网公司,智能手机及家电厂商建立了合作关系。
雷锋网了解到,除了语音芯片,清微智能在下半年还会发布面向图像识别的低功耗视觉芯片,面向智能家居、智能安防和新零售等领域。
王博认为,可重构芯片的商业化,不仅可以替代现有的产品,还能够扩展现有产品的应用场景,更好地满足低功耗AI芯片市场的需求。随着我们产品在边缘端的落地,基于CGRA软硬件工具链以及生态也不断完善,未来我们也会将CGRA架构算力可扩展、高能效、灵活的优势拓展至云端市场。
据王博介绍,在可重构云端芯片方面,核心团队在5年前就开始做技术预研和芯片验证,面向云端人工智能算法的推理、训练、数据分析、数据库操作等应用。这些成果有助于清微快速进入对算力、灵活性、功耗以及生态要求更高的服务器和云计算市场。
数据流AI芯片或成未来主流
不过,目前CPU、GPU、FPGA、ASIC在AI芯片市场激烈竞争,哪一种芯片能够成为最大的受益者还难以得出结论。可重构计算架构芯片在市场落地中优势如何?王博指出,可重构技术可以很大程度的延长芯片的生命周期。目前终端的AI算法还在不断演进,应用也非常碎片化。而基于可重计算构架的芯片具有低功耗、灵活、高效的优势,如果有新的神经网络算法出来,可重构芯片在很长时间内也能支持,并且是以接近ASIC的功耗满足需求。不需要针对新的应用重新流片,能够大大节省成本。
更为重要的是,可重构芯片代表的是采用的是数据驱动下的空域执行模式,区别于CPU、GPU、NPU诺依曼架构的时域计算模式,数据流驱动的芯片从架构上就可以避免了冯诺依曼架构的限制。
“指令驱动”的时域计算模式 v.s. “数据驱动、动态重构”的空间计算模式
王博用通俗的方式解释数据流驱动的芯片,数据流直白的理解就像水流一样,在流动过程中直接把计算完成,不用等待,非常高效。对比指令驱动的方式,因为它需要取值、译码、存在开销,同时,这种方式使得中间的数据流被不断打断,执行效率低。
王博认为,数据流驱动的芯片在未来将会在AI以及对算力需求比较大的领域将成为主流。他表示:“因为这些场景需要的是强算力而非强逻辑,数据流驱动芯片特别适合。而之所以可重构芯片和数据流驱动的芯片直到近年来才受到了比较多的关注,可能是因为学界和工业界的人之前都想让它去完全替代冯诺依曼架构。但如今AI让大家回归理性,认识到计算密集型的场景最适合数据流驱动的芯片,我们也看到现在数据流驱动的芯片业都是围绕密集计算。”
不过,想要真正发挥可重构架构的优势,让数据流驱动的芯片成为主流仍需解决一些问题。王博指出,如果理解了可重构的原理,不同的人都可以把各个PE以某种形式连接起来,关键是如何连接这些PE能更加灵活,编译器的设计怎么能更加的提高效率,同时,数据流驱动的芯片同样需要提升数据访存效率的问题。清微的优势就在于有清华大学微电子学研究所多年的研究作为基础,我们的编译系统非常完善,这是我们的软件的优势。因此,我们能够在可重构架构硬件优势的基础上结合完善的软件,最大程度发挥可重构架构芯片的优势。
雷锋网小结
AI作为一个新的领域,无论是芯片还是算法都区别于传统的数字、模拟等芯片,由此带来的机会也催生了AI芯片的创业热潮。在竞争还不够充分的AI芯片市场,AI芯片的Benchmark发布不久、AI算法的飞速演进,应用没有标准,这么多的尚未确定也是AI芯片初创公司的机会所在。
但正如王博接受采访时所说:“芯片研发是一个特别需要积累的过程,一款成熟的芯片要考虑功耗、发热以及量产等各方面的问题,除了技术的更迭速度,还要经受市场的考验,用‘十亿起步,十年结果‘形容一点不为过。”十亿的成本投入以及十年的时间是芯片公司成功的要素,但将技术的独特性转换为产品的优势同样是吸引用户的关键。
作为一种新类别的AI芯片,清微量产的可重构语音芯片能否推动相关应用市场的爆发,我们拭目以待。我们也期待数据流驱动的芯片更好地满足密集计算场景需求,与冯诺依曼架构芯片一起加速AI的普及。
相关文章: