「芯片+AI 算力+AI 开发平台」，合肥君正公布全栈式低功耗 AI 技术

合肥君正

作者：余快

2021/05/21 00:39

习惯在针尖上跳舞的合肥君正，在萌芽之时就认识到AI的重要性。

2014年前后，视频芯片市场已有众多厂商，且大多鏖战成像和传输。彼时的君正意识到，用模仿的方式硬生生地去打这个市场难以出头且毫无价值，而AI将成为下一战场的关键。从那时起，AI与算法部门成为君正最早的技术部门之一。

7年白驹过隙，那些或深或浅的脚印现已踏出一条康庄大道：最近，君正正式公开了自己的AI硬件加速引擎和AI开发平台Magik。

君正视频事业部副总经理刘远表示，这套技术从开始至今，经历了各方面的锤炼：

“从T01到T02再到T31/T40，从computer vision到deep learning再到混合量化，从安防摄像机到低功耗门铃再到立体机器视觉，从Tensorflow/Caffe到Magik，从第一家客户试探性接入到大量产品算法落地，这套技术已经从创新研发走到普惠应用。”刘远说道。

这历时多年的武器，将往视频行业投下一枚怎样的石头，又怎样协助下游客户落地更具竞争力的产品？

直奔落地的一整套「芯片+AI算力+AI开发平台」解决方案

如何为端侧AI应用提供一套成本亲和，性能出众，功耗低，又易于落地的基础技术组件？这正是合肥君正一直在思考的命题，也是君正AI技术研发的核心目标。

刘远指出，经过多年摸索，这样一套基础技术组件如今包含：

一系列落地芯片：布局完备，覆盖高中低阶，除AI以外具备完整的各方面竞争力，成本亲和，性能均衡，效果出众，功耗领先，被市场认可并且持续大量出货。这就像AI和算法落地生根的土壤，越广阔越好。
一套先进的AI加速硬件：优秀的PPA(Performance, Power, Area)，兼具高性能和灵活性，并且通过有效创新，真正突破AI推理在端侧产品中的各种瓶颈，使得高发热，高带宽，成本冗余等在实际产品中不再是问题。
一个完善的算法开发平台：敏捷的算法移植过程，除了提供一键式算法部署，还提供最先进的量化感知训练方法论，提供典型网络的全流程开源代码，让算法专家专注于挖掘痛点与数据的价值。

君正的整体AI技术架构如下图：

「芯片+AI 算力+AI 开发平台」，合肥君正公布全栈式低功耗 AI 技术

其中AI-Engine(AIE)是一整套AI加速硬件，包括CPU，NNA，SIMD，协处理器和RAM Pool等多重加速技术。

主要优势是“三高三低”：算力高，利用率高，灵活性高；功耗低，外围成本低，带宽需求低。

Magik是基于AIE的算法开发平台，除了基本的工具链还包含其他丰富的辅助开发资源。并且支持后量化和更先进的量化感知训练(QAT)。

“卷积神经网络的本质是计算，幸运的是，君正一直是国内为数不多的完整CPU计算技术的拥有者，这一点，奠定了我们的AI技术具有较高的发展起点。”

刘远说道，“而Magik融合了我们这几年在视觉产品落地上的各种经验，能够发挥AIE独特的领先性能。二者搭配，呈现在行业客户面前的就是一整套完整的‘芯片+AI算力+AI开发平台’的解决方案，使得应用者非常容易落地。”

利用这套平台，可以带来多方面长远的优势：

产品化优势：这套技术可运行于君正当前和未来的各种芯片当中，下游产业链条成熟，碎片化风险低，生态一致性有保障；
商业化优势：已有大量芯片持续出货，品牌背书充足，能加快算法赋能和变现的节奏；
成本优势：包括eBOM成本，算法成本，研发成本等；
性能优势：可获得更高的物理算力，更高的利用率；
低功耗优势：体现在产品端就是发热明显低，续航更好，散热无忧；

“AIE+Magik是君正原生创新的技术，完全自主。T40作为搭载这套技术的最新一代芯片，却并非第一代产品。”刘远强调，“在这之前，我们经过了T01/T02/T31等几代量产芯片的验证，积累了大量宝贵经验，到T40这里，AIE+Magik已经十分成熟”。

AIE—有效突破端侧AI的算力瓶颈

AI-Engine(AIE)是君正完全自主创新的一套AI加速硬件组合，广泛支持各类神经网络加速，如CNN/RNN/GCN等，也支持传统CV算法和平面运算的加速。得益于公司对CPU技术的掌握，AIE实现了其他一般芯片公司难以做到的CPU与NPU的同构设计。

「芯片+AI 算力+AI 开发平台」，合肥君正公布全栈式低功耗 AI 技术

在全球各种不同的AI加速技术路线中，DSA(Domain Specific Architecture)尤其适合端侧推理场景。AIE引用了多种DSA的设计理念，实现了一整套满足复合算法加速的硬件组成：

支持SMT多核架构的XBurst2 CPU，凝聚了君正团队20多年的CPU技术精华；
128bit/512bit/1024bit位宽的SIMD指令集，针对向量运算加速；
算力高达2T - 32T的NN加速阵列，针对张量计算加速，支持混合位宽量化
协处理单元，对其他运算加速；
高效RAM pool，深度优化内存带宽吞吐
实测运行功耗很低，8T算力场景下典型功耗小于500mW，能耗比最低达到了0.05W/T级别

“与云上的AI芯片加速不同，在端侧芯片上，4T算力曾经是天花板，这并不是因为硬件无法将算力继续提高，而是因为端侧产品在算力以外有太多的制约因素。”刘远解释道，“如果不优先把NPU内部的PPA、带宽、功耗等关键障碍解决，即使再提高计算矩阵的规模，实际芯片也大概率发挥不出来。”

归纳起来，端侧算力的瓶颈主要集中在：产品端的资源限制，算法多样性的挑战和算法开发环境。

「芯片+AI 算力+AI 开发平台」，合肥君正公布全栈式低功耗 AI 技术

端级芯片在计算资源和成本都面临限制，无法像云端服务器那么丰富和冗余。

在终端售价，RAM内存容量，ROM模型存储，发热控制，DDR的带宽等方面都面临极大挑战。

所以端级产品需要与云端不同的AI加速技术。

君正AIE特别针对端级应用设计，采用专用硬件架构DSA(Domain Specific Architecture)，与常见的NPU相比，有明显的规格优势：

MAC利用率提升1到2倍，推理速度提升2到4倍；
算法运行的RAM/ROM消耗减少50%~70%；
带宽降低35%~85%；
发热减少40%~80%。

无论2C还是2B/G市场，不同应用对AI算法的要求差异很大，即使是相同功能的算法也难以做到单一模型覆盖所有场景。

其次人工智能学术领域仍然在发展，虽然变化的速度减缓，但未来仍然会不断出现新的网络，新的流程，新的算子，新的训练方法等等，这些决定了目前的AI加速硬件还没有到达统一收敛的阶段。

端级算法本身呈现多样性，碎片化的客观现状。

这就要求芯片中硬件的加速能力非常灵活，能够应对各种未知算子/算法/网络/流程的变化，这一点对AI引擎的设计提出巨大挑战。

君正AIE结合了多年积累的CPU技术，摸索了一套兼顾高性能和灵活性的创新技术：

算力达2T ~ 32T的NN加速阵列，实现千倍加速比；
非标计算协处理单元，实现百倍加速比；
128bit到1024bit位宽的SMID指令集，实现几十倍加速比；
RAM Pool系统，显著降低带宽；
高主频多核多线程XBurst®2 CPU。

“过去至今各种行业摄像机搭载的AI算法，大多存在‘性能冗余但利用率低’、‘成本偏高但有浪费’、‘功能可用但难以普及’等情况，随着搭载AIE+Magik的T40逐步到位，能做到8T算力，小于0.5W的加速功耗，并且内置了DDR，这些痛点会得到很大改善。”刘远表示。

Magik—全栈式深度神经网络开发平台

硬件是躯体，软件和算法是灵魂。如果是AIE是躯体，那么Magik就是灵魂。

Magik是一个面向端侧AI应用的全栈式开发平台。与一般的AI开发工具链相比，Magik包含了更丰富的内涵：

全流程，一体化。集模型训练、优化转换、部署推理于一体，并提供模型检查器、调优器、性能分析器等工具；
多框架。全面支持pytorch/tensorflow/mxnet/caffe/onnx等主流框架；
量化感知训练(QAT)。支持2/4/8/16任意精度混合训练及转换优化，在保证精度的同时，能充分利用AIE的计算资源；
灵活性。同时支持QAT和后量化方案，加速应用灵活部署；
开放性。开放人脸/人形等常见算法的从训练到部署全流程代码，以及经典网络的backbones，增强易用性，加速落地。

“Magik不仅仅是一个AI转换工具链，还是一个丰富的开发平台，”刘远补充道，“有工具链，framework插件，Model Zoo，常用的backbones，还包括一般摄像机非算法的支撑功能，例如成像，编码，帧数据流，内存复用优化，存储降维，多目同步，甚至内存泄露防范等都有体现在内，真的值得用一用”。

Magik的一大特色是支持较为先进的QAT方法论。端级AI应用目前大多还停留在后量化方法阶段，相比QAT，后量化更像是端级AI的过渡阶段。后量化过程相对简单，但精细度不足，算力容易形成浪费，功耗成本带宽等难以解决。QAT方法能够更精细地根据加速硬件的特点调整训练细节，从而发掘端级AI算力的潜力，达到提升算力利用率，降低功耗，带宽和成本的效果。

使用Magik的开发过程很容易上手，流程示意图如下：

「芯片+AI 算力+AI 开发平台」，合肥君正公布全栈式低功耗 AI 技术

“Magik就像一把‘云梯’，帮助客户快速落地AI算法和视觉产品，它能给行业带来长期的助力”。

与AIE的发展相辅相成，Magik具有未来小型生态的潜力，其坚实基础是君正过去，目前和未来所有的算力芯片，只要君正芯片能够覆盖到的市场领域，都可以发挥作用。

春风化雨时，润物细无声

“早几年当AI的浪潮滚滚而来，喧嚣尘上之时，我们并没有太多发声，但并不代表我们没有行动。”刘远讲道，“当东西没有真正拿得出手时，我们自己心里这一关就过不去。而现在，AIE+Magik这一套技术，已经服务了很多客户，并让不少人尝到了甜头”。

据了解，AIE+Magik已经成功服务了超过几十家客户，包括一些行业知名品牌，传统算法公司，行业监控企业，大型互联网品牌，运营商以及初创极客。

这些服务，远超算法开发这个层面。要实现设备承载不同的算法运行，首先需要克服算法计算标准化的困难，但这只是端侧AI落地过程中挑战的冰山一角。

除此之外，设备的产品属性，可量产属性，消费者体验属性以及开发周期等方面都需要大量的投入。

君正完成了各种典型视觉产品的方案积累，例如安防监控，物联网视觉，低功耗成像，智慧办公，文字扫描，生物识别，立体视觉等领域都能提供完整的解决方案，让算法赋能只需要做简单加法就可以落地。

“这样做有没有社会价值，有多大的社会价值，是推动我们每一项产品和技术研发的精神内核。”

北京君正副总经理黄磊曾多次强调。在AIE+Magik的落地过程中，赋能下的各大下游企业的产品价值，都是对这一说法的精准注脚。

“有一家算法专业型的客户，本身有很强的算法开发能力，基于君正芯片和Magik平台，开发了全新的产品系列。新产品系列比之前的老产品，成本下降了一个数量级，实现小型化。客户还独立完成了人脸识别算法的移植，运行效果十分良好。”

刘远介绍说，“与此同时，另一家知名的销售专业型客户，本身算法能力不强，但是非常清楚消费者痛点。基于君正芯片和Magik平台，在君正的辅助下建立了算法团队，利用Magik平台的开源代码和网络，基于自己的数据资源训练了人形侦测算法，客户利用消费者优势，不断对算法进行迭代，最终以运营方式上线算法，消费者反馈良好，运营转化率高于预期。”

不知不觉间，优质的服务成为了君正在智能视觉市场的核心竞争力之一。

目前随着T40芯片到位，很快将有更多搭载AIE+Magik的产品陆续进入市场。基于T40打造的视觉产品，能做到4T/8T算力，能耗比最低达到0.05W/T级别，外围BOM很简单，芯片售价做到几个美金。配合Magik和各种成熟方案资源，T40有望成为AI视觉大市场的细雨春风。雷锋网雷锋网雷锋网