雷锋网 按:7 月 12 日-7 月 14 日,2019 第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
7月13日,云天励飞副总裁李爱军为CCF-GAIR 2019 的「AI 芯片专场」作了题为《芯联万物,智创未来》的精彩演讲。
IoT时代即将到来,随着AI和5G技术对IoT的加持,我们获得数据以及信息沟通交互的方式将更加的便捷和高效。未来,实时数据的增长幅度将大于非实时数据,我们更需要对这些实时数据进行边缘侧、端侧的实时处理。然而,传统的CPU、GPU架构难以满足快速爆发的AI计算需求,因此我们需要更高效的神经网络处理器的架构设计。
云天励飞的芯片覆盖着端、边、云的应用,利用不同的形态和组合,可以实现对于AI落地,特别是视觉AI在端、边、云上的应用。
以下为李爱军的主题演讲内容,雷锋网作了不改变原意的编辑与整理。
我是云天励飞的李爱军,负责公司的AI芯片业务,今天的演讲主题是《芯联万物,智创未来》。
云天励飞是一个人工智能的创业型企业,我们一直致力于打造算法、芯片、大数据这三个方面的核心竞争力,从而实现人工智能大规模产业化的落地。
自从个人电脑出现以后,我们经历了从计算机时代到互联网时代、移动互联网时代的社会变革,人类获取数据的方式越来越方便、越来越便利。如今,IoT时代即将到来,随着AI对IoT的加持,以及现在最热的5G对IoT的加持,我们获得数据以及信息沟通交互的方式将更加的简便。
IoT时代,算法会越来越多地应用到IoT的边缘侧和端侧的场景上,同时IoT海量的应用场景,为我们的算法提供了海量数据,特别是针对场景的数据,这些数据会反过来推动人工智能算法不断地加速迭代,实现它更智能化的目的。
在这样一个有机的循环和推动下,我们将迎来“5AIoT”(即:5G+AIoT)的时代。
对于芯片来说,到2025年预计总量会比现在增长7倍,特别是边缘侧和端侧的芯片,容量会大幅度提升,比云侧芯片会有更大的成长空间。数据统计,到2025年云侧芯片规模将达150亿美元,边缘侧和端侧芯片市场规模约为516亿美元。
我们认为,人类社会现在正在进入整个世界数字化的进程。
2018年,全球的数据圈的数据规模大概是33ZB(1个ZB是1万亿字节),如果把这33万亿字节的数据刻在光盘上,那么光盘叠加起来,其厚度可以绕地球222圈;
2025年,全球数据圈的数据总量会增加到175ZB,实时数据的增长幅度将大于非实时数据,其中,预计有30%的数据是实时数据。
实时数据需要的是边缘侧、端侧的实时处理,这也是推动现在的边缘侧和端侧人工智能技术不断往前发展的主要动力。
5AIoT场景更复杂,对算法的需求是多模态、多维的算法,边缘侧和端侧未来将是全新的运算平台,不能只跑某一种算法,而是在AIoT场景下要能应对用户各种各样的需求,包括多场景、多复杂度的需求,同时本地的时延要满足实时数据的处理要求;
另外,由于受到边缘和端侧设备体积的限制,设备需要有很高的效能;最后是安全性,安全是人工智能发展不可逾越或者说不可回避的一个关键问题。
如何让大家享受到人工智能给我们带来便利的同时,又让我们个人的隐私得到有效保护,让我们觉得安全,我认为这是一个很大的课题,所以我们在5AIoT时代做的芯片要满足高安全性的需求,保证我们本地的数据既要有安全性,同时又保证用户的隐私。
5AIoT时代,传统的CPU、GPU架构难以满足快速爆发的AI计算需求,例如性能、功耗、成本等方面,所以我们需要更高效的神经网络处理器的架构设计。
目前对于芯片架构的相关探索,从基于传统的计算机体系架构,包括存储和计算,数据从外部存储转为内部存储,做完数字计算再释放出去,这样的架构下其性能的提升必须通过提高频率和带宽,才能够把AI处理器的性能推到一个新的高度。目前,绝大部分主流的GPU、NPU或者XPU都是类似这样的架构。
云天励飞通过把存储单元和计算单元变得更为紧密,变成一个近存储的计算方式。近存储计算最大的好处在于我们不用把数据从外部导入,而是在计算的边缘侧就可以直接取到数据,从而使得我们计算的效率得到有效的提升,而且它的频率也不用跑太高;同时在探索存内计算有没有可能在内存中,在存和取的过程中就把计算做完,这样获得的效率会更高,意味着不需要对大量的数据进行搬运,这是我们下一步的目标之一。
数字计算靠近存储(Near Memory):数据搬运距离短,低频即可提供高吞吐,消除外部数据搬运,提高能效比;
数字/模拟混合计算(Mix Signal Processing):读取存储单元即完成计算,无需数据搬运,极大的提高能效比。
我们第一代的神经网络处理器是基于传统的架构来做的,第二代神经网络处理器是NNP200,已经是基于早期的近存储架构来做,所以可以获得比较高的能效比。
云天励飞对AI芯片的理解:AI芯片和计算架构一定是从场景出发、为场景服务,这样的计算架构才能真正满足大规模应用。
通过我们的系统在AI系统大规模产业化落地和部署情况下,去了解行业的需求和痛点;
基于对行业的需求和痛点的深刻理解来打造AI的芯片,通过芯片来解决这些场景下的关键问题;
通过优质的服务来更多地赋能这个行业。
在场景方面,云天励飞做的人脸识别系统已经在中国以及东南亚近百个大中型城市进行了部署,覆盖领域包括:机场、地铁、酒店、商场、医院、社区等。同时,我们也服务了国家的多个重要会议和国家重点工程,包括:杭州G20峰会和博鳌论坛等。除此之外,我们在深圳还打造了一个城市级的AI安防的应用示范区。
云天励飞自主设计的DeepEye1000神经网络处理器芯片,是面向以上的应用场景做的设计,我们支持多模态的计算,可以支持一键式AI部署,同时针对边缘侧和端侧做了优化,满足场景的需要,是异构的并行架构。
也就是说,这个芯片不是一个纯AI算力的芯片,而是满足边缘计算的SoC芯片,无论是单位性能,还是单位能效都有着数量级的提升。这个异构架构有着分布式、可重构的特点,同时可以实现实时动态任务的调度,能够进行智能高效的存储和调度,在这样的架构下保证我们的性能能够相比于其他芯片有大幅度的提升。
例如动态调度带来的性能提升,在我们用的人脸识别里面关键的几个算法,包括人脸检测、人脸跟踪和人脸识别,这个算法平均的性能提升都超过40%,部分可以达到50%以上。我们的神经网络处理器架构是基于ASIP的指令集技术架构,通过面向专用应用的数据抽取实现了算法高效的支持,同时它是可重构的处理器架构。重构的处理器是PE计算可重构的架构,这个芯片无论是跑大的算法模型,还是小的算法模型,都可以获得非常高的效率。同时,它实现了计算存储融合架构,也就是刚才我们看到的Memory计算架构,能支持稀疏以及数据压缩,同时支持多核多线程。
云天励飞的芯片覆盖着端、边、云的应用,利用不同的形态和组合,可以实现对于AI落地,特别是视觉AI在端、边、云上的应用。
在前端,我们以单芯片模组的方式实现高性能人脸的处理和视频结构化的处理;
在边缘端,我们通过芯片组成边缘智能的计算子板的方式,可以实现单板单机16路或32路视频结构化的能力,同时它具有很高的性价比;
在云端加速,通过多芯片的并联,我们做了计算加速板,可以做到单卡32路、单机8卡256路的视频结构化能力。
在人脸特征提取,功耗小于15W的时候支持600张人脸处理能力,能效比比GPU有10倍以上的提升,性价比比GPU高很多。
此外,我们的芯片也在深耕AIoT的各个应用场景,在智慧安防、智慧社区、智慧商业、智能制造以及智慧家居等领域形成了一系列的解决方案,这些解决方案都在有条不紊地进行。
在行业内,围绕着5AIoT,云天励飞希望跟合作伙伴一起打造自主可控的5AIoT生态,围绕着神经网络可控的处理器打造这样一个生态,使得人工智能能够更快速、更高效地大规模产业化落地。
我们的愿景是构建“1+1+N”的AI城市综合服务体系,致力于打造1张基于5G+AIoT的泛感知的网络,使得AI的触角能够深入到城市的各个角落,使我们城市治理相关数据的获取变得更加方便和便利。同时,我们将打造1个基于AI OS的城市大脑,通过这样一个城市大脑可以实现海量数据的分析、挖掘和决策。在一个网络和一个城市大脑的基础之上,我们会构建一个又一个面向城市各个应用场景的垂直解决方案,通过这些解决方案来服务于整个城市的治理,包括公安、卫生等场景。谢谢大家!
在主题演讲结束后,李爱军接受了雷锋网的采访,以下是本次采访的要点内容。
雷锋网:云天励飞将通过构建“1+1+N”的AI城市综合服务体系,助力自主可控的5AIoT产业生态建设。请问,5G在云天励飞的5AIoT生态建设中的重要性如何体现?自研的AI芯片将在其中发挥怎样的作用?
李爱军:5G在我们整个的“1+1+N”这样的一个城市的治理体系下,它是很重要的一环。
未来的城市将会构成一个个泛感知的网络,它需要构建在5G这样一个基础之上。AIoT时代的泛感知网络,它的数据的维度比原来要多很多,而且它的广度也会更广。只有通过5G这样的网络,才能够去实现这些数据的传递和交互。因此,我们认为5G网络和AIoT实际上是相辅相成,相互融合的一个技术,共同把整个城市的泛感知网络搭建起来。
云天励飞的芯片,将应用于整个网络的端、边、云当中。当我们做一个行业应用时,可以在不同的层级、以不同的形态来做。在端侧,就用我们的芯片做成了一个小的AI模组,可以用在各种各样的视觉终端,做实时的视觉的采集和处理;边缘侧实际就是一个区域的中心和大脑,我们可以在边缘侧上处理多路的(原来可以接入16路,甚至32路)视频,汇聚到边缘侧,然后我们在这个层面做实时处理。
雷锋网:云天励飞的芯片是从场景出发探索一个新型的计算架构,这样话是否会限制芯片应用的市场?未来AI 是需要专用,还是通用的AI芯片?
李爱军:如果一个芯片做成通用的,我们认为它的生命力反倒是不强的,没有竞争力的。
一般来讲,我们认为的通用CPU,它也是不完全通用的,比如英特尔x86的CPU,主要是用于电脑上,而手机上主要是用Arm的CPU。因此,某种程度来说,不存在一个完全通用的东西,至少在某些特定应用里他是有局限性的。
对于我们来说,我们做的芯片是面向视觉AI应用的一个神经网络处理器芯片。首先,它确实是对应用场景有自己的定义,对于非视觉AI我们实际上是不擅长的。然而,在视觉AI的应用场景下,我们又是相对比较通用的,因为我们是一个神经网络处理器,我们的AI芯片上面可以执行现在的算法,也可以执行未来的算法。
未来的AI,专用的和通用的AI芯片都会存在。在云侧,无论是做云侧的数据训练,还是大数据的分析处理,它需要的是一个相对比较通用的AI芯片。如果是在边缘侧和端侧,更多需要专用的AI芯片,因为它更多的考虑到效率和性价比。
例如智能音箱,智能音箱里面的AI芯片叫语音识别的AI芯片,这个芯片跟我们用在摄像头里面的AI芯片(即视觉AI芯片)是两个概念。该芯片只处理语音信号,所以它的算力会比较小,可能0.1T或0.2T就够用了;但是,如果我们对这个视频、视觉进行处理的话,就需要1个T或2个T,甚至更大,这样的算力才能满足对视频处理的要求。
雷锋网:边缘侧专用的AI芯片,在各个细分领域差异是否很大?我们如何去应对这些差异性?
李爱军:边缘计算所代表的网络层,我们可以称之为边缘网络层,该层面细分领域对边缘计算的要求是不一样的。也就是说,在不同的领域内,它会有很多的区别,比如说用在工业和安防领域,它本身的这种需求就不一样,要执行的算法也不一样,它的要求也就不一样。
我们在落地这些边缘网络层的具体项目时,即使同样是视觉AI芯片,其解决方案依然会有差别。根据需求的不同,会根据某一个应用场景对AI芯片的要求进行抽取,在落地的时候,再结合用户的一些特别的需求就可以了。
一般地,会有一个“二八原则”,比如80%,甚至90%以上,这个都是共性的需求;那么剩下的10%左右的需求,需要额外的满足客户。
雷锋网:云天励飞的AI边缘计算能力如何在各领域体现价值?
李爱军:在安防领域,原来传统的摄像头,它只是具有监控的功能,没有智能分析的功能,因此传统的摄像头需要进行智能化升级。例如从人脸抓拍到软件识别,以及各种视频结构化,甚至视频语义理解;至于门禁,因为我们现在装门禁基本上都是装在公司这些地方,所以将数据放在本地使用可以保护用户的隐私。此外,门禁对于设备的实时性是有要求的,如果把数据的处理放在云端的话,实时性会难以保证。
新零售领域,它的应用会有多个,实际上新零售可以理解为基于智能摄像头的一整套系统,在这个里面的话,我们的边缘计算芯片可以放在摄像头里面,也可以放到智能网关中,构成商超的汇聚节点。
雷锋网:从AI的商业化程度来看,安防、金融、互联网服务和企业服务,这些行业是走在前面的,而云天励飞选择的是智慧安防、智慧商业、智慧家居、智慧制造和智慧社区这些垂直的领域进行布局,是基于怎样的一个考虑?
李爱军:这个主要还是从我们的定位来看的,因为我们做的是视觉AI的神经网络处理器芯片,所以我们的业务布局是围绕这一点来进行的。
目前的热点,安防和金融领域,实际上更多的是用于人脸识别,我们只是布局了其中和自身有关联的应用而已。安防中的人脸识别,包括视频结构化,都是和视觉AI相关的技术;金融支付领域的人脸识别和安防的人脸识别差不多,技术是一样的,所以我们是可以做的。其他方面,比如金融领域的AI应用,也就是涉及到金融本身,比如说数据监管、数据分析这些,这些的话跟我们视觉AI芯片没有太大关系,所以现在并不涉及。
此外,我们选择了智慧商业领域,主要参与的是访客系统、精准营销这块,这块也是跟视觉AI密切相关的;而智能制造领域,我们主要侧重于工业检测,这也是视觉AI方面的应用;在智能家居领域,我们是用于目标检测,而不是人脸识别;最后是智慧社区,这个主要就是用于门禁方面。
雷锋网:针对目前AI芯片市场的竞争不够充分的观点,您怎么看?
李爱军:这个要分开来看,首先我觉得现在的AI芯片相关应用还远没有到达爆发的时候。除了手机行业,目前我们看到的几个热点,比如安防的摄像头,这也才刚刚开始而已;智能音箱,相对时间长一点;然后再往下看,就发现好像AI芯片没有几个量比较大的应用了。
虽然AI芯片关注度比较高,但它的应用落地并不多,所以说这个市场还没真正起来。但是目前做AI芯片的公司挺多,在这么多的AI芯片厂商中,最后能存活下来的是那些掌握了核心竞争力的玩家。目前的AI芯片的竞争,我觉得还没开始。
云天励飞最核心的是神经网络处理器相关的技术,最大的优势是对于场景的理解,和我们基于场景所做的芯片。我们不是一个通用的AI芯片,也不是基于这种通用的AI算法芯片里面,我们是有侧重的,我们瞄准的是视频方面的人脸识别,还有视频结构化相关的,所以在这类算法上运行效率非常高。