雷锋网按:7 月 12 日至 7 月 14 日,2019 第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
“行业把我们分类到AI芯片公司,但我们其实对自己的定位是比芯片稍微大一点的,我一直想说我们是技术平台类型的公司,软件和硬件结合在一起”,在2019 第四届全球人工智能与机器人峰会上,地平线联合创始人兼副总裁黄畅如此做阐述。
7月13日举办的AI芯片论坛上,黄畅做了题为《打造极致效能的AI计算平台,构建安全、美好的智能世界》的主题演讲。
在演讲中黄畅表示,地平线希望定义真实的AI芯片性能,传统芯片性能指的是PPA,包括Power,Performance,Aera(性能、功耗、面积)),现在比较主流的是指标是TOPS/Watt和TOPS/$,能效比和性价比都是用户所关注的。算法不断演进,器件的利用率由架构和编译器决定,架构把算法转化为相对架构而言最优的质量、序列和执行模式。地平线的核心是算法+芯片联合优化,兼顾灵活高效架构服务经典和未来算法设计。
“地平线努力做到能够更好地预测、把握、选择未来真正重要的AI算法的趋势,并且把算法、发展的趋势进行拆解、融入到架构中,使我们预先将未来可能成为主流的,最有效的算法提前考虑到计算架构中,这点非常重要”,黄畅提到。
作为AI芯片独角兽企业,黄畅在接受采访中屡次谈及“边界”。数据、AI模型和设备形成一个闭环,这个闭环结合在一起高速的循环,快速推进AI的技术发展和商业化落地,在此过程中,如何找到让专家、开发者、AI工程师等不同角色都能找到舒适区,将开发模式平台化至关重要,地平线希望做一家平台公司。
生态或者被生态,对地平线来说是一个不再需要犹豫的问题。
平台公司首要思考的就是平台的深度和广度,黄畅对此已有成熟的判断,平台核心竞争力在于技术整合,从算法到架构,再到后端的整合,技术链路越长整合优势越大。
“但同时我们也要注意整合也不能无边无界,你始终要去判断你的核心竞争力在哪,外延是哪些,什么时候外延会成为你的主要矛盾,从而也把它囊括到核心竞争力里面去,因为有很多技术栈其实是应该交给行业的上游或下游解决。所以也要有边界感,自知之明,当然这个东西是动态变化的,跟技术、整个产业的发展、企业自身能力的发展都有关系”。
通用芯片和专用芯片并轨发展,趋势如何发展是所有行业人士关心的议题,黄畅认为,通用芯片和专用芯片各有各的机会,而且都在向中间靠拢,比如通用芯片也会通过专用的架构增强它本身的竞争力、能效比和性价比。
“通用芯片和专用芯片大致上由各自的出发点逐渐会收敛,当然这个过程中就是合久必分,分久必合,可能在某些历史市场上又会走的非常专用,这也是完全有可能的。”
地平线联合创始人兼副总裁黄畅
以下是黄畅演讲全文,雷锋网进行了不改变原意的编辑:
黄畅:最近经常来CCF,我的标题是《打造极致效能的AI计算平台,构建安全、美好的智能世界》。
著名的Gartner曲线大家都很熟悉,Gartner曲线显示AI的痕迹,语音识别之后一发而不可收拾,后来出现了很多AI的技术和应用,有的逐渐从爬坡出现,有的迭入谷底,有的在成熟期发展过程中。
这是2018年8月份发布最新一期的Gartner曲线,列举十项AI技术,第一次明确提出了AI的普惠化。这说明经过这么多年的洗礼,大家逐渐形成共识。AI的技术和催生、支持的产品未来必将在各个层面上深刻地影响我们的社会生活,AI是围绕数据的计算和处理,尤其是智能层面处理产生的。2025年,所有数据里将有超过25%是实时数据,其中95%以上是来自于IoT终端。到2025年,全球数据总量里有20%是与生产、安全密切相关的数据。我们如何更好、更快、更安全地处理这些数据成为重中之重。
今天上午的专场是5G和AIoT,5G技术的产生使得边缘计算成为一种可能或是迫切的需求。对于5G技术而言,其实它非常需要MEC多接入点的边缘计算,它是建立在5G基础上的重要应用,缺乏这种应用,5G技术的推广和普及是缺乏拉力的,这句话英特尔也说过。
边缘计算会破解AI物联网哪些核心难题?每辆自动驾驶车辆每天产生600-1000TB的数据,和2015年整个互联网产生的数据是一样多的,因为现在每辆自动驾驶车有十多个摄像头,不止一个激光雷达,摄像头都是高分辨率、高清、高帧率的。边缘计算的核心难题是在于如何提高计算的可靠性,让它在离线时可以正常运作,安全、合规满足隐私的要求,任何数据必须经过脱敏处理才可以上传到云端。
数据传来传去,不管是有线还是无线,从成本功耗和技术的架设来看,成本并不低,5G的技术虽然破解边缘的传递,大概几百米范围内的传递,没有改变主干网的带宽,会极大吸纳数据网络,很快会在5G基站附近产生数据的堰塞湖,必须进行快速的计算、处理。把里面非常有意义的部分上传到云端,这是有效的数据压缩方式。
边缘计算也具有部署灵活、高效协同的特点,最近有一个比较热的词叫做“车路协同”,自动驾驶按照特斯拉的路径,依靠车本身的能力推广的话,这可能也是L5级别自动驾驶的必由之路,坦率地说,目前L4自动驾驶在现实环境中还要限制车辆运行的环境和地域,在所处的区域布局路端的改造,可以大大缩短自动驾驶投入规模化运营的时间,这里也能体现出边缘计算在端上,比如说自动驾驶或是自主机器人的高效率协同。高实时计算减少反应延迟,对于自动驾驶来说毋庸置疑是必要的条件。
传统只有一个端、一个云,所有的数据都从端到云上,5G的发展让边的计算成为一个新的变量,其实我们可以看到,边缘计算必将带来商业范式的转换,包括现在的运营商、传统的设备商,其实在边缘计算这块他们都看到蕴含巨大的商机,而里面技术的变革也会非常深远,因为它兼具传统的端和云侧的特点。
我们再看一下AI普惠化和民主化的背后,数据计算催生巨大的能源消耗。举一个例子,2017年全国做过一个数据统计,全国有很多中小的数据中心,遍布在各处,比如在我老家贵州,那边水电、煤电很丰富,有很多的山洞,气候凉爽特别适合建机房。2017年中小数据中心消耗电量比三峡大坝的发电量还多,等量的碳排放量甚至比民航中心的碳排放量多一倍,两倍于民航的碳排放量,这是很恐怖的数据。
不仅仅是中国,全国各地也在大规模兴建数据中心,像Facebook在海底修数据中心,最大的数据中心将座落在北极圈,功率超过1000兆瓦。做AI的企业,不管是做算法、应用、芯片的都要承担一些社会责任,未来会有巨大的AI计算需求,举个例子,我们看Google前段时间说,他们训练非常牛的模型,进一步用NANS自动搜索的技术,调用上千台GPU跑两个月,找了很好的结构,把机器翻译的模型,就是我们看到正在实时翻译的模型推到极致。但是为了训练这个模型大家知不知道消耗多少电?换成碳排放量相当于五辆小汽车一年的排放量,仅仅训练一个模型训练一次。如果把模型部署出去进行推理,随着时间的增长,它的能耗是百倍、千倍的增长。我们不能忽视享受GPU的集群训练、推理背后巨大的能源消耗。
我最近看到一个报道,人类社会这些年来没有办法回避的是二氧化碳的碳排放量急剧增加,拉到几十年的范围来看,有人说是在“自掘坟墓”,所以这是我们的社会责任。
地平线要做什么?我们想定义真实的AI芯片性能,这个和功耗、成本息息相关。传统的芯片性能,做芯片很也的都知道,PPA,Power Performance Aera,比如说一秒钟执行多少指令?现在比较主流的是,对于AI芯片每瓦有多少计算。(还有)TOPS/$。不到10%是我们自己测的,往往被DDR带宽Block住。我们拿到TOPS/$的利用率,大概50%还是80%。
我们还要看TOPS多大程度上转化为AI的性能,典型的就是算法处理速度和精度,或是在单位时间内以高的准确度处理多少数据?这些东西加在一起才能得到真正的AI性能,TOPS产生多少AI的Performance,算法在系不断地演进、数据不断地增大,做这么多的承压计算,能多处理多少数据?或是能提升性能多少?而器件的利用率,是由架构和编译器决定,架构和算法,把算法转化为架构而言最优的质量、序列和执行的模式,Performance是地平线关注的核心,我们的核心是算法演进、架构同行。
下面是算法的算法演进的时间轴,时间不断往前进,轻量化的算法达到更好的精度,相同的计算量我们在提升精度和处理的速度,不可回避的是,我们把算法应用在传统的计算架构上,传统的计算架构没有充分考虑到计算的变化、算法在改变计算的模式,计算架构没有考虑好,算法带来计算模式的变迁会显著下降。
地平线努力做到能够更好地预测、把握、选择未来真正重要的AI算法的趋势,并且把算法、发展的趋势进行拆解、融入到架构中,使我们预先将未来可能成为主流的,最有效的算法提前考虑到计算架构中,这点非常重要。头两年大量的AI处理器集中优化3×3卷积,用看上去很美好的方式做,带来的后果是没有把握算法的发展趋势,3×3的稠密卷积正在被抛弃,未来的发展方式会颠覆过去最优的发展模式。针对当前主流算法设计的计算架构,在目前算法快速演进的时代里,等到你真正拿出来,一年两年以后很容易被淘汰掉,就是因为低下的利用率。传统的GPU用相对传统的方法做,他发现新的算法部署上去以后也提升不了精度。
我们特别强调算法和芯片的优化,兼顾灵活性和通用性,第一要务还是追求极致的能效比和性价比。有很多东西要做,并不仅仅是算法和架构这两件事情,还有很多它们的编译器和外延。比如说架构设计需要考虑未来重要场景中的关键算法,我们要去实验、探索、判断,包括也跟业界广泛的交流,共同定义未来重要场景是什么、未来重要的关键算法是什么。
产品驱动的思路进行敏捷的架构迭代,架构本身是一个设计,它可以像软件一样进行快速的迭代。计算架构的实现技术涉及到更偏软件的,现在比较流行的HLS技术,现在已经被大家用于快速迭代的架构,甚至芯片的模式,我们首重效率兼顾灵活性,架构、算法和连接他们的编译器,比如说精巧片上存储器、算子弹性张量核、模型结构调优、可编程流处理架构、算子芯片联合优化、精简指令集设计,我是做算法出身,我和架构师有很深入的讨论,我强烈的诉求是能让软件做的事情尽可能让软件做,提供无与伦比的灵活性,这使得我们的编译器有很大的空间做后续的优化,甚至满足我们设计芯片上没有看到的可能性,这一点非常重要,在高速变化的场景中。
这是一些具体的例子,左边的图是同样的两个芯片处理大图小模型,如果我们不做专门的优化,按照比较传统的方式,类似GPU的流处理,发现它的帧率200多兆,被DDR的带宽限制住,只有34%。如果我们通过大量的拆分、多层融合,通过各种各样的强大机制,各种各样的内部架构设计特点留给编译器巨大的空间去优化,我们就可以把它的利用率提高到84%,帧率提高三倍,带宽下降了一个数量级。我们的芯片面积很小,片上的存储和很多AI芯片的片上存储相比不是特别大,甚至还是偏小的。正是基于非常软件的推动、驱动的设计,留给了软件、编译器巨大的空间,让我们的硬件效率非常高。
再举一个具体的例子,我们用芯片在City Scapes做2048×1024,19类,像素级别语义分割,200多瓦的GPU上可以做到74.8%的精度,速度8毫秒,单芯片的功耗上百瓦,芯片面积400多平方,如果砍掉GPU不用的话,这个东西起码有100平方左右,考虑各种方面,起码有效的在100平方以上。
这会产生什么样的结果?图中展示的,同时做检测关键点、分割,而且一个芯片支持四路,这是我们的标准360度视觉感知方案,12个摄象头,4个鱼眼,8个正常的,提供丰富的视觉与感知,这个已经是标准套件,是我们的Matrix自动驾驶计算平台,获得了很多奖,包括CES等很多机构的奖,成功推到海外头部的车厂,已经进入量产阶段,作为自动驾驶套件视觉感知的标准模组,这是非常成功的产品。GPU跑这块东西,一块GPU通常搞不定,我们只用三块芯片,比GPU低一个数量级的芯片、低一个数量级的成本就可以解决这个问题。
这是另外一个case,技术可以用于三维的建模,完全视觉的建模,在非常低功耗做实时高速的三维建模。初看图的时候会感觉是激光扫出来的图,前置摄像头看前面的画面,就像行车记录仪一样,可以对三维场景进行高精度的建图,这项技术我们和国外的厂商也在合作,已经进入规模应用的阶段。
前面讲了很多算法和芯片的变化,仅仅有这些还是一种潜能,还需要让人更方便地利用起来。软件开发是有质的变化,1.0时代我们更多是通过人们理解规则,把复杂问题拆解成很多子规则,通过差异化的模型描述它,拆解开来去解决。软件开发的时代已经变成数据驱动,只需要针对问题采集数据进行标注,剩下的事情,关于怎么拆解、建模都可以交给机器学习,特别是深度神经网络的模型、方法。这个东西会带来软件开发翻天覆地的变化。
这是Reference,要对接主流的框架,针对我们的芯片去进行量化、高效的训练,测试、分析最后部署在我们的芯片上,这是一个开放的平台,还支持开源的方向。
数据、AI模型和设备形成一个闭环,这个闭环结合在一起高速的循环、快速的推进AI的技术发展和商业化落地。我们经常会谈识别好,什么是识别好?芯片长期来讲做到识别好也非常难,如果我们将工具链组合好,可以大幅度降低开发者的数目,降低开发者的时间,极大扩大开发者的规模。
右边是传统工具链,只有专业的专家可以应用起来,但它足够的灵活、足够的底层,可以解决各种各样的问题,由于开发者人群受限,注定资源瓶颈在够资格、有足够水平的AI开发工程师,左端是封闭的SQL,它只能针对一些高频的专门场景进行打造,它的应用场景非常熟悉,所以我们要找到适中的、门槛不高但是适用面足够广的开发模式,把这样的开发模式变成平台化的工具赋能整个行业。
赋能万物让每个人的生活更安全、更美好是地平线的使命,也是我们创立这家公司的初衷。这张图从上面到下面可以看到碎片化的场景,智慧城市、智慧商业、自动驾驶、服务机器人、脑机接口,中间是多样的AI计算技术。从人的智能顺序可以分为感知、建模、预测、决策、认知,底下支撑的是通用的AI计算平台,有硬件、芯片、软件、工具链、标准算法。地平线定位技术赋能,不碰数据,不做应用。我们提供超高性价比的芯片,具有极致的功耗与效率,非常开放的工具链和算法模型样例,我们关注自动驾驶和AIoT,同时也加入生态的开源社区,加速AI的赋能。
这是我们新提出的口号,“AI ON HORIZON”,我们希望打造面向整个产业界的通用AI应用平台,赋能我们的客户,让AI的技术可以更好更早地普惠化、造福大家的生活,Journey Together是我们庄严的承诺,谢谢大家。
相关文章: