CES深度分析：自动驾驶呼唤新的计算平台（四）

2017/01/20 17:02

雷锋网按：本文作者李星宇，地平线智能驾驶商务总监。毕业于南京航空航天大学，获得了自动化学院测试仪器及仪表专业的学士和硕士学位；曾任飞思卡尔应用处理器汽车业务市场经理，原士兰微电⼦安全技术专家，有13年半导体行业从业经验。在加入飞思卡尔的早期，任职于i.MX应用处理器研发团队，在该领域取得一项NAND Flash存储应用美国专利。在士兰微电子负责安全芯片的公钥加密引擎设计，该引擎的RSA/ECC加解密性能处于国内领先水平。

雷锋网获得授权发布。

本文为CES深度分析第四篇，前面三篇传送门：

CES深度分析：自动驾驶催生商业模式变革（一）

CES深度分析：自动驾驶产业化迈向纵深（二）

CES深度分析：自动驾驶呼唤理性决策（三）

一、目前的硬件效能达不到实用要求

对于自动驾驶这样的复杂任务，在设计软件的同时，还必须考虑与之匹配的硬件效能，这里包括性能、功耗和功能安全。

为了保证自动驾驶的实时性要求，我们需要保证软件响应的最大延迟在可接受的范围内，对于计算资源的要求也因此变得极高，目前，自动驾驶软件的计算量达到了10个TOPS（每秒万亿次操作）的级别，这使得我们不得不重新思考对应的计算架构，图灵奖获得者Alan Kay，他有一句话是乔布斯一直信仰的： 如果你严肃地思考你的软件，你就必须要做你自己的硬件。

CES深度分析：自动驾驶呼唤新的计算平台（四）

图灵奖获得者Alan Kay

事实上，整个数字半导体和计算产业的产业驱动力，正在从手机转向自动驾驶，后者所需要的计算量比手机要大两个数量级。

今天，打开任何一家主机厂的无人车的后备箱，都是一堆计算设备，不但没有地方放行李，而且还要解决它的整个系统稳定性问题。之前在乌镇举行的世界互联网大会，雷锋网的记者在实际体验百度的无人车时，提到非常有趣的一点：“这辆无人车平稳地行驶了起来，但位于后备箱的车载计算机噪音较大，可以听到风扇在运行的声音。”

CES深度分析：自动驾驶呼唤新的计算平台（四）

百度无人车的后备箱中的车载计算机

为什么呢？因为它使用的是CPU+GPU+FPGA的计算平台，计算所需要的功率非常大，GPU尤其恐怖，如果没有强力风扇来散热的话，夏天很容易烧坏机器。坐在这样的车里，就别讲究体验了。

功能安全是另一个巨大的挑战，这里面其实包含了多个方面的要求：处理器要符合至少ASIL-B等级的要求，可靠性需要能够保证在至少十年的使用期内不出问题。

高通在手机领域有非常强的实力，而且向汽车电子进军的努力也从未停止，但去年高通依然决定花370亿美元重金收购了汽车电子老大NXP，这从另一个侧面折射出汽车电子的门槛之高。

二、人工智能处理器与自动驾驶计算平台

这让我们想起计算机的发展历史，50年代是大型机的时代，那个时候一台大型机可以占据实验楼的一整个楼层，需要一个庞大的团队来操作，价格高到数百万美元；七十年代小型机占据主导，小型机可以安装进一个房间，价格也降到数万美元；八十年代是PC时代，可以摆放到桌面，价格则又降低了一个数量级，如今是手机，可以装进口袋；贯穿其中的是三个主要方面的进步：体积、功耗和成本。

人工智能所需要的处理器，从2012年开始业界已经开始广为关注，比如从 GPU到FPGA，再到TPU，业界也沿着之前计算机走过路，重构人工智能所需要的处理器。

英伟达在本届CES上发布了最新的车载计算平台“XAVIER”，512 个Volta CUDA 核心可提供高达30TOPS的计算性能，但最引人注目的还是其30W的功耗，大大低于之前还需要水冷的Drive PX2。这是一个很大的进步，但还不够，要让自动驾驶得到普及，性能、功耗、成本和体积因素，一个也不能少。

CES深度分析：自动驾驶呼唤新的计算平台（四）

英伟达在本届CES上发布了最新的车载计算平台“XAVIER”

如今很多车厂都制定了非常激进的自动驾驶开发计划，但其实样车开发与其投入到量产车的日程表其实是差异非常大的，与量产车的设计理念完全不同，量产车必须考虑成本因素，不能跟今天的GPU或者其它的计算所需要的成本一样，而这就需要业界提供新的计算平台。

FPGA被越来越多的公司关注，其可编程特性可以满足专有计算构架的需求，微软、Intel等公司都在大量部署基于FPGA的系统。

FPGA在ADAS方面的出货量也在迅速增加，去年的出货量应该不会低于3Mu。但FPGA再往上走，计算资源的扩展会让成本上升到很难接受的地步。半导体业界无数的历史都表明，FPGA往往是定制化ASIC的前哨站，一旦某个应用的量足够大，定制化ASIC就会变得更经济。

地平线机器人公司正处于整个业界研究的最前沿，目标就是将原本智能在云端运行的人工智能，实现在高性能低功耗的大脑引擎（BPU）上，这是一个全新的计算构架IP，将充分适配深度神经网络算法的要求，由此带来革命性的嵌入式人工智能，预计其成本和功耗都将比现有GPU低一个数量级。这样的IP可以嵌入到SoC中，或者单独作为协处理器使用。目前地平线正在推进代号为“高斯”的计算构架IP的开发，预计17年底推出。

CES深度分析：自动驾驶呼唤新的计算平台（四）

地平线BPU战略

三、软硬件协同设计是新的趋势

在过去，处理器都是作为标准平台提供给业界，软件工程师拼命优化编译器、代码、任务调度等来达到更高的性能表现，但现在，这已经无法满足产品快速上市的要求了。

英伟达在AI业界攻城略地，几乎已经成为标配，这其中有其高性能GPU的因素，但问题在于，为什么其它GPU供应商没有赢得这场竞争？

英伟达不仅提供GPU硬件，还提供了高度优化的CUDA平台，该平台封装了大量高频使用的数学运算库，英伟达更进一步面向自动驾驶提供了端到端的解决方案，这实际上是一种重要的产品理念：软硬件协同设计。

这揭示了英伟达市场竞争成功的秘诀：通过软硬件协同设计，优化软硬件系统的性能表现，缩短客户导入时间，赢得市场。

新的自动驾驶计算平台，实际上是因应算法和软件的需求而来的，例如，为了更好地支持深度卷积神经网络极大规模的矩阵运算，你需要考虑如何使用二值化方法来降低对于硬件乘法器的需求，如何重新设计缓存机制以避免I/O带宽成为整个计算系统的瓶颈等。为了满足功能安全的需求，你需要硬件级别的虚拟化，这就要求处理器构架设计方面需要考虑多核、VMM、设备I/O请求管理等。

Intel也在加强其在人工智能算法方面的积累，对Nervana和Movidius的收购反映了这一点。通过提供至强处理器、FPGA，结合其Nervana平台以及面向深度学习优化的数学函数库（MKL），提供完整的AI解决方案。

能否提供同时满足经济性和性能要求的计算平台，是自动驾驶能否从样车转向量产车的关键因素之一。

结语

公众对于自动驾驶依然有深深的疑虑，但在每一次革命性的交通运输方式出现时，类似的疑虑都曾经存在过。航空服务刚刚出现时，安全性非常低，多数人甚至都不相信金属构造能飞起来，美国海军统计表明，在二战期间，因技术原因损失的飞机达2100架，是被击落飞机的1.5倍，但航空业依然发展了起来；高铁同样有类似的经历，19世纪火车刚刚出现时，即使是最有远见的人都无法想象时速超过300公里的列车，那时候的人们认为仅仅是气压的问题就足以让乘客丧命，而后来这些都成为了现实，并且发展了体量惊人的配套基础设施：铁道和机场。当技术不存在原理性的问题之后，只要有巨大的商业潜力，利益的驱动终能克服技术上的挑战。

如果我们考察一段文明的发达程度，运输水平可能是最直观的指标。唐代玄奘取经，鉴真东渡，耗去的是一个人半生的时间，这里体现的是客运成本；南宋时期，从福建泉州出发的瓷器运到欧洲，增值达一百倍，体现的是货运的价值；19世纪美国的崛起，很大程度上得益于其全国铁路网的建立，将联邦的各个州融合成为一个单一市场。

文明的发展过程，也必然伴随着运输成本的逐渐降低，以及运输效率的持续提升，它深刻重塑了经济的形态。Elon Musk的终极梦想是殖民火星，同样是一个运输能力改变文明的故事，自动驾驶就是当下发生的故事，当人的劳动力被释放之后，成本下降就会驱动一波全新的机会，过去一年里，自动驾驶领域的进步已经超出了绝大多数人的预期，自动驾驶的未来值得期待。

本系列更新完结。