专访NovuMind周斌：AI芯片弯道超车，架构和算力没有任何取巧之道｜CCF-GAIR 2018

作者：任然

2018/07/24 17:13

雷锋网按：2018全球人工智能与机器人峰会（CCF-GAIR）在深圳召开，峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，得到了宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，旨在打造国内人工智能领域最具实力的跨界交流合作平台。

7月1日下午的AI芯片专场大咖云集，圆桌讨论环节，深圳鯤云信息科技有限公司创始人兼CEO牛昕宇、天数智芯创始人兼CEO李云鹏、NovuMind中国区总裁周斌、AVSdsp CEO沈联杰四位来自AI芯片领域的重磅嘉宾，在华登国际投资总监苏东的主持下，就“中国芯的新机会：AI芯片如何实现弯道超车”这一话题展开交流。

圆桌讨论结束后，雷锋网就相关问题对NovuMind中国区总裁周斌进行采访。

专访NovuMind周斌：AI芯片弯道超车，架构和算力没有任何取巧之道｜CCF-GAIR 2018

算力是一切算法的基础

在圆桌讨论中周斌曾提到，大概3~5年后，在有限场景、受限场景的自动驾驶会成为比较现实的事情。

然而据雷锋网观察，眼下有一些面向自动驾驶领域的AI芯片，其规格往往集中在功耗15~30瓦、算力30~40Tops这个区间内，号称可实现L4级自动驾驶能力。并且在雷锋网的观察中，某些AI芯片公司在介绍其芯片性能时，只说每秒能处理多少帧画面、每幅画面包括多少对象，而对底层算力指标避而不谈。

对于这种行为，周斌认为“就像某人只说自己能举重100次一样无聊，脱离杠铃重量怎么能看出实际能力？就算要宣传图片和对象的处理速度，也要讲清画面分辨率、视角大小、识别距离、对象尺寸等相关参数，要么就老老实实亮出实际的算力有多少。”他表示，40Tops只能胜任L2.X级辅助驾驶（ADAS）系统，想实现L3.X级自动驾驶都是不够的。

从雷锋网了解的信息来看，L4级自动驾驶要求平均每10万英里才需要一次人工干预，目前世界上还没有任何自动驾驶系统能达到这个指标，即便目前表现最好的谷歌Waymo也只做到了平均5000英里一次人工干预，而特斯拉Autopilot在官方定义中只是L2.X级。

周斌根据目前的情况推算，L3.X级自动驾驶大约需要80Tops的算力，而L4级自动驾驶的门槛至少有100~200Tops之高。在NVIDIA的路线图中，甚至使用了一套包含两颗GV100 GPU、算力320Tops、功耗高达500瓦的平台进行L4级自动驾驶的研发，高级别自动驾驶所需的算力指标之高可见一斑。

他表示，算力是支撑一切算法的硬指标，没有任何捷径可走。即便算法再怎么神奇，40Tops算力下所能做的事也是有上限的，“用十分之一功耗实现十倍性能”完全是天方夜谭。

如何与CUDA同台

NVIDIA自2006年推出G80架构以来，一直在不遗余力的推广其CUDA通用计算平台。时至今日CUDA已经非常成熟，形成了强大的生态系统，这也为NVIDIA扩展其它基于GPU的事业提供了先天便利。事实上，在AI大潮来临后，NVIDIA确实在AI算法训练上获得了很大优势。

NVIDIA的强大之处，身为中国唯一NVIDIA CUDA Fellow及NVIDIA DLI认证讲师的周斌再清楚不过了。但他却做起了反向思考：CUDA生态过去的强大，在面对AI运算的新任务时，是否能为其创造不可逾越的壁垒？

周斌认为答案是未必。在前不久的CCF-GAIR峰会上他曾讲到，他亲历了深度学习的风口过程，在2008年利用CUDA做通用计算时就开始用一些不同的处理器架构来解决新的问题。那时他发现，新的深度学习架构对于新的数据模式、新的数据结构以及数据量，对GPU体系结构产生了非常大的挑战。

AI芯片是处理AI任务的，任务在不断的变化，其变化本质、数学模型是什么，哪些是变的、哪些是不变的，这是任何做AI芯片的公司必须首先认可领悟和理解的。芯片中哪些可以固定下来。卷积层是否存在？深度网络的主流是什么，是CNN还是RNN？下一代Sparking能否用起来？只需要关注深度学习最核心、最本质的地方，剩下的都可以不管。

周斌称，NovuMind并没有发明新的芯片模式，而是在GPU的基础上去掉了所有和深度学习无关的单元。这样的设计既可以让芯片高效进行深度学习计算，又避免了直接将算法固化成ASIC芯片应用范围狭窄的问题。

脱离架构研发的“超车”都是幻想

全美达（Transmeta）Crusoe、Intel安腾（Itanium）、龙芯。

这些处理器的名字看起来毫不相干，之所以列出来，是因为它们之间有一个共同点：本身不是基于X86指令集，但可以通过Emulation技术兼容X86代码。

近来，随着“弯道超车”的声浪越来越高，又有人开始鼓吹Emulation技术，认为这样可以规避处理器架构方面的弱点，只需设计一个精简且高效的计算内核，然后套上Emulation层不就计划通了？

然而对于这种言论，周斌的看法非常简单：“这一定是行不通的”。他表示，全美达Crusoe、Intel安腾和龙芯，在商业上都失败了。这些使用了Emulation技术实现X86兼容的处理器，执行X86代码时的效率都是极其低效的。

以Intel安腾处理器为例，其内核结构为VLIW超长指令字体系，在使用Intel御用Emulation层的情况下，运行X86代码的效率也不过50%。即便是目前基于骁龙835/845平台的Win10 PC，也依然没能改变效率低下的老问题。

“芯片是个非常讲究经验积累和传承的领域，架构设计不是一天两天的问题。在大型应用领域，必须要在架构设计上下功夫。”周斌对雷锋网说到，“现在鼓吹Emulation技术的人，都是想在架构研发上偷懒的人，想靠这个实现‘超车’纯属幻想。”

回归价值投资的本质

很多人都听过“当风很强的时候，连火鸡都能飞起来”这句洗脑名言，而在AI这个风口下，也的确有一些公司或团体，仅凭一句AI、一个口号就能拿到大笔融资。

作为旁观者，我们不免担心，在浮躁的资本市场中，这些滥竽充数者分流掉的资源会对那些务实的团队造成怎样的影响？

在周斌看来，投资是一个优化资源配置的过程，虽然在风口到来时，市场上不可避免的出现了许多投资泡沫，但所有项目都必须在市场上证明其价值，才能获得成功。一些跟风的投资人，资金投到垃圾项目上，他们损失的将是真金白银。

他认为，投融资应该是一个双向选择的过程，不管是市场成长期还是洗牌期，都是真正的大浪淘沙，把真正有价值、有核心技术、有成长性、有未来的公司选出来，资源会向这样的公司聚集。“炒快钱的创业公司和投资人一定会被市场淘汰，只有真正能够发觉价值并与公司互相认可的投资人，才能为公司带来生命力。”

现在随便弄几个人说句AI、喊个口号就能拿到投资的事不存在了，在团队和市场层面上，有扎实内容、能赚钱的公司反而成为市场的香饽饽，这个洗牌期会逼着洗牌人看清楚这家公司是否有价值。投资人们开始认认真真的看技术，他们关注处理器内核、做IP竞调、做专利竞调，这个趋势非常喜人，投资将回归到价值投资的本质，通过资本市场的力量促成技术到市场的转化，从而共享收益。

中国芯的新机会：AI芯片如何实现弯道超车？｜CCF-GAIR 2018

专题

2018 CCF-GAIR 全球人工智能与机器人峰会查看更多文章