11 月 6 日,全球 AI 芯片领域的第一家独角兽创业公司寒武纪召开了该公司成立以来的首场发布会,这次发布会的主题是“智能时代的引领者”,可以看到寒武纪的自我定位。
在本次发布会上,寒武纪 CEO 陈天石介绍了三款全新的智能处理器 IP 终端产品:面向低功耗场景视觉应用的寒武纪 1H8、拥有更广泛通用性和更高性能的寒武纪 1H16 和面向智能驾驶领域的 1M。
据雷锋网了解,寒武纪早在 2016 年就发布了全球首款深度学习专用处理器——寒武纪 1A 处理器。它是国际上首个商用深度学习处理器产品,能够集成到终端 SoC 芯片,每秒可处理 160 亿个虚拟神经元,每秒峰值运算能力达 2 万亿虚拟突触;在人工智能应用上达到了四核 CPU 25 倍以上的性能和 50 倍以上的能效。
这款处理器被用于华为麒麟 970 手机芯片中。根据华为官方给出的 4 个比例,它拥有极佳的功耗表现:其性能 6.25 倍于 CPU、4 倍于 GPU;NPU 的效能 50 倍于 CPU、6.25 倍于 GPU。不仅如此,这款处理器在应用场景中表现也非常出色,在用 NPU 识别 1000 张图片的过程中,NPU 的整体功耗只在 0.3-0.7W 之间浮动,实际的电池消耗仅为 0.19%(4000mAh 电池)。换句话说:如果电量充足,NPU 完全可以利用一块电池实现 50W 张照片的识别。
陈天石表示,与寒武纪 1A 相比,三款新品在功耗、能效比、成本开销方面进行了优化,性能消耗比再次实现飞跃式的提升,适用范围覆盖了图像识别、安防监控、智能驾驶、无人机、语音识别、自然语言处理等各个重点应用领域。
除了面向终端的智能处理器 IP 系列,寒武纪还发布面向云端的高性能智能处理器产品线;而在本次发布会上首先亮相的是将在 2018 年发布寒武纪 MLU 100 和寒武纪 MLU 200,这两款芯片主要应用于服务器端的智能处理需求,分别偏重于推理和训练两个用途。
据雷锋网了解,2017 年 10 月 24 日,在中科曙光 2017 智能峰会上,曙光公司专门为人工智能市场开发、设计的专用服务器 “Phaneron”就搭载了寒武纪的产品。Phaneron 主要的业务场景是面向深度学习的在线推理业务环境,它用到的就是寒武纪的高性能处理芯片。
此外,为了区别于之前的神经网络处理器(NPU),寒武纪将云端芯片产品线命名为机器学习处理器(MLU);这就意味着寒武纪未来将支持多样化的机器学习应用,而非仅仅是深度学习。
当下,软硬件结合已经成为人工智能芯片领域的发展趋势;而寒武纪也不出意外地发布了一款专门为开发者打造的寒武纪人工智能软件平台 Cambricon NeuWare,该平台支持 TensorFlow、Caffe、MXNet 等多种主流机器学习框架。
该软件平台包含开发、调试和调优三大部分,可以同时支持云端和终端的智能处理。雷锋网了解到,该软件平台构建在寒武纪发明的人工智能专用指令集支撑之上;由此,寒武纪拥有了一个软硬件结合的平台,形成了一个完整的基于底层指令集的生态,可以方便开发者进行跨平台应用迁移,能够为云和端一体的人工智能处理打下基础。
在发布会上,来自华为海思、阿里巴巴、联想、科大讯飞、中科曙光、ARM、旷视科技、地平线等人工智能领域的合作伙伴也一同参与,并对智能产品的发展进行了交流。其中联想高级副总裁贺志强在会场表示,联想已经在与寒武纪进行合作,探讨将寒武纪的 IP 芯片用于智能手机前置摄像头识别的可能性。
在发布会上,寒武纪 CEO 陈天石表示,寒武纪将力争在 3 年之后占有中国高性能智能芯片市场 30% 的份额,并使得全世界 10 亿台以上的智能终端设备集成寒武纪终端智能处理器;如果这两个目标能够实现,寒武纪将“初步支撑起中国主导的国际智能产业生态”。
另外,陈天石还表示,未来人工智能方法将在视觉、语音、自然语言、数据分析、经济金融等各位应用方面大显身手,这就要求未来超级计算机、数据中心、智能手机、嵌入式设备等要进一步智能化,而寒武纪机器学习处理器有望成为这些设备的标配。
从陈天石这番话,我们能够看出寒武纪的野心。实际上,经历了数轮融资之后,寒武纪在财务实力上也支撑得起这样的野心。
寒武纪在成立之初获得来自中科院的数千万元天使轮融资,之后在 2016 年 8 月获得来自元禾原点、科大讯飞、涌铧投资的 Pre-A 轮融资。今年 8 月 18 日,寒武纪科技宣布完成 A 轮 1 亿美元融资;领投方为国投创业,阿里巴巴、联想、国科投资、中科图灵加入,原 Pre-A 轮投资方,元禾原点创投、涌铧投资继续跟投。在 A 轮融资完成之后,寒武纪的估值超过 10 亿美元,正式成为全球 AI 芯片领域的第一家独角兽创业公司。
陈天石此前接受雷锋网独家专访时表示,“随着社会逐渐从信息时代过渡到智能时代,AI芯片将是支撑智能计算不可或缺的载体。复杂的深度学习网络计算需求很高,这就需要有更多更强大的计算资源。”
GPU 是目前主流的AI计算平台,但是其基本框架结构毕竟不是为了 AI 所设计的,效率受到很多限制。FPGA 虽然迭代快,可以再短期内满足一定的计算需求,但从计算速度和能耗比来说,和专用的 AI 芯片还是有差距的。目前还有很多公司和高校也在引用跟踪我们前期的成果,研制深度学习专用的 ASIC(比如谷歌 TPU)。
理想中的 AI 芯片应当是一种新型的处理器,能具有广阔的应用面(包括语音、语义、图像、视频、自然语言多模态处理能力),同时具备远超 CPU 和 GPU 的效率。要想达到这一目标,必须要有一套新的 AI 指令集,利用指令进行灵活处理,才有可能在 AI 芯片上把各种算法应用都能支持得又快又好。我们去年提出了国际上首个 AI 指令集,就是朝这个方向的努力。
对于中国在 AI 芯片领域的未来发展机会,陈天石也表示,
其实芯片的成败,除了本身的效率之外,生态是非常关键的环节。过去信息产业,软硬件生态都是建立在 ARM 和 x86 指令集之上的。不遵从这些英美的指令集,芯片做得再好,没有配套应用和软件,也很难在市场上获得成功。而未来的智能时代,可能格局会发生巨大变化,会出现新的AI生态。
中国有最大的 AI 市场,也由寒武纪等一批公司和院校有好的技术,完全有可能影响国际 AI 生态发展。这里面的核心还是 AI 指令集。没有 AI 指令集,AI 芯片应当如何规范化设计,AI 软件如何和底层硬件交互,都是无根之木。这也是为什么我们提出了国际上首个 AI 指令集。
如果从国家硬实力发展角度看,应当对业界进行引导和规范,把国产 AI 指令集树立为产业的标准。只要国产 AI 指令集立住了,中国主导世界 AI 产业的机会可能就到来了。