雷锋网按:上个月谷歌公布了关于TPU细节的论文,称“TPU处理速度比当前 GPU 和 CPU 要快 15 到 30 倍”,引发科技圈热议。Nvidia CEO黄仁勋更是亲自撰文回击,并贴出Tesla P40 GPU 与 TPU 的性能对比图,大有针尖对麦芒之势。而在昨天的GTC大会上,Nvidia又发布了新一代GPU Tesla V100。这场ASIC 与GPU之争愈发的好看了!
人工智能和机器学习对Google的重要性已经不言而喻,为了在人工智能时代抢占先机,这位科技巨人已经开始研发和制造自己的芯片。在去年的年度开发者大会上,谷歌对外宣布了针对其特殊AI算法进行了优化的TPU芯片。据雷锋网了解,如今已有数十种类似的定制化AI芯片陆续问世。这让近年来在深度学习领域享有支配性地位的芯片供应商Nvidia倍感压力。
为了做出反击,Nvidia也开始加强其新推的GPU芯片的定制化和专业性。
在周三举行的GTC大会上,Nvidia发布了基于其下一代图形架构Volta的,针对服务器市场的GPU新品 Tesla V100。该芯片拥有超过210亿个晶体管和5,120个计算机内核。但是对于AI来说,最重要的是,特斯拉V100配备了640个Tensor内核,它们是专为运行深入学习网络中使用的数学运算而设计的。据官方介绍,这些Tensor内核为Tesla V100提供了高达120 teraflops的、惊人的深度学习能力。
雷锋网了解到,相比前代的Pascal架构,新芯片将深度学习训练速度提升了12倍,深度学习推理速度也提升了6倍。新架构在运行深度学习应用方面的性能,相当于100个中央处理器(比如Intel的中央处理器)。
为了使深度学习应用在其硬件上更加高效的运行,Nvidia提供了很多软件工具。它发布了一款针对深度学习框架TensorFlow和Caffe的编译器——TensorRT,用于改进推理性能。Nvidia表示,Tesla V100的推理性能要比英特尔的Skylake CPU架构快15到25倍。
虽然Nvidia正努力让其芯片更加适合深度学习,但它的竞争对手却可能会指出,Nvidia的最大缺陷在于,其GPU往往必须支持图形生成功能。GPU之所被设计出来,就是用于图形生成的。由于必须支持图形生成功能,GPU芯片增加了大量体积,这就意味着它在一定程度上要比专用芯片更加低效。
Google在最近的一篇博客中声称,其TPU在推理性能上要比现代GPU和CPU快15-30倍,同时功耗还要低30-80倍。(Nvidia对此反驳道,谷歌是在拿TPU和旧的GPU进行比较。)事实上,这种对比并不完全公平。GPU是通用型芯片,可执行绘图运算工作,用途多元。TPU则属于ASIC,也就是专为特定用途设计的特殊规格逻辑IC,由于只执行单一工作,速度更快也在情理之中。TPU和GPU之间除了性能较量,更多代表的是ASIC和通用型芯片这两种设计思路间的博弈。
除了Nvidia和谷歌,另一大芯片巨头Intel也加入了这场博弈。不久前,Intel以超过4亿美元的价格收购了AI芯片初创企业Nervana,并声称将在2020年之前将深度学习训练速度提升100倍。
Nvidia表示,Tesla V100是它在深度学习领域更加专业化,并能够与这些定制化芯片竞争的有力证据。Nvidia GPU工程部高级副总裁Jonah Alben在谈到芯片竞赛时说道:“当你考虑到构成一款用于深度学习训练的优秀芯片的所有要素时,你会发现带宽、输入/输出和数学运算能力都很重要。而在所有的这些方面,我们都是专家。只要我们都用相同的油漆刷作画,就知道到底谁更强了。”
雷锋网认为,尽管谷歌在定制化AI芯片领域走在了最前列,但Nvidia仍将在未来很多年里保持竞争力。Gartner的分析师马克·洪(Mark Hung)说道,“目前为止,没有任何一款AI芯片实现了大规模出货。尽管对Nvidia来说,潜在的危险始终存在,但在这些公司大规模出货AI芯片前,并不会对Nvidia造成真正的威胁。”
这些即将到来的AI芯片与Nvidia之间的明争暗斗表明了一点,深度学习计算对更强计算能力的需求日益旺盛。几年前GPU迎来大爆发,正是因为它将深度学习网络的训练时间从几个月缩短到了几天。早在20世纪50年代就已经诞生的深度学习,由于有强大的计算能力作为后盾,此刻终于爆发出了它的潜能。但是随着越来越多企业试图将深度学习融入它们的产品和服务,对更快的芯片的需求将没有止境。
Alben说道:“以我所见,人类需要无限量的深度计算能力。越接近无限越好。”