花20亿美元打造P100，但Nvidia只是拿来画了一张饼

Nvidia 显卡 P100 深度学习

作者：訾竣喆

2016/04/07 12:29

昨日，Nvidia在GTC 2016大会上正式发布了新一代的Pascal架构显卡，作为该家族中第一张亮相的显卡，搭载新核心GP100的Tesla P100正式亮相。

据Nvidia介绍，NVIDIA Tesla P100将由台积电代工，并使用与华为麒麟950同等工艺的16nm FinFET打造，将拥有高达153亿个晶体管和16GB 4096 bit HBM2堆叠内存。

在计算能力上，Tesla P100可提供5.3 Teraflops的双精度性能、10.6 Teraflops单精度性能以及适用于深度学习的21.2 Teraflops半精度性能。

花20亿美元打造P100，但Nvidia只是拿来画了一张饼

虽然被削，参数依然漂亮

花20亿美元打造P100，但Nvidia只是拿来画了一张饼

从这张P100与K40、M40的参数对比图中，可以看出Tesla P100中的GP100其实是“阉割版”，这一点Nvidia官方也已承认：

标准的GP100核心中应该内建有3840个CUDA核心、240个纹理单元以及最高支持32GB的HBM2显存；
而P100中的GP100核心却采用了3584个CUDA核心、224个纹理单元以及被削减了一半的16GB HBM2显存。

而这直接带来的就是在单精度运算上的提升幅度并不明显——

10.6 Teraflops的运算能力与前代的7 Teraflops相比只提升提升了50%。

虽然50%看起来已经挺多了，要知道CPU近年来的换代性能提升也不过10％左右。然而，考虑到P100从28nm LP制程到16nm FinFET制程的跨越，以及新架构带来的优化，这个数字远没有达到此前15Tflops的预期。

不过这也可能是出于对成本的考量，毕竟P100是面向高性能通用计算领域开发，将大部分晶体管性能放在了双精度运算性能上将更具性价比。

相比于GK110的0.2 Teraflops，P100 5.3 Teraflops的性能提升非常的可观。即使是和2013年的K40相比，也已经翻了4倍。

与友商的对比

AMD

在几天前的3月31日，友商AMD也发布了自家新一代旗舰级计算卡FirePro S9300 X2。

FirePro S9300 X2中搭载了两颗AMD Fiji架构核心、两组4096-bit 4GB HBM 显存，单精度浮点性能在13.9 Teraflops，双精度浮点性能为0.8 Teraflops。

P100与之相比，在单精度浮点性能显得稍逊一筹。不过考虑到AMD采用的是双核心解决方案，而且此次P100也在单精度浮点上做了阉割，如果是拼单核恐仍难逃被Nvidia吊打的命运。

Intel

另一方面，Intel也已于2015年11月对旗下的对标产品——第二代Xeon Phi做了预告。

据称新一代产品代号为“Knights Landing”，同样采用14nm工艺。搭载72颗Silvermont架构核心，单颗支持四线程，总计288个线程。计算方面，双精度浮点性能将达到3 Teraflops，单精度为6 Teraflops。

从数据上也能看出，CPU与GPU在通用计算效率上的劣势即使是老大哥Intel也无能为力。

应用场景

NVIDIA DGX-1

在大会上，老黄还高调宣布了基于Tesla P100打造的深度学习服务器——NVIDIA DGX-1。

据介绍，DGX-1可以提供170 Teraflops的深度学习计算性能，比自家一年前提出的NVIDIA Maxwell架构四路解决方案快12倍，以前需要25个小时完成的训练任务现在2个小时就可以完成。

虽然性能十分可观，但是售价也是十分吓人的——一台的售价为129,000美元（约合835,000元人民币）。

NVIDIA Drive PX 2

虽然GTC大会上，基于GP100顶级核心的Tesla P100被多家媒体称为“首款Pascal架构的产品”。但其实今年1月，基于Pascal架构的Drive PX 2自动驾驶平台就已经发布，只是当时并没有正式公布而已。

花20亿美元打造P100，但Nvidia只是拿来画了一张饼

此次，老黄公布了Drive PX 2的具体参数：

CPU：8核A57+4核 Denver 架构核心
GPU：2颗Pascal架构独立显卡
内存：8GB LPDDR4
功耗：250W
其他特性：水冷

其中每颗显卡核心为GP106核心，主频为1.25GHz，搭配80GB/s带宽、128bit位宽的4GB GDDR5显存。单精度浮点运算性能为8TFLOPS。

花20亿美元打造P100，但Nvidia只是拿来画了一张饼

在现场，Nvidia还展示了基于这款自动驾驶平台打造的无人驾驶赛车——“Deep Green”。它将代表参加2016-2017赛季无人驾驶赛车竞技大赛“ROBORACE”。

后记

虽然每次Nvidia发布新产品都能给人以眼前一亮的感觉，但是我们如果冷静下来分析不难看出Nvidia此次发布新品并没有此前那么有底气。

P100作为第一款应用16nm工艺的产品，初期的良品率应该不会如28nm那般成熟，而再加上现场看到的散热模块仍然是经典的单风扇散热，以及300W的TDP，不难想象这又将是Nvidia新一代“高性能核弹”。

虽然老黄在现场讲了许多使用场景，但是却丝毫没有提跑分成绩。这不禁让人想起在年初的CES 2016上，首次发布GP100核心之时却使用GM200核心充数拿上台被人无情拆穿的情景。

相比于AMD在年初的发布会上现场上机跑分，或许，不敢如此做的Nvidia只是因为老黄拿着的是套了散热器（为了让人看不出来里面的核心）的PCB板子而已吧。

在GM200上Nvidia还选择大幅削减双精度计算，从而减少发热量和成本，而此次刚刚步入16nm工艺就如此大跨步的追求性能极致，恐怕进入量产和实际应用之后问题就将会凸显。而首当其冲的就是HBM2显存量产问题，毕竟目前连AMD率先推出的HBM一代都没做到量产，直接跨到HBM2，AMD对此也只能呵呵了吧。

毕竟，步子迈太大，容易扯到蛋。