花20億美元打造P100，但Nvidia只是拿來畫了一張餅

fairybear · 發表於 2016-4-7 13:03:36

昨日，Nvidia在GTC 2016大會上正式發布了新一代的Pascal架構顯卡，作為該家族中第一張亮相的顯卡，搭載新核心GP100的Tesla P100正式亮相。

據Nvidia介紹，NVIDIA Tesla P100將由台積電代工，並使用與華為麒麟950同等工藝的16nm FinFET打造，將擁有高達153億個晶體管和16GB 4096 bit HBM2堆疊內存。

在計算能力上，Tesla P100可提供5.3 Teraflops的雙精度性能、10.6 Teraflops單精度性能以及適用於深度學習的21.2 Teraflops半精度性能。

雖然被削，參數依然漂亮

從這張P100與K40、M40的參數對比圖中，可以看出Tesla P100中的GP100其實是“閹割版”，這一點Nvidia官方也已承認：

標準的GP100核心中應該內建有3840個CUDA核心、240個紋理單元以及最高支持32GB的HBM2顯存；

而P100中的GP100核心卻採用了3584個CUDA核心、224個紋理單元以及被削減了一半的16GB HBM2顯存。

而這直接帶來的就是在單精度運算上的提升幅度並不明顯——

10.6 Teraflops的運算能力與前代的7 Teraflops相比只提升提升了50%。

雖然50%看起來已經挺多了，要知道CPU近年來的換代性能提升也不過10％左右。然而，考慮到P100從28nm LP製程到16nm FinFET製程的跨越，以及新架構帶來的優化，這個數字遠沒有達到此前15Tflops的預期。

不過這也可能是出於對成本的考量，畢竟P100是面向高性能通用計算領域開發，將大部分晶體管性能放在了雙精度運算性能上將更具性價比。

相比於GK110的0.2 Teraflops，P100 5.3 Teraflops的性能提升非常的可觀。即使是和2 013年的K40相比，也已經翻了4倍。

與友商的對比

AMD

在幾天前的3月31日，友商AMD也發布了自家新一代旗艦級計算卡FirePro S9300 X2。

FirePro S9300 X2中搭載了兩顆AMD Fiji架構核心、兩組4096-bit 4GB HBM 顯存，單精度浮點性能在13.9 Teraflops，雙精度浮點性能為0.8 Teraflops。

P100與之相比，在單精度浮點性能顯得稍遜一籌。不過考慮到AMD採用的是雙核心解決方案，而且此次P100也在單精度浮點上做了閹割，如果是拼單核恐仍難逃被Nvidia吊打的命運。

Intel

另一方面，Intel也已於2015年11月對旗下的對標產品——第二代Xeon Phi 做了預告。

據稱新一代產品代號為“Knights Landing”，同樣採用14nm工藝。搭載72顆Silvermont架構核心，單顆支持四線程，總計288個線程。計算方面，雙精度浮點性能將達到3 Teraflops，單精度為6 Teraflops。

從數據上也能看出，CPU與GPU在通用計算效率上的劣勢即使是老大哥Intel也無能為力。

應用場景

NVIDIA DGX-1

在大會上，老黃還高調宣布了基於Tesla P100打造的深度學習服務器——NVIDIA DGX-1。

據介紹，DGX-1可以提供170 Teraflops的深度學習計算性能，比自家一年前提出的NVIDIA Maxwell架構四路解決方案快12倍，以前需要25個小時完成的訓練任務現在2個小時就可以完成。
雖然性能十分可觀，但是售價也是十分嚇人的——一台的售價為129,000美元（約合835,000元人民幣）。

NVIDIA Drive PX 2

雖然GTC大會上，基於GP100頂級核心的Tesla P100被多家媒體稱為“首款Pascal架構的產品”。但其實今年1月，基於Pascal架構的Drive PX 2自動駕駛平台就已經發布，只是當時並沒有正式公佈而已。

此次，老黃公佈了Drive PX 2的具體參數：

CPU：8核A57+4核Denver 架構核心

GPU：2顆Pascal架構獨立顯卡

內存：8GB LPDDR4

功耗：250W

其他特性：水冷

其中每顆顯卡核心為GP106核心，主頻為1.25GHz，搭配80GB/s帶寬、128bit位寬的4GB GDDR5顯存。單精度浮點運算性能為8TFLOPS。

在現場，Nvidia還展示了基於這款自動駕駛平台打造的無人駕駛賽車——“Deep Green”。它將代表參加2016-2017賽季無人駕駛賽車競技大賽“ROBORACE”。

後記

雖然每次Nvidia發布新產品都能給人以眼前一亮的感覺，但是我們如果冷靜下來分析不難看出Nvidia此次發布新品並沒有此前那麼有底氣。

P100作為第一款應用16nm工藝的產品，初期的良品率應該不會如28nm那般成熟，而再加上現場看到的散熱模塊仍然是經典的單風扇散熱，以及300W的TDP，不難想像這又將是Nvidia新一代“高性能核彈”。

雖然老黃在現場講了許多使用場景，但是卻絲毫沒有提跑分成績。這不禁讓人想起在年初的CES 2016上，首次發布GP100核心之時卻使用GM200核心充數拿上台被人無情拆穿的情景。

相比於AMD在年初的發布會上現場上機跑分，或許，不敢如此做的Nvidia只是因為老黃拿著的是套了散熱器（為了讓人看不出來里面的核心）的PCB板子而已吧。

在GM200上Nvidia還選擇大幅削減雙精度計算，從而減少發熱量和成本，而此次剛剛步入16nm工藝就如此大跨步的追求性能極致，恐怕進入量產和實際應用之後問題就將會凸顯。而首當其衝的就是HBM2顯存量產問題，畢竟目前連AMD率先推出的HBM一代都沒做到量產，直接跨到HBM2，AMD對此也只能呵呵了吧。

畢竟，步子邁太大，容易扯到蛋。

文章來源

文章標籤：

文章分享：

+ MORE精選文章：

相關帖子

NVIDIA DLSS 4.5 現已支援《戰爭雷霆 ...

NVIDIA 澄清沒有要收購 PC 製造商的 ...

NVIDIA GTC Taipei 2026 主題演講 6/ ...

+ MORE活動推薦：

Micron Crucial T710 SSD 玩家開箱體驗分享

COUGAR ULTIMUS PRO玩家開箱體驗分享活動

COUGAR AIRFACE 180 玩家開箱體驗分享活動

COUGAR GR 750/GR 850 玩家開箱體驗分享活

[業界新聞] 花20億美元打造P100，但Nvidia只是拿來畫了一張餅