英偉達釋出“空氣CPU”，Arm架構專為AI而生，效能超x86十倍

2021-04-14由量子位發表于科技

夢晨曉查發自凹非寺量子位報道 | 公眾號 QbitAI

30系顯示卡買不到？英偉達老黃剛剛又釋出一款

“空氣CPU”

。

不過就算你搶不到也沒關係，因為這款CPU專門為伺服器設計，到

2023年

才能釋出。

剛剛，在英偉達舉辦的GPU技術大會上（其實會場就是老黃家的廚房），黃仁勳釋出了全新ARM架構CPU，也是英偉達首款伺服器CPU——

Grace

。

這款CPU專為處理大量資料的AI任務而生。老黃說，如果伺服器用上這款CPU，那麼AI效能將超過 x86架構 CPU的

10倍

。

去年，老黃就是在這裡釋出了A100、RTX 30系列GPU。今年，這位皮衣男的頭髮更長了，也更白了。

除推出首款伺服器GPU外，英偉達還要把 ARM架構帶到筆記本上。

如果用一句話概括這場釋出會，那就是老黃想用ARM革 x86 的命，畢竟英偉達是準備用400億美元收購ARM的。

PPT級CPU

全新的CPU以女程式設計師先驅Grace Hopper的名字命名，有趣的是英偉達的GPU是以男性科學家的名字來命名的：圖靈、安培……現在英偉達的兩條產品線實現了夢幻聯動。

RTX 30系顯示卡是因為買不到而被叫做“空氣”，那麼Grace CPU被叫做空氣的原因是，這款產品實在是

“太PPT”

了。

正式釋出時間在2年後，什麼整數浮點運算效能、主頻引數統統沒有，連製程工藝也語焉不詳，如果不出意外，應該是5nm。

英偉達只在釋出會上透露，Grace在SPECrate2017_int_base基準測試中超過300分，可以與AMD第二代64核EPYC中的某些CPU相媲美。

再看看這一個月裡AMD和 Intel 釋出的伺服器GPU那一大串引數，這不就是“空氣”嗎！

既然什麼引數都沒有，唯一引數也只和AMD上一代ETPC持平，老黃為何敢拍著胸脯說Grace比其他x86架構強10倍呢？

因為，在資料傳輸速度這件事上，Grace比AMD和Intel跑得快多了。

這對於AI任務太重要了。英偉達的GPU用於深度學習，而CPU、記憶體和GPU之間的通訊速度往往拖了AI的後腿。

過去，CPU和GPU之間靠PCIe匯流排進行資料傳輸，兩種不同架構硬體之間的溝通太慢。

而x86架構CPU又不支援英偉達自有的NVLink，所以最好的辦法是自己造一個CPU，專門為大量資料的AI任務而生。

Grace和英偉達GPU之間透過NVLink 4進行通訊，從GPU到CPU之間的傳輸速度高達900GB/s，比AMD EPYC 2+ Nvidia A100的搭配快14倍。

Grace與AMD CPU傳輸速率對比（圖片來自AnandTech）

另外，Grace也有著最高的記憶體頻寬500GB/s，且支援LPDDR5x ECC記憶體，能效比其他產品高10倍。

這款CPU我們何時才能見到呢？

現在已經有兩個大客戶了，其中瑞士國家計算中心正在建造全球最快AI超算算力達20EFLOPS；美國洛斯阿拉莫斯國家實驗室也將為其研究人員配備搭載Grace的新AI超算。

至於Grace的一個可能用途，是用來訓練下一代超過1萬億引數的NLP模型，GPT-4就靠它了。

Arm 筆記本也能有獨顯

取代x86的野心不僅在伺服器端，英偉達還要把ARM帶到PC平臺上。

但英偉達不是自己製造筆記本CPU，而是與聯發科合作。

未來英偉達RTX筆記本顯示卡將支援ARM架構CPU，將光追和AI技術帶到ARM平臺上。目前雙方已經開發了支援Chromium、Linux兩種開源系統的SDK參考平臺。

聯發科CEO表示，GPU加速將對整個Arm生態系統產生巨大的推動作用。

希望Windows能在ARM軟體生態上給力，用上ARM架構的獨顯遊戲本也許不是夢了。

自動駕駛晶片

老黃在釋出會上表示，將於2022年投產Orin自動駕駛晶片。

雖然我們到明年才可能看到搭載Orin的汽車，但是這不妨礙英偉達釋出下一代自動駕駛晶片

Atlan

。

Atlan算力達到1000TOPS，是上一代Orin晶片的4倍，為2025年誕生的汽車設計。

英偉達宣佈與沃爾沃深化合作，明年沃爾沃將從新款XC90開始搭載Orin系統，並在2025年款車型中搭載最新的Atlan系統。

更多AI落地

Nvidia釋出了用於訓練大規模Transformer模型的“威震天”——Megatron Triton推理伺服器。

Transformer模型的引數規模正以指數級增長，每兩個半月翻一倍。Nvidia預計明年將會出現萬億級引數的模型。

以GPT-3為例，使用雙路CPU的伺服器進行一次128個單詞的查詢就要超過一分鐘。

Megatron Triton透過多GPU、多節點推理，可以在1秒內同時進行16次這樣的查詢。

會上還發布了藥物研發領域的Clara Discovery產品，包括醫學影像、基因組分析、量子化學、尋找新化合物等方面。

CuQuantum，用GPU加速量子電路模擬，適用於張量網路求解和狀態向量求解。在測試中，將雙CPU需要10天完成的任務縮短到2小時。

除此之外，還有多模態實時對話AI平臺Jarvis的1。0公測版，能夠實現語音識別、語言理解、翻譯，以及在合成語音中表現出情緒。

以及開源推薦系統框架Merlin。在測試中實現10-50倍的ETL加速。

Jarvis和Merlin都已可以在Nvidia NGC中下載。

還要打造虛擬世界

Nvidia還宣佈夏季推出元宇宙產品Omniverse企業授權許可，用於讓團隊在虛擬世界中異地實時協作。

元宇宙（Metaverse），1992年由尼爾·斯蒂芬森於在科幻小說《雪崩》中提出，是一個與現實世界相互影響的虛擬世界，就像《頭號玩家》中展示的那樣。

NVIDIA Omniverse是一個雲原生平臺，除了視覺模擬外、還進行高精度的材料和物理學模擬並與NVIDIA AI完全整合。

除了娛樂外，Omniverse可用於機器人訓練，透過創造工廠的數字重建，在虛擬環境中訓練好的機器人AI可以直接部署到真實環境中。

老黃還展示了與寶馬公司合作的專案，透過模擬了31家寶馬工廠的生產流程，並在數字環境中進行最佳化，將生產效率提升了30%。

顯示卡呢？

說了這麼多亂七八糟的，老本行顯示卡呢？

Nvidia公佈了8款為下一代膝上型電腦、桌上型電腦和伺服器推出八款全新安培架構顯示卡RTX A系列。

A系列為用於圖形設計的專業卡，搭載下一代RTX技術。

其中RTX A5000桌面卡提供24G視訊記憶體。而A2000-A5000的移動版將搭載第三代MAX-Q技術，在不影響筆記本輕薄屬性下提供更高效能。

參考連結：

［1］https：//nvidianews。nvidia。com/news/nvidia-announces-cpu-for-giant-ai-and-high-performance-computing-workloads ［2］https：//www。anandtech。com/show/16610/nvidia-unveils-grace-a-highperformance-arm-server-cpu-for-use-in-ai-systems ［3］https：//www。engadget。com/nvidia-mediatek-arm-pcs-gpus-170021586。html

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

上一篇：美國晶片峰會，三星之後臺積電也受邀參加，欲鞏固半導體霸主地位

下一篇：華為再傳訊息，餘承東之後，徐直軍也被調離，任正非確實有遠見!

愛樓網

英偉達釋出“空氣CPU”，Arm架構專為AI而生，效能超x86十倍

相關文章

推薦文章