英偉達宣稱,新的Blackwell芯片采用了最大的芯片物理尺寸,是接近光罩極限的大尺寸芯片(reticle limited die),所謂reticle limited die指的是尺寸達到或接近曝光極限的單個小芯片,這是光刻機單次曝光能夠覆蓋的晶圓面積的最大值。
它采用的是臺積電的4nm工藝技術,單個die的晶體管數(shù)量達到了1040億。然而,這只是一張顯卡核心的一半。事實上,它由NV-HBI 10 TB/s的高速帶寬接口連接了兩個die,一塊G200的整體晶體管數(shù)量為2080億。
這塊B200芯片的面積肉眼可見地大,Blackwell顯卡核心的尺寸相較于上一代的H100芯片有大幅提升。畢竟兩個大的die堆在一起,其晶體管數(shù)量加起來比Hopper多了1280億。
這次B200采用了192GB的HBM3e顯存,擁有8TB的內存帶寬,提供20 PetaFlops的AI性能(FP4),10 PetaFlops的FP8性能。相較于上一代的H100,其訓練性能提升4倍,推理性能提升30倍,能效更是提升了驚人的25倍。
與此同時,將兩塊B200顯卡芯片與一塊Arm Neoverse V2處理器放在一起,B200和Grace Arm核心通過900GB的NVLink-C2C連接,就構成了新一代的超級芯片GB200。這樣一來,這塊超級芯片的顯存容量達到了384GB。
于是乎,這塊GB200超級芯片,對外提供40 PetaFlops的AI性能,加上Arm CPU自帶的內存,總體內存容量就達到了864GB。另外,它還有16TB/s的HBM內存帶寬,以及總體3.6TB/s的NVLink帶寬。
把2個GB200超級芯片組成一個Blackwell計算節(jié)點,算力達到80PetaFlops。肉眼看著應該是1U的空間,整體計算密度還是很高的,再加上這樣一套平臺的功耗想必也是驚人的,于是,英偉達打造的這套節(jié)點直接選擇了水冷散熱的方式。
這臺Blackwell計算節(jié)點采用了新發(fā)布的專為AI場景優(yōu)化的Connectx-800G Infiniband SuperNIC網卡,服務器的另一端還帶有NVLink 交換機芯片。同時,節(jié)點中還使用了Bluefield-3 DPU,幫助服務器處理網絡、存儲、網絡安全方面的需求。
將18臺這樣的Blackwell計算節(jié)點放到一個機架中,一個機架中就有了36塊GB200超級芯片,顯卡之間通過NVLink交換機連接,最終在DGX GB200 NVL72機架中就有了72塊共享顯存的B200顯卡芯片。
機架的頂部還有一臺Quantum Infiniband-800交換機,配合第五代NVLink技術,用8個這樣的機架就組成了包含576塊B200顯卡芯片的SuperPOD AI算力集群。這樣一個SuperPOD就可提供 11.5 Exaflops (576 x 20 PetaFlops)的 AI 計算性能。
在此之上,SuperPOD系統(tǒng)通過 NVIDIA Quantum InfiniBand 或者Spectrum以太網連接,最終可以在AI數(shù)據(jù)中心里擴展到32000個B200顯卡,整個數(shù)據(jù)中心圖提供645ExaFlops的AI算力,13PB的高速內存。
硬件配置提升巨大,參數(shù)規(guī)格帶來逆天性能,這一代顯卡的性能提升體現(xiàn)在哪里呢?
在推理方面,得益于第二代Transfomer技術。與相同數(shù)量的NVIDIA H100 GPU相比,GB200 NVL72可以為如GPT-MoE-1.8T這樣的大型語言模型提供4倍的訓練性能提升。
AI推理方面,GB200與上一代H100相比,對于資源密集型應用如1.8T參數(shù)的GPT-MoE,GB200可以提供30倍的速度提升。這一進步得益于新一代的張量核心。
企業(yè)會持續(xù)生成大規(guī)模數(shù)據(jù),并依賴各種壓縮技術來減輕瓶頸問題并節(jié)省存儲成本。為了在GPU上高效處理這些數(shù)據(jù)集,Blackwell架構引入了一個硬件解壓縮引擎,它能夠在大規(guī)模上原生解壓縮經過LZ4、Deflate和Snappy格式壓縮的數(shù)據(jù),從而加速整個分析流程。
該解壓縮引擎加快了受內存限制的內核操作,提供高達800 GB/s的性能,并使得Grace Blackwell的查詢基準測試比英特爾第四代至強快18倍,比NVIDIA H100 Tensor Core GPU快6倍。
有了高達8 TB/s的高內存帶寬和Grace CPU高速NVlink-Chip-to-Chip(C2C)連接,這個引擎加快了數(shù)據(jù)庫查詢的整個過程。這導致在數(shù)據(jù)分析和數(shù)據(jù)科學的使用案例中都表現(xiàn)出頂尖的性能。這樣一來,企業(yè)可以快速獲得洞見的同時減少成本。
物理基礎模擬在產品設計和開發(fā)中非常重要。物理模擬用于各種產品,如飛機、火車、橋梁、硅芯片甚至藥物的測試和改進,通過模擬可以節(jié)省數(shù)十億美元的成本。
ASIC的設計原本幾乎完全依賴于CPU,在一個漫長且復雜的工作流程中完成,包括模擬分析以識別電壓和電流。Cadence SpectreX模擬器就是其中一個例子。提供的圖表顯示,SpectreX在GB200上的運行速度比在x86 CPU上快13倍。
隨著行業(yè)在過去兩年越來越多地轉向GPU加速的計算流體動力學(CFD)作為關鍵工具,工程師和設備設計者用它來研究和預測他們設計的行為。Cadence Fidelity,一個大渦流模擬器(LES),在GB200上進行的模擬比x86 CPU快達22倍。
一年一度的GTC大會備受矚目,全球范圍內關注AI技術的業(yè)內人士和技術愛好者都為之矚目,來自中國的服務器廠商寧暢以贊助商身份來到了GTC舞臺,展示了寧暢支柱型、全能型、旗艦型系列AI服務器及解決方案,支撐圖形渲染、機器學習、AI推理、云計算等多元化應用場景需求。
對于國內的企業(yè)來說,既要關注英偉達推出的芯片和系統(tǒng)方案,也應該關注服務器廠商在人工智能產業(yè)中的價值。服務器廠商面向行業(yè)做的很多優(yōu)化對于AI在行業(yè)的落地也至關重要,能盡可能幫助企業(yè)在生成式AI的創(chuàng)新競賽中取得成功。