英偉達(dá)宣稱(chēng),新的Blackwell芯片采用了最大的芯片物理尺寸,是接近光罩極限的大尺寸芯片(reticle limited die),所謂reticle limited die指的是尺寸達(dá)到或接近曝光極限的單個(gè)小芯片,這是光刻機(jī)單次曝光能夠覆蓋的晶圓面積的最大值。
它采用的是臺(tái)積電的4nm工藝技術(shù),單個(gè)die的晶體管數(shù)量達(dá)到了1040億。然而,這只是一張顯卡核心的一半。事實(shí)上,它由NV-HBI 10 TB/s的高速帶寬接口連接了兩個(gè)die,一塊G200的整體晶體管數(shù)量為2080億。
這塊B200芯片的面積肉眼可見(jiàn)地大,Blackwell顯卡核心的尺寸相較于上一代的H100芯片有大幅提升。畢竟兩個(gè)大的die堆在一起,其晶體管數(shù)量加起來(lái)比Hopper多了1280億。
這次B200采用了192GB的HBM3e顯存,擁有8TB的內(nèi)存帶寬,提供20 PetaFlops的AI性能(FP4),10 PetaFlops的FP8性能。相較于上一代的H100,其訓(xùn)練性能提升4倍,推理性能提升30倍,能效更是提升了驚人的25倍。
與此同時(shí),將兩塊B200顯卡芯片與一塊Arm Neoverse V2處理器放在一起,B200和Grace Arm核心通過(guò)900GB的NVLink-C2C連接,就構(gòu)成了新一代的超級(jí)芯片GB200。這樣一來(lái),這塊超級(jí)芯片的顯存容量達(dá)到了384GB。
于是乎,這塊GB200超級(jí)芯片,對(duì)外提供40?PetaFlops的AI性能,加上ARM?CPU自帶的內(nèi)存,總體內(nèi)存容量就達(dá)到了864GB。另外,它還有16TB/s的HBM內(nèi)存帶寬,以及總體3.6TB/s的NVLink帶寬。
把2個(gè)GB200超級(jí)芯片組成一個(gè)Blackwell計(jì)算節(jié)點(diǎn),算力達(dá)到80PetaFlops。肉眼看著應(yīng)該是1U的空間,整體計(jì)算密度還是很高的,再加上這樣一套平臺(tái)的功耗想必也是驚人的,于是,英偉達(dá)打造的這套節(jié)點(diǎn)直接選擇了水冷散熱的方式。
這臺(tái)Blackwell計(jì)算節(jié)點(diǎn)采用了新發(fā)布的專(zhuān)為AI場(chǎng)景優(yōu)化的Connectx-800G Infiniband SuperNIC網(wǎng)卡,服務(wù)器的另一端還帶有NVLink 交換機(jī)芯片。同時(shí),節(jié)點(diǎn)中還使用了Bluefield-3 DPU,幫助服務(wù)器處理網(wǎng)絡(luò)、存儲(chǔ)、網(wǎng)絡(luò)安全方面的需求。
將18臺(tái)這樣的Blackwell計(jì)算節(jié)點(diǎn)放到一個(gè)機(jī)架中,一個(gè)機(jī)架中就有了36塊GB200超級(jí)芯片,顯卡之間通過(guò)NVLink交換機(jī)連接,最終在DGX GB200 NVL72機(jī)架中就有了72塊共享顯存的B200顯卡芯片。
機(jī)架的頂部還有一臺(tái)Quantum Infiniband-800交換機(jī),配合第五代NVLink技術(shù),用8個(gè)這樣的機(jī)架就組成了包含576塊B200顯卡芯片的SuperPOD AI算力集群。這樣一個(gè)SuperPOD就可提供 11.5 Exaflops (576 x 20 PetaFlops)的 AI 計(jì)算性能。
在此之上,SuperPOD系統(tǒng)通過(guò) NVIDIA Quantum InfiniBand 或者Spectrum以太網(wǎng)連接,最終可以在A(yíng)I數(shù)據(jù)中心里擴(kuò)展到32000個(gè)B200顯卡,整個(gè)數(shù)據(jù)中心圖提供645ExaFlops的AI算力,13PB的高速內(nèi)存。
硬件配置提升巨大,參數(shù)規(guī)格帶來(lái)逆天性能。