GTC視頻截圖

GB200:2080 億個(gè)晶體管,高達(dá) 20 petaflops FP4 計(jì)算能力

GB200 結(jié)合了兩個(gè) GPU 和一個(gè) Grace CPU,可以為 LLM 推理工作負(fù)載提供 30 倍的性能,同時(shí)還可能大大提高效率。Nvidia 表示,與 H100 相比,它的成本和能耗 “最多可降低 25 倍”,訓(xùn)練一個(gè) 1.8 萬億個(gè)參數(shù)的模型以前需要 8,000 個(gè) Hopper GPU 和 15 兆瓦的電力。如今,2000 個(gè) Blackwell GPU 就能完成這項(xiàng)工作,而耗電量僅為 4 兆瓦。

圖源:英偉達(dá)

Nvidia 稱,在具有 1,750 億個(gè)參數(shù)的 GPT-3 LLM 基準(zhǔn)測試中,GB200 的性能是 H100 的 7 倍,而 Nvidia 稱它的訓(xùn)練速度是 H100 的 4 倍,其中一項(xiàng)關(guān)鍵改進(jìn)是采用了第二代變壓器引擎,通過為每個(gè)神經(jīng)元使用四個(gè)比特而不是八個(gè)比特,將計(jì)算能力、帶寬和模型大小提高了一倍。第二個(gè)關(guān)鍵區(qū)別只有在連接大量 GPU 時(shí)才會出現(xiàn)。

圖源:英偉達(dá)

此外,新一代 NVLink 交換機(jī)可讓 576 個(gè) GPU 相互連接,雙向帶寬達(dá)到每秒 1.8 TB。Nvidia 打造了一個(gè)全新的網(wǎng)絡(luò)交換芯片,該芯片擁有 500 億個(gè)晶體管和一些自己的板載計(jì)算功能。FP8 的運(yùn)算能力為 3.6 teraflops,在此之前,一個(gè)由 16 個(gè) GPU 組成的集群將有 60% 的時(shí)間用于相互通信,只有 40% 的時(shí)間用于實(shí)際計(jì)算。

為應(yīng)對企業(yè)大量采購,英偉達(dá)發(fā)布了 GB200 NVL72液冷機(jī)架系統(tǒng)。GB200 NVL72可將36 個(gè) CPU 和 72 個(gè) GPU 集成到一個(gè)液冷機(jī)架中,可實(shí)現(xiàn)總計(jì) 720 petaflops 的 AI 訓(xùn)練性能及1,440 petaflops的推理性能。其內(nèi)部有近兩英里長的電纜,共有 5000 條獨(dú)立電纜。機(jī)架上的每個(gè)托盤包含兩個(gè) GB200 芯片或兩個(gè) NVLink 交換機(jī),每個(gè)機(jī)架有 18 個(gè)前者和 9 個(gè)后者。Nvidia 稱,其中一個(gè)機(jī)架總共可以支持 27 萬億個(gè)參數(shù)模型。消息稱,GPT-4 的參數(shù)模型約為 1.7 萬億。亞馬遜、谷歌、微軟和甲骨文都已計(jì)劃在其云服務(wù)產(chǎn)品中提供 NVL72 機(jī)架。

DGX SuperPOD:適用于萬億參數(shù)級的生成式 AI 超級計(jì)算

圖源:英偉達(dá)

同時(shí),英偉達(dá)推出了Blackwell 架構(gòu) DGX SuperPOD,可將集群中 Grace Blackwell 超級芯片的數(shù)量擴(kuò)展至數(shù)萬個(gè),通過 NVIDIA NVLink將多達(dá) 576 塊 Blackwell GPU 相連,總共288 個(gè) CPU、576 個(gè) GPU、240TB 內(nèi)存和 11.5 exaflops 的 FP4 計(jì)算能力。Nvidia 表示,其系統(tǒng)可以擴(kuò)展到數(shù)萬 GB200 超級芯片,并通過全新 Quantum-X800 InfiniBand(最多 144 個(gè)連接)或 Spectrum-X800 以太網(wǎng)(最多 64 個(gè)連接)與 800Gbps 網(wǎng)絡(luò)連接在一起。

分享到

nina

相關(guān)推薦