综合色就爱涩涩涩综合婷婷,性做爰aaa片免费看大尺度

GTC視頻截圖

GB200：2080 億個晶體管，高達 20 petaflops FP4 計算能力

GB200 結(jié)合了兩個 GPU 和一個 Grace CPU，可以為 LLM 推理工作負載提供 30 倍的性能，同時還可能大大提高效率。Nvidia 表示，與 H100 相比，它的成本和能耗 “最多可降低 25 倍”，訓(xùn)練一個 1.8 萬億個參數(shù)的模型以前需要 8,000 個 Hopper GPU 和 15 兆瓦的電力。如今，2000 個 Blackwell GPU 就能完成這項工作，而耗電量僅為 4 兆瓦。

Nvidia 稱，在具有 1,750 億個參數(shù)的 GPT-3 LLM 基準測試中，GB200 的性能是 H100 的 7 倍，而 Nvidia 稱它的訓(xùn)練速度是 H100 的 4 倍，其中一項關(guān)鍵改進是采用了第二代變壓器引擎，通過為每個神經(jīng)元使用四個比特而不是八個比特，將計算能力、帶寬和模型大小提高了一倍。第二個關(guān)鍵區(qū)別只有在連接大量 GPU 時才會出現(xiàn)。

此外，新一代 NVLink 交換機可讓 576 個 GPU 相互連接，雙向帶寬達到每秒 1.8 TB。Nvidia 打造了一個全新的網(wǎng)絡(luò)交換芯片，該芯片擁有 500 億個晶體管和一些自己的板載計算功能。FP8 的運算能力為 3.6 teraflops，在此之前，一個由 16 個 GPU 組成的集群將有 60% 的時間用于相互通信，只有 40% 的時間用于實際計算。

為應(yīng)對企業(yè)大量采購，英偉達發(fā)布了 GB200 NVL72液冷機架系統(tǒng)。GB200 NVL72可將36 個 CPU 和 72 個 GPU 集成到一個液冷機架中，可實現(xiàn)總計 720 petaflops 的 AI 訓(xùn)練性能及1,440 petaflops的推理性能。其內(nèi)部有近兩英里長的電纜，共有 5000 條獨立電纜。機架上的每個托盤包含兩個 GB200 芯片或兩個 NVLink 交換機，每個機架有 18 個前者和 9 個后者。Nvidia 稱，其中一個機架總共可以支持 27 萬億個參數(shù)模型。消息稱，GPT-4 的參數(shù)模型約為 1.7 萬億。亞馬遜、谷歌、微軟和甲骨文都已計劃在其云服務(wù)產(chǎn)品中提供 NVL72 機架。

DGX SuperPOD：適用于萬億參數(shù)級的生成式 AI 超級計算

同時，英偉達推出了Blackwell 架構(gòu) DGX SuperPOD，可將集群中 Grace Blackwell 超級芯片的數(shù)量擴展至數(shù)萬個，通過 NVIDIA NVLink將多達 576 塊 Blackwell GPU 相連，總共288 個 CPU、576 個 GPU、240TB 內(nèi)存和 11.5 exaflops 的 FP4 計算能力。Nvidia 表示，其系統(tǒng)可以擴展到數(shù)萬 GB200 超級芯片，并通過全新 Quantum-X800 InfiniBand（最多 144 個連接）或 Spectrum-X800 以太網(wǎng)（最多 64 個連接）與 800Gbps 網(wǎng)絡(luò)連接在一起。

分享到

AI芯片 Blackwell B200 GPU

nina

相關(guān)推薦

近期文章

熱門標簽