以Israel-1生成式 AI超級計算機為例,這是NVIDA在以色列投建的項目,它使用了256 臺配有NVIDIA HGX 平臺Dell 服務器,GPU規(guī)模為2048個。

對于這樣一個方案設計,如何才能夠充分發(fā)揮GPU等計算資源的效率呢?

如果你了解HGX 平臺,了解Grace Hopper超級芯片,就是會知道:生成式AI場景中,NVLlink最多連接256個節(jié)點的GPU,更多的節(jié)點還是需要借助Spectrum-X,或者InfiniBand交換機進行互連,借助BlueField-3 DPU的RDMA技術提高效率。

這里的NVIDIA Spectrum-X 網(wǎng)絡平臺集 NVIDIA Spectrum-4、BlueField-3 DPU、LinkX線纜和加速軟件于一身。無論GPU之間、CPU之間,還是CPU-GPU之間,設計重點是盡可能消除數(shù)據(jù)交換中的瓶頸,也就是說,數(shù)據(jù)交換的帶寬、效率才是解決問題的關鍵。

在注重算力的同時,注意發(fā)揮Spectrum-X網(wǎng)絡平臺的效率。它將?NVIDIA Spectrum-4 以太網(wǎng)交換機與?NVIDIA BlueField-3 DPU?緊密結(jié)合,取得了 1.7 倍的整體 AI 性能和能效提升,可在多租戶環(huán)境中提供一致、可預測的性能,Spectrum-X 還提供 NVIDIA 加速軟件和軟件開發(fā)套件(SDK)。

利用Spectrum-4交換機的實現(xiàn)數(shù)據(jù)逐包動態(tài)路由、可編程擁塞控制,以及BlueField-3 DPU數(shù)據(jù)亂序重組的能力,Spectrum-X平臺幫助用戶實現(xiàn)了端到端的無損高性能RoCE,以及多租戶運行不同工作負載時的性能隔離。

Israel-1生成式 AI超級計算機方案共使用了2560 個 BlueField-3 DPU、80 多臺 Spectrum-4 以太網(wǎng)交換機 , 是全球性能排名靠前的 AI 超級計算機之一,其AI 訓練性能達到了8 EFlop/s (8000PFlop/s)峰值。

驅(qū)動 Spectrum-X 的加速軟件包括 Cumulus Linux、SONiC 、NetQ 等,共同助力該網(wǎng)絡平臺實現(xiàn)極致性能。另外,Spectrum-X 還包括 BlueField DPU 的核心軟件—— NVIDIA DOCA 軟件框架。對于這些SDK的功能,在此不做更加詳細介紹。

這就是NVIDIA提交的作業(yè)和答案。

對于生成式AI場景,你可以直接抄NVIDIA的作業(yè),NVIDIA對此也抱有積極的態(tài)度,歡迎來抄;如果羞于抄作業(yè),NVIDIA的作業(yè)也是極具參考價值,希望你能夠領悟其中的精華。

分享到

songjy

相關推薦