MLCommons發(fā)布的數(shù)據(jù),2022年6月。https://mlcommons.org/en/training-normal-20/

相比于第一代Gaudi處理器,Gaudi2在ResNet-50模型的訓(xùn)練吞吐量提高了3倍,BERT模型的訓(xùn)練吞吐量提高了4.7倍。這些歸因于制程工藝從16納米提升至7納米、Tensor處理器內(nèi)核數(shù)量增加了三倍、增加GEMM引擎算力、封裝的高帶寬存儲容量提升了三倍、SRAM帶寬提升以及容量增加一倍。對于視覺處理模型的訓(xùn)練,Gaudi2處理器集成了媒體處理引擎,能夠獨(dú)立完成包括AI訓(xùn)練所需的數(shù)據(jù)增強(qiáng)和壓縮圖像的預(yù)處理。

兩代Gaudi處理器的性能都是在沒有特殊軟件操作的情況下通過Habana客戶開箱即用的商業(yè)軟件棧實(shí)現(xiàn)的。

通過商用軟件所提供的開箱即用性能,在Habana 8個(gè)GPU服務(wù)器與HLS-Gaudi2參考服務(wù)器上進(jìn)行測試比對。其中,訓(xùn)練吞吐量來自于NGC和Habana公共庫的TensorFlow docker,采用雙方推薦的最佳性能參數(shù)在混合精度訓(xùn)練模式下進(jìn)行測量。值得注意的是,吞吐量是影響最終訓(xùn)練時(shí)間收斂的關(guān)鍵因素。

圖形測試配置詳見說明部分
圖形測試配置見說明部分

除了Gaudi2在MLPerf測試中的卓越表現(xiàn),第一代Gaudi在128個(gè)加速器和256個(gè)加速器的ResNet基準(zhǔn)測試中展現(xiàn)了強(qiáng)大的性能和令人印象深刻的近線性擴(kuò)展,支持客戶高效系統(tǒng)擴(kuò)展。

分享到

zhupb

相關(guān)推薦