兩者的主要區(qū)別在于縱向擴展互聯(lián)接口數(shù),中國定制版的H-225B少了三個,只有21個100Gbps網絡接口。
砍掉三個網口會影響降低集群的通信效率,系統(tǒng)的擴展性,降低整體的并行計算能力。除此之外,國內定制版Gaudi2的算力規(guī)格沒有任何閹割。
Gaudi2擁有 24 個完全可編程的第四代張量處理器核心(TPC),它還集成了 96 GB HBM2e內存和 48 MB SRAM,支持 600 瓦夾層卡級熱設計功耗(TDP)。
算力類型方面,它支持FP8、BF16、FP16、TF32 和 FP32,比上一代支持的類型更多。
Gaudi2最早是去年五月份正式發(fā)布的,但一直沒有在中國市場上市。從一些規(guī)格來看,它與英偉達的A100更像,比如,兩者都是7nm制程工藝的。
眾所周知,RESNET-50和BERT PHASE-2訓練的Benchmark都很考驗加速器的性能表現(xiàn)。在此前公布的結果中可見,96GB的Gaudi2在多項訓練測試中都大幅領先于英偉達的A100,包括80GB版本和40GB版本兩個型號的。
然而,最近,英特爾介紹了Gaudi2與英偉達H100的在MLPerf中的對比結果。在訓練擁有1750億參數(shù)的GPT-3時,Gaudi2性能以及高效的可擴展性令人印象深刻。
384個Gaudi2加速上訓練GPT-3耗時311分鐘,而且,在訓練時,將加速器從256個擴展到384個時,性能實現(xiàn)了近線性95%的擴展效果。
在計算機視覺模型ResNet-50(8個加速器)和Unet3D(8個加速器)以及自然語言處理模型BERT(8個和64個加速器)上,也取得了優(yōu)異的訓練結果。
與去年11月提交的數(shù)據(jù)相比,BERT和ResNet模型的性能分別提高了10%和4%,證明Gaudi2軟件成熟度的提升。
值得一提的是,Gaudi2支持“開箱即用”,也就是說,這些測試沒有經過任何的定制化優(yōu)化,用戶在用Gaudi2時,可以獲得與本次測試相當?shù)慕Y果。
在發(fā)布會會上,英特爾宣稱,采用BF16計算精度的Gaudi2性能要優(yōu)A100,采用FP8軟件的Gaudi2,比H100更有性價比。
從基于MLPerf Training3.0基準測試結果來看,Gaudi2為數(shù)不多的能替代 NvidiaH100進行LLM訓練的可靠方案。