英偉達剛剛發(fā)布的A100 GPU和谷歌最新的TPUv4都在榜單中發(fā)布了詳盡的性能數(shù)據(jù),值得關注的是,本次訓練榜單中首次出現(xiàn)了中國AI芯片和云平臺的身影。中科院深圳先進技術(shù)研究所(簡稱“SIAT”)提供了華為云EI昇騰集群服務的測試成績,實測成績顯示華為云EI昇騰集群服務性能超越了英偉達同類產(chǎn)品。
ResNet神經(jīng)網(wǎng)絡結(jié)構(gòu)在2015年被提出,在ImageNet比賽classification任務上獲得第一名,因為它“簡單與實用”并存,其后很多方法都是在ResNet50或者ResNet101的基礎上完成的,在AI檢測、分割、識別等領域里得到廣泛的應用。MLPerf 榜單的一個重要賽道就是基于ResNet50的機器學習任務,任務的訓練速度越快則性能越強。
MLPerf ResNet50賽道有兩個榜單:close和open,就是兩種比拼方式。在close比拼方式下面,各大廠家基于同樣的訓練優(yōu)化器和同樣的神經(jīng)網(wǎng)絡結(jié)構(gòu),基于開源可用的深度學習框架來做訓練比拼。
從測試數(shù)據(jù)看華為云EI昇騰集群服務既支持運行自研的MindSpore框架也支持運行開源的TensorFlow框架,并且在兩種框架下均有優(yōu)異的性能表現(xiàn)。從榜單中的成績可以看出華為云EI昇騰集群服務的性能相比于英偉達和谷歌的絲毫不落下風,在同等規(guī)模的集群性能對比時,華為云EI昇騰集群服務的成績要優(yōu)于英偉達和谷歌。
在512芯片的集群規(guī)模下,華為云EI昇騰集群服務成績?yōu)?3.6秒,優(yōu)于NVIDIA V100的120秒。據(jù)了解,這主要得益于華為云EI昇騰集群服務及華為云ModelArts一站式AI開發(fā)管理平臺在大規(guī)模分布式訓練加速比上的優(yōu)勢,其在512和1024芯片下可達到80%以上的加速比,分布式加速比遠超英偉達和谷歌,英偉達在768個A100的加速比為60%,1840個A100為46.5%左右,谷歌在4096(8192 core)個TPUv3下為48.8%,256個TPUv4(512 core)下為61%,華為云EI昇騰集群服務的加速比達到了英偉達和谷歌的1.3~1.7倍。
優(yōu)秀的分布式加速比是大規(guī)模集群分布式訓練的關鍵能力,也是促使用戶選擇使用大規(guī)模集群來加速AI業(yè)務的關鍵因素,華為云EI昇騰集群服務領先的分布式加速比能力將大幅降低用戶的訓練成本并加速其AI業(yè)務的開發(fā)效率。
而open榜單,更考驗AI廠家的軟硬件整體能力,因為open榜單沒有軟硬件的限制,只給任務,根據(jù)任務結(jié)果看性能。把兩個榜單成績放在一起看,華為云EI昇騰集群服務的軟硬件結(jié)合的優(yōu)化能力更加凸顯,僅用1024芯片即跑出了32.4秒的成績,超過英偉達1840個A100 GPU的45.6秒,堪與谷歌4096個TPUv3的28.2秒成績相媲美。在另兩組測試結(jié)果中ModelArts使用512芯片跑出46.8秒的成績,超過英偉達1536個A100 GPU的成績,ModelArts使用256芯片跑出83.4秒的成績,超過谷歌256個TPUv4的109.2秒。
據(jù)了解,華為云ModelArts一站式AI開發(fā)管理平臺在分布式加速比優(yōu)化、大規(guī)模異構(gòu)資源調(diào)度、高性能訓練優(yōu)化器、超參數(shù)自動優(yōu)化以及神經(jīng)網(wǎng)絡模型優(yōu)化等方面有較多的研究成果,而這些技術(shù)上的能力累積,也很好地體現(xiàn)在了本次的榜單成績當中。