根據(jù)今天發(fā)布的最新MLPerf結(jié)果,NVIDIA合作伙伴提供的GPU加速系統(tǒng)實現(xiàn)了全球最快的AI模型訓(xùn)練速度。
在這一行業(yè)基準(zhǔn)測試中,七家公司對至少十幾款市售系統(tǒng)進行了測試,其中大部分為NVIDIA認(rèn)證系統(tǒng)。除NVIDIA之外,戴爾、富士通、技嘉、浪潮、聯(lián)想、寧暢、超微也參與了本輪測試,使用NVIDIA A100 Tensor Core GPU實現(xiàn)了業(yè)內(nèi)領(lǐng)先的神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果。
在最新一輪的基準(zhǔn)測試中,只有NVIDIA及其合作伙伴運行了所有八類工作負載,占所有提交的四分之三以上,而且取得了非常優(yōu)秀的成績。
與去年的分?jǐn)?shù)相比,NVIDIA在性能上提高了多達3.5倍。而對于需要最高性能的大規(guī)模工作,NVIDIA創(chuàng)紀(jì)錄地調(diào)集了4096個GPU的資源,超越了所有其他參與者。
MLPerf的重要性
這是NVIDIA生態(tài)系統(tǒng)第四次參加MLPerf的訓(xùn)練測試,再次展示最優(yōu)異的成績。MLPerf是一個成立于2018年5月的行業(yè)基準(zhǔn)測試組織。
MLPerf能夠幫助用戶做出明智的采購決策。它得到了包括阿里巴巴、Arm、百度、谷歌、英特爾和NVIDIA在內(nèi)的幾十家行業(yè)領(lǐng)導(dǎo)者的支持,測試透明且客觀。
該基準(zhǔn)測試基于當(dāng)今最常用的AI工作負載和場景,涵蓋計算機視覺、自然語言處理、推薦系統(tǒng)、強化學(xué)習(xí)等。且訓(xùn)練基準(zhǔn)測試所關(guān)注的也是用戶最關(guān)心的問題,即訓(xùn)練一個全新AI模型所需的時間。
速度 + 靈活性 = 生產(chǎn)力
客戶的基礎(chǔ)設(shè)施投資回報最終取決于其生產(chǎn)力,這就需要在運行各種AI工作負載時都能做到速度與靈活性兼?zhèn)?。因此,用戶需要通過靈活、強大的系統(tǒng),讓各種AI模型能夠快速投入生產(chǎn),加速上市時間,并最大程度地提高寶貴的數(shù)據(jù)科學(xué)團隊生產(chǎn)力。
在最新一輪MLPerf基準(zhǔn)測試結(jié)果中,NVIDIA AI平臺在最短的時間內(nèi)完成了模型訓(xùn)練,在商用提交類別的所有八項基準(zhǔn)測試中都創(chuàng)下了性能紀(jì)錄。
NVIDIA在Selene上進行了大規(guī)模測試。根據(jù)最新全球TOP 500榜單,Selene是全球最快的商用AI超級計算機。這臺超級計算機與榜單上的其他十幾臺系統(tǒng)均基于NVIDIA DGX SuperPOD架構(gòu)。
對于AI,最艱巨的挑戰(zhàn)在于擴展到大型集群的能力,而這正是NVIDIA的核心優(yōu)勢之一。
在芯片對比中,NVIDIA及其合作伙伴在最新商用系統(tǒng)測試的所有八項基準(zhǔn)測試中都創(chuàng)造了紀(jì)錄。
總體而言,從下圖所示的結(jié)果能夠看出,NVIDIA在兩年半的時間內(nèi)將性能提高了多達6.5倍,充分證明了包括GPU、系統(tǒng)和軟件在內(nèi)的全棧式NVIDIA平臺的實力。
廣闊的生態(tài)系統(tǒng)提供最高的價值,最優(yōu)的選擇
這些MLPerf結(jié)果展現(xiàn)了眾多全新的創(chuàng)新系統(tǒng)上各種基于NVIDIA 技術(shù)的 AI平臺的性能。這些系統(tǒng)涵蓋范圍廣泛——從入門級邊緣服務(wù)器,到可容納數(shù)千個GPU的AI超級計算機。
包括參與最新基準(zhǔn)測試的七家合作伙伴在內(nèi),共有二十多家云服務(wù)供應(yīng)商和OEM廠商的產(chǎn)品或采用了NVIDIA A100 GPU,或計劃為在線實例、服務(wù)器采用NVIDIA A100 GPU,包括近40款NVIDIA認(rèn)證系統(tǒng)。
我們的生態(tài)系統(tǒng)為客戶提供各種部署模型選擇,提供業(yè)內(nèi)最高的性價比——從按分鐘出租的實例,到本地服務(wù)器和托管服務(wù)。
MLPerf測試結(jié)果顯示出NVIDIA的性能在持續(xù)提升,而這有賴于成熟且不斷完善的軟件平臺,以助力團隊快速采用不斷改進的系統(tǒng)。
NVIDIA是如何做到的
這是NVIDIA A100 GPU第二次參與MLPerf測試。速度的提升來自于GPU、系統(tǒng)、網(wǎng)絡(luò)和AI軟件方面的進步,這會在另一篇文章中有詳述。
例如,NVIDIA工程師找到了一種使用CUDA Graphs啟動完整神經(jīng)網(wǎng)絡(luò)模型的方法。CUDA Graphs是一個涵蓋NVIDIA CUDA操作及其依賴項的軟件包。它消除了過去的測試中,AI模型由大量獨立的內(nèi)核組成而導(dǎo)致的CPU瓶頸。
此外,在大規(guī)模測試中使用的是NVIDIA SHARP。該軟件能夠在網(wǎng)絡(luò)交換機內(nèi)整合多項通信工作,從而減少網(wǎng)絡(luò)流量和等待CPU的時間。
CUDA Graphs和SHARP的結(jié)合,使數(shù)據(jù)中心能夠使用有史以來最多的GPU進行訓(xùn)練。在諸如自然語言處理等很多領(lǐng)域,隨著AI模型參數(shù)增加到數(shù)十億的量級,這樣的組合恰能提供所需的強大能力。
最新A100 GPU上的內(nèi)存帶寬增加了近30%,達到2TB/s以上,這也帶來了其他許多方面的提升。
客戶重視MLPerf
各行業(yè)的AI用戶都認(rèn)為這些基準(zhǔn)測試十分有用。
瑞典查爾姆斯大學(xué)的一位發(fā)言人表示:“MLPerf基準(zhǔn)測試是多個AI平臺之間透明、公平的對比,能夠展示其在不同真實應(yīng)用場景中的實際性能。”該大學(xué)的研究領(lǐng)域包括納米技術(shù)、氣候研究等。
這些基準(zhǔn)測試可幫助用戶找到能夠達到全球一些先進大廠要求的AI產(chǎn)品。例如全球領(lǐng)先的芯片制造企業(yè)臺積電使用機器學(xué)習(xí)來改善光學(xué)鄰近修正(OPC)和蝕刻模擬。
臺積電OPC部門總監(jiān)Peng Danping表示:“為充分實現(xiàn)機器學(xué)習(xí)在模型訓(xùn)練和推理方面的潛力,我們正在與NVIDIA工程團隊合作,將我們的Maxwell模擬和逆向光刻技術(shù)引擎移植到GPU上,并實現(xiàn)了顯著的速度提升。MLPerf基準(zhǔn)測試是我們決策流程中的一個重要環(huán)節(jié)?!?/p>
帶動醫(yī)學(xué)和制造業(yè)發(fā)展
這些基準(zhǔn)測試也有助于研究人員挑戰(zhàn)AI極限,從而完善醫(yī)療服務(wù)。
德國癌癥研究中心DKFZ醫(yī)學(xué)影像計算負責(zé)人Klaus Maier-Hein表示:“我們與NVIDIA開展了密切的合作,將3DUNet等創(chuàng)新技術(shù)引入醫(yī)療市場。作為行業(yè)標(biāo)準(zhǔn)的MLPerf基準(zhǔn)測試提供了相關(guān)的性能數(shù)據(jù),能夠幫助IT機構(gòu)和開發(fā)者找到合適的解決方案,以加速特定項目和應(yīng)用?!?/p>
全球研究和制造領(lǐng)域領(lǐng)導(dǎo)者三星也參考MLPerf基準(zhǔn)測試,使用AI來提高產(chǎn)品性能和制造效率。
三星電子的一位發(fā)言人表示:“我們必須擁有最強大的計算平臺,才能將這些AI技術(shù)進步轉(zhuǎn)化為產(chǎn)品。MLPerf基準(zhǔn)測試簡化了我們的選擇流程,為我們提供了一種公開、直接的評估方法,讓我們能夠?qū)Ω骷移脚_供應(yīng)商進行統(tǒng)一標(biāo)準(zhǔn)的評估?!?/p>
如何獲得這些結(jié)果和工具
NVIDIA在最新測試中所使用的所有軟件都可以從MLPerf資源庫中獲得,因此任何人都可以重現(xiàn)NVIDIA的基準(zhǔn)測試結(jié)果。NVIDIA會陸續(xù)將這些代碼添加到NVIDIA的深度學(xué)習(xí)框架和容器中,用戶可在NVIDIA的GPU應(yīng)用軟件中心NGC上獲得這些框架和容器。
其作為全棧式AI平臺的一部分,已在最新行業(yè)基準(zhǔn)測試中得到了驗證,并可通過多家合作伙伴獲取,助力客戶應(yīng)對當(dāng)今的實際AI工作任務(wù)。
關(guān)于NVIDIA
NVIDIA(納斯達克股票代碼:NVDA)1999年發(fā)明的GPU驅(qū)動了PC游戲市場的增長,并重新定義了現(xiàn)代計算機圖形、高性能計算和人工智能。NVIDIA在加速計算和AI領(lǐng)域的創(chuàng)舉正在重塑交通,醫(yī)療健康和制造業(yè)等價值數(shù)萬億美元的產(chǎn)業(yè),并推動了許多其他產(chǎn)業(yè)的增長。更多信息,請訪問https://nvidianews.nvidia.com/ 。