關于Gaudi2的軟件成熟度: Gaudi的軟件支持在持續(xù)發(fā)展和成熟,并能與日益增長的生成式AI及大語言模型的需求保持同步。
- 本次提交的GPT-3模型基于PyTorch,并采用了當前流行的、隸屬微軟大規(guī)模AI的DeepSpeed優(yōu)化庫,而非定制軟件。DeepSpeed能夠同時支持Data、Tensor和Pipeline的三維并行,進一步優(yōu)化了大語言模型的擴展性能效率。
- 本次MLPerf 3.0的Gaudi2結果以BF16數據類型已提交。預計在2023年第三季度發(fā)布對FP8的軟件支持與新功能時,Gaudi2的性能將有明顯飛躍。
關于第四代至強可擴展處理器的測試結果: 作為眾多解決方案中唯一提交的基于CPU的解決方案,MLPerf結果表明,英特爾至強可擴展處理器為企業(yè)提供了“開箱即用”的功能,可以在通用系統(tǒng)上部署AI,避免了引入專用AI系統(tǒng)的高昂成本和復雜性。
對于少數從頭開始間歇性訓練大模型的用戶,他們可以使用通用CPU,并且通常是在已經完成部署的、基于英特爾的服務器上運行其業(yè)務。此外,大多數人將采用預先訓練好的模型,并用小型數據集對其進行微調。英特爾發(fā)布的結果表明,通過使用英特爾AI軟件以及標準的行業(yè)開源軟件,這種微調可以在短短幾分鐘內完成。
MLPerf測試亮點:
- 在封閉區(qū),第四代至強可以分別在50分鐘以內(47.93分鐘)和90分鐘以內(88.17分鐘)的時間里訓練BERT和ResNet-50模型。
- 對于BERT模型的開放區(qū),結果顯示,當擴展至16個節(jié)點時,第四代至強能夠在大約30分鐘左右(31.06分鐘)完成模型訓練。
- 對于較大的RetinaNet模型,第四代至強能夠在16個節(jié)點上實現(xiàn)232分鐘的訓練時間,使客戶能夠靈活地使用非高峰期的至強周期來訓練其模型,即可以在早晨、午餐或者夜間進行模型訓練。
- 具備英特爾?高級矩陣擴展(Intel? AMX)的第四代英特爾至強可擴展處理器提供了顯著的“開箱即用”性能提升,其范圍覆蓋了多個框架、端到端數據科學工具,以及廣泛的智能解決方案生態(tài)系統(tǒng)。
第四代英特爾至強可擴展處理器
MLPerf被普遍認為是最具信服力的AI性能測試基準,能夠在各種解決方案之間進行公平、可重復的性能比較。目前,英特爾已擁有超100次性能結果,且是唯一一個使用行業(yè)標準的深度學習生態(tài)系統(tǒng)軟件,并公開提交CPU結果的廠商。
該結果亦展示了使用極具性價比,且隨時可用的英特爾以太網800系列網絡適配器,可以實現(xiàn)出色的擴展效率,此類適配器采用基于英特爾oneAPI的開源英特爾?以太網軟件包。
說明:
* MLPerf 測試語料庫由1%的GPT-3 模型代表組成。