SIGMOD是數(shù)據(jù)庫與數(shù)據(jù)管理系統(tǒng)領(lǐng)域的國際頂級會議,自1975年首次舉辦以來,一直對數(shù)據(jù)管理、存儲和處理的發(fā)展起著深刻的推動作用,在學(xué)術(shù)和工業(yè)界均有巨大影響力。SIGMOD也重視數(shù)據(jù)管理系統(tǒng)與其他方向的交叉,尤其近年來也對機器學(xué)習(xí)和人工智能領(lǐng)域格外關(guān)注。此次入選意味著阿里云機器學(xué)習(xí)平臺PAI在深度學(xué)習(xí)數(shù)據(jù)處理方向達到了全球業(yè)界先進水平,獲得了國際學(xué)者的認可,展現(xiàn)了中國機器學(xué)習(xí)系統(tǒng)技術(shù)創(chuàng)新在國際上的競爭力。
近年來,隨著GPU加速器的不斷進化,以及各類軟件優(yōu)化技術(shù)的層出不窮,深度學(xué)習(xí)訓(xùn)練的計算效率正不斷被提升到新的層次。但與此同時,深度學(xué)習(xí)本質(zhì)上仍是一種多階段、多資源的任務(wù)類型:不僅需要在GPU上進行大量的訓(xùn)練計算,同時往往也需要CPU端的數(shù)據(jù)預(yù)處理流水線(如數(shù)據(jù)增強、特征轉(zhuǎn)換等),這類預(yù)處理計算是訓(xùn)練出高質(zhì)量模型的必要步驟。因此,GPU端訓(xùn)練性能的提升也帶來了更大的數(shù)據(jù)預(yù)處理壓力,使后者成為新的性能瓶頸。
針對這一問題,在觀察后發(fā)現(xiàn)數(shù)據(jù)預(yù)處理流水線具有無狀態(tài)的特點,具有內(nèi)在的資源彈性?;诖耍珿oldMiner將數(shù)據(jù)預(yù)處理流水線和模型訓(xùn)練部分分離執(zhí)行,通過自動計算圖分析來識別無狀態(tài)的數(shù)據(jù)預(yù)處理計算,并對其實現(xiàn)高效的并行加速和彈性伸縮,從而緩解數(shù)據(jù)預(yù)處理瓶頸,提升訓(xùn)練性能。通過與集群調(diào)度器的協(xié)同設(shè)計,GoldMiner進一步發(fā)揮了數(shù)據(jù)預(yù)處理計算的資源彈性,大幅提升集群調(diào)度效率。實驗顯示GoldMiner可提升訓(xùn)練性能最高達12.1倍,提升GPU集群利用率達2.5倍。
目前阿里云機器學(xué)習(xí)平臺 PAI正在將GoldMiner與PAI-DLC集成,以向用戶提供數(shù)據(jù)預(yù)處理加速能力。機器學(xué)習(xí)平臺PAI面向企業(yè)客戶及開發(fā)者,提供輕量化、高性價比的云原生機器學(xué)習(xí),涵蓋PAI-DSW交互式建模、PAI-Designer可視化建模、PAI-DLC分布式訓(xùn)練到PAI-EAS模型在線部署的全流程。其中PAI-DLC提供了云原生一站式的深度學(xué)習(xí)訓(xùn)練平臺,提供靈活、穩(wěn)定、易用和高性能的機器學(xué)習(xí)訓(xùn)練環(huán)境。支持多種算法框架,超大規(guī)模分布式深度學(xué)習(xí)任務(wù)運行及自定義算法框架,為開發(fā)者和企業(yè)降本增效。
論文名字:GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning論文作者:趙漢宇,楊智,程羽,田超,任仕儒,肖文聰,袁滿,陳浪石,劉愷博,張楊,李永,林偉論文pdf鏈接:https://dl.acm.org/doi/pdf/10.1145/3589773