清華大學(xué)長聘教授、閩江學(xué)院院長舒繼武

舒繼武:各位好,很感謝DOIT給我這個機(jī)會跟大家一起來交流.我給大家交流的題目是”大模型時代下的存儲系統(tǒng)的挑戰(zhàn)與技術(shù)”.

剛才宋主編介紹了AI大模型時代存儲系統(tǒng)技術(shù)的重要性,我主要講存儲系統(tǒng)到底對這些有哪些挑戰(zhàn)。

背景與趨勢

大模型現(xiàn)在發(fā)展很快很熱,不管是從工業(yè)界還是學(xué)術(shù)界,大家都在討論。

從工業(yè)界角度可以看到,大模型的市場規(guī)模很大。雖然目前的規(guī)模不算很大,但是升的很快,2023年達(dá)到國內(nèi)147億人民幣,預(yù)計(jì)到2028年過千億。學(xué)術(shù)界發(fā)表的論文,也是很大量的、跳躍式的往上漲,非常受關(guān)注。

為什么大模型如此受關(guān)注?這與政策和需求相關(guān),政治、經(jīng)濟(jì)、文化、社會的各個領(lǐng)域可以產(chǎn)生很大的定力,產(chǎn)生很大的影響,成為國家戰(zhàn)略的支撐。

大模型發(fā)展,得益于參數(shù)規(guī)模很大、上漲速度很快。因?yàn)橐?guī)模很大,所以對存儲的需求就不一樣了。最左邊的圖,在訓(xùn)練期間,它的參數(shù)已經(jīng)級別很高,一般都是TB級的數(shù)據(jù),在訓(xùn)練階段它要保持這些參數(shù)之外,它的很多中心接口都要保存,這里面也是TB級的數(shù)據(jù),以GPT-3為例,如果說大小為8,一個系列長度是128KB,至少每產(chǎn)生一次中間接口就需要7個TB的數(shù)據(jù)等。

大模型的訓(xùn)練計(jì)算要求很高,消耗大量的計(jì)算量,這么高的數(shù)據(jù)量只有GPU可以勝任,GPU成為大模型訓(xùn)練的范式。左邊的幾個圖可以看看,在大模型計(jì)算過程中計(jì)算量是翻457倍,通過一些測試可以看到,每一次大模型的頒布,GPU的銷量馬上就呈一個跳躍。

GPU計(jì)算量很豐富,但存儲形成的容量有限,而又是強(qiáng)耦合的,一塊GPU的卡計(jì)算量、存儲量都是綁定的、數(shù)據(jù)是易失的,所以大模型的應(yīng)用帶來一系列的問題。計(jì)算量要求很高,但是存儲的容量每兩年才增加2倍,所以這個是嚴(yán)重不匹配。

挑戰(zhàn)與思路以GPU為中心的模型數(shù)據(jù)存儲服務(wù)

以GPU為中心,或者GPU成為一種模式,這種受眾模型的存儲帶來了哪些挑戰(zhàn)?

第一,大模型推理利用 KV Cache 保存上下文信息,其隨序列生成不斷增長。這意味著有大量的顯存碎片并被保存下來,而且碎片還有內(nèi)部碎片,必須在模型中開辟預(yù)留空間,但預(yù)留多少容量,每個請求的長度與最終生成的序列長度等都很難預(yù)測,另外,GPU卡有很多的請求,但它們之間很難完整分配。

第二,異構(gòu)存儲資源難利用。GPU服務(wù)器還離不開大量豐富的存儲資源,DRAM、SSD,但GPU沒有很強(qiáng)的耦合性,所以擴(kuò)展起來也存在挑戰(zhàn),如訪問時鏈路、延遲的問題、帶寬的問題等等。

以訓(xùn)練階段來說,計(jì)算過程可能只需要10秒左右,但是要把TB級的數(shù)據(jù)傳輸過來,耗費(fèi)的時間可能需要幾十秒,大量的時間用在等待,推理階段也一樣。

第三是容錯。大模型訓(xùn)練時間長、GPU數(shù)量多,這會增加故障次數(shù),Meta團(tuán)隊(duì)在訓(xùn)練OPT-175B時就出現(xiàn)了百余次故障。另外,顯存是易失存儲介質(zhì),GPU故障會導(dǎo)致訓(xùn)練所得的參數(shù)丟失。大模型的分布式訓(xùn)練模式會導(dǎo)致故障擴(kuò)散到整個集群中,而且大模型的容錯開銷高,可達(dá)訓(xùn)練時長的70%。

如何破局?

在碎片管理方面,有很多的方法??梢罁?jù)大模型訓(xùn)推模式,細(xì)粒度管理GPU顯存的分配,提高GPU顯存利用率,以支持大規(guī)模訓(xùn)推模型數(shù)據(jù)的存儲。如在推理過程中,將用于存放KV cache的顯存劃分成定長的塊(block),并隨著生成序列的增長,按需分配顯存塊。

在異構(gòu)資源的利用方面。對策之一是,基于流水線并行的顯存擴(kuò)容,在不支持NVLink的GPU服務(wù)器上(如消費(fèi)級GPU 服務(wù)器),上述方案中頻繁的GPU間通信會帶來巨大的開銷(IO時間占訓(xùn)練總時長的70%),流水線并行模式下,單卡僅需向相鄰GPU傳輸少量激活數(shù)據(jù)。清華大學(xué)團(tuán)隊(duì)在探索如何在流水線并行模式下卸載模型參數(shù)至DRAM,將數(shù)據(jù)傳輸開銷引入流水線并行中的模型切分算法,即通信開銷最低的流水線切分方案,將數(shù)據(jù)傳輸與模型計(jì)算并行化,以掩蓋數(shù)據(jù)傳輸帶來的開銷。對策之二是減少GPU與異構(gòu)存儲介質(zhì)之間的KV Cache傳輸量,例如,KV Cache語義感知的數(shù)據(jù)壓縮,或者存算協(xié)同卸載,但由此也帶來缺點(diǎn):前者損失了精度,后者對存儲側(cè)的計(jì)算資源需求高。

大量的推理需要用到終極的結(jié)果KVCache。如何減少KVCache傳輸過程中的傳輸量,清華大學(xué)基于隱藏狀態(tài)的KV Cache恢復(fù)方面展開研究,核心思想是在推理時保存每層輸入隱藏狀態(tài)至DRAM或SSD中,之后的推理過程中僅傳輸隱藏狀態(tài)至GPU,并在GPU側(cè)通過矩陣乘恢復(fù)KV Cache,其優(yōu)勢是不影響推理精度,對存儲側(cè)的計(jì)算無要求,而且傳輸體積相較卸載KV Cache減少一半,計(jì)算開銷僅為重計(jì)算的1/6。

在容錯層面,采取冗余計(jì)算與故障后重定向的方式,以多張GPU中冗余計(jì)算多份相同的模型數(shù)據(jù),如果發(fā)生故障,冗余的模型參數(shù)已是最新版本的參數(shù),不需要重復(fù)對數(shù)據(jù)集訓(xùn)練,無需重新對數(shù)據(jù)集進(jìn)行開始,或者將故障GPU上計(jì)算任務(wù)直接路由到帶有冗余數(shù)據(jù)的GPU上。

以上講的就是以GPU為中心的模型存儲服務(wù)、碎片的管理、資源的利用和開銷的挑戰(zhàn)等內(nèi)容,有很多的破局思路值得參考和借鑒。

總結(jié)和展望

時下大模型火熱,需要重點(diǎn)關(guān)注以下幾個問題。

一是大模型全周期綠色云存儲問題。市場上用云做了很多大模型的訓(xùn)練和推理,導(dǎo)致大量的存儲和緩存產(chǎn)生,碳排放的問題也暴露出來,因此應(yīng)在訓(xùn)練階段和推理階段來解決存儲的量,另外如何采用低價值的存儲,既滿足訓(xùn)練和推理階段新的需求,還能夠降低成本,降低排放量。這個說起來容易,但是有很多實(shí)際問題需要解決。

二是云端協(xié)同的存儲。訓(xùn)練階段存在很多個性化的微調(diào),如何降低成本;在推理階段如何把單側(cè)端發(fā)揮出來,并有效保護(hù)用戶的隱私。有很多問題要討論,如任務(wù)的切分,哪些在單側(cè)做,哪些在云端做,傳輸開銷等的問題。

三是系統(tǒng)與算法的協(xié)調(diào)設(shè)計(jì)問題。很多的訓(xùn)練是在特定的系統(tǒng)上進(jìn)行,如果將訓(xùn)練、算法和系統(tǒng)的設(shè)計(jì)結(jié)合起來,效率會更高更好。由于現(xiàn)有系統(tǒng)里有大量的新興硬件,可編程硬件里面有很多的計(jì)算、存儲功能,涉及到感存算或存算的問題,需要在現(xiàn)實(shí)中結(jié)合起來把新興硬件特點(diǎn)發(fā)揮出來。同時,針對大模型的算法特性重新設(shè)計(jì)領(lǐng)域?qū)S玫挠?xùn)推硬件和系統(tǒng),從而提高大模型訓(xùn)推性能。

在這些方面,清華大學(xué)開展了一些代表性的探索工作,例如樣本的存儲,海量文件系統(tǒng)包括存儲IO的加速,訓(xùn)練和推理階段的擴(kuò)容管理等,也發(fā)表了相關(guān)的論文,有些工作還在繼續(xù)推進(jìn)。

總之,大模型訓(xùn)推對數(shù)據(jù)存儲需求高,以 GPU 為中心的大模型訓(xùn)推已成為范式。但是GPU是顯存計(jì)算和存儲強(qiáng)耦合的,有易失、增長遠(yuǎn)低于大模型數(shù)據(jù)存儲需求的增長等特點(diǎn),而且大模型推理中顯存資源利用不充分,難以利用GPU服務(wù)器中所包含的大量異構(gòu)存儲資源,大模型訓(xùn)練數(shù)據(jù)容錯需求高、容錯開銷大,滿足不了當(dāng)下存儲需求,即使萬卡的集成,這些問題依舊存在。

如何順利集成和推理集成存儲資源,降低成本、容錯等一系列挑戰(zhàn),需要重點(diǎn)關(guān)注面向大模型推理的顯存資源管理、基于異構(gòu)存儲介質(zhì)的顯存擴(kuò)容以及低IO開銷的數(shù)據(jù)容錯等挑戰(zhàn)。

謝謝大家!

分享到

xiesc

相關(guān)推薦