国产精品《乱子伦》,精品二区久久

清華大學(xué)長聘教授、閩江學(xué)院院長舒繼武

舒繼武：各位好，很感謝DOIT給我這個機會跟大家一起來交流.我給大家交流的題目是”大模型時代下的存儲系統(tǒng)的挑戰(zhàn)與技術(shù)”.

剛才宋主編介紹了AI大模型時代存儲系統(tǒng)技術(shù)的重要性，我主要講存儲系統(tǒng)到底對這些有哪些挑戰(zhàn)。

背景與趨勢

大模型現(xiàn)在發(fā)展很快很熱，不管是從工業(yè)界還是學(xué)術(shù)界，大家都在討論。

從工業(yè)界角度可以看到，大模型的市場規(guī)模很大。雖然目前的規(guī)模不算很大，但是升的很快，2023年達到國內(nèi)147億人民幣，預(yù)計到2028年過千億。學(xué)術(shù)界發(fā)表的論文，也是很大量的、跳躍式的往上漲，非常受關(guān)注。

為什么大模型如此受關(guān)注？這與政策和需求相關(guān)，政治、經(jīng)濟、文化、社會的各個領(lǐng)域可以產(chǎn)生很大的定力，產(chǎn)生很大的影響，成為國家戰(zhàn)略的支撐。

大模型發(fā)展，得益于參數(shù)規(guī)模很大、上漲速度很快。因為規(guī)模很大，所以對存儲的需求就不一樣了。最左邊的圖，在訓(xùn)練期間，它的參數(shù)已經(jīng)級別很高，一般都是TB級的數(shù)據(jù)，在訓(xùn)練階段它要保持這些參數(shù)之外，它的很多中心接口都要保存，這里面也是TB級的數(shù)據(jù)，以GPT-3為例，如果說大小為8，一個系列長度是128KB，至少每產(chǎn)生一次中間接口就需要7個TB的數(shù)據(jù)等。

大模型的訓(xùn)練計算要求很高，消耗大量的計算量，這么高的數(shù)據(jù)量只有GPU可以勝任，GPU成為大模型訓(xùn)練的范式。左邊的幾個圖可以看看，在大模型計算過程中計算量是翻457倍，通過一些測試可以看到，每一次大模型的頒布，GPU的銷量馬上就呈一個跳躍。

GPU計算量很豐富，但存儲形成的容量有限，而又是強耦合的，一塊GPU的卡計算量、存儲量都是綁定的、數(shù)據(jù)是易失的，所以大模型的應(yīng)用帶來一系列的問題。計算量要求很高，但是存儲的容量每兩年才增加2倍，所以這個是嚴(yán)重不匹配。

挑戰(zhàn)與思路：以GPU為中心的模型數(shù)據(jù)存儲服務(wù)

以GPU為中心，或者GPU成為一種模式，這種受眾模型的存儲帶來了哪些挑戰(zhàn)？

第一，大模型推理利用 KV Cache 保存上下文信息，其隨序列生成不斷增長。這意味著有大量的顯存碎片并被保存下來，而且碎片還有內(nèi)部碎片，必須在模型中開辟預(yù)留空間，但預(yù)留多少容量，每個請求的長度與最終生成的序列長度等都很難預(yù)測，另外，GPU卡有很多的請求，但它們之間很難完整分配。

第二，異構(gòu)存儲資源難利用。GPU服務(wù)器還離不開大量豐富的存儲資源，DRAM、SSD，但GPU沒有很強的耦合性，所以擴展起來也存在挑戰(zhàn)，如訪問時鏈路、延遲的問題、帶寬的問題等等。

以訓(xùn)練階段來說，計算過程可能只需要10秒左右，但是要把TB級的數(shù)據(jù)傳輸過來，耗費的時間可能需要幾十秒，大量的時間用在等待，推理階段也一樣。

第三是容錯。大模型訓(xùn)練時間長、GPU數(shù)量多，這會增加故障次數(shù)，Meta團隊在訓(xùn)練OPT-175B時就出現(xiàn)了百余次故障。另外，顯存是易失存儲介質(zhì)，GPU故障會導(dǎo)致訓(xùn)練所得的參數(shù)丟失。大模型的分布式訓(xùn)練模式會導(dǎo)致故障擴散到整個集群中，而且大模型的容錯開銷高，可達訓(xùn)練時長的70%。

如何破局？

在碎片管理方面，有很多的方法?？梢罁?jù)大模型訓(xùn)推模式，細(xì)粒度管理GPU顯存的分配，提高GPU顯存利用率，以支持大規(guī)模訓(xùn)推模型數(shù)據(jù)的存儲。如在推理過程中，將用于存放KV cache的顯存劃分成定長的塊（block），并隨著生成序列的增長，按需分配顯存塊。

在異構(gòu)資源的利用方面。對策之一是，基于流水線并行的顯存擴容，在不支持NVLink的GPU服務(wù)器上（如消費級GPU 服務(wù)器），上述方案中頻繁的GPU間通信會帶來巨大的開銷（IO時間占訓(xùn)練總時長的70%），流水線并行模式下，單卡僅需向相鄰GPU傳輸少量激活數(shù)據(jù)。清華大學(xué)團隊在探索如何在流水線并行模式下卸載模型參數(shù)至DRAM，將數(shù)據(jù)傳輸開銷引入流水線并行中的模型切分算法，即通信開銷最低的流水線切分方案，將數(shù)據(jù)傳輸與模型計算并行化，以掩蓋數(shù)據(jù)傳輸帶來的開銷。對策之二是減少GPU與異構(gòu)存儲介質(zhì)之間的KV Cache傳輸量，例如，KV Cache語義感知的數(shù)據(jù)壓縮，或者存算協(xié)同卸載，但由此也帶來缺點：前者損失了精度，后者對存儲側(cè)的計算資源需求高。

大量的推理需要用到終極的結(jié)果KVCache。如何減少KVCache傳輸過程中的傳輸量，清華大學(xué)基于隱藏狀態(tài)的KV Cache恢復(fù)方面展開研究，核心思想是在推理時保存每層輸入隱藏狀態(tài)至DRAM或SSD中，之后的推理過程中僅傳輸隱藏狀態(tài)至GPU，并在GPU側(cè)通過矩陣乘恢復(fù)KV Cache，其優(yōu)勢是不影響推理精度，對存儲側(cè)的計算無要求，而且傳輸體積相較卸載KV Cache減少一半，計算開銷僅為重計算的1/6。

在容錯層面，采取冗余計算與故障后重定向的方式，以多張GPU中冗余計算多份相同的模型數(shù)據(jù)，如果發(fā)生故障，冗余的模型參數(shù)已是最新版本的參數(shù)，不需要重復(fù)對數(shù)據(jù)集訓(xùn)練，無需重新對數(shù)據(jù)集進行開始，或者將故障GPU上計算任務(wù)直接路由到帶有冗余數(shù)據(jù)的GPU上。

以上講的就是以GPU為中心的模型存儲服務(wù)、碎片的管理、資源的利用和開銷的挑戰(zhàn)等內(nèi)容，有很多的破局思路值得參考和借鑒。

總結(jié)和展望

時下大模型火熱，需要重點關(guān)注以下幾個問題。

一是大模型全周期綠色云存儲問題。市場上用云做了很多大模型的訓(xùn)練和推理，導(dǎo)致大量的存儲和緩存產(chǎn)生，碳排放的問題也暴露出來，因此應(yīng)在訓(xùn)練階段和推理階段來解決存儲的量，另外如何采用低價值的存儲，既滿足訓(xùn)練和推理階段新的需求，還能夠降低成本，降低排放量。這個說起來容易，但是有很多實際問題需要解決。

二是云端協(xié)同的存儲。訓(xùn)練階段存在很多個性化的微調(diào)，如何降低成本；在推理階段如何把單側(cè)端發(fā)揮出來，并有效保護用戶的隱私。有很多問題要討論，如任務(wù)的切分，哪些在單側(cè)做，哪些在云端做，傳輸開銷等的問題。

三是系統(tǒng)與算法的協(xié)調(diào)設(shè)計問題。很多的訓(xùn)練是在特定的系統(tǒng)上進行，如果將訓(xùn)練、算法和系統(tǒng)的設(shè)計結(jié)合起來，效率會更高更好。由于現(xiàn)有系統(tǒng)里有大量的新興硬件，可編程硬件里面有很多的計算、存儲功能，涉及到感存算或存算的問題，需要在現(xiàn)實中結(jié)合起來把新興硬件特點發(fā)揮出來。同時，針對大模型的算法特性重新設(shè)計領(lǐng)域?qū)Ｓ玫挠?xùn)推硬件和系統(tǒng)，從而提高大模型訓(xùn)推性能。

在這些方面，清華大學(xué)開展了一些代表性的探索工作，例如樣本的存儲，海量文件系統(tǒng)包括存儲IO的加速，訓(xùn)練和推理階段的擴容管理等，也發(fā)表了相關(guān)的論文，有些工作還在繼續(xù)推進。

總之，大模型訓(xùn)推對數(shù)據(jù)存儲需求高，以 GPU 為中心的大模型訓(xùn)推已成為范式。但是GPU是顯存計算和存儲強耦合的，有易失、增長遠低于大模型數(shù)據(jù)存儲需求的增長等特點，而且大模型推理中顯存資源利用不充分，難以利用GPU服務(wù)器中所包含的大量異構(gòu)存儲資源，大模型訓(xùn)練數(shù)據(jù)容錯需求高、容錯開銷大，滿足不了當(dāng)下存儲需求，即使萬卡的集成，這些問題依舊存在。

如何順利集成和推理集成存儲資源，降低成本、容錯等一系列挑戰(zhàn)，需要重點關(guān)注面向大模型推理的顯存資源管理、基于異構(gòu)存儲介質(zhì)的顯存擴容以及低IO開銷的數(shù)據(jù)容錯等挑戰(zhàn)。

謝謝大家！

分享到

xiesc

相關(guān)推薦

近期文章

熱門標(biāo)簽