AI大模型加速演進(jìn),帶動(dòng)“存力”重構(gòu)
AI發(fā)展的本質(zhì)推動(dòng)不僅是“算力升級(jí)”,更是“數(shù)據(jù)流重構(gòu)”。從ChatGPT-1到GPT-4,其模型參數(shù)量和訓(xùn)練數(shù)據(jù)體量增長(zhǎng)了8倍,未來面向ChatGPT-X代模型,這一數(shù)字甚至可能有50倍的增長(zhǎng)。支撐大模型成長(zhǎng)的,是指數(shù)級(jí)膨脹的數(shù)據(jù)量和日趨嚴(yán)苛的數(shù)據(jù)處理效率要求。
與此同時(shí),大模型從應(yīng)用角度還面臨算力的三大痛點(diǎn):
算力需求大:例如從GPT-3到Llama-3,從開始使用3640 PD(每天完成的的千萬(wàn)億次浮點(diǎn)運(yùn)算量petaflop/day)到421875 PD,計(jì)算量增長(zhǎng)約116倍;
計(jì)算效率低:高昂的GPU資源往往無(wú)法充分利用,帶來極大浪費(fèi);
能耗壓力大:以訓(xùn)練10萬(wàn)億參數(shù)模型為例,需用10萬(wàn)張H100、運(yùn)行1193天,耗電40億千瓦時(shí),相當(dāng)于1.4億美國(guó)家庭一天的用電量。
內(nèi)存方面,在AI模型高度運(yùn)算趨勢(shì)下,訓(xùn)練過程對(duì)內(nèi)存的依賴性也日益增加。據(jù)SK海力士數(shù)據(jù)顯示,BERT時(shí)期僅5%的計(jì)算為內(nèi)存密集型任務(wù),而到GPT-3已高達(dá)92%。內(nèi)存雖然在擴(kuò)容,但工藝發(fā)展受限,因此可以看到大家對(duì)使用堆疊技術(shù)、容量密度高的HBM的需求增長(zhǎng)迅速,還有顯存與服務(wù)器內(nèi)存需求也在不斷增加。
再看閃存存儲(chǔ)部分,AI服務(wù)器的算力單元成本里大概有60%-90%是計(jì)算單元,也就是GPU。而我們要做的就是活用算力單元,讓它的使用率變高,降本增效。閃存存儲(chǔ)方面需要承擔(dān)的是避免停機(jī)的存儲(chǔ)穩(wěn)定性,還有高性能,讓GPU務(wù)盡其用,以及節(jié)能和節(jié)省物理空間。
AI訓(xùn)練與推理全流程的存儲(chǔ)需求剖析
從AI大模型的訓(xùn)練和推理角度來看存儲(chǔ)。AI數(shù)據(jù)流的推動(dòng)過程包括數(shù)據(jù)提取、準(zhǔn)備(清洗、向量化)、模型訓(xùn)練(含檢查點(diǎn)和恢復(fù))、量化、微調(diào)、推理(結(jié)合RAG抓取實(shí)時(shí)資料)以及推理結(jié)果歸檔。整個(gè)流程與存儲(chǔ)密切相關(guān),不同階段對(duì)存儲(chǔ)的需求有所不同。
例如,數(shù)據(jù)處理、訓(xùn)練、微調(diào)使用閃存為介質(zhì)的固態(tài)硬盤,數(shù)據(jù)攝取、歸檔通常搭配機(jī)械式硬盤(對(duì)象存儲(chǔ)層),而且中間使用全閃存層作為緩存,既滿足冷數(shù)據(jù)管理,也支撐熱數(shù)據(jù)吞吐。
而且在模型訓(xùn)練階段,存儲(chǔ)的核心任務(wù)是提供訓(xùn)練數(shù)據(jù)來充分利用GPU資源,并保護(hù)訓(xùn)練投資。存儲(chǔ)的關(guān)鍵能力包括高讀取帶寬(以減少GPU等待時(shí)間)、快速寫入檢查點(diǎn)數(shù)據(jù)(以便在系統(tǒng)崩潰時(shí)快速恢復(fù))以及易于擴(kuò)展。
推理階段則需要高可靠性和短讀取時(shí)間,以支持安全存儲(chǔ)和高效批量處理。
在模型訓(xùn)練過程中,檢查點(diǎn)寫入器也與存儲(chǔ)高度相關(guān),用于保存中間數(shù)據(jù)以防止系統(tǒng)崩潰導(dǎo)致的訓(xùn)練中斷。以175B參數(shù)模型為例,檢查點(diǎn)大小約為2.45TB。若在2小時(shí)內(nèi)完成2.5%的寫入時(shí)間(180秒),則存儲(chǔ)頻寬至少需達(dá)到13.6GB/s。也就是說在評(píng)估存儲(chǔ)媒介時(shí),必須確保足夠的頻寬以滿足訓(xùn)練需求。
檢查點(diǎn)恢復(fù)部分同理,175B的參數(shù)模型,欲恢復(fù)的模型參數(shù)與暫態(tài)數(shù)據(jù)大小約為2.45TB。假設(shè)模型是16個(gè)實(shí)例并行數(shù)據(jù)讀取,希望5小時(shí)內(nèi)把數(shù)據(jù)寫回來,就需要頻寬是2.18GB/s,對(duì)存儲(chǔ)的吞吐能力和穩(wěn)定性提出了硬性要求。
在推理的存儲(chǔ)架構(gòu)中,需存儲(chǔ)微調(diào)前后的模型數(shù)據(jù),以及RAG數(shù)據(jù)。同時(shí),推理完成后將提示詞輸入和結(jié)果輸出寫入存儲(chǔ)。以往數(shù)據(jù)直接寫入HDD(冷盤),但為提升用戶體驗(yàn),需引入硬盤緩存數(shù)據(jù),將提示詞輸入和結(jié)果輸出存儲(chǔ)在SSD上,以便后續(xù)相似問題可直接從緩存獲取結(jié)果,避免重復(fù)推理。例如,128K輸入的首次Token延遲可從13秒降至500毫秒。因此,大容量SSD是理想的存儲(chǔ)媒介。更適用于云端和一體機(jī),可提升速度和用戶體驗(yàn)。
從終端設(shè)備到邊緣端,再到公共云混合型數(shù)據(jù)中心,整個(gè)流程涉及數(shù)據(jù)收集、模型訓(xùn)練、推理、信息收集和參數(shù)調(diào)整。大模型訓(xùn)練的數(shù)據(jù)需要結(jié)合RAG或?qū)崟r(shí)資料進(jìn)行更新,RAG數(shù)據(jù)庫(kù)可部署在邊緣端、核心數(shù)據(jù)中心或公共云。在落地應(yīng)用時(shí),需要進(jìn)行整體規(guī)劃,確保全流程的無(wú)縫銜接,從而提升系統(tǒng)效率和用戶體驗(yàn)。
銓興科技:應(yīng)對(duì)AI存儲(chǔ)挑戰(zhàn)的創(chuàng)新實(shí)踐
在AI訓(xùn)練與推理領(lǐng)域,銓興推出一系列企業(yè)級(jí)SSD產(chǎn)品與解決方案,以應(yīng)對(duì)行業(yè)挑戰(zhàn)。
在企業(yè)級(jí)SSD產(chǎn)品方面,推出QLC PCIe 5.0企業(yè)級(jí)SSD,其最高容量達(dá)122.88TB,接口支持PCIe 5.0,還支持Dual Port,可靠性達(dá)10負(fù)18次方級(jí)別,適用于緩存、向量數(shù)據(jù)庫(kù)RAG存儲(chǔ)。其超高讀速,超高容量,是AI 推理的最佳存儲(chǔ)搭檔。
高速TLC PCIe 5.0 SSD單盤容量達(dá)30.72TB,適合模型訓(xùn)練、HPC計(jì)算等高IO需求場(chǎng)景。其高讀寫效能的表現(xiàn),是AI訓(xùn)練/HPC的存儲(chǔ)優(yōu)先選項(xiàng)
高DWPD SATA SSD在SATA接口上實(shí)現(xiàn)最高15.36TB容量與3 DWPD寫入耐久,遠(yuǎn)超行業(yè)平均0.5-1DWPD的功能特性。
在AI訓(xùn)練一體機(jī)解決方案上,銓興帶來添翼AI擴(kuò)容卡方案。該方案有效解決大模型訓(xùn)練中“顯存不夠、成本太高”的痛點(diǎn),原本訓(xùn)練DeepSeek-R1 671B模型需168張頂級(jí)GPU,使用16張中端GPU加上8張?zhí)硪頂U(kuò)容卡就能完成同等訓(xùn)練,成本從4200萬(wàn)降至200萬(wàn)以內(nèi),降低約90%。另外,單張GPU卡PC加1張?zhí)硪砜捎?xùn)練14B模型,四張GPU卡工作站加2張?zhí)硪砜蛇_(dá)72B模型。
該方案已廣泛適配英偉達(dá)、天數(shù)智芯、沐曦等國(guó)產(chǎn)顯卡,并與廈門大學(xué)、貴州大學(xué)、廣州大學(xué)等高校合作部署實(shí)測(cè),適用于要求高精度、全參數(shù)、70B及更大模型微調(diào)訓(xùn)練的本地化部署等場(chǎng)景。
最后
邱創(chuàng)隆強(qiáng)調(diào),大模型時(shí)代不僅需要更強(qiáng)的中心計(jì)算能力,更需要覆蓋終端、邊緣、公有云的多層級(jí)協(xié)同存儲(chǔ)體系。
無(wú)論是實(shí)時(shí)抓取RAG數(shù)據(jù)庫(kù)、還是模型分發(fā)/回寫、還是訓(xùn)練檢查點(diǎn)的寫入恢復(fù),都需要高性能、高容量、低功耗的存儲(chǔ)設(shè)備提供強(qiáng)力支撐。