傳統(tǒng)大模型訓(xùn)練往往采用單階段的大規(guī)模預(yù)訓(xùn)練,即一次性將海量語料喂給模型訓(xùn)練,數(shù)據(jù)準備往往是離線完成。訓(xùn)練時只需順序或隨機讀取一個已經(jīng)準備好的靜態(tài)數(shù)據(jù)集,存儲系統(tǒng)的主要壓力點在讀放吞吐量上,對寫入實時性要求較低。
而具有強推理能力的模型引入了多階段訓(xùn)練流程。例如 DeepSeek-R1 的訓(xùn)練被分為兩個階段:
這種訓(xùn)練范式意味著數(shù)據(jù)不再全是人類標注或靜態(tài)抓取而來,其中一部分是模型自生成的數(shù)據(jù)。因此,數(shù)據(jù)管理需要支持模型在訓(xùn)練過程中動態(tài)地產(chǎn)生新數(shù)據(jù)并納入訓(xùn)練集。例如 DeepSeek 在第一階段產(chǎn)出的“大量推理過程數(shù)據(jù)”需要及時存儲、校驗,并供后續(xù)訓(xùn)練高效讀取。這對存儲系統(tǒng)的吞吐和延遲提出新要求:既要能快速寫入模型推理日志數(shù)據(jù),又要能高效讀取這些數(shù)據(jù)進行二次訓(xùn)練。
在推理階段,強推理 AI 模型常常需要處理更復(fù)雜的數(shù)據(jù)交互與多步中間計算。以 DeepSeek 的 MLA(Multi-Level Aggregator)架構(gòu)為例,其內(nèi)置的多層 KV Cache 機制允許模型針對不同粒度和階段的歷史信息進行存儲與調(diào)用,從而實現(xiàn)更靈活的鏈式推理(CoT)。這一機制顯著區(qū)別于傳統(tǒng)模型一次性輸入所有上下文、直接輸出答案的方式:
頻繁的歷史信息引用:MLA 架構(gòu)會在推理過程中多次讀取先前生成的中間表征(如上一階段或上一個層級的 Key-Value),甚至可能需要回溯早前的推理步驟。傳統(tǒng)單層緩存或簡單輸入-輸出模式難以滿足這樣的反復(fù)調(diào)用,而多層 KV Cache 能夠極大地減少訪問延遲和重復(fù)計算。
多層存儲更近計算單元:為了有效支持這類高頻讀寫和回溯操作,MLA 通常在計算節(jié)點附近緩存關(guān)鍵的中間狀態(tài)(如隱層表示、Key-Value 矩陣等)。相較“計算與存儲完全分離”的傳統(tǒng)架構(gòu),這種將存儲部分下沉至計算節(jié)點的設(shè)計,可顯著降低反查歷史步驟的延遲,提升推理效率。
MLA 的多層 KV Cache 機制不僅支撐了強推理 AI 對歷史上下文與中間結(jié)果的反復(fù)引用,也帶來了對 AI 基礎(chǔ)設(shè)施的新要求:需要兼顧高并發(fā)、低延遲的數(shù)據(jù)讀寫模式,能夠在推理過程中靈活地管理、緩存與交換信息,從而使得復(fù)雜、多步的推理在實際應(yīng)用中更高效、更可控。
面對強推理 AI 帶來的變革,AI 基礎(chǔ)設(shè)施必須迅速演進,以支撐更智能且復(fù)雜的數(shù)據(jù)流動。
為了滿足現(xiàn)代大模型與 AI Agent 對實時數(shù)據(jù)交互、狀態(tài)緩存及跨模塊協(xié)同的需求,必須構(gòu)建并引入具備高性能、低延遲和彈性擴展能力的新一代存儲組件。這些組件不僅包括云原生分布式對象存儲、內(nèi)存級高速緩存和分層存儲系統(tǒng),還需支持與外部向量數(shù)據(jù)庫、檢索系統(tǒng)以及 AI Agent 之間的無縫數(shù)據(jù)交換,從而實現(xiàn)‘存算一體’的智能數(shù)據(jù)流管理。
正如前文所述的“計算與存儲更近”趨勢,為支持長鏈式推理模型,硬件與系統(tǒng)層面紛紛探索計算與存儲深度協(xié)同的方案。
在硬件層面,不少芯片廠商已采用片上大容量高速內(nèi)存(例如 SRAM)取代傳統(tǒng) GPU 外部顯存,使計算單元能夠直接訪問更大范圍的數(shù)據(jù)上下文,從而實現(xiàn)推理速度的數(shù)量級提升;
在系統(tǒng)架構(gòu)方面,部分方案甚至將存儲節(jié)點部署于計算集群內(nèi)部,或令每個 GPU 節(jié)點承擔(dān)部分存儲職責(zé),從而模糊了計算與存儲節(jié)點的邊界,并通過高速互連實現(xiàn)數(shù)據(jù)在計算單元間的直接共享,大幅減少遠程存儲訪問延遲。
對于需要頻繁調(diào)用歷史步驟或共享中間結(jié)果的推理任務(wù),這種計算存儲協(xié)同設(shè)計顯著降低了整體延遲。
AI 基礎(chǔ)設(shè)施還必須具備更加智能化的數(shù)據(jù)流管理能力。例如,在模型訓(xùn)練過程中,可通過調(diào)度系統(tǒng)根據(jù)實際需求動態(tài)調(diào)整數(shù)據(jù)加載順序與節(jié)奏,從而確保計算資源的高效利用而不因數(shù)據(jù)延遲而受阻。在強推理場景下,系統(tǒng)可實時監(jiān)控推理過程,并提前將可能需要的歷史信息或知識庫內(nèi)容預(yù)取至本地緩存,為后續(xù)操作鋪設(shè)數(shù)據(jù)通道。同時,依據(jù)推理邏輯的動態(tài)演進,實時調(diào)整數(shù)據(jù)供應(yīng)策略。這種彈性調(diào)度的數(shù)據(jù)流水線管理能力,將成為未來 AI 基礎(chǔ)設(shè)施的重要標志,使其能夠靈活適應(yīng)各類模型和任務(wù)的多樣化數(shù)據(jù)訪問需求。換句話說,存儲系統(tǒng)將從被動的數(shù)據(jù)提供者轉(zhuǎn)變?yōu)楦鶕?jù) AI 模型“意圖”主動優(yōu)化數(shù)據(jù)分發(fā)的智能組件。
值得注意的是,DeepSeek-R1 的成功也提醒我們:未來 AI 發(fā)展未必完全依賴數(shù)據(jù)規(guī)模的粗放增長,更取決于算法和系統(tǒng)效率的提升。在存儲層面,這意味著與其簡單擴大存儲容量,不如優(yōu)化數(shù)據(jù)利用效率、加速數(shù)據(jù)流通。通過更智能的存儲架構(gòu),我們有望以更小的數(shù)據(jù)規(guī)模實現(xiàn)更強的模型能力,從而走出“規(guī)模至上”的路徑依賴。
為了滿足新一代 AI 訓(xùn)練與推理對高性能、可擴展性及智能化的需求,存儲架構(gòu)正迎來全方位的升級改造。下面總結(jié)了幾個關(guān)鍵方向及其最佳實踐:
首先,應(yīng)優(yōu)先部署云原生分布式對象存儲作為數(shù)據(jù)湖的核心。例如,采用基于 S3 協(xié)議的存儲集群不僅可以靈活擴展,還能提供高吞吐能力,目前已有眾多 AI 團隊利用該方案支持大模型全流程訓(xùn)練。對于需要 POSIX 接口的訓(xùn)練框架,可在對象存儲之上構(gòu)建一個文件系統(tǒng)層,以兼顧擴展性與現(xiàn)有接口兼容性,但同時應(yīng)注意避免引入不必要的復(fù)雜度,確保整體系統(tǒng)簡潔而穩(wěn)定。
為訓(xùn)練集群配置全閃存存儲(例如采用 NVMe over Fabric 架構(gòu))可以充分釋放 GPU 計算能力,因為全閃存存儲憑借高 IOPS 和低延遲,既能應(yīng)對訓(xùn)練過程中隨機抽取小批數(shù)據(jù)的需求,也能保障推理時多個模型并發(fā)加載時的響應(yīng)速度。同時,構(gòu)建分級存儲架構(gòu)同樣是一項最佳實踐:將最“熱”的數(shù)據(jù)(如當(dāng)前訓(xùn)練批次和最新檢查點)存放于最快的存儲層(例如 GPU 本地 HBM/DDR 構(gòu)建的內(nèi)存緩存池),將次熱數(shù)據(jù)置于專屬分布式 NVMe 池,而較冷的數(shù)據(jù)則存于容量型存儲(如 HDD 池或?qū)ο蟠鎯Γ?。這種梯度存儲設(shè)計有效平衡了性能與成本,為不同數(shù)據(jù)“溫度”提供了最合適的存儲方案。
為了降低存儲延遲并提升整體效率,充分利用緩存技術(shù)至關(guān)重要。在訓(xùn)練階段,可通過節(jié)點本地的 NVMe SSD 構(gòu)建用于近期讀取數(shù)據(jù)塊的緩存,從而使后續(xù)的 epoch 能直接命中緩存,避免重復(fù)加載。在推理階段,則建議部署內(nèi)存或高速 SSD 緩存,專門用于存儲熱門問答、對話上下文及常用知識庫文檔。與此同時,借助智能預(yù)取機制,系統(tǒng)能夠依據(jù)訓(xùn)練計劃或推理請求模式提前將必要數(shù)據(jù)加載入緩存——例如,提前預(yù)取下一數(shù)據(jù)分片或相關(guān)知識向量。這樣的智能緩存策略需依托于 AI 模型的訪問模式分析,實現(xiàn)緩存命中率的最優(yōu)化,并通過軟硬件協(xié)同調(diào)優(yōu),使存儲系統(tǒng)從被動響應(yīng)轉(zhuǎn)變?yōu)橹鲃訚M足 AI 需求。
最后,盡管性能至關(guān)重要,但存儲系統(tǒng)的可靠性同樣不可忽視。由于大模型訓(xùn)練通常周期長、投入巨大,存儲解決方案必須考慮故障恢復(fù)和數(shù)據(jù)冗余。最佳實踐包括在跨機架或數(shù)據(jù)中心層面實現(xiàn)冗余存儲檢查點,利用糾刪碼技術(shù)確保語料數(shù)據(jù)的安全,以及在多云環(huán)境中部署同步存儲服務(wù),防止單一云服務(wù)故障。這些措施有效保障了在硬件故障或區(qū)域中斷時,訓(xùn)練任務(wù)能夠迅速切換數(shù)據(jù)源,避免前期工作化為泡影。
當(dāng)前,AI 訓(xùn)練與存儲架構(gòu)正從傳統(tǒng) HPC 模式向 AI 原生架構(gòu)深度轉(zhuǎn)型。對最新 LLM 存儲挑戰(zhàn)的分析表明,傳統(tǒng)并行文件系統(tǒng)在許多應(yīng)用場景中已顯不足,正在被更靈活高效的對象存儲解決方案所替代,同時輔以文件系統(tǒng) Posix 接口來優(yōu)化數(shù)據(jù)管理。隨著強推理 AI 模型的不斷涌現(xiàn),未來 AI 工作負載將呈現(xiàn)出更加動態(tài)、智能化的數(shù)據(jù)流,這就要求存儲系統(tǒng)更緊密地貼合計算需求,并具備智能調(diào)度數(shù)據(jù)的能力。
數(shù)據(jù)常青(Make Data Alive)— 請聯(lián)系 XSKY星辰天合來一起解鎖數(shù)據(jù)的無限價值,讓您的數(shù)據(jù)驅(qū)動創(chuàng)新。