傳統(tǒng)大模型訓(xùn)練往往采用單階段的大規(guī)模預(yù)訓(xùn)練，即一次性將海量語料喂給模型訓(xùn)練，數(shù)據(jù)準備往往是離線完成。訓(xùn)練時只需順序或隨機讀取一個已經(jīng)準備好的靜態(tài)數(shù)據(jù)集，存儲系統(tǒng)的主要壓力點在讀放吞吐量上，對寫入實時性要求較低。

而具有強推理能力的模型引入了多階段訓(xùn)練流程。例如 DeepSeek-R1 的訓(xùn)練被分為兩個階段：

第一階段基于已有基礎(chǔ)模型生成“深度推理數(shù)據(jù)”，也就是讓模型自身產(chǎn)出推理過程的中間步驟數(shù)據(jù)；
第二階段再將這些模型推理產(chǎn)生的數(shù)據(jù)與常規(guī)的有監(jiān)督微調(diào)數(shù)據(jù)結(jié)合，對模型進行微調(diào)并配以強化學(xué)習，最終得到擅長邏輯推理的模型。

這種訓(xùn)練范式意味著數(shù)據(jù)不再全是人類標注或靜態(tài)抓取而來，其中一部分是模型自生成的數(shù)據(jù)。因此，數(shù)據(jù)管理需要支持模型在訓(xùn)練過程中動態(tài)地產(chǎn)生新數(shù)據(jù)并納入訓(xùn)練集。例如 DeepSeek 在第一階段產(chǎn)出的“大量推理過程數(shù)據(jù)”需要及時存儲、校驗，并供后續(xù)訓(xùn)練高效讀取。這對存儲系統(tǒng)的吞吐和延遲提出新要求：既要能快速寫入模型推理日志數(shù)據(jù)，又要能高效讀取這些數(shù)據(jù)進行二次訓(xùn)練。

推理階段的數(shù)據(jù)交互

在推理階段，強推理 AI 模型常常需要處理更復(fù)雜的數(shù)據(jù)交互與多步中間計算。以 DeepSeek 的 MLA（Multi-Level Aggregator）架構(gòu)為例，其內(nèi)置的多層 KV Cache 機制允許模型針對不同粒度和階段的歷史信息進行存儲與調(diào)用，從而實現(xiàn)更靈活的鏈式推理（CoT）。這一機制顯著區(qū)別于傳統(tǒng)模型一次性輸入所有上下文、直接輸出答案的方式：

頻繁的歷史信息引用：MLA 架構(gòu)會在推理過程中多次讀取先前生成的中間表征（如上一階段或上一個層級的 Key-Value），甚至可能需要回溯早前的推理步驟。傳統(tǒng)單層緩存或簡單輸入-輸出模式難以滿足這樣的反復(fù)調(diào)用，而多層 KV Cache 能夠極大地減少訪問延遲和重復(fù)計算。

多層存儲更近計算單元：為了有效支持這類高頻讀寫和回溯操作，MLA 通常在計算節(jié)點附近緩存關(guān)鍵的中間狀態(tài)（如隱層表示、Key-Value 矩陣等）。相較“計算與存儲完全分離”的傳統(tǒng)架構(gòu)，這種將存儲部分下沉至計算節(jié)點的設(shè)計，可顯著降低反查歷史步驟的延遲，提升推理效率。

MLA 的多層 KV Cache 機制不僅支撐了強推理 AI 對歷史上下文與中間結(jié)果的反復(fù)引用，也帶來了對 AI 基礎(chǔ)設(shè)施的新要求：需要兼顧高并發(fā)、低延遲的數(shù)據(jù)讀寫模式，能夠在推理過程中靈活地管理、緩存與交換信息，從而使得復(fù)雜、多步的推理在實際應(yīng)用中更高效、更可控。

AI 基礎(chǔ)設(shè)施如何適應(yīng)更智能的數(shù)據(jù)流動模式

面對強推理 AI 帶來的變革，AI 基礎(chǔ)設(shè)施必須迅速演進，以支撐更智能且復(fù)雜的數(shù)據(jù)流動。

引入新的存儲系統(tǒng)組件

為了滿足現(xiàn)代大模型與 AI Agent 對實時數(shù)據(jù)交互、狀態(tài)緩存及跨模塊協(xié)同的需求，必須構(gòu)建并引入具備高性能、低延遲和彈性擴展能力的新一代存儲組件。這些組件不僅包括云原生分布式對象存儲、內(nèi)存級高速緩存和分層存儲系統(tǒng)，還需支持與外部向量數(shù)據(jù)庫、檢索系統(tǒng)以及 AI Agent 之間的無縫數(shù)據(jù)交換，從而實現(xiàn)‘存算一體’的智能數(shù)據(jù)流管理。

計算存儲協(xié)同設(shè)計

正如前文所述的“計算與存儲更近”趨勢，為支持長鏈式推理模型，硬件與系統(tǒng)層面紛紛探索計算與存儲深度協(xié)同的方案。

在硬件層面，不少芯片廠商已采用片上大容量高速內(nèi)存（例如 SRAM）取代傳統(tǒng) GPU 外部顯存，使計算單元能夠直接訪問更大范圍的數(shù)據(jù)上下文，從而實現(xiàn)推理速度的數(shù)量級提升；

在系統(tǒng)架構(gòu)方面，部分方案甚至將存儲節(jié)點部署于計算集群內(nèi)部，或令每個 GPU 節(jié)點承擔部分存儲職責，從而模糊了計算與存儲節(jié)點的邊界，并通過高速互連實現(xiàn)數(shù)據(jù)在計算單元間的直接共享，大幅減少遠程存儲訪問延遲。

對于需要頻繁調(diào)用歷史步驟或共享中間結(jié)果的推理任務(wù)，這種計算存儲協(xié)同設(shè)計顯著降低了整體延遲。

數(shù)據(jù)流水線的彈性智能調(diào)度

AI 基礎(chǔ)設(shè)施還必須具備更加智能化的數(shù)據(jù)流管理能力。例如，在模型訓(xùn)練過程中，可通過調(diào)度系統(tǒng)根據(jù)實際需求動態(tài)調(diào)整數(shù)據(jù)加載順序與節(jié)奏，從而確保計算資源的高效利用而不因數(shù)據(jù)延遲而受阻。在強推理場景下，系統(tǒng)可實時監(jiān)控推理過程，并提前將可能需要的歷史信息或知識庫內(nèi)容預(yù)取至本地緩存，為后續(xù)操作鋪設(shè)數(shù)據(jù)通道。同時，依據(jù)推理邏輯的動態(tài)演進，實時調(diào)整數(shù)據(jù)供應(yīng)策略。這種彈性調(diào)度的數(shù)據(jù)流水線管理能力，將成為未來 AI 基礎(chǔ)設(shè)施的重要標志，使其能夠靈活適應(yīng)各類模型和任務(wù)的多樣化數(shù)據(jù)訪問需求。換句話說，存儲系統(tǒng)將從被動的數(shù)據(jù)提供者轉(zhuǎn)變?yōu)楦鶕?jù) AI 模型“意圖”主動優(yōu)化數(shù)據(jù)分發(fā)的智能組件。

值得注意的是，DeepSeek-R1 的成功也提醒我們：未來 AI 發(fā)展未必完全依賴數(shù)據(jù)規(guī)模的粗放增長，更取決于算法和系統(tǒng)效率的提升。在存儲層面，這意味著與其簡單擴大存儲容量，不如優(yōu)化數(shù)據(jù)利用效率、加速數(shù)據(jù)流通。通過更智能的存儲架構(gòu)，我們有望以更小的數(shù)據(jù)規(guī)模實現(xiàn)更強的模型能力，從而走出“規(guī)模至上”的路徑依賴。

存儲架構(gòu)的演進方向

為了滿足新一代 AI 訓(xùn)練與推理對高性能、可擴展性及智能化的需求，存儲架構(gòu)正迎來全方位的升級改造。下面總結(jié)了幾個關(guān)鍵方向及其最佳實踐：

分布式對象存儲

首先，應(yīng)優(yōu)先部署云原生分布式對象存儲作為數(shù)據(jù)湖的核心。例如，采用基于 S3 協(xié)議的存儲集群不僅可以靈活擴展，還能提供高吞吐能力，目前已有眾多 AI 團隊利用該方案支持大模型全流程訓(xùn)練。對于需要 POSIX 接口的訓(xùn)練框架，可在對象存儲之上構(gòu)建一個文件系統(tǒng)層，以兼顧擴展性與現(xiàn)有接口兼容性，但同時應(yīng)注意避免引入不必要的復(fù)雜度，確保整體系統(tǒng)簡潔而穩(wěn)定。

全閃存加速與分級存儲

為訓(xùn)練集群配置全閃存存儲（例如采用 NVMe over Fabric 架構(gòu)）可以充分釋放 GPU 計算能力，因為全閃存存儲憑借高 IOPS 和低延遲，既能應(yīng)對訓(xùn)練過程中隨機抽取小批數(shù)據(jù)的需求，也能保障推理時多個模型并發(fā)加載時的響應(yīng)速度。同時，構(gòu)建分級存儲架構(gòu)同樣是一項最佳實踐：將最“熱”的數(shù)據(jù)（如當前訓(xùn)練批次和最新檢查點）存放于最快的存儲層（例如 GPU 本地 HBM/DDR 構(gòu)建的內(nèi)存緩存池），將次熱數(shù)據(jù)置于專屬分布式 NVMe 池，而較冷的數(shù)據(jù)則存于容量型存儲（如 HDD 池或?qū)ο蟠鎯Γ?。這種梯度存儲設(shè)計有效平衡了性能與成本，為不同數(shù)據(jù)“溫度”提供了最合適的存儲方案。

智能預(yù)取與緩存

為了降低存儲延遲并提升整體效率，充分利用緩存技術(shù)至關(guān)重要。在訓(xùn)練階段，可通過節(jié)點本地的 NVMe SSD 構(gòu)建用于近期讀取數(shù)據(jù)塊的緩存，從而使后續(xù)的 epoch 能直接命中緩存，避免重復(fù)加載。在推理階段，則建議部署內(nèi)存或高速 SSD 緩存，專門用于存儲熱門問答、對話上下文及常用知識庫文檔。與此同時，借助智能預(yù)取機制，系統(tǒng)能夠依據(jù)訓(xùn)練計劃或推理請求模式提前將必要數(shù)據(jù)加載入緩存——例如，提前預(yù)取下一數(shù)據(jù)分片或相關(guān)知識向量。這樣的智能緩存策略需依托于 AI 模型的訪問模式分析，實現(xiàn)緩存命中率的最優(yōu)化，并通過軟硬件協(xié)同調(diào)優(yōu)，使存儲系統(tǒng)從被動響應(yīng)轉(zhuǎn)變?yōu)橹鲃訚M足 AI 需求。

可靠性與多云容災(zāi)

最后，盡管性能至關(guān)重要，但存儲系統(tǒng)的可靠性同樣不可忽視。由于大模型訓(xùn)練通常周期長、投入巨大，存儲解決方案必須考慮故障恢復(fù)和數(shù)據(jù)冗余。最佳實踐包括在跨機架或數(shù)據(jù)中心層面實現(xiàn)冗余存儲檢查點，利用糾刪碼技術(shù)確保語料數(shù)據(jù)的安全，以及在多云環(huán)境中部署同步存儲服務(wù)，防止單一云服務(wù)故障。這些措施有效保障了在硬件故障或區(qū)域中斷時，訓(xùn)練任務(wù)能夠迅速切換數(shù)據(jù)源，避免前期工作化為泡影。

當前，AI 訓(xùn)練與存儲架構(gòu)正從傳統(tǒng) HPC 模式向 AI 原生架構(gòu)深度轉(zhuǎn)型。對最新 LLM 存儲挑戰(zhàn)的分析表明，傳統(tǒng)并行文件系統(tǒng)在許多應(yīng)用場景中已顯不足，正在被更靈活高效的對象存儲解決方案所替代，同時輔以文件系統(tǒng) Posix 接口來優(yōu)化數(shù)據(jù)管理。隨著強推理 AI 模型的不斷涌現(xiàn)，未來 AI 工作負載將呈現(xiàn)出更加動態(tài)、智能化的數(shù)據(jù)流，這就要求存儲系統(tǒng)更緊密地貼合計算需求，并具備智能調(diào)度數(shù)據(jù)的能力。

數(shù)據(jù)常青（Make Data Alive）— 請聯(lián)系 XSKY星辰天合來一起解鎖數(shù)據(jù)的無限價值，讓您的數(shù)據(jù)驅(qū)動創(chuàng)新。

分享到

AI 基礎(chǔ)設(shè)施 DeepSeek XSKY

推理階段的數(shù)據(jù)交互

AI 基礎(chǔ)設(shè)施如何適應(yīng)更智能的數(shù)據(jù)流動模式

引入新的存儲系統(tǒng)組件

計算存儲協(xié)同設(shè)計

數(shù)據(jù)流水線的彈性智能調(diào)度

存儲架構(gòu)的演進方向

崔歡歡

相關(guān)推薦

近期文章

熱門標簽