AI技術(shù)的迅速發(fā)展正在推動從自動化到內(nèi)容生成等多領(lǐng)域?qū)崿F(xiàn)質(zhì)的飛躍。為了保障AI應(yīng)用的順利運行,存儲作為AI基礎(chǔ)設(shè)施的核心組成部分,必須能夠滿足AI處理海量數(shù)據(jù)時的高要求。
AI工作負載通常分為訓(xùn)練、推理和應(yīng)用部署三階段。模型訓(xùn)練需要大量數(shù)據(jù)的輸入,推理過程產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)也非常龐大。為確保AI能夠高效地工作,對存儲系統(tǒng)的吞吐量、低延遲和大規(guī)模擴展性支持又提出了更高的要求。
AI和ML工作負載在訓(xùn)練和推理過程中會使用大量并行處理。通常,這些工作由圖形處理單元(GPU)或類似硬件來完成,這意味著存儲系統(tǒng)的I/O性能和并行數(shù)據(jù)處理能力至關(guān)重要。AI處理的數(shù)據(jù)往往是非結(jié)構(gòu)化的,例如圖像、視頻或物聯(lián)網(wǎng)(IoT)傳感器生成的海量小文件,這對存儲系統(tǒng)的架構(gòu)設(shè)計提出了更高的要求。
AI工作負載的I/O需求通常是大規(guī)模并行處理,并且依賴于高性能存儲以支持訓(xùn)練和推理過程中的大數(shù)據(jù)吞吐量。存儲系統(tǒng)必須具備以下幾個特性:
1. 低延遲:AI模型訓(xùn)練過程中,存儲系統(tǒng)需要快速將數(shù)據(jù)傳輸給處理單元(如GPU),以確保硬件資源得到最佳利用。低延遲的存儲系統(tǒng)可以大幅提升模型訓(xùn)練速度。
2. 高吞吐量:AI工作負載產(chǎn)生的數(shù)據(jù)量通常是TB甚至PB級別,因此,存儲系統(tǒng)需要能夠支持高速的數(shù)據(jù)傳輸,確保數(shù)據(jù)能夠在短時間內(nèi)加載到AI處理器中。
3. 數(shù)據(jù)存儲類型多樣化:AI訓(xùn)練和推理使用的數(shù)據(jù)可能包括大量的小文件(如IoT數(shù)據(jù))或大型對象(如視頻、圖像)。因此,存儲系統(tǒng)需要能夠適應(yīng)各種不同的數(shù)據(jù)格式和大小,并確保數(shù)據(jù)的高效管理。
4.數(shù)據(jù)的長期保存:在AI項目中,某些數(shù)據(jù)在初期階段可能并未被視為關(guān)鍵,但隨著項目的進展,可能會變得至關(guān)重要。因此,存儲系統(tǒng)還需要能夠支持大規(guī)模的長期數(shù)據(jù)存儲和歸檔。
當(dāng)然各色存儲廠商對于AI工作負載提供的存儲方案也是同而不同。
比如,戴爾則通過戴爾AI Factory硬件堆棧,包含臺式機、筆記本電腦和高性能服務(wù)器如PowerEdge XE9680擁有高計算能力,適合處理大模型和數(shù)據(jù)工作負載、PowerScale F710基于PowerEdge R660的1U機架式存儲設(shè)備,提供高性能和大容量,適用于AI、大數(shù)據(jù)分析、高性能計算、基因組學(xué)等現(xiàn)代工作負載,并通過英偉達的AI基礎(chǔ)架構(gòu)驗證。戴爾還通過Apex服務(wù)計劃提供彈性的存儲服務(wù),滿足企業(yè)不同規(guī)模的AI存儲需求。
浪潮信息聚焦行業(yè)客戶的大模型落地需求,推出了新品分布式全閃存儲AS13000G7-N系列,還有發(fā)布基于AS13000G7的AIGC存儲解決方案,與上層的EPAI/AIStation調(diào)度軟件相結(jié)合,通過智能預(yù)讀和故障處理技術(shù)服務(wù)用戶。方案還通過全局命名空間和數(shù)據(jù)冷熱分層自動流轉(zhuǎn),實現(xiàn)數(shù)據(jù)在不同介質(zhì)上的自由流動,提升存儲效率。
新華三在存儲方面,推出新一代AI存儲——Polaris系列,將Storage For AI和AI In Storage思路融合。Storage For AI通過全閃介質(zhì)(性能加速)、數(shù)據(jù)池化和AI智能管理特性滿足AI業(yè)務(wù)負載對存儲設(shè)備的性能和功能需求,AI In Storage融入AI技術(shù)在智能運維、智能加速、智能助手等工具,大幅降低存儲設(shè)備在運維、管理、排障、規(guī)劃、配置、優(yōu)化等方面的工作量和成本。并且傳統(tǒng)GPU和存儲架構(gòu)中,GPU訪問存儲數(shù)據(jù)需要繞行CPU,存算融合方案支持GPU直聯(lián)。
IBM的Spectrum Storage for AI產(chǎn)品線與AI應(yīng)用深度融合,支持從訓(xùn)練到推理的全流程數(shù)據(jù)處理。IBM的存儲系統(tǒng)采用了智能化的存儲管理工具,能夠根據(jù)數(shù)據(jù)的使用頻率和類型動態(tài)分配存儲資源,提升存儲性能的同時,確保數(shù)據(jù)的安全性和可用性。此外,IBM還推出了專門針對AI項目的解決方案,能大規(guī)模擴展存儲容量,支持海量非結(jié)構(gòu)化數(shù)據(jù)的高效存儲與管理。
西部數(shù)據(jù)今年推出一個六階段的數(shù)據(jù)處理框架,分別是原始數(shù)據(jù)存檔和內(nèi)容存儲、數(shù)據(jù)準(zhǔn)備和采集、AI模型訓(xùn)練、界面和提示、AI推理引擎、新內(nèi)容生成,可用于人工智能的數(shù)據(jù)處理周期。西部數(shù)據(jù)也戰(zhàn)略性地定制了其產(chǎn)品,以滿足人工智能數(shù)據(jù)處理周期每個關(guān)鍵階段的存儲需求,其中包括,用于人工智能訓(xùn)練和推理的強大 PCIe Gen5 SSD,用于快速 AI 數(shù)據(jù)湖的高容量 64TB SSD,全球容量最高的ePMR UltraSMR 32TB硬盤,實現(xiàn)經(jīng)濟高效的存儲。
Pure Storage是提供Evergreen//One 解決方案能夠滿足能夠提供高性能和平臺整合,確保企業(yè)能夠優(yōu)化其AI存儲。并通過持續(xù)、無中斷的升級,確保AI投資面向未來,保持先進的基礎(chǔ)設(shè)施。還有提供可預(yù)測的成本,消除大量資本支出,允許更好的預(yù)算分配。
總結(jié)
當(dāng)然還有更多的存儲廠商對AI存儲有不同的切入點,大家都在不斷優(yōu)化自身解決方案滿足AI的需求,確保AI模型的訓(xùn)練和推理過程更加高效、智能。未來,隨著AI技術(shù)的持續(xù)進步,存儲與AI的協(xié)同將進一步加深。歡迎大家參與11月8日2024中國數(shù)據(jù)與存儲峰會,走進AI+存儲協(xié)同發(fā)展論壇,了解更多關(guān)于AI與存儲的故事。