生成式AI應(yīng)用的不同階段,特點(diǎn)和要求也有所不同。以數(shù)據(jù)歸集和準(zhǔn)備階段為例,其要求的是千億級(jí)、百PB級(jí)存儲(chǔ)空間的支撐。多模態(tài)大模型依賴海量文本、圖片和音視頻資源,這個(gè)階段需要關(guān)注多協(xié)議歸集和異構(gòu)存儲(chǔ)統(tǒng)一納管;訓(xùn)練階段需要關(guān)注CheckPoint寫入和讀取帶寬的問題,解決 TensorFlow 開發(fā)框架中TFRecord數(shù)據(jù)格式中的小IO文件隨機(jī)讀寫性能不佳的問題;而推理階段要關(guān)注高效KV Cache管理問題,以期減小重復(fù)計(jì)算,從而提升推理速度和并發(fā)性。

浪潮數(shù)據(jù)將這些問題概括為“橫向高效流動(dòng),縱向高速訪問,聯(lián)合上下游建生態(tài)”,并提出面向場景的深度定制和優(yōu)化的理念。

橫向高效流動(dòng)涉及多協(xié)議融合以及全局文件系統(tǒng)設(shè)計(jì)問題。以多協(xié)議融合為例,其主要追求的是數(shù)據(jù)和元數(shù)據(jù)在存儲(chǔ)池中只存一份,實(shí)現(xiàn)S3、HDFS和NAS多協(xié)議訪問互聯(lián)互通。簡單來說,就像一瓶汽水安排了多個(gè)吸管?;谏墒紸I的數(shù)據(jù)局部性原理、相鄰數(shù)據(jù)可能被訪問的特點(diǎn),元數(shù)據(jù)組織采用范圍分片替代哈希分片。通過這一設(shè)計(jì),數(shù)據(jù)在存儲(chǔ)介質(zhì)上以連續(xù)存儲(chǔ)或鄰近存儲(chǔ)形式呈現(xiàn),可以顯著提升預(yù)取效率和緩存機(jī)制命中率,從而減少磁盤I/O操作次數(shù),提高AI訓(xùn)練和推理的效率。

與橫向流動(dòng)相比,縱向高速訪問則更為大家所熟悉。英偉達(dá)的GDS(GPU Direct Storage)本質(zhì)是NVMe和RDMA技術(shù)的結(jié)合,目的在于減少CPU參與帶來的時(shí)延,追求更高效的數(shù)據(jù)訪問。因此,RDMA、NoF(NVMe over Fabric)都是必須要考慮的設(shè)計(jì)因素。對于提高GPU訪問外部數(shù)據(jù)存儲(chǔ)的效率,這些技術(shù)立竿見影。

針對AI場景的小IO隨機(jī)讀寫,全局緩存也是數(shù)據(jù)縱向高速訪問的重要因素。涉及小I/O訪問,需要寫入Cache并在Cache中做小I/O聚合,變隨機(jī)寫為順序?qū)?,從而大幅提升?jié)點(diǎn)隨機(jī)小I/O寫入性能;考慮到分布式存儲(chǔ)的多副本設(shè)計(jì),節(jié)點(diǎn)間副本若采用單邊RDMA技術(shù),數(shù)據(jù)同步無需對端CPU介入,就可以實(shí)現(xiàn)延時(shí)降低50%、CPU節(jié)約20%的目標(biāo)。

此外,針對創(chuàng)新CPU應(yīng)用,還需要充分考慮芯片的設(shè)計(jì)特點(diǎn),揚(yáng)長避短,發(fā)揮其優(yōu)勢和特性,如減少雙路CPU之間的數(shù)據(jù)轉(zhuǎn)發(fā)等。

充分考慮到生成式AI的這些特點(diǎn),浪潮數(shù)據(jù)存儲(chǔ)通過場景化定制策略采用有針對性的技術(shù)方案,在MLPerf? Storage v1.0機(jī)器學(xué)習(xí)工作負(fù)載下存儲(chǔ)性能國際基準(zhǔn)測試中,獲得了5項(xiàng)第一、3項(xiàng)第二,綜合成績?nèi)虻谝坏某煽儭?/p>

正如3FS針對DeepSeek訓(xùn)練的深度定制,浪潮數(shù)據(jù)依托完整的研發(fā)體系和團(tuán)隊(duì)聯(lián)合上下游針對AI甚至更廣闊的場景進(jìn)行深度定制,為最終用戶提供更好的解決方案。

分享到

zhupb

相關(guān)推薦