此外,賽迪發(fā)布的《2024中國分布式存儲市場研究報告》也顯示,曙光存儲在中國AI存儲市場的領先地位得到鞏固,市場占有率顯著提升。國家信息中心發(fā)布的《智能算力產(chǎn)業(yè)發(fā)展白皮書》中特別推介了曙光存儲的“智存”產(chǎn)品,指出產(chǎn)品專為人工智能特定場景設計,能夠幫助企業(yè)用戶有效地利用其數(shù)據(jù)資產(chǎn)推動智能轉型和創(chuàng)新。

存儲加速如何提升AI整體表現(xiàn)?

曙光存儲的技術實力在AI領域的應用中得到了充分展示,尤其是在支持復雜模型訓練和加速研發(fā)進程方面表現(xiàn)卓越。以下兩個實際案例深入說明了曙光存儲解決方案如何為用戶提供支持。

第一個案例是智元機器人。智元機器人致力于開發(fā)下一代通用機器人,專注于智能制造和科研領域的應用。2023年智元機器人僅用時半年,即推出首款名為“遠征A1”的人形智能機器人,算力高達200TOPS。而就在近期,智元機器人更是一口氣發(fā)布“遠征”與“靈犀”兩大家族共計五款商用人形機器人新品,并在多個場景開啟商用量產(chǎn),驚人速度震撼業(yè)內(nèi)。

在如此快速迭代的背后,除了算力與算法平臺的支撐,更少不了“先進存力”的加持。智元機器人共部署了2套曙光分布式存儲系統(tǒng)——1套IPB可用全閃分布式系統(tǒng),可提供超過500GB/s的讀帶寬,極大優(yōu)化了AI模型訓練速度;1套2.7PB分布式對象存儲,單桶/單節(jié)點5W IOPS/OPS 10GB性能可實現(xiàn)非結構化數(shù)據(jù)的高速存儲與歸檔。

整個訓推過程中,除憑借快訓練、快歸檔等優(yōu)勢,曙光存儲不僅加速了智元機器人的研發(fā)進程,還顯著降低了整體的運營成本。此外,曙光存儲在智元項目中還特別強調(diào)智能運維和故障預測功能,利用AI技術提前識別潛在故障,允許維護團隊提前響應,極大地減少了系統(tǒng)中斷的風險,提高了業(yè)務連續(xù)性。

還有用戶體驗方面。通過智能調(diào)度和資源優(yōu)化,智元機器人在執(zhí)行多任務時能保持高效率,提供流暢的用戶交互體驗。這種預測性維護和高度自動化的運維策略不僅增強了系統(tǒng)的穩(wěn)定性,還確保了機器人在前端的最佳性能表現(xiàn)。

另一個案例是某頭部大模型廠商。曙光存儲提供了全閃存節(jié)點來支持其大規(guī)模的AI模型訓練。這些節(jié)點配置了高性能的存儲系統(tǒng),配合使用PyTorch編譯環(huán)境,特別針對客戶需求對編譯時間的敏感需求進行了優(yōu)化。通過這種定制化的解決方案,曙光存儲不僅顯著縮短了編譯過程,而且滿足了客戶要求的120萬IOPS的高性能需求,保證客戶能夠進行高效率的模型訓練和開發(fā),大幅提高了開發(fā)流程的效率,支持客戶在AI技術研究和產(chǎn)品開發(fā)方面保持行業(yè)領先。

全路徑加速AI

曙光存儲推出的ParaStor分布式全閃存儲,單個節(jié)點能提供高達150GB/s的帶寬,每秒鐘能夠處理高達320萬個I/O請求,在助力AI應用方面能夠加速整體表現(xiàn)提升超過20倍,這來自于曙光存儲最強的數(shù)據(jù)底座與最佳的AI應用加速套件。

曙光的AI應用加速套件通過五層加速技術來極大縮短AI應用中的I/O流程,使得處理速度大幅提升,具體包括:

1.  本地內(nèi)存加速:通過將熱點數(shù)據(jù)緩存至計算節(jié)點的CPU內(nèi)存中,利用內(nèi)存的低延遲特性加速數(shù)據(jù)訪問,延時降至納秒級別。

2.  Burst Buffer層級:進一步利用GPU服務器本地的NVMe盤存儲關鍵數(shù)據(jù),減少數(shù)據(jù)跨網(wǎng)絡訪問的需求,提高了數(shù)據(jù)處理的局部性和速度。

3.  網(wǎng)絡層加速:使用RDMA或RoCE技術優(yōu)化網(wǎng)絡帶寬利用率,保證網(wǎng)絡層不成為性能瓶頸。

4.  存儲層加速:全面發(fā)揮NVMe全閃存的高性能特點,提高數(shù)據(jù)存儲和訪問的速度。

5.  XDS智能加速:通過如XDS技術,允許GPU直接訪問存儲系統(tǒng),減少CPU介入,降低延遲,提升效率。

最強的數(shù)據(jù)底座:該策略旨在充分發(fā)揮硬件的極致性能。尤其是在硬件優(yōu)化方面,ParaStor整合了最新的高速網(wǎng)絡技術與NVMe SSD閃存介質(zhì),確保數(shù)據(jù)傳輸和存儲速度的最大化。例如,使用400G NDR IB卡或RoCE網(wǎng)絡技術,配合U.2 SSD,實現(xiàn)了高速網(wǎng)絡與存儲介質(zhì)的完美配合。

安全,AI數(shù)據(jù)存儲的底線

石靜在近期的一次專訪中深入分析了當前的大模型趨勢,也指出,許多企業(yè)已不再從頭開始構建大模型,而是選擇使用已經(jīng)訓練好的基礎或通用大模型,并根據(jù)自己的應用需求進行調(diào)整,形成專為特定行業(yè)設計的模型。在這個過程中,存儲系統(tǒng)的靈活性、性能優(yōu)化,以及數(shù)據(jù)安全性對提升業(yè)務效率起到了關鍵作用。

比如,曙光存儲最初幫助用戶構建存儲資源池承載各類應用,之后隨著業(yè)務的擴展,發(fā)現(xiàn)通過調(diào)整存儲系統(tǒng)來適應不同應用的具體需求,可以顯著提升性能。于是曙光存儲分析了用戶應用的I/O特性,包括文件大小、訪問模式(隨機或順序)及I/O塊的大小,并據(jù)此調(diào)整存儲參數(shù),使得不同應用的運行效率得到了幾倍的提升。不僅優(yōu)化了客戶的業(yè)務流程,也極大地縮短了項目的上線時間,展現(xiàn)出曙光存儲解決方案的實際價值。

另一個案例是在自動駕駛領域。數(shù)據(jù)處理過程中,必須精確控制哪些信息可以被保留和使用,例如車牌和軌跡坐標信息,并且要對涉及普通公眾的敏感信息進行合規(guī)處理。

曙光存儲系統(tǒng)提供高效地數(shù)據(jù)安全管理功能,能夠與客戶的數(shù)據(jù)安全策略對接,確保數(shù)據(jù)的安全性和訪問權限的嚴格控制。同時通過整合存儲賬戶管理權限與客戶的賬戶權限體系,確保數(shù)據(jù)處理的合規(guī)性和安全性。

最后

隨著AIGC技術的持續(xù)進步和企業(yè)對高效AI解決方案的需求日益增加,曙光存儲的技術創(chuàng)新和市場應用將繼續(xù)為用戶提供價值,推動AI技術的商業(yè)化和實際應用。這不僅加強了企業(yè)的市場競爭力,也為整個行業(yè)的技術進步和創(chuàng)新發(fā)展作出了重要貢獻。

分享到

崔歡歡

相關推薦