一个人看的www高清免费视频,欧美性xxxxx极品娇小,欧美贵妇videos性办公室

生成式AI應(yīng)用的不同階段，特點(diǎn)和要求也有所不同。以數(shù)據(jù)歸集和準(zhǔn)備階段為例，其要求的是千億級(jí)、百PB級(jí)存儲(chǔ)空間的支撐。多模態(tài)大模型依賴海量文本、圖片和音視頻資源，這個(gè)階段需要關(guān)注多協(xié)議歸集和異構(gòu)存儲(chǔ)統(tǒng)一納管；訓(xùn)練階段需要關(guān)注CheckPoint寫入和讀取帶寬的問題，解決 TensorFlow 開發(fā)框架中TFRecord數(shù)據(jù)格式中的小IO文件隨機(jī)讀寫性能不佳的問題；而推理階段要關(guān)注高效KV Cache管理問題，以期減小重復(fù)計(jì)算，從而提升推理速度和并發(fā)性。

浪潮數(shù)據(jù)將這些問題概括為“橫向高效流動(dòng)，縱向高速訪問，聯(lián)合上下游建生態(tài)”，并提出面向場(chǎng)景的深度定制和優(yōu)化的理念。

橫向高效流動(dòng)涉及多協(xié)議融合以及全局文件系統(tǒng)設(shè)計(jì)問題。以多協(xié)議融合為例，其主要追求的是數(shù)據(jù)和元數(shù)據(jù)在存儲(chǔ)池中只存一份，實(shí)現(xiàn)S3、HDFS和NAS多協(xié)議訪問互聯(lián)互通。簡(jiǎn)單來說，就像一瓶汽水安排了多個(gè)吸管?；谏墒紸I的數(shù)據(jù)局部性原理、相鄰數(shù)據(jù)可能被訪問的特點(diǎn)，元數(shù)據(jù)組織采用范圍分片替代哈希分片。通過這一設(shè)計(jì)，數(shù)據(jù)在存儲(chǔ)介質(zhì)上以連續(xù)存儲(chǔ)或鄰近存儲(chǔ)形式呈現(xiàn)，可以顯著提升預(yù)取效率和緩存機(jī)制命中率，從而減少磁盤I/O操作次數(shù)，提高AI訓(xùn)練和推理的效率。

與橫向流動(dòng)相比，縱向高速訪問則更為大家所熟悉。英偉達(dá)的GDS（GPU Direct Storage）本質(zhì)是NVMe和RDMA技術(shù)的結(jié)合，目的在于減少CPU參與帶來的時(shí)延，追求更高效的數(shù)據(jù)訪問。因此，RDMA、NoF（NVMe over Fabric）都是必須要考慮的設(shè)計(jì)因素。對(duì)于提高GPU訪問外部數(shù)據(jù)存儲(chǔ)的效率，這些技術(shù)立竿見影。

針對(duì)AI場(chǎng)景的小IO隨機(jī)讀寫，全局緩存也是數(shù)據(jù)縱向高速訪問的重要因素。涉及小I/O訪問，需要寫入Cache并在Cache中做小I/O聚合，變隨機(jī)寫為順序?qū)懀瑥亩蠓嵘?jié)點(diǎn)隨機(jī)小I/O寫入性能；考慮到分布式存儲(chǔ)的多副本設(shè)計(jì)，節(jié)點(diǎn)間副本若采用單邊RDMA技術(shù)，數(shù)據(jù)同步無需對(duì)端CPU介入，就可以實(shí)現(xiàn)延時(shí)降低50%、CPU節(jié)約20%的目標(biāo)。

此外，針對(duì)創(chuàng)新CPU應(yīng)用，還需要充分考慮芯片的設(shè)計(jì)特點(diǎn)，揚(yáng)長(zhǎng)避短，發(fā)揮其優(yōu)勢(shì)和特性，如減少雙路CPU之間的數(shù)據(jù)轉(zhuǎn)發(fā)等。

充分考慮到生成式AI的這些特點(diǎn)，浪潮數(shù)據(jù)存儲(chǔ)通過場(chǎng)景化定制策略采用有針對(duì)性的技術(shù)方案，在MLPerf? Storage v1.0機(jī)器學(xué)習(xí)工作負(fù)載下存儲(chǔ)性能國際基準(zhǔn)測(cè)試中，獲得了5項(xiàng)第一、3項(xiàng)第二，綜合成績(jī)?nèi)虻谝坏某煽?jī)。

正如3FS針對(duì)DeepSeek訓(xùn)練的深度定制，浪潮數(shù)據(jù)依托完整的研發(fā)體系和團(tuán)隊(duì)聯(lián)合上下游針對(duì)AI甚至更廣闊的場(chǎng)景進(jìn)行深度定制，為最終用戶提供更好的解決方案。

分享到

2025人工智能基礎(chǔ)設(shè)施峰會(huì)浪潮數(shù)據(jù)

zhupb

相關(guān)推薦

近期文章

熱門標(biāo)簽