目前MemVerge從軟件的角度,對(duì)于CXL兩種應(yīng)用模式提供支持,一種是服務(wù)器內(nèi)存擴(kuò)展;另外一種方式是通過CXL Switch交換機(jī)提供的CXL內(nèi)存共享。在這樣模式中,Memverge軟件提供的主要功能包括內(nèi)存監(jiān)控、延遲以及帶寬的QoS,針對(duì)第二種模式,除了監(jiān)控能力之外,Memverge提供稱為GISMO(全局免 IO 共享內(nèi)存對(duì)象系統(tǒng))功能服務(wù),它基于 CXL多服務(wù)器共享內(nèi)存架構(gòu),突破了分布式環(huán)境中數(shù)據(jù)訪問和協(xié)作的界限。通過無縫集成 CXL 技術(shù),Gismo 實(shí)現(xiàn)了跨多服務(wù)器的實(shí)時(shí)數(shù)據(jù)共享,消除網(wǎng)絡(luò) IO 瓶頸的同時(shí),也減少了數(shù)據(jù)傳輸延遲。

在演講中,趙玥介紹了FlexGen如何在資源有限的單GPU情況下,處理高吞吐量的語言模型推理任務(wù),其核心就是利用大量CPU內(nèi)存或硬盤空間,從而解決GPU HBM內(nèi)存比較小的限制。在FlexGen應(yīng)用中,使用CXL內(nèi)存擴(kuò)展,其效果顯著。

CXL對(duì)于AI/ML負(fù)載的價(jià)值,可以歸結(jié)為幾點(diǎn):一是內(nèi)存更加適配一些數(shù)據(jù)集;二是消除存儲(chǔ)或者網(wǎng)絡(luò)I/O的影響。在此,Memverge提供的Memory Machine軟件能夠透明管理好DRAM和CXL Memory內(nèi)存。

在演講中,趙玥也介紹了一些CXL Memory內(nèi)存配置管理的方法和思路。

這是Memverge Gismo和Ray的解決方案,其中,Ray 是一個(gè)開源的統(tǒng)一計(jì)算框架,主要用于擴(kuò)展人工智能(AI)和 Python 工作負(fù)載,涉及強(qiáng)化學(xué)習(xí)到深度學(xué)習(xí)、超參數(shù)調(diào)優(yōu)、模型服務(wù)等內(nèi)容。趙玥在此分享了很多技術(shù)細(xì)節(jié),受技術(shù)水平的限制,我們沒有辦法一一展示出來,感興趣的讀者可以通過2024全球閃存峰會(huì)的官方網(wǎng)站,回看有關(guān)視頻內(nèi)容。

(本文未經(jīng)演講人審閱)

分享到

songjy

相關(guān)推薦