下一代存儲視角下的CXL協(xié)議與生態(tài)演進

CXL生態(tài)的演進自2019年首次發(fā)布至今,主要分為三個階段,第一階段是單點直連方案,主要用于擴容CPU的存儲資源,后來引入CXL Switch概念,主要目的是讓每個CPU可以獨享直連的額外內(nèi)存。

第二階段CXL 2.0是單個系統(tǒng)內(nèi)CPU池化概念,scale up,做到內(nèi)存的動態(tài)調(diào)配,當(dāng)某個CPU閑置,可以釋放內(nèi)存到存儲池給其他CPU共享,實現(xiàn)降本增效。

第三階段到了scale out概念,即超出單個系統(tǒng),連接多個服務(wù)器系統(tǒng)。讓不同服務(wù)器中的CPU可以共享跨服務(wù)器系統(tǒng)的內(nèi)存資源,形成更多的服務(wù)器互聯(lián)。

在這種擴展網(wǎng)絡(luò)中,內(nèi)存共享尤為重要,尤其AI計算領(lǐng)域。AI處理中生成的數(shù)據(jù)或計算結(jié)果可以被系統(tǒng)中的其他部分直接訪問,而不需要復(fù)制數(shù)據(jù)到每一個本地節(jié)點,直接提升了數(shù)據(jù)處理的效率和速度。

CXL技術(shù)的后續(xù)版本CXL 3.1基于scale out引入了更高級的功能——全局集成內(nèi)存(GIM)和及其統(tǒng)一編址。即在全局范圍內(nèi),不同域的內(nèi)存可以視作一個統(tǒng)一的內(nèi)存池的一部分。統(tǒng)一編址允許不同物理位置的CPU訪問同一內(nèi)存資源,就如同這些資源在本地一樣。

其中統(tǒng)一編址是一個關(guān)鍵技術(shù)應(yīng)用,它允許跨域的CPU像訪問本地內(nèi)存一樣訪問內(nèi)存池。這樣的架構(gòu)大大提升了跨域操作的存儲效率和速度,尤其適合那些需要高速大規(guī)模數(shù)據(jù)處理和實時響應(yīng)的應(yīng)用場景,如大規(guī)模AI模型訓(xùn)練和實時數(shù)據(jù)分析。

CXL技術(shù)對系統(tǒng)軟件生態(tài)帶來的影響有哪些?

1、CXL技術(shù)允許將底層的內(nèi)存資源抽象化為一個統(tǒng)一的內(nèi)存池,供操作系統(tǒng)直接使用,那么操作系統(tǒng)和應(yīng)用就無需關(guān)注內(nèi)存的具體硬件構(gòu)成,可以提高資源的靈活性和可用性。

2、通過CXL,系統(tǒng)可以將不同類型的內(nèi)存資源(如DDR、NAND等)特性經(jīng)優(yōu)化統(tǒng)一提供給上層應(yīng)用,使得應(yīng)用能夠根據(jù)數(shù)據(jù)的使用模式(如冷熱數(shù)據(jù))優(yōu)化內(nèi)存使用。

3、尤其在多租戶環(huán)境中,內(nèi)存可以根據(jù)需要動態(tài)分配給不同節(jié)點,同時還支持基于服務(wù)質(zhì)量(QoS)的差異化服務(wù)。

4、一寫多讀,在如AI和大數(shù)據(jù)模型的推理和訓(xùn)練場景中,其計算結(jié)果可以存儲在一個共享內(nèi)存池中,供多個計算任務(wù)訪問。

英韌認為CXL本質(zhì)的落地點在于CXL內(nèi)存語義的延遲尺度。當(dāng)前內(nèi)存訪問類型分為三種——直連的本地DRAM、通過系統(tǒng)互連的遠端DRAM,以及通過CXL互聯(lián)的內(nèi)存。雖然理論研究表明CXL可以實現(xiàn)介于本地和遠端DRAM之間的較低延遲,約180到250納秒之間,但實際應(yīng)用中,延遲隨著帶寬的增加而逐漸增加,尤其是在CXL內(nèi)存中更為明顯,延遲已經(jīng)達到微秒級別。

如上右圖,這四條線分別是近端的DRAM(綠色線),遠端的DRAM(藍色),近端的CXL內(nèi)存(紅色),遠端的CXL內(nèi)存(紫色)。四個場景是只讀、讀寫2:1,讀寫1:1,還有只寫的場景,可以看到,當(dāng)帶寬逐漸增加,延遲有所增加。

產(chǎn)品形態(tài)方面,目前市面上的CXL解決方案包括結(jié)合DDR和NAND的混合內(nèi)存產(chǎn)品,這要求極高的緩存命中率(幾乎100%)來維持CXL內(nèi)存的性能標(biāo)準。這些混合產(chǎn)品的設(shè)計旨在通過優(yōu)化內(nèi)存訪問效率來提高性能,尤其是在數(shù)據(jù)密集型的AI計算和大規(guī)模模型訓(xùn)練場景中。

該產(chǎn)品形態(tài)還可以提供持久性存儲,保證數(shù)據(jù)斷電不丟失。在大模型計算中,中間數(shù)據(jù)頻繁地更新和保存(下刷)到存儲系統(tǒng)是常見的需求,以便確保計算過程中的進度和結(jié)果不會因系統(tǒng)故障而失效。該形態(tài)除了考慮技術(shù)還要考慮成本結(jié)構(gòu),成本主要是集中在DDR緩存上,NAND和SCM(存儲級內(nèi)存)則是輔助。

另一種產(chǎn)品形態(tài),不僅要支持標(biāo)準的內(nèi)存語義操作(如64字節(jié)的讀寫),還能并行處理更大的數(shù)據(jù)塊,產(chǎn)品設(shè)計用于高效處理大規(guī)模數(shù)據(jù)。成本構(gòu)成主要集中于SCM或其他新型存儲介質(zhì),而傳統(tǒng)的DDR則是輔助。主要針對高性能的存儲需求,面向高端市場。

最后

傳統(tǒng)的NVMe SSD存儲設(shè)備正在持續(xù)的為當(dāng)代數(shù)字基礎(chǔ)設(shè)施提供大容量高并行度的解決方案,同時超低延時(百納秒級至千納秒級)的新一代存儲介質(zhì)配以CXL內(nèi)存語義新架構(gòu)將開創(chuàng)存儲領(lǐng)域的新時代。為此英韌科技正在改進傳統(tǒng)的NVMe架構(gòu),采用多級并行硬件流水線技術(shù),探索CXL架構(gòu)下的更高帶寬以及超低延時新設(shè)計。

英韌成立7年,從上述的技術(shù)分享來看,其始終專注于存儲技術(shù)的研發(fā)和創(chuàng)新。目前已經(jīng)在嵌入式系統(tǒng)和數(shù)據(jù)中心領(lǐng)域提供了基于PCIe 3.0、4.0和5.0的解決方案,展示了它在行業(yè)中的技術(shù)實力和市場地位,期待英韌與合作伙伴及供應(yīng)商共同開發(fā)的下一代存儲技術(shù),推動存儲行業(yè)的發(fā)展。

分享到

崔歡歡

相關(guān)推薦