MemVerge首席執(zhí)行官兼聯(lián)合創(chuàng)始人范承工曾提到,動態(tài)組合服務(wù)器并獲取10TB以上內(nèi)存池容量的能力將推動更多應(yīng)用在內(nèi)存中運行,避免外部存儲IO流讀寫。存儲級內(nèi)存將成為主要的熱數(shù)據(jù)存儲層,NAND和HDD分別用于溫數(shù)據(jù),而磁帶用于冷數(shù)據(jù)。

現(xiàn)在CXL市場經(jīng)歷了一年的發(fā)展,范承工指出,這是業(yè)內(nèi)近十年來一次重大的架構(gòu)變革,可能會帶來一個跨多服務(wù)器共享內(nèi)存結(jié)構(gòu)的新市場。

CXL基于 PCIe 5.0標(biāo)準(zhǔn),是PCIe總線在服務(wù)器機(jī)箱外的延展協(xié)議。2019年3月,CXL 1.0正式發(fā)布,旨在讓服務(wù)器CPU能通過緩存一致性協(xié)議訪問加速器設(shè)備上的共享內(nèi)存。

MemVerge軟件將DRAM和Optane DIMM持久內(nèi)存組合到一個集群存儲池中,供服務(wù)器應(yīng)用使用,無需更改代碼。換句話說,這款軟件已經(jīng)結(jié)合了快速和慢速內(nèi)存。

B&F diagram of MemVerge big memory scheme

MemVerge大內(nèi)存架構(gòu)

英特爾的Sapphire Rapids芯片和AMD Genoa支持CXL v1.1,規(guī)定如何執(zhí)行主機(jī)處理器和連接的CXL設(shè)備之間的互操作性測試。CXL v2.0則增加了支持CXL切換功能,這樣多個CXL 2.0連接的主機(jī)處理器就能使用分布式共享內(nèi)存和持久(存儲級)內(nèi)存了。

一臺CXL 2.0主機(jī)會有自己直連的DRAM,并且能通過CXL 2.0鏈路訪問外部DRAM。外部 DRAM訪問會比本地DRAM訪問慢幾納秒,需要系統(tǒng)軟件(即MemVerge的系統(tǒng)軟件)彌補這一差距。 范承工認(rèn)為CXL 2.0的交換機(jī)和外部存儲設(shè)備最早可能在2024年出現(xiàn)。

三星CXL內(nèi)存擴(kuò)展盒子

MemVerge正在和組合系統(tǒng)供應(yīng)商Liqid合作,讓MemVerge創(chuàng)建的DRAM和Optane內(nèi)存池能通過當(dāng)今的PCIe 3和4總線能全部或部分動態(tài)分配給服務(wù)器。CXL 2.0應(yīng)該引入外部內(nèi)存池及其對服務(wù)器的動態(tài)可用性。

范承工表示有了CXL,內(nèi)存動態(tài)組合可以和云服務(wù)模型高度協(xié)同。因此,云服務(wù)提供商會成為這項技術(shù)的首批采用者之一。

Blocks & Files認(rèn)為,包括公有云供應(yīng)商在內(nèi)的所有超大規(guī)模企業(yè)都會依賴CXL連接內(nèi)存池。而且他們沒有可用于提供外部池化內(nèi)存資源的現(xiàn)有技術(shù),因此要么自己建,要么得尋找合適的供應(yīng)商。

MemVerge將推動由CXL交換機(jī)、擴(kuò)展器、存儲卡和設(shè)備供應(yīng)商組成的CXL 2.0生態(tài)系統(tǒng)的興起。 MemVerge的軟件能在公有云上運行。有一家生物技術(shù)研究公司SeekGene已經(jīng)通過在阿里云i4p計算實例運行上使用MemVerge Memory Machine,從而顯著減少了處理時間和成本。

阿里云是第一家面向用戶提供Optane實例支持的云服務(wù)提供商,和MemVerge的聯(lián)合服務(wù)就是在此之上,允許封裝應(yīng)用,并使用MemVerge的快照技術(shù)實現(xiàn)回卷恢復(fù)。

MemVerge會以開源形式提供基礎(chǔ)版大內(nèi)存軟件來擴(kuò)大應(yīng)用范圍,并提供付費擴(kuò)展功能,比如快照和檢查點服務(wù)。

外部內(nèi)存池示例

想象一下,今天有20臺機(jī)架服務(wù)器,每臺服務(wù)器都有2TB內(nèi)存,就是20個2TB內(nèi)存塊,40TB容量,所有應(yīng)用使用的內(nèi)存限量2TB。MemVerge的軟件可以把任意一臺服務(wù)器的內(nèi)存地址空間擴(kuò)大到3TB左右,不過每臺服務(wù)器的DRAM插槽數(shù)量有限,一旦用完無法再使用。CXL 2.0消除了這個限制。

現(xiàn)在,重新來看,20臺機(jī)架服務(wù)器,如果每臺服務(wù)器都有512GB內(nèi)存,這個機(jī)架還裝了一個連接CXL 2.0的內(nèi)存擴(kuò)展機(jī)箱,有30TB DRAM。我們?nèi)匀挥型瑯?0TB的DRAM容量,但分布不同,有 20*512GB的塊容量,每個服務(wù)器除了分到一個塊,還有一個30TB共享內(nèi)存池。

內(nèi)存中的應(yīng)用能消耗高達(dá)30.5TB的DRAM,是以前的10倍,從根本上增加其處理工作數(shù)據(jù)集并減少了存儲IO流。我們可以有三個內(nèi)存應(yīng)用,每個應(yīng)用占用30TB內(nèi)存池中的10TB。這類應(yīng)用執(zhí)行速度將顯著提高。同時也提高了應(yīng)用可使用內(nèi)存的上限。不僅服務(wù)器可以用,GPU也可以使用更具可擴(kuò)展性的內(nèi)存層。

MemVerge內(nèi)存存儲分層理念

新創(chuàng)建的DRAM必須是持久內(nèi)存,因為把30TB的數(shù)據(jù)寫入NAND需要相當(dāng)長的時間,可以使用Optane或類似的存儲級內(nèi)存,例如ReRAM。然后把最活躍的數(shù)據(jù)存儲在存儲級內(nèi)存設(shè)備里,溫數(shù)據(jù)優(yōu)先放到NAND,然后按時間再放到磁盤,磁帶上。

這種CXL連接的SCM可以是相同或不同的機(jī)箱進(jìn)行動態(tài)組合??梢栽O(shè)想使用這種外部DRAM和Optane系統(tǒng)的超大規(guī)模供應(yīng)商服務(wù)能更快,并能以更高的利用率支持更多的用戶。

與此應(yīng)用設(shè)計也可能會發(fā)生變化。應(yīng)用的一般邏輯是使用盡可能多的內(nèi)存,沒有內(nèi)存時才會使用存儲空間,對其它數(shù)據(jù)密集型應(yīng)用也是以相同方式進(jìn)行,包括數(shù)據(jù)庫,因此內(nèi)存數(shù)據(jù)庫也是大勢所趨。

而對于許多ISP,讓基礎(chǔ)設(shè)施能提供更多內(nèi)存也會影響他們的應(yīng)用設(shè)計——未來將以內(nèi)存為中心,反過來又減少了他們對存儲的依賴。

CXL 2.0、超大規(guī)模企業(yè)和公有云

公有云供應(yīng)商能設(shè)置具有更高內(nèi)存容量和SCM容量的額外計算實例類型。他們的客戶數(shù)量和規(guī)模將讓自身相比普通企業(yè)更有效地分?jǐn)傎徺IDRAM和SCM的成本,并從服務(wù)器中獲得更多的利用率。

范承工認(rèn)為,目前的塊存儲設(shè)備供應(yīng)商可能會開始生產(chǎn)外部存儲器和SCM設(shè)備,B&F認(rèn)為服務(wù)器制造商也可能會開始生產(chǎn)。畢竟,他們已經(jīng)在當(dāng)前的服務(wù)器盒子里提供了DRAM和SCM。融合基礎(chǔ)設(shè)施系統(tǒng)可以開始添加CXL內(nèi)存架和軟件。

我們正在進(jìn)入一個大內(nèi)存時代,CXL 2.0 的影響會和35年前光纖通道的影響一樣深遠(yuǎn)。在SAN 時代,存儲可以獨立管理和擴(kuò)展來進(jìn)行計算。現(xiàn)在內(nèi)存也是如此。我們正在從SAN時代進(jìn)入大內(nèi)存時代!

原文來自:https://blocksandfiles.com/2022/06/20/cxl-led-big-memory/

分享到

崔歡歡

相關(guān)推薦