CXL三種設(shè)備形態(tài)
CXL從2019年發(fā)布1.0版本以來(lái),到2023年11月已經(jīng)陸續(xù)發(fā)布了1.1, 2.0, 3.0和3.1版本,如下圖所示。圖中沒(méi)有顯示出來(lái)的是,在這段時(shí)間內(nèi),其他的開(kāi)放一致性互連標(biāo)準(zhǔn),Gen-Z,OpenCAPI和CCIX,分別于 2021年11月 , 2022年8月和2023年8月將他們的IP納入到CXL旗下。整個(gè)業(yè)界朝著一個(gè)統(tǒng)一的開(kāi)放一致性互連標(biāo)準(zhǔn)邁進(jìn)。
CXL協(xié)議發(fā)展史
CXL的每個(gè)版本都確保后向兼容,但又有其新的特性。這里不對(duì)每個(gè)特性做詳細(xì)介紹,但有必要對(duì)每個(gè)版本中新增特性所覆蓋的范圍作個(gè)簡(jiǎn)要說(shuō)明。 如下圖所示,CXL 1.0/1.1解決的問(wèn)題是單個(gè)節(jié)點(diǎn)內(nèi),主機(jī)和設(shè)備之間的內(nèi)存一致性互連;而CXL 2.0把一致性互連的范圍擴(kuò)大到了機(jī)柜層面,實(shí)現(xiàn)了一個(gè)機(jī)柜上多個(gè)節(jié)點(diǎn)間內(nèi)存或其他設(shè)備的資源池化;CXL 3.0/3.1進(jìn)一步將一致性互連范圍擴(kuò)大到了機(jī)柜間,通過(guò)拓展CXL Switch路由能力,構(gòu)建Switch Fabric,實(shí)現(xiàn)機(jī)柜內(nèi)/機(jī)柜間資源的分離,池化和共享。
CXL協(xié)議發(fā)展史
觀(guān)點(diǎn)辯駁
在簡(jiǎn)要了解CXL互連的背景之后,我們?cè)賮?lái)詳細(xì)分析下Dylan Patel的這篇《CXL is Dead In the AI Era》文章中的觀(guān)點(diǎn)。文章的整體行文邏輯是從PCIe SerDes IO帶寬效率不高和硅片IO Beachfront面積受限這兩點(diǎn),推演出 “CXL Will Not Be The Interconnect in The AI Era”,并由此來(lái)支撐“CXL is Dead In the AI Era”這樣抓眼球的題目。 可以看出這并不是一個(gè)嚴(yán)謹(jǐn)?shù)倪壿嬐蒲荩袃蓚€(gè)大的方面問(wèn)題:
●首先,偏差性比較。正如前文所述,CXL并非為AI而生,它首要解決的問(wèn)題是,主機(jī)內(nèi)存與其他設(shè)備內(nèi)存之間一致性?xún)?nèi)存互訪(fǎng)的問(wèn)題,而不是AI所要求的超大帶寬問(wèn)題。這一目標(biāo)就決定了CXL協(xié)議在設(shè)計(jì)上的很多選擇。比如,它選擇兼容PCIe并采用其物理層來(lái)充分利用其龐大的PCIe生態(tài),實(shí)現(xiàn)對(duì)最廣泛主機(jī)設(shè)備的支撐,畢竟絕大部份設(shè)備都是通過(guò)PCIe接入服務(wù)器主機(jī)的。也正是因?yàn)檫@樣,CXL在業(yè)界迅速得到廣泛認(rèn)可,并陸續(xù)統(tǒng)一了其他開(kāi)源一致性互連協(xié)議如GenZ,OpenCAPI以及CCIX等。 但這種生態(tài)上的綁定也意味著CXL的帶寬演進(jìn)強(qiáng)依賴(lài)于PCIe的演進(jìn)速度。 相比之下,NVIDIA NVLink 專(zhuān)門(mén)針對(duì)GPU-GPU互連而生,后拓展到GPU-CPU互連(早期的IBM PowerPC及近期的NVIDIA NVLink-C2C)。作為一個(gè)私有協(xié)議, NVLink可以不必考慮后向兼容以及相應(yīng)生態(tài)成熟的問(wèn)題,演進(jìn)速度自然比PCIe更加迅速。 這就好比“一個(gè)人走的快,但一群人走的遠(yuǎn)”一個(gè)道理。 非讓“一群人”和“一個(gè)人”比誰(shuí)走的快,這就是偏差性的比較。
●其次,以偏概全。AI時(shí)代,并非所有應(yīng)用都是AI的。有大量的應(yīng)用,譬如數(shù)據(jù)庫(kù)事務(wù)處理,Web Serving,Java類(lèi)應(yīng)用,傳統(tǒng)機(jī)器學(xué)習(xí),搜索,編譯,加解壓/加解密等等,都需要通用算力來(lái)承擔(dān)。事實(shí)上,依據(jù)信通院《2023智能算力白皮書(shū)》[1],到2022年底,全球IDC通用算力規(guī)模498EFLOPS,占總算力的76.6%, 而相比之下,智能算力占比為21.9%(剩余部份為超算算力,占比1.5%)。相較于前一年,智能算力以25.7%的速度增長(zhǎng),但需要注意到的是,通用算力的增長(zhǎng)同樣達(dá)到了25%。 從國(guó)內(nèi)來(lái)看, 2022年底,我國(guó)總算力規(guī)模180EFLOPS,通用算力137EFLOPS, 智能算力 41 EFLOPS,智能算力占總算力的22.8%。按照工信部的規(guī)劃[2],2025年算力總規(guī)模達(dá)到300EFLOPS,其中通用算力達(dá)到189EFLOPS,相較2022年增長(zhǎng)52EFLOPS,而智算算力增加64EFLOPS。 這些數(shù)據(jù)清楚的表明,在AI時(shí)代,通用算力依然在成長(zhǎng),依然占據(jù)了總算力規(guī)模的大部分。不能因?yàn)锳I應(yīng)用吸引眼球,而認(rèn)為它就是算力的全部;也不能因?yàn)槟稠?xiàng)技術(shù)在AI應(yīng)用中效果有限,就認(rèn)為該技術(shù)已經(jīng)死于這個(gè)時(shí)代。
算力規(guī)模比較。 來(lái)源:中國(guó)信通院《2023智能算力白皮書(shū)》
在解釋了這兩點(diǎn)宏觀(guān)邏輯鏈條上的問(wèn)題之后,我們?cè)賮?lái)詳細(xì)的對(duì)文中的論據(jù)和觀(guān)點(diǎn)進(jìn)行深入探討。這里我們的目的是指出原文論據(jù)中的紕漏和缺陷,從而讓讀者能以更加辯證和批判的角度來(lái)看待原文的結(jié)論。
●原文論據(jù)1: “IO for chips generally must come from the edges of the Chips”,而在GPU上,HBM接口會(huì)擠占掉大量的硅片上Shoreline資源,導(dǎo)致留給其他IO的空間非常有限。
○我們先來(lái)分析下該論據(jù)的前半段:IO真的只能從Chip邊緣出來(lái)么?在回答這個(gè)問(wèn)題之前,我們先簡(jiǎn)單回顧下集成電路中的IO Pad。IO Pad通??煞譃镻eripheral IO Pad和Area IO Pad。顧名思義,前者是指放在硅片邊緣的IO Pad。它通常應(yīng)用在采用引線(xiàn)鍵合(Wire Bond)封裝的芯片上,如下左圖所示。因?yàn)樾枰€(xiàn),IO Pad無(wú)法利用硅片中間的空間,否則,引線(xiàn)長(zhǎng)度過(guò)大,強(qiáng)度和電氣特性都會(huì)存在問(wèn)題,因此,IO Pad只能放在硅片的邊緣;而后者是指可以分布在整個(gè)硅片平面上的IO Pad。它廣泛應(yīng)用于Flip-chip Ball Grid Array (FC-BGA)封裝中。相較于前者,它可以提供更高的IO密度,更多的IO引腳數(shù)目,因此通常被高性能CPU/GPU所采用。但為保證電源的均勻分布,電源和地線(xiàn)通常通過(guò)位于硅片中間的Pad引入。這就造成了用于通信的IO都處在硅片的周?chē)?,形成了我們通常所說(shuō)的“Beachfront”或者“Shoreline”,其周長(zhǎng)和深度決定了信號(hào)IO Pad的可用面積。這么看來(lái),原文論據(jù)中的說(shuō)法,除了“edge”的說(shuō)法有些模凌兩可以外,貌似沒(méi)有大問(wèn)題。但這里有一個(gè)紕漏,它并沒(méi)有考慮到3D集成封裝所帶來(lái)的額外IO空間。與傳統(tǒng)的2D或2.5D封裝不同,通過(guò)TSV(Through-Silicon-Via),3D集成可以充分利用硅片的上下兩個(gè)平面, 提供更為充足的信號(hào)引腳。一些典型的3D集成產(chǎn)品包括AMD的3D V-Cache,Intel的Lakefield CPU等,如圖6所示。事實(shí)上,大家所熟知的HBM就是將多個(gè)DRAM硅片通過(guò)3D集成構(gòu)建的。有了3D集成,HBM可以直接堆疊到計(jì)算硅片之上, 從而將IO數(shù)量消耗巨大的HBM接口移到計(jì)算硅片的背部,為計(jì)算硅片底部其他IO騰出了空間,同時(shí),它也可以避免使用昂貴的Silicon Interposer作為介質(zhì)來(lái)做多硅片封裝。 當(dāng)然,如何有效的進(jìn)行散熱是一個(gè)主要挑戰(zhàn)。雖然我們現(xiàn)在還沒(méi)看到這樣的封裝用于實(shí)際的產(chǎn)品中,但SK Hynix已經(jīng)在做這方面的研究,并計(jì)劃在HBM4上實(shí)現(xiàn)HBM和計(jì)算硅片的直接堆疊[4]。 所以,我們認(rèn)為這一論據(jù)并不普遍成立,原作者并沒(méi)有充分考慮到可以通過(guò)封裝技術(shù)進(jìn)步來(lái)緩解IO空間受限這一挑戰(zhàn)。
IO 在硅片上的排布。 來(lái)源: Ultra Librarian
3D V-cache以及Lakefield 3D Foveros集成。 Source:AMD & Intel
●原文論據(jù)2:PCIe PHY的單位面積帶寬效率沒(méi)有NVLink的高,所以芯片設(shè)計(jì)者會(huì)選擇112G 以太網(wǎng)PHY而不是PCIe PHY。
○首先,我們來(lái)看下單位面積的帶寬效率這個(gè)指標(biāo)。 嚴(yán)格來(lái)說(shuō),它可以從兩個(gè)不同的角度來(lái)定義: 一個(gè)是從所需的Shoreline面積,也就是引腳數(shù)目的角度來(lái)看;另一個(gè)是從實(shí)現(xiàn)PCIe/NVLink PHY所占用的硅片面積的角度來(lái)看。 對(duì)前者來(lái)說(shuō),相應(yīng)的指標(biāo)就是單位引腳帶寬。 為做相應(yīng)的對(duì)比, 我們將每一代NVLink和PCIe的具體指標(biāo)總結(jié)在下表中。 這里需要注意的是,在NVLink體系中,每個(gè)Link包含了多條lane,而在PCIe體系中1X就指一條lane, 這就解釋了為什么在下表中最后一行,NVLink的單位Link雙向帶寬(BiDir BW/Llink)看上去遠(yuǎn)大與PCIe的相應(yīng)數(shù)值。我們認(rèn)為:合理的指標(biāo)應(yīng)該是單條lane上的帶寬,因?yàn)閷?duì)lane的定義NVLink和PCIe是一致的, 都是指TX和RX,兩對(duì)差分信號(hào),共四個(gè)引線(xiàn)。折合到單位引腳帶寬上,NVLink和PCIe的比較顯示在圖7上。 在時(shí)間軸上,我們對(duì)PCIe的數(shù)據(jù)進(jìn)行了區(qū)分,PCIe-Spec與PCIe協(xié)議標(biāo)準(zhǔn)發(fā)布的時(shí)間對(duì)齊,而PCIe-Prod是指新的PCIe標(biāo)準(zhǔn)發(fā)布后在市場(chǎng)上可以獲得相應(yīng)產(chǎn)品的時(shí)間對(duì)齊。通常PCIe-Prod會(huì)晚于標(biāo)準(zhǔn)發(fā)布時(shí)間2-3年左右;而NVLink,因?yàn)槭撬接袇f(xié)議,它發(fā)布時(shí)通常就以產(chǎn)品的形態(tài)出現(xiàn)。 可以看到,NVLink的單位引腳帶寬與同期的PCIe產(chǎn)品相比高大約3倍左右。 因此,原文中所述的NVLink總帶寬比PCIe高7倍并不是一個(gè)嚴(yán)謹(jǐn)?shù)恼f(shuō)法。那么這3倍左右的帶寬密度差距是怎么來(lái)的呢?這里面相當(dāng)一部分來(lái)源于PCIe在Gen3上等待了太多時(shí)間。 PCIe通常的迭代周期為3~4年,而在PCIe Gen3到Gen4的迭代用了7年。至于為什么花了那么久,江湖上有很多不同的猜測(cè),但都于與技術(shù)無(wú)關(guān),故這里不再展開(kāi)。 而正是在這7年中,NVLink完成了1.0的引入和2.0的迭代, 確立了單位引腳帶寬比同期PCIe產(chǎn)品高3倍的優(yōu)勢(shì),并一直保持到現(xiàn)在。所以?xún)烧叩膸挷罹嗍怯捎诘葸M(jìn)的時(shí)間節(jié)奏不同造成的,并不反映協(xié)議設(shè)計(jì)本身的優(yōu)劣。 我們?cè)賮?lái)看看按照第二種角度定義的效率。我們沒(méi)法知道NVLink PHY所占用的面積?;诠_(kāi)信息猜測(cè)NVLink4.0采用112G SerDes而NVLink 5.0采用224G SerDes,我們可以找到與112G 以太網(wǎng)PHY進(jìn)行相關(guān)比較的文獻(xiàn)[5]: Intel 針對(duì)PCIe 7.0/CXL 4.0進(jìn)行了早期PHY實(shí)現(xiàn),其面積帶寬密度(GB/s/mm^2)幾乎和在同一工藝下的112G以太網(wǎng)PHY相同,且其線(xiàn)性帶寬密度(GB/s/mm)還比112G以太網(wǎng)提高了25%。這表明112G以太網(wǎng)PHY相較于PCIe 7.0 PHY并沒(méi)有帶寬密度上的優(yōu)勢(shì)。 那如果是224G以太網(wǎng)PHY呢?Intel觀(guān)察到了在相同工藝下, 224G比112G提升了30%的單位面積帶寬密度和65%的線(xiàn)性帶寬密度,而并非是一般認(rèn)為的兩倍提升。 綜上所述,PCIe PHY的帶寬密度不一定比112G以太網(wǎng)PHY差,與224G以太網(wǎng)PHY相比,差別也沒(méi)像文中所說(shuō)的那么大。
單位引腳帶寬比較:NVLink vs PCIe。其中PCIe-Spec表示PCIe協(xié)議標(biāo)準(zhǔn)發(fā)布,PCIe-Prod表示PCIe標(biāo)準(zhǔn)產(chǎn)品化
AI時(shí)代的CXL互連:我們的觀(guān)點(diǎn)
在分析和辯駁完了Dylan那篇文章的觀(guān)點(diǎn)后,我們也來(lái)拋一下自己的觀(guān)點(diǎn):我們認(rèn)為在AI時(shí)代CXL和NVLink將共存且協(xié)同發(fā)展。這個(gè)觀(guān)點(diǎn)是基于如下兩個(gè)方面的原因:
1. 在GPU-GPU之間的互連領(lǐng)域,高帶寬是剛需,NVLink以其顯著的帶寬優(yōu)勢(shì)加上其封閉私有協(xié)議所帶來(lái)快速迭代優(yōu)勢(shì),短期內(nèi)沒(méi)有其他方案可以撼動(dòng)。 作為一個(gè)完整的AI智算系統(tǒng),還包括了GPU-CPU互連,GPU與擴(kuò)展內(nèi)存或存儲(chǔ)的互連,CPU與其他設(shè)備間的互連等等。而這些互連中,CXL的開(kāi)放生態(tài)優(yōu)勢(shì)也很顯著。GPU-CPU互連在NVIDIA 的生態(tài)中可以通過(guò)NVLink-C2C來(lái)實(shí)現(xiàn)(如Grace-Hopper和Grace-Blackwell之間的互連),在更廣泛x86和ARM生態(tài)中,GPU-CPU的互連大概率將采用CXL互連;同樣道理, 在面對(duì)有多元供應(yīng)商的存儲(chǔ)時(shí),當(dāng)前GPU都是通過(guò)PCIe來(lái)和存儲(chǔ)設(shè)備進(jìn)行互連,隨著這些存儲(chǔ)設(shè)備都將支持CXL。也正是由于這樣的原因,我們認(rèn)為在不久的將來(lái),NVIDIA的GPU或?qū)⑵銹CIe接口替換成CXL接口。
2. 隨著AI大模型應(yīng)用逐步落地,推理將占據(jù)絕大部分的智算算力,而成本則是AI商業(yè)模式是否可持續(xù)的關(guān)鍵。在GPU上集成更多的HBM,將會(huì)使GPU更加昂貴,并不是一個(gè)適合推理的低成本解決方案。而使用CXL擴(kuò)展內(nèi)存或內(nèi)存池,將部份HBM/顯存需求卸載到這些內(nèi)存上,可以構(gòu)建出一個(gè)在滿(mǎn)足SLA條件下的,更加經(jīng)濟(jì)高效的推理解決方案[3]。 我們將這個(gè)討論放眼到更長(zhǎng)遠(yuǎn)和廣泛的產(chǎn)業(yè)背景下,我們認(rèn)為GPU間的開(kāi)放互連標(biāo)準(zhǔn)正在快速崛起并成為主流:針對(duì)Scale-up互連,業(yè)界正在組建開(kāi)放的Ultra Accelerator Link (UALink)標(biāo)準(zhǔn);而針對(duì)Scale-out互連,行業(yè)正逐漸團(tuán)結(jié)在Ultra Ethernet Consortium (UEC)旗下。盡管UAL和UEC之間可能存在一些灰色地帶,但有一點(diǎn)是可以肯定的,他們都不會(huì)去做主機(jī)和設(shè)備間的互連,這樣CXL作為主機(jī)與設(shè)備間互連的地位將更加鞏固和聚焦。下面,我們例舉幾個(gè)CXL在AI領(lǐng)域的應(yīng)用。
a.類(lèi)GDR和GDS的CXL高效實(shí)現(xiàn)
如圖8所示,借助與PCIe Switch和NVIDIA 的ConnectX網(wǎng)卡,NVIDIA 可以實(shí)現(xiàn)不同主機(jī)的GPU與GPU之間的GPUDirect RDMA(GDR)。相比之下,如果GPU支持CXL 3.0接口,我們可以將PCIe Switch換成CXL Switch,并且無(wú)需網(wǎng)卡轉(zhuǎn)發(fā),便可以通過(guò)CXL Peer2Peer實(shí)現(xiàn)不同主機(jī)GPU之間顯存的互訪(fǎng)。而且,它們之間的訪(fǎng)問(wèn)無(wú)需通過(guò)DMA的producer-consumer語(yǔ)義,而是直接通過(guò)load/store語(yǔ)義的互訪(fǎng),極大的降低了軟件開(kāi)發(fā)的復(fù)雜度。
基于PCIe的NVIDIA GPUDirect RDMA vs 基于CXL的 P2P
類(lèi)似的,如圖9所示,借助與PCIe Switch,NVIDIA GPUDirect Storage(GDS)可以無(wú)需通過(guò)CPU側(cè)內(nèi)存上的Bounce Buffer,實(shí)現(xiàn)直接從掛載在PCIe Switch上的SSD上讀取或?qū)懭霐?shù)據(jù)。同樣,如果GPU支持CXL 3.0接口,我們可以將PCIe Switch換成CXL Switch,便可以實(shí)現(xiàn)GPU到SSD的直接訪(fǎng)問(wèn)。而且,這種模式不單單適用于SSD,還可以用到Storage-Class Memory(SCM)等非易失性介質(zhì)的內(nèi)存上,實(shí)現(xiàn)內(nèi)存語(yǔ)義的存儲(chǔ)操作。
基于PCIe的NVIDIA GPUDirect Storage vs 基于CXL的Storage方案
b.Retrieval-Augumented Generation (RAG)支持
為解決大模型推理受訓(xùn)練數(shù)據(jù)的時(shí)效限制的影響,最新主流的ChatBot服務(wù)(如ChatGPT 4, Gemini 1.5)以及主流的LLM推理框架(e.g.,NVIDIA TensorRT-LLM)都支持RAG。 不僅如此,RAG可以將強(qiáng)大的通用LLM能力高效擴(kuò)展到各個(gè)垂直專(zhuān)業(yè)領(lǐng)域,而無(wú)需重新訓(xùn)練模型。 如下圖所示,RAG的基本工作流程可大體上分成兩部份:首先是依據(jù)輸入查詢(xún)數(shù)據(jù)庫(kù),從而獲取與輸入相關(guān)的最新上下文信息。這些信息通常存儲(chǔ)在向量數(shù)據(jù)庫(kù)中,以便高效的獲取與查詢(xún)信息高度相關(guān)的內(nèi)容;然后,這些相關(guān)信息與原輸入信息通過(guò)提示詞工程技術(shù)構(gòu)建一個(gè)新的Prompt輸入給LLM,從而使大模型的輸出更加準(zhǔn)確,專(zhuān)業(yè)和具備時(shí)效性??梢钥吹秸麄€(gè)RAG流程中,數(shù)據(jù)庫(kù)查詢(xún)需要用到CPU,LLM推理需要用到GPU,兩者缺一不可,且都處在關(guān)鍵路徑上。 通過(guò)CXL來(lái)提升數(shù)據(jù)庫(kù)的查詢(xún)效率,可以有效降低整個(gè)RAG鏈路的時(shí)延和總吞吐。 可見(jiàn),在更大的AI應(yīng)用系統(tǒng)中,CXL不但沒(méi)有死,而且還將發(fā)揮至關(guān)重要的作用。
RAG和LLM協(xié)同工作示意圖. Source: AWS
c.大容量的內(nèi)存擴(kuò)展
AI模型發(fā)展的一個(gè)趨勢(shì)是參數(shù)的大幅增加,在過(guò)去的10年間參數(shù)快速增長(zhǎng)到GPT4的1.8T MoE模型,即使以FP8存儲(chǔ),僅模型參數(shù)的內(nèi)存占用量就到達(dá)TB以上。同時(shí)這種大模型處理過(guò)程中,KVcache以及數(shù)據(jù)預(yù)處理的內(nèi)存占用量也非常大。如果單純依賴(lài)GPU上的HBM或者GDDR來(lái)保存這些數(shù)據(jù),整個(gè)AI系統(tǒng)會(huì)變得極其昂貴且效率低下,經(jīng)濟(jì)上不可持續(xù)。 利用CXL接口的內(nèi)存擴(kuò)展,提供低成本、高性能的超大的內(nèi)存池,其CXL/PCIe接口可以同時(shí)滿(mǎn)足CPU和GPU的訪(fǎng)存模式,助力未來(lái)的智算系統(tǒng)降低成本,提高效率。
5、總結(jié)
我們認(rèn)為CXL所帶來(lái)的服務(wù)器可編排和軟件定義,是對(duì)服務(wù)器乃至數(shù)據(jù)中心架構(gòu)的全面重構(gòu),將會(huì)對(duì)數(shù)據(jù)中心的成本,性能,運(yùn)維及穩(wěn)定性都帶來(lái)深遠(yuǎn)的,積極的影響。如上所述,CXL不僅不會(huì)在AI時(shí)代變得無(wú)關(guān)緊要,相反,它會(huì)對(duì)包括AI在內(nèi)的各類(lèi)云端應(yīng)用帶來(lái)更多性能和成本上的紅利。 阿里云服務(wù)器團(tuán)隊(duì)在CXL領(lǐng)域與業(yè)界一起進(jìn)行了多年的技術(shù)儲(chǔ)備,一直走在業(yè)界的前列,我們將在后續(xù)的文章中陸續(xù)對(duì)各項(xiàng)技術(shù)進(jìn)行詳細(xì)介紹,敬請(qǐng)關(guān)注。
參考文獻(xiàn):
[1] 中國(guó)信通院,“2023智能算力白皮書(shū)”,https://roadshow.h3c.com/zl/pdf/2023zhinengsuanli.pdf
[2] 工信部,“算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃”,https://www.gov.cn/zhengce/zhengceku/202310/P020231009520949915888.pdf
[3] Adam Armstrong, “What role does CXL play in AI? Depends on who you ask”, https://www.techtarget.com/searchstorage/news/366575974/What-role-does-CXL-play-in-AI-Depends-on-who-you-ask
[4] “3D-stacks HBM memory directly on top of the processing cores”, https://www.tomshardware.com/news/sk-hynix-plans-to-stack-hbm4-directly-on-logic-processors
[5]. “CXL Q&A for AI”, https://members.computeexpresslink.org/wg/Board/document/3445
[6]. Dylan Patel and Jeremie Eliahou Ontiveros, “CXL is Dead in the Era of AI”, https://www.semianalysis.com/p/cxl-is-dead-in-the-ai-era