通用算力的目標(biāo)不是“重復(fù)造輪子”,與GPU一較短長(zhǎng),爭(zhēng)奪市場(chǎng)。通用算力的目標(biāo)是向生成式AI的縱深發(fā)展,拓展推理應(yīng)用市場(chǎng)。GPU算力成就了生成式AI訓(xùn)練,成就了大模型。但是大模型是起點(diǎn),與行業(yè)應(yīng)用結(jié)合的推理,才是更具有價(jià)值的場(chǎng)景。

從訓(xùn)練到推理,計(jì)算仍然以GPU為主,看上去順理成章,實(shí)則充滿變數(shù),要知道行業(yè)市場(chǎng)需要通用大模型和行業(yè)專用數(shù)據(jù)的結(jié)合,甚至?xí)觾A向小模型。如此,CPU通用算力大有可為,也更為行業(yè)用戶所熟悉。

為了更好滿足AI推理市場(chǎng)的應(yīng)用,需要CPU在總線互聯(lián)帶寬、內(nèi)存帶寬及容量等方面持續(xù)優(yōu)化,使得系統(tǒng)功耗、總線速率、電流密度不斷提升……在多種疊加因素上取得創(chuàng)新和突破。

在這樣的背景下,CXL技術(shù)得到普遍關(guān)注和重視,也被寄予厚望。在“2024開放計(jì)算中國(guó)峰會(huì)” 開放系統(tǒng)設(shè)計(jì)與CXL 互連技術(shù)論壇期間,記者采訪了英特爾數(shù)據(jù)中心和人工智能部門至強(qiáng)客戶解決方案部總經(jīng)理李亞?wèn)|、阿里云超高速互聯(lián)負(fù)責(zé)人孔陽(yáng)、浪潮信息內(nèi)存池化項(xiàng)目負(fù)責(zé)人陳曦。

李亞?wèn)|表示,CXL技術(shù)主要解決的就是計(jì)算處理器和內(nèi)存、加速器之間互聯(lián)問(wèn)題,基于PCIe物理層協(xié)議,擴(kuò)展了計(jì)算可以使用內(nèi)存帶寬和容量,可以是單機(jī)擴(kuò)展的方式,也可以是內(nèi)存池化的方式。

“CXL基于PCIe物理層傳輸信號(hào),但在協(xié)議層面上引入了新的特性和改進(jìn),顯著提升了系統(tǒng)中處理器、加速器和內(nèi)存設(shè)備之間的數(shù)據(jù)交換效率和緩存一致性,為高性能計(jì)算、大規(guī)模數(shù)據(jù)處理提供了強(qiáng)大的支持?!?李亞?wèn)|說(shuō)。

李亞?wèn)|強(qiáng)調(diào),標(biāo)準(zhǔn)化至關(guān)重要,也是產(chǎn)業(yè)生態(tài)的基礎(chǔ),惟有標(biāo)準(zhǔn)化才能夠最大程度發(fā)揮產(chǎn)業(yè)界的能力,形成可持續(xù)化發(fā)展。英特爾是CXL標(biāo)準(zhǔn)的主要貢獻(xiàn)者,在Linux Kernel里也貢獻(xiàn)了大量CXL相關(guān)代碼。英特爾至強(qiáng)CPU從SPR(Sapphire Rapids),也就是第四代至強(qiáng)可擴(kuò)展處理器開始支持CXL,并且在后續(xù)每代至強(qiáng) CPU中都支持了最新的CXL協(xié)議,并提供了Flat 1LM、Heterogenous interleaving、2LM等多種創(chuàng)新內(nèi)存應(yīng)用模式,為業(yè)務(wù)應(yīng)用創(chuàng)新提供了新的技術(shù)手段。

孔陽(yáng)結(jié)合阿里云業(yè)務(wù)應(yīng)用實(shí)踐,披露了阿里云在CXL技術(shù)上產(chǎn)品規(guī)劃和解決方案。他說(shuō),CXL技術(shù)的主要價(jià)值在于實(shí)現(xiàn)了對(duì)CPU內(nèi)存帶寬容量的擴(kuò)展和池化。無(wú)論生成式AI,還是云計(jì)算對(duì)內(nèi)存靈活性都有很高的要求,借助CXL內(nèi)存池化的技術(shù)方案,為阿里云業(yè)務(wù)應(yīng)用創(chuàng)新提供了新的手段和方法。

據(jù)了解,在互聯(lián)架構(gòu)創(chuàng)新上,阿里云推出了業(yè)界首個(gè)基于CXL Switch內(nèi)存池的業(yè)務(wù)系統(tǒng)解決方案,通過(guò)CXL Switch Box系統(tǒng),提供大容量、高性能、靈活性強(qiáng)的池化內(nèi)存系統(tǒng)。在設(shè)計(jì)上,新的系統(tǒng)選用了阿里自研AliSCM、AliMemory等部件,并結(jié)合了FM管理、BMC管理軟件,實(shí)現(xiàn)了10TB級(jí)內(nèi)存容量的池化與共享。同時(shí),實(shí)現(xiàn)了大容量、低延遲、高帶寬的內(nèi)存語(yǔ)義訪問(wèn),具備了池化內(nèi)存按需、快速動(dòng)態(tài)申請(qǐng)、釋放的能力。在阿里云應(yīng)用實(shí)踐上,該系統(tǒng)對(duì)接阿里云磐久服務(wù)器,共享Ali Memory、AliSCM等池化內(nèi)存資源,為Tiar數(shù)據(jù)庫(kù)、Serverless高性能彈性擴(kuò)縮容應(yīng)用、PolarDB數(shù)據(jù)庫(kù)高性能數(shù)據(jù)訪問(wèn)應(yīng)用等系統(tǒng)級(jí)方案,提供嶄新的技術(shù)支撐平臺(tái),讓應(yīng)用的面貌為之一新。

其中,需要稍加說(shuō)明的是AliSCM是一款阿里自研的持久化內(nèi)存(PMEM)部件,而AliMemory 3.0是阿里云自研的基于CXL技術(shù)的大容量?jī)?nèi)存,采用E3.S規(guī)格,也支持AIC插卡的類型,目前,這些產(chǎn)品基于PCIe5.0,可以提供32GT/S傳輸速度,和百ns水平的延遲。

在采訪中,據(jù)陳曦介紹,浪潮信息從融合架構(gòu)理念開始,就持續(xù)關(guān)注緩存一致性高速互聯(lián)解決方案,探索研究基于GEN Z、Open CAPI、CCIX在內(nèi)的緩存一致性總線技術(shù)方案。作為這些方案的集大成者,CXL已經(jīng)成為市場(chǎng)事實(shí)上的標(biāo)準(zhǔn)。

浪潮信息持續(xù)開展CXL技術(shù)的研究和探索,在CXL1.0/1.1階段,浪潮信息自研開發(fā)了基于CXL的FPGA加速器,實(shí)現(xiàn)CPU和加速器全局內(nèi)存物理地址空間統(tǒng)一,完成內(nèi)存擴(kuò)展原型系統(tǒng)驗(yàn)證;隨后浪潮信息開發(fā)實(shí)現(xiàn)了基于AISC的內(nèi)存遠(yuǎn)端擴(kuò)展原型系統(tǒng),在百納秒級(jí)訪問(wèn)延時(shí)的條件下,系統(tǒng)內(nèi)存容量和帶寬擴(kuò)大一倍。同時(shí)內(nèi)存擴(kuò)展產(chǎn)品覆蓋多種形態(tài),包括業(yè)界最大單卡擴(kuò)展規(guī)模的CXL內(nèi)存擴(kuò)展卡、支持DDR4/DDR5 DIMM擴(kuò)展方案、自研E3.S CXL內(nèi)存模組,滿足客戶不同場(chǎng)景應(yīng)用需求。在CXL2.0階段,浪潮信息持續(xù)進(jìn)行CXL交換技術(shù)研究,提出大規(guī)模內(nèi)存資源解耦重構(gòu)技術(shù)方案,開發(fā)完成內(nèi)存池化原型系統(tǒng),以CXL交換單元為核心解耦重構(gòu)服務(wù)器架構(gòu),軟件定義實(shí)現(xiàn)內(nèi)存資源靈活調(diào)用,實(shí)現(xiàn)多主機(jī)內(nèi)存資源共享,單系統(tǒng)最大可擴(kuò)展16TB池化內(nèi)存資源,相比傳統(tǒng)服務(wù)器內(nèi)存容量和帶寬均擴(kuò)大2倍,滿足AI計(jì)算、云場(chǎng)景、內(nèi)存數(shù)據(jù)庫(kù)多場(chǎng)景應(yīng)用需求。

總而言之,CXL技術(shù)的影響將會(huì)是深遠(yuǎn)的,不能用單一的技術(shù)眼光來(lái)看待問(wèn)題。如果說(shuō)HBM + NVLink成就了大模型,沒(méi)有這些技術(shù)突破,就沒(méi)有生成式人工智能的突破,這是一種相輔相成的因果關(guān)系。那么CXL也是如此,所不同的是,CXL更加開放,更加標(biāo)準(zhǔn)化。雖然在帶寬能力上,CXL目前還達(dá)不到HBM的高度,但是CXL在成本、容量上,也是HBM無(wú)法比擬的。

在大模型Scaling laws的作用下,這種新的技術(shù)突破會(huì)帶來(lái)怎樣的應(yīng)用突破?

基于通用算力的AI應(yīng)用新格局充滿變數(shù)和期待!

分享到

songjy

相關(guān)推薦