6月6日,能效核版的英特爾至強(qiáng)6700E發(fā)布,最多核心數(shù)是144核,計(jì)劃于2025年Q1發(fā)布的英特爾至強(qiáng)6900E核心數(shù)量將會(huì)來(lái)到驚人的288核。
性能核版本的英特爾至強(qiáng)6900P也將于今年第三季度擇期發(fā)布,作為全性能核的處理器,其核心數(shù)量也將來(lái)到128核,與AMD第四代霄龍9754持平。
從上圖可見(jiàn),6700E支持單路和雙路配置,最高350W的TDP設(shè)計(jì),支持8個(gè)內(nèi)存通道,內(nèi)存速率從上一代的5600MT/s提高到了6400MT/s。它支持最多88個(gè)PCIe 5.0通道或者CXL 2.0通道。
全性能核的6700P,可以提供86個(gè)性能核,支持最高8路設(shè)計(jì)。默認(rèn)支持8個(gè)內(nèi)存通道,如果遇到對(duì)內(nèi)存帶寬要求更多的場(chǎng)景,還能使用至強(qiáng)6的MCR技術(shù)把內(nèi)存速率提高到8000MT/s。
6900P則具有128個(gè)核心,比最多64核的第五代至強(qiáng)核心數(shù)翻倍。12通道的配置,搭配MCR技術(shù)提供的8800MT/s速率,其內(nèi)存總體帶寬達(dá)到上一代的2.36倍。
看來(lái),至強(qiáng)6不只增加核心數(shù)量,其內(nèi)存帶寬的增加幅度更大,有助于解決內(nèi)存墻問(wèn)題。
值得注意的是,6900系列支持最多雙路服務(wù)器配置,單臺(tái)服務(wù)器最多576核或者256核。6900系列的TDP來(lái)到了最高500瓦,支持最多96個(gè)PCIe 5.0通道或者CXL 2.0通道,支持6個(gè)UPI 2.0鏈路,最高達(dá)到24GT/s的速度。
性能核和能效核的主要區(qū)別
性能核主要面向需要高性能和復(fù)雜計(jì)算的場(chǎng)景,具備更強(qiáng)的單線程性能和更高的指令集支持,適合AI和HPC等場(chǎng)景。能效核則針對(duì)高效能和高密度的計(jì)算需求,優(yōu)化了每瓦性能,更適合微服務(wù)、網(wǎng)絡(luò)和媒體處理等場(chǎng)景。
性能核微架構(gòu)代號(hào)為Redwood Cove,每個(gè)核心具有2MB L2緩存,支持超線程技術(shù)。指令集支持AVX-512(2×512)和英特爾AMX,可用于AI和向量運(yùn)算。每核心擁有64KB指令緩存和48KB數(shù)據(jù)緩存。此外,它支持512指令亂序執(zhí)行引擎,能夠更好地優(yōu)化編程中的軟件指令。
能效核規(guī)格有裁剪,其微架構(gòu)代號(hào)為Crestmont,每四個(gè)單線程核心共享4MB L2緩存。指令集方面,支持增強(qiáng)版的AVX2(2×128),也可用于AI和向量運(yùn)算。每核心擁有64KB指令緩存和32KB ECC數(shù)據(jù)緩存。它只支持256指令亂序執(zhí)行引擎。
通過(guò)這些裁剪,每個(gè)能效核所占的面積大幅度降低,同時(shí)功耗也有所減少。這樣就可以在同樣的芯片面積或是功耗的框架下,提供更多的核心數(shù)量和更高的吞吐量。
英特爾至強(qiáng)6架構(gòu)簡(jiǎn)介
第五代至強(qiáng)處理器采用了EMIB(嵌入式多芯片互連橋接)技術(shù),由兩個(gè)芯片組合而成。而英特爾至強(qiáng)6處理器的設(shè)計(jì)理念發(fā)生了變化,不再是簡(jiǎn)單地將芯片一分為二,而是按功能塊進(jìn)行劃分。
如圖所示,芯片中間是計(jì)算die,上下兩部分是I/O die。I/O die主要處理高速I/O相關(guān)事務(wù),要求不高,因此采用了成熟的Intel 7工藝。計(jì)算die需要高計(jì)算密度和核心邏輯密度,因此采用了最新的Intel 3制程工藝。
至強(qiáng)6700能效核的版本采用一個(gè)計(jì)算die和兩個(gè)I/O die的設(shè)計(jì)。三個(gè)性能核產(chǎn)品,HCC(中核心數(shù))為46核,LCC(低核心數(shù))最少,只有16核。XCC(高核心數(shù))為86核,中間有兩個(gè)計(jì)算die。
至強(qiáng)6900的能效核版本也采用了2個(gè)計(jì)算die和兩個(gè)I/O die的設(shè)計(jì),核心數(shù)來(lái)到了288個(gè)。性能核版本放了3個(gè)計(jì)算die,核心數(shù)來(lái)到了128個(gè)。
英特爾強(qiáng)調(diào),這種模塊化設(shè)計(jì)的關(guān)鍵在于Fabric技術(shù),可以將計(jì)算die和I/O die有機(jī)結(jié)合,通過(guò)高密度的EMIB橋接技術(shù),實(shí)現(xiàn)die之間1TB/s帶寬的無(wú)損通信,構(gòu)建更強(qiáng)的通路系統(tǒng)。這種設(shè)計(jì)不僅優(yōu)化了數(shù)據(jù)傳輸效率,還大幅提升了處理器的功能和性能。
計(jì)算die的中間是核心部分(Core),包括L1和L2緩存,CHA(緩存和內(nèi)存訪問(wèn)控制),LLC(L3緩存),以及橫向和縱向的Mesh Fabric。
另外,DDR或MCR內(nèi)存控制器位于die的兩側(cè)。這種設(shè)計(jì)使得每個(gè)計(jì)算die內(nèi)部的核心、緩存和內(nèi)存訪問(wèn)都在較小延遲范圍內(nèi)完成。
I/O die的結(jié)構(gòu)也通過(guò)Fabric和EMIB技術(shù)與計(jì)算die相連。所有芯片采用統(tǒng)一的I/O die架構(gòu),使得平臺(tái)驗(yàn)證和軟件使能更加高效。這種設(shè)計(jì)通過(guò)可復(fù)用的投入,實(shí)現(xiàn)了整個(gè)產(chǎn)品系列的高效開(kāi)發(fā)和驗(yàn)證。
英特爾至強(qiáng)6正式支持內(nèi)存擴(kuò)展
英特爾在其至強(qiáng)6處理器中引入了CXL 2.0技術(shù),CXL 2.0提供對(duì)Type 3設(shè)備的支持,也就是大家期待已久的CXL內(nèi)存擴(kuò)展設(shè)備,在具體實(shí)施層面,英特爾提供了三種內(nèi)存擴(kuò)展模式:
在CXL Numa Node模式下,系統(tǒng)的標(biāo)準(zhǔn)DRAM內(nèi)存和通過(guò)CXL技術(shù)擴(kuò)展的內(nèi)存被視為兩個(gè)獨(dú)立的Numa節(jié)點(diǎn)進(jìn)行控制。每個(gè)Numa節(jié)點(diǎn)都有自己的內(nèi)存地址空間,系統(tǒng)軟件或應(yīng)用程序可以將任務(wù)分配到不同的Numa節(jié)點(diǎn),從而優(yōu)化內(nèi)存的使用。
CXL Numa Node模式適用于需要精細(xì)內(nèi)存管理的應(yīng)用,可以通過(guò)操作系統(tǒng)、虛擬機(jī)管理程序(Hypervisor)或應(yīng)用程序本身來(lái)輔助分層管理內(nèi)存。
異構(gòu)交織模式(Hetero Interleaved Mode)通過(guò)以硬件為基礎(chǔ)的內(nèi)存交織技術(shù),將系統(tǒng)的DRAM內(nèi)存和CXL內(nèi)存混合在一起,形成一個(gè)統(tǒng)一的Numa節(jié)點(diǎn)。每個(gè)內(nèi)存地址空間中的數(shù)據(jù)可以交替存儲(chǔ)在DRAM和CXL內(nèi)存中,從而均衡內(nèi)存帶寬,減少延遲。
異構(gòu)交織模式適用于對(duì)內(nèi)存帶寬有高需求的應(yīng)用,特別是當(dāng)需要將DRAM和CXL內(nèi)存結(jié)合使用時(shí)。此模式只有在配備性能核(P-core)的至強(qiáng)6700和6900處理器上才支持。
在Flat Memory模式下,CXL內(nèi)存和DRAM內(nèi)存被視為單一的內(nèi)存層,操作系統(tǒng)可以直接訪問(wèn)這一統(tǒng)一的內(nèi)存地址空間。硬件輔助的分層管理可以確保常用數(shù)據(jù)優(yōu)先存儲(chǔ)在DRAM中,次要數(shù)據(jù)存儲(chǔ)在CXL內(nèi)存中,從而最大限度地提升內(nèi)存使用效率。
Flat Memory模式適用于希望利用CXL內(nèi)存擴(kuò)展而無(wú)需修改軟件的應(yīng)用。這種模式適用于所有的至強(qiáng)6處理器。
通過(guò)這三種模式,英特爾至強(qiáng)6處理器為不同的應(yīng)用場(chǎng)景提供了靈活且高效的內(nèi)存解決方案。
上圖展示的是至強(qiáng)6處理器運(yùn)行在MongoDB數(shù)據(jù)庫(kù)時(shí)的性能差異,對(duì)比的變量是標(biāo)準(zhǔn)DDR5內(nèi)存與CXL 2.0平面存儲(chǔ)器模式。評(píng)估結(jié)果顯示,在數(shù)據(jù)容量為125GB、256GB和512GB時(shí),兩者的性能差距分別僅為1%、2%和5%。
結(jié)束語(yǔ)
144核、288核,以及128核,更多的核心固然誘人,但內(nèi)存墻的問(wèn)題不得不重視。
英特爾至強(qiáng)6處理器不僅支持MCR,最高內(nèi)存通道數(shù)也來(lái)到了12個(gè),搭配用來(lái)解決內(nèi)存墻問(wèn)題的CXL內(nèi)存擴(kuò)展技術(shù),內(nèi)存墻的問(wèn)題得到了有效針對(duì)。