但差距無疑也是存在的,而且很大。
如每CCD上核心數(shù)量從Zen 4架構(gòu)的8個提升到了Zen 4c架構(gòu)的16個(相當(dāng)于每socket上的核心數(shù)量增加了33%),原因在于優(yōu)化后的Zen 4 L3級Cache從4MB降低至2MB,使得每核面積從3.84平方毫米降低至2.48平方毫米,這種優(yōu)化后的核心布局,最終導(dǎo)致單個EPYC處理器新品Bergamo實(shí)現(xiàn)了最高128個Zen 4c核,進(jìn)而能夠支持更多的吞吐量,滿足高負(fù)載應(yīng)用場景下對性能的需求。
另外,Zen 4核心最高主頻為6GHz,但因?yàn)閆en 4c作為云上數(shù)據(jù)中心應(yīng)用,無需如此之高的主頻,所以AMD在Zen 4c上適度進(jìn)行了降頻,達(dá)成較好的能效。
基于Zen 4c架構(gòu)的 EPYC 97X4與EPYC 9004X系列
聊完Zen 4與Zen 4c的差別,再來看看同樣基于Zen 4c架構(gòu)的處理器有哪些異同。
實(shí)際上,二者在內(nèi)存、SP5平臺、集成IO-無芯片組以及安全方面的性能幾乎如出一轍,如都是12通道DDR5內(nèi)存, ECC頻率同樣高達(dá)4800MHz,可選2/4/6/8/10/12通道存儲器交互,3DS RDIMM,一個2插槽系統(tǒng)可擴(kuò)充至高達(dá)12TB (256GB 3DS RDIMM) 2個DIMM /通道容量;全新的Socket插槽提升了電力輸送和支持VR,都采用多達(dá)4條速度高達(dá)32Gbps的第三代AMD Infinity Fabric鏈路,多個服務(wù)器控制器集線器(USB、UART、SPI、I2C等);最多160條 I/O通道(2P)的第五代PCle接口,傳輸速度高達(dá)32Gbps,以及可以利用CXL協(xié)議擴(kuò)展的內(nèi)存尋址功能;增強(qiáng)的專用安全子系統(tǒng)、安全的引導(dǎo)與基于硬件的信任根,采用SME與SEV-ES以及SEV-SNP、AES-256-XTS以及更多加密的虛擬機(jī)技術(shù)。
盡管雙方在最多核心(達(dá)128個核心)、最高功耗(400W)、die-to-die帶寬等方面表現(xiàn)一致,但采用Zen4c架構(gòu)的EPYC 97X4系列(最多8個CCD、256線程) 、每核提供1MB L2緩存、每個CCD提供2個 16MB L3緩存;而EPYC 9004X最多12個CCD / 6個內(nèi)核/ 192線程、每核1MB L2緩存、每CCD 96MB L3級緩存,L3緩存提升至原先的3倍,總計可達(dá)1152MB。
L3緩存的顯著提升,進(jìn)一步降低了內(nèi)存延遲,同時也提升了大數(shù)據(jù)量計算時處理器的性能。這成為EPYC 9004系列的一大顯著特征。
AMD服務(wù)器SOC Silicon設(shè)計工程師Kevin Lepak強(qiáng)調(diào),AMD作為芯片架構(gòu)的領(lǐng)導(dǎo)者,推出了超越摩爾定律的模塊化、可配置設(shè)計,以領(lǐng)先的工藝節(jié)點(diǎn)、先進(jìn)的包裝3D堆疊技術(shù)(3D V-Cache)來加速性能提升,降低電力和成本效率。
“事實(shí)上,我們不希望輕易改變I/O架構(gòu),不論是在SoC還是在I/O Die的大小,這樣OEM伙伴或者合作伙伴能基于我們的產(chǎn)品進(jìn)行設(shè)計與部署?!盞evin Lepak說。
AMD 3D V-Cache技術(shù):超越摩爾定律
當(dāng)工藝演進(jìn)到5nm甚至3nm節(jié)點(diǎn),提升晶體管密度越來越難,由于集成度過高,功耗密度越來越大,供電和散熱也面臨著巨大的挑戰(zhàn)。
AMD高級副總裁、產(chǎn)品技術(shù)架構(gòu)師Sam Naffziger研究員表示,通過改善封裝技術(shù),可在同樣面積上匯集更多相同或者不同的工藝節(jié)點(diǎn)制造的小芯片(Chiplet),從而降低成本的同時獲得更高的集成度。
這一技術(shù)就是AMD津津樂道的3D堆疊(3D V-Cache)技術(shù),堪稱后摩爾時代重要技術(shù)手段之一。
回顧封裝的演進(jìn)過程,從開始的2D多模塊銅封裝(MCM)、2.5D光封裝(Si INT,EFB)到如今先進(jìn)的3D Chiplets,對應(yīng)的分別是DDR內(nèi)存、HBM以及On-die緩存;3D堆棧封裝這種設(shè)計技術(shù),通過Cache容量的延展,達(dá)到了能效的巔峰。
想要在2D芯片上達(dá)到3D緩存的性能,基本上是不可實(shí)現(xiàn)的:除了其Die非常大,時延會非常長,功耗也非常之高。
3D V-Cache技術(shù)比2D芯片封裝內(nèi)部互聯(lián)密度大200倍,比微微凸起的3D內(nèi)部互聯(lián)的密度要大15倍,跟小凸起的3D內(nèi)部互聯(lián)的密度大3倍。這種架構(gòu),使得在處理EDA工作負(fù)載處理方面,Genoa-X比Genoa提升70%。
為什么在3D堆棧上能夠達(dá)到這么好的效能?一方面,它就正好在CCD之上,而且元器件之間的距離并不遠(yuǎn),加上優(yōu)化后的緩存容量提升到了3倍,功耗也大大降低。
EPYC 9004X系列計算性能的提升,正是得益于3D V-Cache技術(shù)的應(yīng)用,但3D V-Cache技術(shù)的價值遠(yuǎn)不止于此。
展示無處不在的AI愿景
“基于AMD 3D V-Cache技術(shù)推出的顛覆性APU(Accelerated Processing Unit)架構(gòu),緊密集成領(lǐng)先的5nm GPU和CPU計算,完全共享內(nèi)存,前所未有的計算密度?!盡ike Clark表示,這就是AMD的Instinct MI300系列加速器,它事實(shí)上就是GPU Die,是非常獨(dú)特的獨(dú)有的3D緩存的Die。
MI300作為異構(gòu)計算的混合芯片,融合了CPU和GPU的核心,功耗非常低。可以看成AMD把EPYC這個服務(wù)器處理器集成到一個GPU里面,共享內(nèi)存,從而實(shí)現(xiàn)非常好的每瓦性能。
MI300分為MI300A和MI300X兩款。全球首款用于高性能計算和人工智能工作負(fù)載的APU加速器MI300A現(xiàn)已向客戶提供樣品,MI300X將于第三季度開始向主要客戶提供樣品。
AMD AI平臺戰(zhàn)略的發(fā)布,為客戶提供從云到邊緣再到終端的硬件產(chǎn)品組合。通過深入的行業(yè)軟件協(xié)作,開發(fā)可擴(kuò)展且普適的 AI 解決方案。人工智能領(lǐng)域的競爭,序幕才剛剛拉開。