龍芯系列處理器路線圖
龍芯基于SGI公司的MIPS架構(gòu)。32位的龍芯-1主頻只有266MH。龍芯-2為64位,主頻提高至1.2 GHz。2007年發(fā)布的龍芯-2F具有4個核心,主頻800MHz,浮點運算能力32億次/秒。針對服務(wù)器應(yīng)用的龍芯-3A處理器在推遲一年后發(fā)布。中科院在開發(fā)時加入了對硬件的64位指令仿真功能,El Reg一年前就曾報道稱,龍芯-3處理器加入了一些指令,可以幫助QEMU管理程序(Red Hat KVM管理程序的核心部分)實現(xiàn)x86和MIPS指令格式的轉(zhuǎn)換。
龍芯-3B于2012年登陸超算
龍芯-3A在設(shè)計上采用65nm CMOS工藝和BGA封裝格式,4個64位處理器核心,主頻為900MHz至1GHz,浮點運算能力160億次/秒。該處理器包含4.25億個晶體管,核心面積174.5平方毫米,功耗僅10W,還包括兩個16位的HyperTransport 1.0 端口、4MB二級緩存和兩個支持DDR2和DDR3的內(nèi)存控制器。
龍芯-3B處理器示意圖
胡偉武在ISSCC大會上介紹的龍芯-3B采用65nm CMOS 工藝,具有8個核心,每個核心有2個256位向量協(xié)同處理器,主頻仍為1GHz,浮點運算能力1.28千億次/秒。該處理器具有兩個HyperTransport端口和兩個DDR3內(nèi)存控制器,共包含5.83億個晶體管,核心面積為299.8平方毫米,功耗為40W。在之前的測試中龍芯-3B功耗為28.9W,內(nèi)核以外的部分消耗11.1W。
胡偉武表示:“MIPS基本指令只有300多條,我們自己增加了500多條。在龍芯-3B和龍芯-2H處理器中,我們的向量計算部件實現(xiàn)了128個256位的寄存器。”
龍芯-3B將會在2012年用于曙光6000超級計算機。
早期龍芯-3B刀片服務(wù)器
下圖為配備了龍芯-3B處理器刀片的早期版本。
曙光雙路龍芯-3A和龍芯-3B刀片服務(wù)器
曙光6000刀片服務(wù)器
胡偉武透露,曙光6000刀片的設(shè)計曾經(jīng)用于深圳國家超級計算中心研制至強5650和英偉達M2050的混合系統(tǒng)——星云。星云在2010年11月的TOP500中以1.271千萬億次/秒的成績獲得第三名。
另一個曙光6000刀片集群將配備3000個龍芯-3B芯片,計算水平將達到300萬億次/秒。預(yù)計會在今年夏天推出。
曙光6000不是最高密度
曙光6000刀片系統(tǒng)絕不是中科院計算所能達到的最高密度。我們可以查看下胡偉武在ISSCC大會上展示的1U機架服務(wù)器的系統(tǒng)板:
中科院IU2T 系統(tǒng)板
這個1U 2T的系統(tǒng)板集成了16個8核心的龍芯-3B處理器,計算水平為2萬億次/秒,一個機架就能得到42萬億次/秒的計算水平。因此要達到1千萬億次/秒的計算水平,理論上24個機架就可以實現(xiàn)。
龍芯-3C的設(shè)計將采用28nm制程工藝,推出8核與16核兩種產(chǎn)品,具有更高的主頻,介于1.5GHz至2GHz之間,計算水平將能夠達到5.12千億次/秒。從路線圖可以得知,該處理器還有能力擴展到16核以上,預(yù)計會在2012年底或2012年初推出。
英特爾新安騰處理器“Poulson”
在這次大會上,英特爾公布了新一代安騰處理器“Poulson”的大量技術(shù)細節(jié)。專門為需要高可靠性和可用性的高端服務(wù)器設(shè)計的Poulson,可以看做是一個測試英特爾最新技術(shù)的媒介,然后將技術(shù)向下應(yīng)用于x86服務(wù)器或PC芯片上。
Poulson內(nèi)核架構(gòu)圖
Poulson使用32nmHKMG工藝(跨過45nm),最多八核心,晶體管也猛增一半多達到31億個,但是核心面積縮小了22%,只有29.9×18.1=544平方毫米,熱設(shè)計功耗則依然保持在170W,每核心同頻率下降低60%。
Poulson核心架構(gòu)圖解
直接采用32nm工藝,集成約31億個晶體管,這對采用65nm工藝的上一代安騰來說是個巨大的提升。更先進的制造工藝讓英特爾可以在芯片上集成更多的晶體管,從而提升性能,降低泄露,讓芯片也更具能效。Poulson還集成了四個全速和兩個半速Q(mào)PI總線控制器,兩個SMI可擴充內(nèi)存互連控制器。
核心架構(gòu)與功耗優(yōu)化
單個核心架構(gòu)圖
同時Poulson每個核心16KB一級數(shù)據(jù)緩存、16KB一級指令緩存、512KB二級數(shù)據(jù)緩存、256KB二級指令緩存,然后32MB三級緩存一方面為八個核心共享,但又分成八個4MB大小的LLC區(qū)塊供給每個核心快速訪問(有些類似于SandyBridge),另外還有兩個1.5MB目錄緩存,總的SRAM緩存容量達到了54MB。
隨著處理器的系統(tǒng)集成度越來越高,從而對系統(tǒng)級的功耗優(yōu)化和有效的電源管理提出了更加苛刻的要求。
功率指標比例
在保持當前功耗特性不變的前提下通過一系列低功耗技術(shù)來提高系統(tǒng)性能仍然是很多工程師采取的方式。對功耗問題的持續(xù)關(guān)注也將促進各種系統(tǒng)如PC,服務(wù)器,數(shù)據(jù)中心等類似的系統(tǒng)功耗優(yōu)化,最終的結(jié)果必將是更低的成本,更低散熱需求,以及更加綠色環(huán)保的產(chǎn)品。
IBM zEnterprise 196處理器
IBM zEnterprise 196處理器其實已經(jīng)發(fā)布了將近半年時間,從發(fā)布到現(xiàn)在,IBM唯一談?wù)摰囊粋€技術(shù)點就是新大型機的處理器主頻為5.2GHz,是“全球最快的微處理器”。
IBM z196大型機芯片圖解
z196處理器有14億個晶體管,面積為512.3平方毫米,這使其在晶體管數(shù)量和面積上都要大于POWER7芯片。z196芯片采用了IBM的觸點陳列封裝,被稱為C4的金屬觸點封裝取代了以往的針狀插腳。z196處理器有驚人的8093個電源觸電和1134個信號觸電。
SMP Hub的一個優(yōu)點就是可以加載到帶有L4緩存的組件上,這是大多數(shù)服務(wù)器所沒有的——幾年前IBM曾向至強處理器的EXA芯片組上增加了一些L4緩存(編者注:即采用了eX4架構(gòu)的IBM X3850M2/3950M2平臺,可通過擴展組建升級為16路系統(tǒng)。對應(yīng)的CPU為Xeon 7400系列)。L4緩存之所以重要,其原因在于大型機引擎的主頻要遠高于主內(nèi)存速度,但是如果只通過增加一個緩存層來滿足Z196的引擎需求是非常昂貴的。
緩存的重要性
每個MCM上部署6個CP和2個SC,MCM是一個邊長96毫米的正方形,功耗1880瓦。每個處理器板有一個MCM,這使得一個完全連接的系統(tǒng)可以達到96個CP,十幾個控制器可以訪問多達3TB RAID內(nèi)存,32個I/O Hub接口最高可實現(xiàn)288 GB/s的I/O帶寬。頂架式zEnterprise 196 M80設(shè)備中的80個CP可用于運行工作負載,其他可以使用Parallel Sysplex集群來耦合系統(tǒng)、管理I/O和熱備份等等。
zEnterprise196SMPHub/共享緩存
z196芯片上的每個核心都有64KB的L1指令緩存和128KB的L1數(shù)據(jù)緩存(與z10相同)。這些核心是非常相似的,但是z196有100個新指令和超標量通道允許指令重新排序,讓通道比z10更較有效,而且對編輯代碼是不可見的。每個核心都有1.5MB的L2緩存。
其采用45nmPDSOI工藝制造,13個金屬層,3500米連線,14億個晶體管,核心面積512平方毫米。每顆芯片有四個核心,每兩個核心共享一個協(xié)處理器(COP),用于加解密和壓縮的加速。
IBM z196大型機芯片
緩存方面,每個核心64KB一級指令緩存、128KB一級數(shù)據(jù)緩存、1.5MB二級緩存,四個核心共享24MBeDRAM三級緩存,六顆處理器組成一個節(jié)點還共享192MBeDRAM四級緩存。同時z196還支持DDRRAIM內(nèi)存容錯技術(shù)。
AMD推土機架構(gòu)Bulldozer
至于AMD之前早就公布過下一代處理器架構(gòu)推土機的大量技術(shù)細節(jié)。推土機架構(gòu)Bulldozer主攻性能和擴展性,面向的是主流客戶端和服務(wù)器領(lǐng)域。可以說推土機是AMD徹底重新設(shè)計的核心,將成為AMD下一代高性能處理器技術(shù),用于客戶端和服務(wù)器領(lǐng)域,相比于Opteron6100系列會增加33%的核心、大約50%的性能。
Bulldozer是AMD最新的突破
推土機的模塊可以通過HyperTransport高速點對點總線多個累加在一起,組成更多核心產(chǎn)品,比如代號英特拉格斯的Opteron6200系列服務(wù)器處理器就有6-8個模塊、12-16個核心,代號巴倫西亞的Opteron4200系列則有3-4個模塊、6-8個核心,它們會分別取代現(xiàn)有的8-12核心Opteron6100系列、4-6核心的Opteron4100系列,均采用GlobalFoundries32nmSOI工藝制造。
Bulldozer芯片的基本構(gòu)建塊是AMD所謂的“模塊”,帶有一個有自己L1緩存的單線程四通道的整數(shù)單元。這個模塊中2個這樣的整數(shù)單元,以及2個128位浮點計算單元;所有4個這單元共享指令集和解碼單元,以及共享的L2緩存、共享的L3緩存和共享的北橋來連接到外圍設(shè)備。這樣2個Bulldozer就有一個共享的浮點調(diào)度器和兩個整數(shù)調(diào)度器;如果整數(shù)單元空閑的話,這個四核芯片就可以在一個時鐘頻率內(nèi)執(zhí)行4個雙精度或者8個單精度讀點運算。
推土機將采用新的模塊化設(shè)計,每個模塊擁有兩個四管線核心,彼此共享一個浮點調(diào)度器和兩個128位乘法累加單元(FMAC)。兩個核心都擁有自己的整數(shù)調(diào)度器、一級數(shù)據(jù)緩存,并預(yù)取、解碼單元和二級緩存。新架構(gòu)還將有全新的x86指令集支持,包括SSE4.1、SSE4.2、AVX、XOP。
除了高性能計算領(lǐng)域之外浮點運算量并不多,這種浮點調(diào)度器共享設(shè)計能大大節(jié)省晶體管、核心面積、功耗,降低成本;兩個FMAC單元既可以被每個核心單獨使用,也可以合并組成一個256位FMAC單元,當然這需要程序代碼做相應(yīng)改變。為了獲得最大程度的性能功耗比,推土機架構(gòu)還會在共享、專用單元之間動態(tài)切換。
對于當今的服務(wù)器處理器行業(yè)來說,無論是IBM、Intel還是AMD都各自在高端處理器市場獨當一面。處理器巨頭技術(shù)爭霸的結(jié)果我們暫時還無法判定高下,但既然能成為領(lǐng)跑者就有一定的原因。本次大會上,龍芯處理器再次提出新的規(guī)劃,如果能躋身超算處理器市場,那將是中國處理器一次里程碑的進步。在服務(wù)器處理器的混戰(zhàn)中,最后贏家是Intel、AMD還是IBM呢?也許不只三家爭霸也未可知。