目前“天河一號”配備了14336顆至強(qiáng)X5670處理器(32nm工藝,六核12線程,2.93GHz主頻),而GPU方面則采用了7168塊基于Nvidia “Fermi”架構(gòu)的Tesla M2050計(jì)算卡(主頻1.15GHz,雙精度浮點(diǎn)性能515Gflops、單精度浮點(diǎn)性能1.03Tflops)。而2048顆國產(chǎn)飛騰處理器的使用則使“天河一號”如虎添翼(八核64線程,主頻1GHz),后面我們會詳細(xì)闡述。

▲“天河一號”的CPU計(jì)算節(jié)點(diǎn),四路節(jié)點(diǎn)上每個(gè)至強(qiáng)X5670處理器(32nm工藝,六核12線程,2.93GHz主頻)擁有六根內(nèi)存,以4Gb*6*4來計(jì)算,單CPU計(jì)算節(jié)點(diǎn)的內(nèi)存容量可以達(dá)到96Gb,如果采用8Gb DDR3內(nèi)存則單節(jié)點(diǎn)內(nèi)存容量可以達(dá)到192Gb之巨。

▲“天河一號”采用了國產(chǎn)處理器“飛騰”,65nm工藝,八核64線程,晶體管數(shù)目達(dá)到3.5億個(gè)。芯片主頻800Mhz-1Ghz,擁有3個(gè)HT直連總線接口,4個(gè)獨(dú)立的DDR3內(nèi)存通道,帶寬達(dá)到32GBps,8個(gè)PCIE 2.0通道,從規(guī)格上看要么是采用了微處理器內(nèi)核設(shè)計(jì),要么就是超低緩存設(shè)計(jì)(晶體管數(shù)量決定了兩者只能取其一)

相比去年“天河一號”僅有5120個(gè)CPU(其中E5540(2.53GHz)處理器4096個(gè),E5450(3.0GHz)處理器1024個(gè))和5120個(gè)AMD HD4870組成的GPU計(jì)算模塊(詳見這里),現(xiàn)在的“天河一號”在性能上的飛躍也就不足為奇了。

“天河一號”有秘密武器 “星云”爆冷有三大原因

那么曙光“星云”超級計(jì)算系統(tǒng)作為曙光6000的一部分,今年5月底在Top500榜單上榮獲第二名的好成績,也同樣采用了至強(qiáng)5600系列處理器和“Fermi”架構(gòu)的Tesla計(jì)算卡,為什么會“悲情”的被爆冷呢???原因有三個(gè)方面:

首先是規(guī)模上,“星云”擁有了120640個(gè)處理核心(CPU和GPU數(shù)量之和,詳見這里);而現(xiàn)在的“天河一號”CPU部分擁有202752個(gè)核心(CPU核心數(shù)102400個(gè),GPU核心數(shù)100352個(gè)),規(guī)模上較“星云”高出59.5%。內(nèi)存規(guī)模也達(dá)到了262TB,后臺存儲容量為2PB。

其次是處理器選型上,“星云”采用的是較低主頻的X5650(主頻2.66GHz),而“天河一號”則采用了X5670(主頻2.93GHz),值得注意的是X5670的功耗與X5650相同,均為95W(詳見這里);而GPU方面“星云”采用的是C2050(T3600刀片機(jī)箱每個(gè)插了10塊C2050計(jì)算卡),而“天河一號”采用的是M2050計(jì)算卡(一個(gè)字母之差區(qū)別在何處?點(diǎn)擊這里和這里分別查看兩款計(jì)算卡的區(qū)別,其實(shí)就在于GPU附帶的3G存儲器的存儲頻率??1.5Ghz與1.55Ghz的區(qū)別)。

▲“天河一號”的GPU計(jì)算節(jié)點(diǎn),Nvidia “Fermi”核心Tesla M2050系列計(jì)算卡,擁有448個(gè)流處理器核心(CUDA核心),主頻1.15GHz,專用ECC存儲器是DDR5規(guī)格的3Gb緩存,緩存頻率高達(dá)1.55GHz,這使得GPU內(nèi)數(shù)據(jù)存儲速率達(dá)到了148Gb/s。由于散熱和功耗等因素,一個(gè)GPU計(jì)算節(jié)點(diǎn)中只放置了兩塊M2050計(jì)算卡。

第三點(diǎn)也是最核心的區(qū)別??“天河一號”采用了雙向160Gbps私有高速通訊網(wǎng)絡(luò),遠(yuǎn)遠(yuǎn)超過了“星云”所采用的QDR Infiniband 40Gb的通訊速率,可以說這種通訊速率上的秘密武器才使得“天河一號”得以集成如此多的處理器和GPU計(jì)算卡。而國產(chǎn)“飛騰”處理器的加入,不但有助于計(jì)算性能的提升,也為國產(chǎn)處理器進(jìn)入大規(guī)模實(shí)際應(yīng)用做了示范。

▲“飛騰”處理器近照披露

▲傳說中的高速互聯(lián)交換芯片“NRC”和接口芯片“NIC”。其中NRC芯片片內(nèi)延遲只有單端口雙向帶寬高達(dá)160Gbps??是Infiniband QDR傳輸速率的2倍,而NRC單芯片上擁有16個(gè)這樣的交換端口,其峰值速率達(dá)到2.56Tbps。通信芯片由于穩(wěn)定性和制程局限,往往不采用最新的制程工藝,該NRC芯片采用了90nm工藝制造,晶體管數(shù)目大約為4.6億??細(xì)心的讀者可以發(fā)現(xiàn)其比“飛騰”處理器晶體管要多(再度認(rèn)為飛騰的微內(nèi)核專用性更強(qiáng))

分享到

liukai

相關(guān)推薦