南京大學(xué)高性能計(jì)算中心系統(tǒng)架構(gòu)圖
據(jù)周老師介紹,全套系統(tǒng)由402片HS22刀片服務(wù)器構(gòu)成,每節(jié)點(diǎn)12GB內(nèi)存,2顆英特爾至 強(qiáng)5500系列處理器(主頻2.66GHz,8MB Cache),20Gb Infiniband HCA卡。其中有10片HS22刀片服務(wù)器用作登陸節(jié)點(diǎn),每節(jié)點(diǎn)24GB內(nèi)存,4Gb光纖卡,20Gb Infiniband以及千兆網(wǎng)卡。另有30臺刀片機(jī)箱與上述計(jì)算節(jié)點(diǎn)配套,擁有16口Infiniband交換模塊、六口千兆交換機(jī)和兩個百兆管理網(wǎng) 口。
存儲和管理方面,南大高性能計(jì)算中心選擇了20臺IBM x3650做存儲節(jié)點(diǎn),每節(jié)點(diǎn)配置32GB內(nèi)存,20Gb Inifiniband卡,6塊450GB 15000轉(zhuǎn)SAS盤,共54TB組成并行存儲系統(tǒng),連續(xù)讀寫I/O大于每秒6GB。另有一臺IBM DS3000 SAN架構(gòu)官仙共享存儲系統(tǒng)共128TB容量容量,配備16GB Cache,兩個8口光纖卡,連續(xù)讀寫帶寬大于每秒2GB。此外,還有一臺x3550用作集群管理監(jiān)控節(jié)點(diǎn),3臺x3650用作管理和作業(yè)調(diào)度節(jié)點(diǎn)。
網(wǎng)絡(luò)交換方面,周老師介紹說他們采用了兩臺288口20Gb 4x Infiniband交換機(jī)(當(dāng)時還沒有成熟的40Gb Infiniband交換設(shè)別),組成全線速無阻塞并行計(jì)算網(wǎng)絡(luò)。此外還有四臺4口萬兆上行48口BNT的交換機(jī)用作作業(yè)調(diào)度和管理。
▲南京大學(xué)高性能計(jì)算系統(tǒng)邏輯架構(gòu)圖
對于刀片服務(wù)器的散熱和供電是重中之重,南大高性能計(jì)算中心采用了4臺90千瓦制冷量的艾默生LibertPex機(jī)房精密空調(diào),120千瓦UPS擁 有96節(jié)湯式100AH電池,可在斷電的情況下維持?jǐn)?shù)據(jù)中心1小時時間,足夠工作負(fù)載暫停和系統(tǒng)正常關(guān)閉。此外,南京大學(xué)高性能中心還配備了三個配電柜, 提供500KVA機(jī)房電力增容,一套七氟丙烷氣體消防滅火系統(tǒng)為機(jī)房提供消防保障。
走進(jìn)高性能計(jì)算中心的機(jī)房,首先可以看到外側(cè)監(jiān)控人員的坐席
通過監(jiān)控軟件,外面的管理員可以輕松的了解目前設(shè)備的工作情況,包括溫度、供電、機(jī)房視頻監(jiān)控等
周慶林老師向我們展示了管理平臺的功能之一:每天向手機(jī)發(fā)短信匯報目前機(jī)房的狀況,一旦遇到問題也會立刻發(fā)短信通知到指定的手機(jī)。
機(jī)房內(nèi)是擺放整齊的機(jī)柜,可以看到上面用玻璃從機(jī)柜正中封死了機(jī)房后部和前部,這樣做的好處是隔絕了冷熱通道——空調(diào)的冷風(fēng)從下面(架高60cm)送到前部,被機(jī)柜風(fēng)扇吸入排出到后面直接送給空調(diào)。封死之后冷熱通道徹底隔絕,大大提升了散熱效率。
打開機(jī)架,可以看到IBM HS22刀片服務(wù)器,這個機(jī)柜比較特殊,可以看到上面的那個刀片機(jī)箱只插了10個刀片——這既是我們前文提到的管理登陸節(jié)點(diǎn),而下面和旁邊的其他刀片則插滿了14個計(jì)算刀片。
IBM x3650服務(wù)器用作并行存儲,為實(shí)時計(jì)算的數(shù)據(jù)調(diào)用提供了一個緩沖(前端是刀片,后端是SAN)
IBM DS3000 SAN負(fù)責(zé)后端存儲
兩臺288口20Gb 4x Infiniband交換機(jī)
如此多的Infiniband連接線,碼放的非常整齊
機(jī)房的消防設(shè)施
七氟丙烷滅火系統(tǒng)的儲氣罐——有毒,可窒息
96組UPS電池柜一角