中國地質(zhì)大學(武漢)云計算平臺是由曙光5000A在基礎(chǔ)架構(gòu)上進行了創(chuàng)新和改進,采用HPP(Hyper Parallel Processing)體系架構(gòu),融合了Cluster和MPP兩種計算機的優(yōu)勢;曙光5000A的計算節(jié)點以TC2600系列刀片產(chǎn)品為主,也可以配置曙光其他服務器產(chǎn)品。既可以使用全限速無阻塞的Infiniband 網(wǎng)絡構(gòu)建通訊網(wǎng)絡,也可以使用冗余萬兆級聯(lián)的分區(qū)無阻塞Ethernet互聯(lián)網(wǎng)絡;配置存儲系統(tǒng),既可以配置簡單易用的DAS存儲,又可以構(gòu)建高性能的FC或Infiniband SAN存儲,提供較高的聚合I/O帶寬等。
計算子系統(tǒng)高性能計算節(jié)點部分共包括92個曙光CB65-F刀片服務器,共提供了736個2.6GHz處理器核心和1.5TB內(nèi)存,另外還提供了兩臺胖計算節(jié)點,具備超強的計算能力,理論峰值運算速度高達8.87Tflops(每秒8.87萬億次浮點運算)。
曙光提供的存儲子系統(tǒng)硬件部分是基于目前業(yè)界領(lǐng)先的高速Infiniband互聯(lián)之上的全局共享并行IO架構(gòu),包括4個數(shù)據(jù)服務器、1個元數(shù)據(jù)服務器、一套12T的一級實時存儲和一套二級備份存儲,軟件部分基于成熟的Lustre并行文件系統(tǒng),數(shù)據(jù)塊分散存儲于4個存儲管理節(jié)點,降低數(shù)據(jù)丟失風險。和曙光集群管理軟件結(jié)合,對文件系統(tǒng)部署、文件系
統(tǒng)管理、文件系統(tǒng)快速恢復提供良好支持。(下圖為存儲結(jié)構(gòu)示意圖)
由于地質(zhì)學的特殊性,曙光為其云計算平臺設(shè)計了三套互聯(lián)網(wǎng)絡!基于Infiniband的高速通信網(wǎng)絡和基于千兆管理維護網(wǎng)絡和千兆作業(yè)調(diào)度網(wǎng)絡,IB網(wǎng)絡和千兆以太網(wǎng)專網(wǎng)專用并互為備份。
管理診斷子系統(tǒng)和高集成度硬件控制單元也是此套方案亮點之一,新一代曙光5000A超級計算機系統(tǒng)具備業(yè)界最為完善的管理、診斷系統(tǒng)設(shè)計。全新管理平臺包括內(nèi)嵌于服務器節(jié)點的高集成度服務器硬件控制單元以及功能全面的管理軟件系統(tǒng)Gridview HPC 2.0
服務器硬件控制單元集成了IPMI2.0、KVM over IP、虛擬媒體、散熱控制以及電源管理等功能,能夠?qū)Ψ掌鞴?jié)點實現(xiàn)硬件級別的全面資源管理。服務器硬件控制單元完全獨立于操作系統(tǒng),通過RJ45端口接入千兆管理網(wǎng)絡,配合Gridview管理軟件實現(xiàn)對全部硬件資源的統(tǒng)一監(jiān)控和管理。
大規(guī)模視頻切換系統(tǒng)基于SKVM over IP技術(shù),支持本地視頻維護以及基于網(wǎng)絡的遠程診斷,并具備極強的擴展能力,是目前業(yè)界作為領(lǐng)先的視頻管理解決方案。
圖為GRIDVIEW管理界面
除了安全性能,在散熱設(shè)計上為了滿足中國地質(zhì)大學(武漢)超高密的系統(tǒng)散熱要求,服務器內(nèi)部設(shè)計了多處專用散熱通道,每個通道保障不同部件的散熱。通過獨立散熱通道,對部分發(fā)熱量的部件形成隔離空間,強制形成前后空氣對流,避免對周圍部件的散熱影響。整個系統(tǒng)風扇采用冗余結(jié)構(gòu)設(shè)計、能快速識別并能快速更換損壞風扇,有效保障系統(tǒng)的穩(wěn)定性和系統(tǒng)良好運行環(huán)境。
中國地質(zhì)大學(武漢)學院采用92臺刀片式服務器CB65-F作為計算節(jié)點,峰值性能達到8.87Tflops。
CB65-F是曙光公司最新研發(fā)的新一代刀片式服務器產(chǎn)品,并專為HPC進行優(yōu)化設(shè)計,單節(jié)點linpack效率超過80%。其在國內(nèi)擁有大量部署,如下圖所示為CB65-F的系統(tǒng)結(jié)構(gòu)圖,兩顆處理器通過AMD Hypertransport總線直接實現(xiàn)互聯(lián),互聯(lián)帶寬高達8GB/s。每個處理器通過集成的內(nèi)存控制器訪問四通道內(nèi)存系統(tǒng)。南橋芯片基于高性能的HT2100,實現(xiàn)2個高速PCIEx8和2個千兆以太網(wǎng)擴展。
除上述硬件外,中國地質(zhì)大學武漢學院選用曙光8-way 64位服務器A950系統(tǒng)作為胖計算節(jié)點。共采用2臺曙光8-way A950服務器、16顆AMD 64位2.5GHz shanghai CPU構(gòu)建胖計算節(jié)點,提供640G flops的主頻峰值計算能力。曙光A950的優(yōu)勢在于CPU以及內(nèi)存的擴展能力,系統(tǒng)支持最多達32個CPU的并行編程,并行支持所有的編程模式(共享變量和消息傳遞),具有極高的編程可移植性。同時系統(tǒng)64位和32位的全方位的支持使得其再開發(fā)和使用高性能計算機軟件更加容易,可移植性更強。8P系統(tǒng)中采用交叉互聯(lián)架構(gòu)實現(xiàn)相距最遠的兩顆處理器之間最大hops數(shù)由直連架構(gòu)4跳減為3跳,由此大大降低了CPU訪存時延:
中國地質(zhì)大學(武漢)分院表示:學院云計算平臺的建立,對我國地質(zhì)勘探等研究領(lǐng)域的貢獻不可估量。感謝曙光高性能計算在地質(zhì)研究領(lǐng)域多年來積累的豐富經(jīng)驗,正是出色的技術(shù)實力和行業(yè)經(jīng)驗的結(jié)合,幫助了中國地質(zhì)大學(武漢)云計算平臺的搭建與實際應用的需求。