計算是基礎,也是核心
北京大學高性能計算校級公共平臺“未名一號“由227個節(jié)點組成,其中計算節(jié)點196個、GPU節(jié)點10個、KNL節(jié)點8個、胖節(jié)點3個、管理和登錄節(jié)點6個、IO節(jié)點4個,存儲采用聯(lián)想GSS24存儲系統(tǒng),容量2784.8TB,計算網(wǎng)絡采用Omni-path架構(gòu),編譯器采用GNU和Intel最新編譯器套件,作業(yè)管理采用Slurm作業(yè)調(diào)度系統(tǒng),集群管理采用聯(lián)想LiCO集群監(jiān)控管理套件。該集群系統(tǒng)理論計算峰值高達411萬億次/秒,計算節(jié)點理論峰值261萬億次/秒,實測計算能力達到242萬億次/秒。
目前,聯(lián)想已經(jīng)與國內(nèi)外多所高校展開合作。在國內(nèi),聯(lián)想與南京大學、廈門大學等院校合作建立超算平臺,持續(xù)提供強大計算力支持。在與南京大學的合作中,聯(lián)想交付了近900萬億次超算集群系統(tǒng),創(chuàng)造了國內(nèi)高校高性能計算平臺規(guī)模的紀錄;在全球范圍內(nèi),聯(lián)想贏得牛津大學、倫敦大學、芝加哥大學、北卡羅萊納州立大學等高校的信賴。比如,聯(lián)想與北卡羅萊納州立大學研究人員正在開展更深入的研究,以應對全球糧食水源短缺的挑戰(zhàn)。在倫敦大學學院,研究人員正在通過大型強子對撞機,重建高能粒子碰撞事件,解決有關宇宙起源的基本問題。與之相比,“未名一號”則肩負著北京大學學科建設以及AI應用變革的使命和任務,”在數(shù)學、物理學、化學、生物學、地球科學、航天航空科學、計算機科學等多個學科科研領域,需要“未名一號”提供大規(guī)模數(shù)據(jù)處理和大規(guī)??茖W計算的能力。不僅如此,以AI驅(qū)動的智慧化變革同樣需要強大的計算能力為基礎。
如今,算法(Algorithm)、大數(shù)據(jù)(Big data)和計算力(Computing power)堪稱AI三大要素,所謂ABC。其中AI通用算法和不同行業(yè)應用場景的結(jié)合,以大數(shù)據(jù)為基礎的機器學習、深度機器學習,將幫助傳統(tǒng)產(chǎn)業(yè)以前所未有的視角,深化行業(yè)業(yè)務創(chuàng)新和變革??梢哉f,AI的業(yè)務應用離不開強大的計算能力,以及持續(xù)穩(wěn)定的能力輸出,而高性能計算恰恰具備了這樣的特征,由此也拉動了信息技術(shù)學科對于HPC計算能力的需要?!拔疵惶枴备咝阅苡嬎阈<壒财脚_的實踐也印證了這一點,從試運行的結(jié)果看,“未名一號”運行平穩(wěn)、作業(yè)飽滿、性能優(yōu)良,目前支撐了學校21個院系的100項科研項目,同時在試運行期間,已經(jīng)支持發(fā)表了高水平的論文,成績喜人,用戶的反映良好。
節(jié)能之外的意外收獲
作為國內(nèi)首個溫水水冷超算平臺,“未名一號“的啟用堪稱“吃螃蟹”之舉。對此,北大內(nèi)部也對“水泄漏”的問題感覺過擔心。此外,國內(nèi)機房建設標準對“冷凍水”方案缺乏支持,也是導致水冷系統(tǒng)不能夠得到推廣的原因。
作為國內(nèi)學科領域的帶頭人,北大的教授也清楚地知道:較之傳統(tǒng)的風冷方案,水冷方案在換熱效率,也就是熱容比方面的巨大優(yōu)勢。同樣的熱量置換,風冷方案不僅需要更大的空間,同時也需要消耗更多的電能,其中,PUE是一個最能夠體現(xiàn)能耗的指標。如果采用風冷方案,無論如何沒有辦法實現(xiàn)PUE 1.1的指標。經(jīng)過測算,溫水水冷方案每年能夠給北京大學帶來60萬度電的能源節(jié)省。
目前“未名一號“高性能計算校級公共平臺的進水溫度在38℃左右,經(jīng)過高性能計算平臺熱交換,出水溫度在45℃左右。據(jù)介紹,這是一個理想的溫度,經(jīng)過聯(lián)想在全球的無數(shù)實踐證明,這個溫度對于冷凝水的抑制,以及散熱效率是一個最佳的實踐。也完全吻合高溫數(shù)據(jù)中心的發(fā)展趨勢。根據(jù)聯(lián)想的研究,新一代的溫水冷卻技術(shù),可以進一步提升出水溫度到50℃,由此可以帶來額外25%的效率提升。因此,其應用前景空間廣闊。
“能源效率之外,溫水水冷技術(shù)還帶來了超級計算平臺所需要的高可靠性和穩(wěn)定性。”北京大學物理學院副教授、北京大學高性能計算校級公共平臺主任雷奕安說。
“高性能計算平臺實現(xiàn)高性能計算的關鍵就是并行計算,以LinkPack測試為例,在測試過程中,任何單一節(jié)點故障,都會導致測試的失敗。在實際上應用過程中,單一計算節(jié)點,或者內(nèi)存等關鍵部件溫度過高,都會到導致計算效率的降低。與風冷相比,聯(lián)想提供的溫水冷卻技術(shù)提供了更高的散熱保證,從而能夠為高性能計算能力的持續(xù)穩(wěn)定輸出提供了保障,而這是能源效率之外,意想不到的額外收獲?!?雷奕安說。
小結(jié)
對于企業(yè)也好,對于科研機構(gòu)也好,最為難得可貴的精神在于創(chuàng)新,唯有創(chuàng)新才是企業(yè)、科研機構(gòu)長盛不衰的動力源泉和保障。很多時候創(chuàng)新并沒有那么難以實現(xiàn),以“未名一號“溫水冷卻高性能計算校級公共平臺為例,其中溫水冷卻已經(jīng)算不上新生事物,但是國內(nèi)普遍缺乏應用的勇氣,這才是阻礙技術(shù)水平提升的大問題。從這個意義上來說。北京大學 “未名一號”的一小步,將會成為帶動產(chǎn)業(yè)技術(shù)進步的一大步。不僅如此,國內(nèi)首套溫水冷卻技術(shù)高性能計算平臺的落地推廣,對于未來我國E級計算平臺能源效率問題的突破,也會帶來積極的經(jīng)驗積累!
毫無疑問,“未名一號“開了一個好頭,無愧為學科研究的帶頭人!