打造百億次集群計算機

2009年清華大學成立了地球系統(tǒng)科學研究中心,并聯(lián)合計算機系、環(huán)境系、核能研究院等院系成立了全球變化研究院,致力于研究全球氣候變化背景下地球系統(tǒng)科學的前沿課題及其產生的社會經濟影響。"超級計算平臺是全球氣候變化研究、地球系統(tǒng)科學研究必備平臺,為此,清華大學啟動了以"探索100"百億次集群計算機為核心的清華高性能計算平臺二期工程的建設,借助高性能計算平臺還原或預測地球自然變化過程,實現(xiàn)對洋流、大氣、地殼等的仿真研究。" 清華大學計算機系高性能所高工張武生介紹說。

在"高標準、高要求、高起點"建設原則指導下,清華大學與浪潮集團合力打造的清華高性能計算平臺(二期)通用CPU計算性能達到了每秒104萬億次,GPU計算性能達到每秒68萬億次,總計算性能為每秒172萬億次,是我國在地球系統(tǒng)模擬領域速度最快的超級計算機,也是目前我國高等院校性能最高的計算平臺。清華高性能計算平臺(二期)內存總容量達到30TB,共享存儲系統(tǒng)容量1PB,系統(tǒng)功率包括制冷系統(tǒng)功率不到350千瓦。除了卓越的計算能力,清華高性能計算平臺(二期)還實現(xiàn)了兩個關鍵點:第一,采用超異構并行可擴展架構,使得整體應用效能比其他架構提升了25%;第二,為了達到低能綠色設計理念,超算系統(tǒng)的計算節(jié)點采用了高密度的刀片式服務器設計,能夠自動調整的智能液冷系統(tǒng)也大大降低了能耗,使得整體系統(tǒng)能耗降低了30%,年電費節(jié)約100萬。

Platform LSF提供可信賴的作業(yè)調度和管理

清華大學超百萬億次超級計算機系統(tǒng)應用環(huán)境非常復雜,其應用領域覆蓋了物理、化學、應用數(shù)學、材料、力學、自動化、計算機、核技術、航空航天、生物信息、石油、電機、醫(yī)學、地質等眾多學科,這就要求高性能計算集群平臺的作業(yè)調度系統(tǒng)必須能對各個應用軟件具有非常良好的支持,即作業(yè)調度系統(tǒng)要與各個商業(yè)應用軟件具有良好的接口和后臺支撐,同時還必須支持各種開源軟件,以確保各種應用軟件在集群環(huán)境下的穩(wěn)定應用。

清華大學采用了Platform LSF作業(yè)調度系統(tǒng)對高性能計算平臺進行管理和調度。張武生介紹說,清華大學HPC平臺(一期工程)也采用了Platform LSF,實踐證明Platform LSF有兩大優(yōu)點,一是穩(wěn)定性非常好,從來沒發(fā)生作業(yè)或者節(jié)點丟失的問題;二是可用性好,LSF提供了豐富的參數(shù)配置,通過組合的方式就能滿足各種不同的配置需求。此外,Platform公司給我們的高性能計算提供了強有力的支持,利于我們快速響應用戶需求。

Platform LSF是業(yè)界領先的最為廣泛使用的分布式批處理中間件,它可以用于提供PaaS服務, 并支持網格化SaaS。Platform LSF在可靠性、響應時間、可操作性、可維護性等方面有較大的優(yōu)勢,表現(xiàn)在:
高可靠性。隨著機群系統(tǒng)的逐步擴大,依賴于機群系統(tǒng)的人越來越多,機群系統(tǒng)的故障將導致數(shù)百、乃至數(shù)千分布世界各地的員工工作受到影響,甚至直接影響到產品的測試、驗證乃至發(fā)布。LSF具有高可靠性,其機群系統(tǒng)的平均無故障時間大于99.95%,即一個季度,停機時間小于一個小時。

100%可信賴的作業(yè)調度和管理。LSF提供的透明遠程執(zhí)行機制以及通過JobStarter提供的作業(yè)運行環(huán)境自適應機制可以確保作業(yè)調度和運行的正確性。

高可擴展性。Platform LSF單一機群管理的CPU數(shù)已經向10000 ~ 20000等更多CPU方向展。

良好的可操作性,支持在線修改。Platform LSF支持在線修改,支持系統(tǒng)管理員根據(jù)用戶需求的變化,動態(tài)地修改系統(tǒng)配置,不影響作業(yè)的運行和用戶的使用。

良好的可維護性。Platform LSF支持機群系統(tǒng)的在線升級和維護。系統(tǒng)管理員可以在不影響作業(yè)的運行和用戶使用的情況下,替換新的系統(tǒng)服務程序,進行系統(tǒng)在線升級和維護。

張武生表示,Platform 作業(yè)調度系統(tǒng)確保了整個集群的負載平衡,提高了作業(yè)運行效率,大大降低了作業(yè)運行的成本,為清華大學高性能計算提供了可信賴的作業(yè)調度和管理。

清華大學高性能計算平臺(二期)目前已經承擔起聯(lián)合國政府間氣候變化專門委員會第五次評估報告(IPCC-AR5)氣候模擬、預測、評估試驗的計算任務,而這個計算任務以往都只有發(fā)達國家參加,此次中國是加入的唯一發(fā)展中國家。除此之外,該平臺還為973、863計劃和國家自然基金等項目提供計算支持,用戶覆蓋了物理、化學、應用數(shù)學、材料、力學、自動化、計算機、核技術、航空航天、生物信息、石油、電機、醫(yī)學、地質等眾多學科,為清華大學交叉學科的研究提供了有力的保障。

關于Platform Computing

Platform Computing是全球領先的集群、網格、云中間件和云管理平臺提供商,幫助客戶以經濟、高效的方式管理、分配和使用計算資源,為企業(yè)的業(yè)務創(chuàng)新和發(fā)展提供全面支持。目前,Platform Computing的集群、網格和云計算解決方案已經廣泛用于制造、能源、金融、電信、航空航天等領域。了解詳情,請訪問http://www.platform.com.cn。

分享到

zhabin

相關推薦