英特爾與上海交大的合作可以追溯到2013年,2013年上海交大建設的“π1.0”超算中心,當時這一超算中心的計算能力在國內高校中排在第一位,性能夠好,夠穩(wěn)定,但五年之后,這些資源明顯已經不夠用了。2018年,在上海交大校領導的支持下,林新華所在的網絡信息中心計算部開始建設二期項目。
高校超算發(fā)展簡史
林新華是非常資深的專家,對超算在中國,尤其對高校超算的發(fā)展歷史非常熟悉。他記得,在他上學的時候,高校機房里的高性能計算機都是小型機,大都來自IBM、SGI這樣的廠商。這一局面在2010年前后開始有很大改觀,業(yè)內開始用英特爾的x86架構CPU構建集群,國內高校也都紛紛效仿。
基于x86架構的超算降低了成本帶來了很高的開放性和靈活性,超算行業(yè)也步入發(fā)展快車道,而在學校,由于各個院系都在構建超算集群,超算的資源利用率開始成為新的問題,需要有專業(yè)的技術團隊去維護超算中心,學校的領導也意識到必須有專門的隊伍去維護超算設施,讓專業(yè)的人做專業(yè)的事兒,使用者可以把精力放在自己本身的業(yè)務上。
超算資源是戰(zhàn)略資源,很多科研工作都需要超算,在學校,用超算的人也越來越多了,林新華介紹說,很多現(xiàn)在的學科都需要做一些計算,傳統(tǒng)的數(shù)值模擬仿真是一類,新興的AI計算用的也越來越多,現(xiàn)在開始流行用AI的方式來做材料科學研究,一批新的計算負載開始出現(xiàn)。于是,上海交大的π集群就不夠用了。
二期項目在技術方面得到了英特爾的大力支持,與英特爾技術團隊的多次溝通后,最終決定選擇當時還未發(fā)布的Cascade Lake處理器。林新華表示,之所以選擇這款處理器,除了看中性能以外,還特別看中新處理器能支持智能應用程序這點。
上海交大“π2.0”超算系統(tǒng)
在上海交大構建的“π2.0”超算系統(tǒng)中,計算存儲和網絡三部分都有創(chuàng)新,三大創(chuàng)新都有英特爾的身影。
在計算方面,π2.0系統(tǒng)采用了第二代至強可擴展處理器,采用了658臺雙路節(jié)點,1316顆第二代至強金牌6248處理器,雙精度浮點理論性能能達到2.1PFlops。在應用負載方面,新一代的處理器既支持傳統(tǒng)HPC負載又面向AI負載進行優(yōu)化。
在高速互連方面,π2.0采用了英特爾Omni-Path架構,可以幫助MPI應用平滑升級,無需更改代碼就能將應用遷移到新的架構。基于Omni-Path架構的交換機芯片支持48端口,單交換機支持最多1152個端口。
在存儲方面,π2.0還構建了中國高校第一臺全閃存NVMe Lustre存儲系統(tǒng),這一系統(tǒng)基于開源分布式架構,集合了英特爾兩種創(chuàng)新硬件方案,DC P4610 NVMe SSD和OPA卡,分布式存儲系統(tǒng)Lustre是支持HPC仿真環(huán)境的并行文件系統(tǒng)。
一體化的方案,性能大幅提升
π2.0超算系統(tǒng)較為全面的采用了英特爾一體化的HPC解決方案,整體性能都達到了很好的效果,計算和存儲性能顯著提升。林新華介紹說,與π1.0相比,π2.0在單節(jié)點的計算能力提升了4.5倍,四節(jié)點的性能提升了4.7倍。存儲方面,傳輸速度能達到每秒15GB/s,相比原有系統(tǒng)性能提升了五倍。
系統(tǒng)升級的苦很多人都有體會,PC的Windows升級,手里的安卓IOS設備升級,多少都會有點問題,有部分APP都不支持新系統(tǒng)。
而在上海交大的這次更新中,令林新華感到意外的是,系統(tǒng)升級遷移程序的時候,完全無需修改代碼,直接拿源代碼即可運行。從一個平臺搬到另外一個平臺通常都需要去改源代碼,這對學校的老師有非常大的困擾,就像搬家一樣麻煩,如果說可以拎包入住,原來有的東西這里都有,這該有多大的吸引力?
從上海交大此次升級π2.0系統(tǒng)的實踐中,我們看到高校對于超算中心的重視,在技術實踐上,中國高校在基礎設施方面走在了世界前沿。林新華介紹說,國內高校在高性能計算方面有很大投入,許多知名高校都有非常好的計算平臺支持,而且這些計算平臺哪怕放到美國、日本、歐洲國家相比也都不算差。