12年曙光做的星云(Nebula)超級計算機曙光5000A,發(fā)布的是星云系統(tǒng)峰值為每秒3000萬億次(3PFlops)計算性能,但效率其實只有40%左右。目前,業(yè)界對CPU、內存等硬件的利用率,已經能夠到80%左右。

在從用戶視角來看:集群規(guī)模受限于機房空間,雖然目前出來很多立體機房,機柜可以疊加,但空間仍然有效。在機房空間固定的情況下,集群規(guī)模是受限制的,CPU等硬件數(shù)量無法持續(xù)提升。同時,用戶的預算有限制,同時,存儲有限制,硬盤可以用8T,未來用10T12T,但最終空間也是有限。

大部分用戶都會使用風冷的技術,風冷比較簡單。這時機房的PUE能夠1.5-3左右。而在空間有限、節(jié)點有限的情況下,其實利用水冷,可以做到更高的密度,更好的效率。

同時,機房有功率的限制,同時機房里還有大量的和能源相關的設備,比如UPS,因此從功耗的角度來設計,去除UPS等附屬硬件,PUE值能夠大大縮減,做到1.1-1.25。

效率和使用的處理器、主板都有關系。但我們必須從另外的角度來考慮,也就是從電源使用的角度。目前,有效使用電能(50%負載最優(yōu))需控制計算隊列。水冷的目的是更多將電能用來進行計算處理,來提高計算性能!

218

如果把某一些端口,直接換成銅纜,傳輸率是一樣的。但可以極大降低功耗,比如每個交換機節(jié)省100w,16個交換機的節(jié)省,可以達到額外增加4個節(jié)點,極大的提高性能。

219

什么場景下可用水冷?

用戶以提升計算性能、計算效率為核心需求。也就是關注性能,而不是關注價格。畢竟水冷會比風冷更貴一些。

同時,用戶有室外空間來放置水冷設備,同時,機房基建與計算集群同步建設的環(huán)境。如果已經有風冷的設備了,再拆掉重新布置水冷,就有些不值了。

使用水冷的用戶,大部分都是機房空間有限、供電有限的用戶。因為水冷可以大大提高密度,同時降低電力消耗。

在水冷的項目里面,目前有很多國外的經驗可以借鑒。

比如無冷凝水冷的溫水二次利用。對于高校、政府等用戶來說,水冷可以變成供暖的水。在集群規(guī)模夠大的情況下,水冷系統(tǒng)可以產生高于65攝氏度的熱水,在循環(huán)之后,當水溫低于45度,又可以再次利用。

另外,利用Absorption Chiller吸附式冷凝機。水冷主機不需要供電,也即是零功耗,就可以實現(xiàn)溫水的二次循環(huán)散熱,而且整個系統(tǒng)能夠達到50KW的大功率。

聯(lián)想水冷技術應用全球

聯(lián)想是HPC最先走出國門的企業(yè),為眾多世界級超算中心提供產品方案和技術支持。比如在歐洲最大的學術性數(shù)據(jù)中心之一——萊布尼茨超級計算中心里,聯(lián)想幫助他們打造了11000個節(jié)點的SuperMUC直接水冷超級計算集群。該集群峰值計算速度達到9千萬億次每秒,向整個歐洲的研究人員提供超級計算資源,研究領域包括天體物理、生命科學等。

除了在性能上的提升以外,因為采用了聯(lián)想首創(chuàng)的45度溫水水冷技術,新的集群系統(tǒng)實現(xiàn)了1.1的PUE值,遠低于1.5-3的業(yè)界一般水平。聯(lián)想讓客戶5年整體電費下降37%——從2760萬歐元降至1740萬歐元,節(jié)省了超過1000萬歐元。

220

(SuperMUC占地示意圖,圖中橘黃色管線是水冷管)

除了萊布尼茨超算中心,聯(lián)想在歐洲也幫助西班牙巴塞羅那、意大利博洛尼亞CINECA等眾多客戶搭建了世界級超算系統(tǒng)。在全球高性能計算Top500排名中,聯(lián)想以99套連續(xù)兩年保持中國第一、全球第二的位置。我們的超級計算機,服務全球各個國家的客戶,在高能物理、生命科學、氣象、海洋、環(huán)保,航空航天、石油勘探、智能制造和互聯(lián)網等眾多領域,助力客戶業(yè)務創(chuàng)新。

最近,聯(lián)想利用水冷技術,最近中標了北京大學的超算中心項目。這是全國第一個應用水冷技術的超算中心,它不僅僅能夠提供超級高的計算性能,同時也將為學校和國家節(jié)省大量的能源。

結語

如果簡單來看,HPC系統(tǒng)性能和功耗很多時候是對立的。因為功耗低了,往往性能會受到影響。但通過水冷,不但做到了節(jié)能環(huán)保,更是對于計算性能的極致提升。

分享到

崔歡歡

相關推薦