中國計算機,第一是"天河一號",第三位是星云。

"天河一號"計算機與2010年8月在天津市超計算中心開始安裝,9月到10月兩個月時間就完成全世界的調(diào)試于性能測試。從2010年11月開始,系統(tǒng)就開始試運行,接待國內(nèi)的用戶。下面是"天河一號"的主要配置,"天河一號"含有14366顆英特爾處理器,互連網(wǎng)絡(luò)是國防科大自主研制互連網(wǎng)絡(luò),存儲網(wǎng)絡(luò)是2個TB,有218個計算服務(wù)機柜,還有6 個通信機柜。

"天河一號"一個特色就是采用了我們國家自主首創(chuàng)CPU與GPU體系結(jié)構(gòu),實際上源于我們2005年開始的一些運行研究工作,到2007年我們國防大學的研究就把相關(guān)的理論結(jié)果與實踐結(jié)果相結(jié)合,09年研制了天河1,這個計算機是排名全球第五位,當時我們主要進行了體系結(jié)構(gòu),解決一個什么問題呢?CPU和 GPU協(xié)作計算的時候效率問題。

因為當時CPU和GPU在解決問題的時候效率并不高,單CPU和單 GPU合起來也就20%計算效率,顯然不滿足要求。經(jīng)過我們科研人員努力,從20%提高到70%的工作效率,因此從"天河一號"徹底驗證了,從體系結(jié)構(gòu)上驗證了這條路是可行。2010年我們用了一年時間,對天河一進行升級,也就是現(xiàn)在天河一 A系統(tǒng)。整個系統(tǒng)里面計算組也是我們設(shè)計研究,還有互聯(lián)網(wǎng)絡(luò),也有我們自己定制的軟件站,里面包括計算處理系統(tǒng),服務(wù)處理系統(tǒng),基礎(chǔ)診斷系統(tǒng)等等,當然也是我們這個會的主題存儲。

計算處理系統(tǒng)包括7168個計算機,每一個計算節(jié)定有2-6核CPU和1個GPU,GPU采用是英維達,就保持主處理器和GPU之間有足夠的帶寬。右邊兩張圖,右邊是處理器的主板,4個CPU,下面是GPU的主板,靠在CPU主板上面,這樣一個CPU主板和GPU主板合起來就是兩個計算節(jié)點。右面主板含有 4個CPU,這4個CPU聯(lián)成兩個節(jié)點,符合節(jié)點主要是用于登錄,強調(diào)團隊的計算能力,包括網(wǎng)絡(luò),數(shù)據(jù)庫等一些應(yīng)用。

互聯(lián)通信系統(tǒng)也是國防科技大學自主研制,達到10GBDS,是現(xiàn)在主流通信網(wǎng)絡(luò)2倍的速度。雙向帶寬有116個GPS,采用2級網(wǎng)絡(luò),第一級網(wǎng)絡(luò)把16個節(jié)點通過交換板互聯(lián),第二是全系統(tǒng)通過11個384個互聯(lián),每個機柜里面包含兩個交換機。研制了2款芯片,一個是網(wǎng)絡(luò)結(jié)合芯片,MSC,主要是實現(xiàn)這個節(jié)點與高效能網(wǎng)絡(luò)連接。

另外一個網(wǎng)絡(luò)芯片實現(xiàn)14個互聯(lián)端口互聯(lián),吞吐量達到2.56TB。這是在集散機16口的交換板,實際上主要有兩個接口,上面接口插在背板上面,這個靠右邊的電源,這個靠左邊一排是信號。比如在機柜,機框里面看不到,下面有16個口子就連接到交換機,這是機柜計算機里和交換機之間的接口。

這兩個是交換機里面的兩種不同的刀片,第一個是葉交換刀片,這是另外一個刀片,大家可以看到我就不多說了。我們的交換機采用自主研制的協(xié)議,吞吐量達到 61.44TBTS,是交換機的2.37倍。那么,這個左邊是交換機一個正面和反面,右實際上是一個交換機柜,每個里面有2個交換機。

輸入輸出系統(tǒng)總?cè)萘坑?PG,我們通過自主高速互連網(wǎng)絡(luò)連接起來,這些存儲系統(tǒng)和計算節(jié)點都是通過自主研制的網(wǎng)絡(luò)連接起來。網(wǎng)絡(luò)這邊基于Lustre用來提供穩(wěn)定性和性能。還有一個是監(jiān)控診斷系統(tǒng),實現(xiàn)全系統(tǒng)的檢測和控制功能,主要功能有實時系統(tǒng)的狀態(tài)檢測,故障定位,還有一個反饋的冷卻環(huán)境,自動根據(jù)主板和 CPU溫度來進行控制。另外還提供遠程的監(jiān)控和管理,我們像機房直接在用戶端就可以控制啟動,進行故障控制。

基礎(chǔ)架構(gòu)系統(tǒng),我們采用雙重對面刀片式系統(tǒng),溫度高,維護方便。每個機柜含128個計算節(jié)電,4個網(wǎng)絡(luò)交換半,4個監(jiān)控診斷板。接下來介紹"天河一號"軟件系統(tǒng),包括操作系統(tǒng),編寫系統(tǒng),并行程序設(shè)計和可視化環(huán)境。是基于Linux開發(fā),主要改造有計算節(jié)點采用一個定制內(nèi)核,提供一個虛擬運行環(huán)境,通過這個虛擬運行環(huán)境用戶之間的數(shù)據(jù)就實現(xiàn)一個安全過濾,面向多個用戶,然后用戶也可以定制自己的計算環(huán)境,在這里面也可以進行系列的資源角度,我們資源角度也可以達到CPU的核。

另外研制一套大規(guī)模資源管理系統(tǒng),對整個作業(yè)管理系統(tǒng),作業(yè)調(diào)度就有一套系統(tǒng)來管理。另外操作系統(tǒng)還有節(jié)能控制功能,編譯系統(tǒng),對我們來講超計算機比較好,保證一些傳統(tǒng)計算機用戶把他的程序很平滑過渡起來。超級計算機包括C.C++,另外我們把針對異構(gòu)計算放進去提供用戶使用。還有我們?yōu)榱私鉀Q大家不習慣的問題,我們研制了異構(gòu)并行的編程框架,主要思想是這樣的,現(xiàn)在大家并行這個CPU的應(yīng)用,更多是來一個應(yīng)用就把這個運營進行改變,但這樣會帶來一個什么缺點呢?這個應(yīng)用不但在開發(fā)過程中是變化的,反復(fù)要改。

還有一個問題運用的代碼,用戶他不愿意給你這個開發(fā)人員,牽扯到知識產(chǎn)權(quán)問題,或者是牽扯到保密的問題,這樣你會拿不到那個原代碼。這個過程是很長,對于一些上層用戶未必對你體系結(jié)構(gòu)能夠很好的掌握,未必去習慣這個技術(shù)編程。因此我們開發(fā)這個編譯編程代碼,主要思想使使用CPU,GPU協(xié)同計算能力,隱藏,或者說半隱藏這個CPU編程。

主旨思想就是在節(jié)點之間并行并購,我們主要交給計算機專家來做,計算專家他懂體系結(jié)構(gòu),懂編譯,懂操作系統(tǒng)。另外,編譯程序設(shè)計環(huán)境,我們采用統(tǒng)一的基礎(chǔ),包括性能的調(diào)優(yōu)和調(diào)試,也提供遠程開發(fā)。

科學計算可視化系統(tǒng),接下來給大家介紹一下"天河一號"現(xiàn)在使用階段一些典型應(yīng)用。一顆GPU相當于7顆CPU的應(yīng)用,也是 CPU,GPU性能計算。這個里面主要是解決了單節(jié)點異構(gòu),節(jié)點之間這層變形不動,但是這層變形可靠性可以保證下來。

還有一個是應(yīng)用情況,運行效率達到87%,這是產(chǎn)業(yè)測試集中的地方,正常狀態(tài)下的情況。這個軟件是中國石油集團,在我們系統(tǒng)里面最多達到8586個核,這個物質(zhì)處理原來是要1個月時間,現(xiàn)在是要1天時間。那天我們在開玩笑,整個這個系統(tǒng),整個這個計算速度大幅減少,原來認為他們把3T數(shù)據(jù)從自己單位跑到這個中心,他自己原來沒有考慮,他自己開過車把這個數(shù)據(jù)送過來,路上的時間就一天的時間。

這三幅圖35公里,大約1000平方的處理結(jié)果,包括深度平移,深度切片等等,這個處理軟件就相當于給地殼做了一個CT一樣,這個數(shù)據(jù)處理的結(jié)果實際上我們就可以看到我們腳底下這個地層的情況,就會為尋找石油帶來極大的方便。這點有了這種高性能計算,帶來社會經(jīng)濟效益非常好的著力點?,F(xiàn)在是缺油,到國外找石油,國外就會招標,招標的時候給你數(shù)據(jù),如果說你能夠盡快把這個數(shù)據(jù)處理起來,我心里就有底,國外在談判的時候我在競標的時候就有底氣了,到底多少錢可以把這個油田拿下來。

另外一個應(yīng)用是藥物研究,這個軟件是上海藥物所研究的軟件,現(xiàn)在的計算情況正在算,目前是1萬元用了300多個核,這些概念確實不是太懂。但至少我們反映了一個用戶的情況,我們覺得有這么大規(guī)模的系統(tǒng),對他們的研究工作有非常大的幫助,并且他們原來不敢想做的事情,現(xiàn)在敢想了。像原來他的系統(tǒng)就是幾百個核,幾千個核,現(xiàn)在他就考慮要修改他的程序,把"天河一號"上面幾萬個核給用起來。這是"天河一號"上面正在使用的計算機應(yīng)用單位和即將和朝陽中心使用計算機的應(yīng)用單位,謝謝大家。

分享到

zhabin

相關(guān)推薦