國家超級計算天津中心 劉光明主任

NVIDIA公司PSG全球副總裁Shanker Trivedi

今年1月,天津經(jīng)濟技術(shù)開發(fā)區(qū)、國家超級計算天津中心以及NVIDIA(英偉達)公司正式舉行簽署儀式,三方將共同打造聯(lián)合實驗室。該實驗室意在提升國內(nèi)超級計算機技術(shù)整體水平,培養(yǎng)更多的超級計算機技術(shù)人才,從而有力帶動中國的科技進步和經(jīng)濟、社會發(fā)展,并且推動CUDA,OpenACC,Cloud Supercomputing技術(shù)的開發(fā)和應(yīng)用。借此契機,本站記者有幸采訪到了國家超級計算天津中心劉光明主任與NVIDIA公司PSG全球副總裁 Shanker Trivedi,來關(guān)注一下專家對未來超級計算機的展望與分析。

天河一號A采用領(lǐng)先的CPU+GPU計算架構(gòu)

“國防科技大學2005年到2007年就在研究,用通用CPU與GPU加速器結(jié)合,當時自己做了一個流處理器,結(jié)合起來之后發(fā)現(xiàn)有很大一類高性能計算機的應(yīng)用,像流體力學、氣動力學、FFT、CFD的東西,包括還有很多算法都適合這種結(jié)構(gòu),解決很多復(fù)雜的數(shù)學問題,這種結(jié)構(gòu)是適用的。”國家超級計算天津中心劉光明主任表示。

此后,在2009年天河一號做第一期的時候,當時因為要做一個實用性能比較高的系統(tǒng),所以就選用了AMD的GPU來替代當時國防科技大學自己研究的流處理器,這樣就誕生了當時的天河一號,這個機器當時排名是世界第五,亞洲第一。

后來國防科大發(fā)現(xiàn)了Tesla 2050,因為AMD的GPU沒有ECC校驗,而Tesla有ECC校驗,所以在2010年的時候,做了升級,GPU換成了NVIDIA的,同時高速互聯(lián)系統(tǒng)換成國防科大自己的銀河高速互聯(lián),同時強化了操作系統(tǒng),升級了之后又做了一些優(yōu)化,便誕生了舉世矚目的天河一號A。

天河一號A的GPU計算節(jié)點

國產(chǎn)處理器飛騰入駐天河一號A

談到硬件方面,劉主任表示:整體上這個系統(tǒng)分成兩部分,一部分是Intel的CPU加上 NVIDIA的GPU構(gòu)成了一個現(xiàn)在新的系統(tǒng),這個系統(tǒng)在整個所有天河系統(tǒng)的7/8,另外1/8的部分是用國防科大自己的CPU,即:飛騰1000。這套系統(tǒng)應(yīng)該說是實驗優(yōu)化的環(huán)境,有很多科技計算的程序,一些應(yīng)用都在這上面做測試,做實驗,有一些應(yīng)用也是一種實際的應(yīng)用,不斷的調(diào)試、測試和完善。

GPU異構(gòu)已經(jīng)成為當今HPC的潮流

談到GPU近幾年的飛速發(fā)展,NVIDIA公司PSG全球副總裁Shanker Trivedi顯得非常興奮。Shanker認為,天河一號A向全世界證明了異構(gòu)超級計算是一個非常好的科學計算,也是超算中心發(fā)展的方向。接下來全世界超算中心紛紛采用了GPU加速并行計算這樣的體系結(jié)構(gòu),像美國的高性能超算中心、德國的超算中心,都是在其國家或者地區(qū)最大的系統(tǒng),這些系統(tǒng)都紛紛的采用了GPU加速并行計算,而傳統(tǒng)的超級計算CPU只貢獻了整個高性能計算的10%左右,甚至還要更小,但是GPU貢獻了大部分,甚至是80%、90%,很多很多都是計算性能是從GPU貢獻出來的。

異構(gòu)系統(tǒng)能夠極大降低功耗

應(yīng)用方面,Shanker表示現(xiàn)在有300個以上應(yīng)用軟件。大量的應(yīng)用軟件,解決科學問題的工具已經(jīng)可以在CPU+GPU這樣的異構(gòu)體系上運行。未來高性能加速計算的方向,已經(jīng)是一個超算的新紀元,這些進步是大家公認的,被科學界,被學術(shù)界,被產(chǎn)業(yè)界廣泛采用的一個體系結(jié)構(gòu)。

關(guān)于未來的發(fā)展,Shanker認為有一點非常非常重要,因為摩爾定律要把計算機每十年漲一千倍,現(xiàn)在漲一千倍不是玩笑,但是同時電力消耗非常非常大,現(xiàn)在NVIDIA可以用新的異構(gòu)計算加速的方式,為未來大大的節(jié)省超算中心構(gòu)建的成本,同時節(jié)省功耗,降低能源功耗,節(jié)省費用。

天河一號A推動了國內(nèi)超算應(yīng)用

一直以來,超算中心面臨的最大問題就是閑置,如何能夠提高使用效率已經(jīng)成為迫在眉睫的問題。相比之下,國家超級計算天津中心在應(yīng)用方面做的還是非常不錯的。據(jù)劉光明主任介紹,天河一號A這種異構(gòu)結(jié)構(gòu)的幾個典型應(yīng)用還是頗具代表性的,最典型的石油勘探數(shù)據(jù)處理,經(jīng)過天河一號A,已經(jīng)完成了具有自主知識產(chǎn)權(quán)的石油三維歷史偏移。

此類軟件過去掌握在國外公司手上,購買價格非常高,核心的部分還不外賣?,F(xiàn)在通過天河一號A,從2011年年初開始跟東方物探進行合作,持續(xù)做了兩年的時間,整體性能從通用CPU的版本上升到CPU+GPU的版本,整體性能提升了大概六倍。

同時超算中心在這個基礎(chǔ)上又做了一個基于計算系統(tǒng)做的優(yōu)化,磁盤的數(shù)據(jù)處理系統(tǒng)變成一個基于內(nèi)存的。另外包括現(xiàn)在的氣動力學,大飛機的仿真,還包括一些典型的應(yīng)用,包括還有一些源的分析等等這些,現(xiàn)在應(yīng)用都不錯。

聯(lián)合實驗室助力區(qū)域發(fā)展

國家超級計算天津中心此次跟NVIDIA成立一個聯(lián)合實驗室,主要是兩個方面,一個方面就是在異構(gòu)結(jié)構(gòu)上,用NVIDIA一些新的軟件提升用戶使用的效率。第二個層次,基于天河一號A新的通信處理技術(shù)、硬件和軟件,針對當前熱門的云計算,物聯(lián)網(wǎng),智慧城市以及三網(wǎng)合一,這些方面超算中心要跟NVIDIA進行深度合作。落在濱海開發(fā)區(qū),帶動本地高端信息產(chǎn)業(yè)的發(fā)展,也做一個示范,帶動我們國家在這些領(lǐng)域的快速發(fā)展。

天河一號A的誕生不僅僅是當年的全球第一名,也為我國超級計算機發(fā)展注入了一針強心劑,由此極大帶動了國內(nèi)超算的飛速發(fā)展,此外還在應(yīng)用方面有了長足的進步。從HPC行業(yè)整體形勢來看,CPU+GPU已經(jīng)成為了一種新趨勢,所帶來的是超高的性能和更低的能耗,這一點是傳統(tǒng)基于CPU的系統(tǒng)所無法比擬的。除此之外,我們更加關(guān)注異構(gòu)環(huán)境的編程與軟件,經(jīng)過多年來的耕耘,也看到了NVIDIA在 CUDA和OpenACC等方面的進步,但進一步的發(fā)展還是需要更多企業(yè)與用戶來共同推動。硬件方面,GPU的功耗問題一直是業(yè)內(nèi)關(guān)注的焦點,相信更多的產(chǎn)品類型、更低的功耗將會成為新一代GPU的發(fā)展方向,讓我們拭目以待!

分享到

zhaohang

相關(guān)推薦