讓HPC應(yīng)用性能飆升 中國(guó)用戶見(jiàn)證至強(qiáng)融核優(yōu)勢(shì)
江南 發(fā)表于:13年01月12日 14:40 [來(lái)稿] DOIT.com.cn
雖然全球高性能計(jì)算機(jī)500強(qiáng)(TOP500)排行榜在每年兩次的更新中都會(huì)將排名前十系統(tǒng)所獲取的靚麗性能成績(jī)作為展示重點(diǎn),但在今天,大多數(shù)用戶對(duì)于這些單純的性能數(shù)據(jù)已是興趣不再,他們眼下更為關(guān)心的,是要在高性能計(jì)算系統(tǒng)功耗不出現(xiàn)大幅提升的前提下獲取更高的性能。畢竟,過(guò)去十多年來(lái)高達(dá)千倍的性能增長(zhǎng)幅度已讓現(xiàn)有高性能計(jì)算系統(tǒng)架構(gòu)的發(fā)展?jié)摿蹩萁撸绻允且酝ㄓ锰幚砥髌脚_(tái)作為高性能計(jì)算系統(tǒng)的性能引擎,那么在達(dá)成下一個(gè)千倍的性能增長(zhǎng),即跨入百億億級(jí)(Exascale)計(jì)算時(shí)代之前,他們可能就因?yàn)橹Ц恫黄鸶甙旱碾娰M(fèi)而破產(chǎn)關(guān)門了。
面對(duì)這個(gè)難題,業(yè)界的共識(shí)是走向“異構(gòu)“,即在高性能計(jì)算系統(tǒng)內(nèi)導(dǎo)入專門為運(yùn)行高并行度應(yīng)用負(fù)載而設(shè)計(jì)和優(yōu)化的處理器單元,在提升性能的同時(shí)確保較高的能效表現(xiàn)。GPGPU就是應(yīng)此需求而生的產(chǎn)物。不過(guò),在開(kāi)放架構(gòu),特別是英特爾架構(gòu)平臺(tái)已在高性能計(jì)算領(lǐng)域高度普及的今天,要享受到GPGPU帶來(lái)的高性能和高能效,就得首先跨過(guò)應(yīng)用的遷移關(guān)——GPGPU的編程模式、工具甚至是編程語(yǔ)言均是隨其一同新生的,要掌握它們,并能利用它們對(duì)現(xiàn)有應(yīng)用進(jìn)行改造和遷移,使之真正適合在GPGPU上運(yùn)行,可是需要相當(dāng)高的人力和時(shí)間成本的,僅軟件開(kāi)發(fā)人員的重新培訓(xùn),就需要至少近半年的時(shí)間。
就在高性能計(jì)算用戶正為系統(tǒng)“異構(gòu)”帶來(lái)的軟件遷移問(wèn)題感到困撓時(shí),來(lái)自英特爾公司的解決方案——至強(qiáng)融核協(xié)處理器開(kāi)辟了另一條全新的路徑,它不僅能夠帶來(lái)與現(xiàn)有GPGPU方案相媲美的性能和能效,而且還無(wú)需用戶重構(gòu)其高性能計(jì)算應(yīng)用,以及無(wú)需讓其開(kāi)發(fā)人員接受長(zhǎng)期培訓(xùn)即可享受這些優(yōu)勢(shì),從而引起了業(yè)界的廣泛關(guān)注和熱烈響應(yīng)。
“兩全其美”的至強(qiáng)融核
其實(shí),早在至強(qiáng)融核還不是一個(gè)成熟可用的產(chǎn)品,而是以其核心技術(shù)——英特爾集成眾核(MIC)架構(gòu)在兩年多前初次亮相時(shí),它就理所當(dāng)然地成為了焦點(diǎn),原因就在于它是現(xiàn)階段惟一一個(gè)能夠帶來(lái)“兩全其美”應(yīng)用體驗(yàn)的解決方案。
所謂兩全之一,就是具備較高的并行處理性能。有別于通用用途的至強(qiáng)處理器,至強(qiáng)融核協(xié)處理器是專為高性能計(jì)算中應(yīng)用越來(lái)越普遍的高并行化工作負(fù)載而開(kāi)發(fā),旨在全力加速這類應(yīng)用負(fù)載處理速度的產(chǎn)品。在最新款至強(qiáng)處理器浮點(diǎn)計(jì)算能力還停留在約150 GFLOPS時(shí),至強(qiáng)融核旗下兩個(gè)產(chǎn)品家族——3100和5110的雙精度浮點(diǎn)運(yùn)算性能已分別達(dá)到了1,000 GFLOP以上和1,011 GFLOPS,而設(shè)計(jì)熱功耗則分別為300瓦和225瓦。前者可以用于運(yùn)行計(jì)算密集型工作負(fù)載,如生命科學(xué)應(yīng)用和金融模擬,后者則適用于數(shù)字內(nèi)容創(chuàng)建和能源研究等內(nèi)存密集型工作負(fù)載,可以說(shuō),在日常運(yùn)行這些應(yīng)用負(fù)載的用戶面前,它們?cè)谛阅芊矫娑加兄y以抵擋的誘惑力。
而兩全之二,則是能夠讓用戶能夠更為輕松、容易地對(duì)其現(xiàn)有的針對(duì)英特爾架構(gòu)開(kāi)發(fā)的高性能應(yīng)用軟件進(jìn)行優(yōu)化,使之能充分利用自己的性能潛力。這一點(diǎn)要得益于它采用了人們熟悉的和廣為接受的英特爾架構(gòu),可以充分利用英特爾公司為這一架構(gòu)提供的、應(yīng)用已經(jīng)非常普及的編程語(yǔ)言、并行模式、技術(shù)和開(kāi)發(fā)人員工具,來(lái)支持用戶優(yōu)化已有的、構(gòu)建于英特爾架構(gòu)平臺(tái)之上的高性能計(jì)算應(yīng)用代碼。
以上這“兩全”兼顧,就形成了至強(qiáng)融核獨(dú)一無(wú)二的應(yīng)用優(yōu)勢(shì)——其性能和能效既出眾,針對(duì)它優(yōu)化現(xiàn)有應(yīng)用的成本又低、耗時(shí)又短,見(jiàn)效又快,這就使得眾多高性能計(jì)算用戶開(kāi)始對(duì)它產(chǎn)生強(qiáng)烈的興趣,并開(kāi)始進(jìn)行相關(guān)的測(cè)試和應(yīng)用。在今年11月與至強(qiáng)融核同期發(fā)布的最新高性能計(jì)算機(jī)500強(qiáng)排行榜上,就有7套上榜系統(tǒng)采用了這一創(chuàng)新產(chǎn)品,而且其中既包括了排名前十的系統(tǒng),也包括了本屆TOP500榜單上能效最高的系統(tǒng)。
中國(guó)用戶見(jiàn)證至強(qiáng)融核優(yōu)勢(shì)
就在至強(qiáng)融核亮相于新一期TOP500榜單的同時(shí),四家來(lái)自中國(guó)的重量級(jí)高性能計(jì)算用戶也發(fā)布了他們對(duì)于這款協(xié)處理器的測(cè)試心得,這還是中國(guó)用戶首次就其應(yīng)用體驗(yàn)發(fā)表見(jiàn)解。
這四家用戶中,有兩家是國(guó)內(nèi)石油勘探領(lǐng)域中應(yīng)用高性能計(jì)算技術(shù)的翹楚,即中國(guó)石化石油物探技術(shù)研究院和中國(guó)石油東方地球物理勘探有限責(zé)任公司。另外兩家則是國(guó)內(nèi)權(quán)威的科研機(jī)構(gòu)——中國(guó)科學(xué)院計(jì)算技術(shù)研究所和中國(guó)科學(xué)院過(guò)程工程研究所。
兩家石油行業(yè)的用戶都使用了各自最新的石油勘探用高性能計(jì)算應(yīng)用和算法對(duì)至強(qiáng)融核進(jìn)行了測(cè)試,結(jié)果是:中國(guó)石化石油物探技術(shù)研究院的疊前深度偏移應(yīng)用在單個(gè)至強(qiáng)融核計(jì)算節(jié)點(diǎn)(雙路至強(qiáng)E5+雙至強(qiáng)融核協(xié)處理器)上運(yùn)行時(shí)的性能,要比在優(yōu)化后的單個(gè)雙路至強(qiáng)E5計(jì)算節(jié)點(diǎn)上運(yùn)行時(shí)提升高達(dá)2.53倍,而與未經(jīng)優(yōu)化的單個(gè)雙路至強(qiáng)E5計(jì)算節(jié)點(diǎn)相比,兩個(gè)至強(qiáng)融核計(jì)算節(jié)點(diǎn)則可實(shí)現(xiàn)相當(dāng)于其10.3倍的性能;中國(guó)石油東方地球物理勘探有限責(zé)公司的疊前時(shí)間偏移應(yīng)用在單個(gè)至強(qiáng)融核計(jì)算節(jié)點(diǎn)上的運(yùn)行性能,也是其在單個(gè)優(yōu)化后雙路至強(qiáng)E5計(jì)算節(jié)點(diǎn)上運(yùn)行時(shí)的3.86倍。
值得一提的是,在至強(qiáng)融核上獲得上述性能提升并沒(méi)有讓這兩家用戶付出更多的軟件調(diào)優(yōu)成本,中國(guó)石化石油物探技術(shù)研究院副院長(zhǎng)兼總工程師趙改善就指出,在測(cè)試時(shí)他們?cè)谥翉?qiáng)融核計(jì)算節(jié)點(diǎn)上沿用了與至強(qiáng)E5計(jì)算節(jié)點(diǎn)相同的編程方法、MKL庫(kù)、DFT程序和源代碼。因此這一成績(jī)的獲得進(jìn)一步展示了至強(qiáng)融核優(yōu)良的擴(kuò)展性能,證明它可“大大提升中石化的iCluster地震資料成像系統(tǒng)的處理能力”。 中國(guó)石油東方地球物理勘探有限責(zé)任公司物探技術(shù)研究中心副總工程師陳維也斷言:“至強(qiáng)融核處理器將會(huì)在地震勘探數(shù)據(jù)處理中具有廣闊的應(yīng)用前景”。
上述兩家來(lái)自科研領(lǐng)域的用戶,也在至強(qiáng)融核協(xié)處理器的測(cè)試中獲得了與石油行業(yè)用戶類似的體驗(yàn)。中科院計(jì)算所所做的測(cè)試是基于時(shí)域有限差分法的電磁仿真計(jì)算,它在單個(gè)至強(qiáng)融核PCI-E插卡上實(shí)現(xiàn)的性能,相當(dāng)于單個(gè)優(yōu)化后雙路至強(qiáng)E5平臺(tái)的1.28倍,比未經(jīng)優(yōu)化的雙路至強(qiáng)E5平臺(tái),其性能提升更是高達(dá)3.2倍。中科院過(guò)程所進(jìn)行的測(cè)試則是用于化學(xué)、生物物理領(lǐng)域,旨在分析粒子間相互作用的IPE分子動(dòng)力學(xué)模擬,結(jié)果發(fā)現(xiàn)單個(gè)至強(qiáng)融核PCI-E插卡的性能表現(xiàn),相當(dāng)于優(yōu)化后雙路至強(qiáng)E5平臺(tái)的1.98倍,而與未經(jīng)優(yōu)化、單路單線程的至強(qiáng)E5平臺(tái)相比,性能提升更是高達(dá)157.76倍。
同樣,在領(lǐng)略了至強(qiáng)融核帶來(lái)的性能優(yōu)勢(shì)的同時(shí),兩家科研領(lǐng)域用戶也對(duì)其軟件優(yōu)化的便利性大加贊賞。中科院計(jì)算所高性能計(jì)算機(jī)研究中心主任張佩珩表示:“時(shí)域有限差分算法通過(guò)輕松的移植和簡(jiǎn)單的并行優(yōu)化,在英特爾至強(qiáng)融核協(xié)處理器上獲得了很好的擴(kuò)展性和較高的性能提升,同時(shí)保證了代碼一致性和可維護(hù)性,大大節(jié)約了時(shí)間和人力成本。”中科院過(guò)程所身兼中國(guó)顆粒學(xué)會(huì)理事一職的研究員、博士生導(dǎo)師葛蔚則指出:“MIC作為一種x86架構(gòu)的眾核處理器,其編程模式能夠大大減少串行程序到眾核程序移植的工作量,對(duì)于一些簡(jiǎn)單移植甚至能夠接近‘0工作量’,并且可以利用大量CPU上原有的調(diào)優(yōu)工具,為用戶移植代碼提供了很大方便。”
相信上述用戶對(duì)于至強(qiáng)融核的測(cè)試,以及對(duì)其應(yīng)用優(yōu)勢(shì)的見(jiàn)證將掀開(kāi)這款創(chuàng)新產(chǎn)品在中國(guó)廣泛應(yīng)用的開(kāi)端,或許在未來(lái)一兩年內(nèi),就會(huì)有更多中國(guó)用戶分享它們?cè)谥翉?qiáng)融核上獲取的出色體驗(yàn),他們還很可能于2020年前,在英特爾公司的支持下,通過(guò)采用至強(qiáng)處理器平臺(tái)、至強(qiáng)融核產(chǎn)品線和與之相配套的更多先進(jìn)技術(shù),順利跨入百億億級(jí)高性能計(jì)算的時(shí)代。(IT168)
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.