最近幾年TOP500排行榜上使用加速器的產(chǎn)品套數(shù)發(fā)展趨勢顯著看到英特爾微異構(gòu)所占份額的增加

加速器技術(shù)方興未艾 誰是耀眼明星?

GPU及GPGPU加速器技術(shù)在2009年前后逐步被應(yīng)用在高性能計(jì)算系統(tǒng)中,在2010年6月的TOP500榜單中,開始出現(xiàn)NVIDIA的GPU加速器的身影,并在當(dāng)期榜單中幫助中國曙光公司的Nebulae高性能計(jì)算系統(tǒng)成為TOP500第二名的好成績。

此后,加速器技術(shù)被TOP500及全球高性能計(jì)算行業(yè)逐步接納,在半年后的2010年11月榜單中,中國的天河1A系統(tǒng),更是成為了當(dāng)年舉世震驚的NO.1。

但令人不解的是,正是這樣一種幫助高性能計(jì)算系統(tǒng)快速上升計(jì)算能力,并廣被“高性能計(jì)算發(fā)展中國家”——如中國——使用的技術(shù),卻為何出現(xiàn)了規(guī)模性的下滑?

幸運(yùn)的是,月亮總有兩面:2012年6月,全球只有一套位于美國德克薩斯高級計(jì)算中心(TACC)的名為Stampede的高性能計(jì)算系統(tǒng)使用“定制版”的英特爾至強(qiáng)融核(Xeon Phi)作為加速器平臺,但最新一期榜單中,已經(jīng)有了12套高性能計(jì)算系統(tǒng)基于英特爾至強(qiáng)融核協(xié)處理器系統(tǒng)。

更引人注目的是使用英特爾至強(qiáng)融核協(xié)處理器系統(tǒng)的高性能計(jì)算系統(tǒng)火箭般上升的排名,以兩套知名的系統(tǒng)為例:位于TACC的Stampede系統(tǒng)2012年6月的榜單中還只是名列第150位,但如今已經(jīng)是第六名(甚至是進(jìn)入前五的有力爭奪者)的位置。

天河1號和天河1A的后續(xù)家族成員天河2號,通過使用與前兩任完全不同的,由英特爾至強(qiáng)及至強(qiáng)融核協(xié)處理器組[袁1] 成的“微異構(gòu)架構(gòu)”之后,不僅自2010年11月之后時隔三年再度問鼎排行榜榜首,更在效率和計(jì)算性能上有了翻天覆地的變化:2010年11月,天河1A以4701.0TFlops的性能問鼎(Rpeak),2013年6月,天河2號的性能達(dá)到了驚人的54902.4TFlops(Rpeak)。

于是,當(dāng)我們看到事實(shí)的另一面時就不難發(fā)現(xiàn),并非是高性能計(jì)算中的加速器技術(shù)的采用出現(xiàn)了很大的問題,而是市場中用戶——尤其是具有代表性的高性能計(jì)算用戶——對加速器的選擇出現(xiàn)了新的轉(zhuǎn)向。

使用新的英特爾至強(qiáng)融核與至強(qiáng)處理器組成“微異構(gòu)架構(gòu)”的用戶,以及未使用加速器的傳統(tǒng)高性能計(jì)算系統(tǒng)架構(gòu)的用戶,正在逐步超過原有使用GPU及GPGPU加速技術(shù)的用戶在TOP500排行榜上的位置。

微異構(gòu)倍受認(rèn)可 至強(qiáng)融核魅力何在?

為何一年過去英特爾至強(qiáng)融核協(xié)處理器系統(tǒng)能夠取得如此大的進(jìn)步,能在競爭對手的加速器架構(gòu)跌出TOP500排行榜的情形下加速沖刺?

首先,英特爾至強(qiáng)融核為高性能計(jì)算系統(tǒng)帶來了巨大的性能提升,早在2011年英特爾就在DGEMM 進(jìn)行的協(xié)處理器現(xiàn)場演示中,進(jìn)行了使用單顆“ Knights Corner”協(xié)處理器提供超過 1 TeraFLOPs(每秒 1 萬億次浮點(diǎn)計(jì)算)雙精度實(shí)際性能的展示;在2012年年底進(jìn)行的正式發(fā)布中,英特爾至強(qiáng)融核主要產(chǎn)品5110P能夠提供1011 Gigaflops(即每秒1萬億次浮點(diǎn)計(jì)算)的雙精度浮點(diǎn)計(jì)算性能。

Stampede系統(tǒng)是英特爾至強(qiáng)融核高性能最具代表性的受益者,這一系統(tǒng)在2012年6月僅以1809.9TFlops(Rpeak,以下同)位居第150位,但半年后的TOP500中就以3959.0TFlops的性能位列第七,更令人吃驚的是,這一系統(tǒng)目前已憑驚人的8520.1TFlops位列最新TOP500第六位。

其次,從Stampede的性能提升中我們不難發(fā)現(xiàn),德州高級計(jì)算中心(TACC)在一年的時間里,不斷飛躍式的性能提升已經(jīng)明顯驗(yàn)證了高性能計(jì)算系統(tǒng)性能提升的最佳“法則”——擴(kuò)展更簡單、性能提升更快、效率提升顯著——這對傳統(tǒng)的異構(gòu)-混合架構(gòu)而言是很難實(shí)現(xiàn)的。

這說明,TACC的工程師們在擴(kuò)展硬件規(guī)模的同時,讓應(yīng)用程序“跑滿”了系統(tǒng)的性能,讓程序代碼快速的適應(yīng)了大規(guī)模動態(tài)擴(kuò)展的系統(tǒng)(甚至是在一個混合架構(gòu)中),這一(混合架構(gòu))系統(tǒng)的可編程性遠(yuǎn)遠(yuǎn)超過它的“同類”們:Stampede是(第一款)使用英特爾至強(qiáng)融核協(xié)處理器的TOP500榜單角逐者,采用英特爾的“微異構(gòu)架構(gòu)”(Neo-heterogeneous architecture)。

“微異構(gòu)架構(gòu)”(Neo-heterogeneous architecture)的架構(gòu)以英特爾至強(qiáng)處理器和英特爾至強(qiáng)融核處理器組成,是一種具有多種類型、可提供計(jì)算力的硬件架構(gòu),但卻由通用編程模型予以支持,以簡化開發(fā)和優(yōu)化過程。這一優(yōu)勢是傳統(tǒng)異構(gòu)架構(gòu)(使用CPU與GPU加速器的組合)所無法實(shí)現(xiàn)的。

在這一架構(gòu)中,用戶能夠充分利用在英特爾架構(gòu)上使用的常見編程模式、技術(shù)和開發(fā)者工具——用英特爾并行編程傳播總監(jiān)James Reinders的話說:“如果你想用相同的語言(比如Fortran)、相同的并行編程模型、熟悉的工具滿足高度并行的需要,至強(qiáng)和至強(qiáng)融核是最好的選擇?!?/p>

尤其是在“并行時代”,英特爾“微異構(gòu)架構(gòu)”的優(yōu)勢更為明顯。一方面,至強(qiáng)融核作為高度并行設(shè)備,在并行編程中能夠獲得強(qiáng)大的性能表現(xiàn),而至強(qiáng)處理器也能夠獲益;另一方面,由于英特爾努力嘗試著解決了硬件特定編碼的問題,可以用Fortran、C、C++,編程不受限制,用戶可以在英特爾至強(qiáng)+英特爾至強(qiáng)融核的“微異構(gòu)架構(gòu)”中以“同樣的語言、并行編程模型和類似的工具來滿足高度并行的需求”,英特爾“微異構(gòu)架構(gòu)”通過“可復(fù)用、簡單、單一的編程模式”已經(jīng)獲得了大量用戶的認(rèn)可。

高效計(jì)算:高性能計(jì)算也看TCO

Stamped生動的說明,使用英特爾“微異構(gòu)架構(gòu)”的系統(tǒng)建設(shè)、擴(kuò)展和編程工作更為簡便易行,用戶能夠以更短的時間完成高性能計(jì)算系統(tǒng)在上線前的“整個生命周期”,這也就意味著更低的TCO——更短時間的人力、資金和編程資源投入——從而極大的提升高性能計(jì)算系統(tǒng)的效益。

更有力的證據(jù)來自天河2號:短短兩年間,天河就完成了從天河1A到天河2號的兩度問鼎,而且據(jù)了解,在天河1A時期已初步熟悉NVIDIA編程架構(gòu)的天河團(tuán)隊(duì),卻并未讓天河2號采用與天河1A一樣的混合架構(gòu)及編程模型,而是改用半年多前才剛剛正式發(fā)布的英特爾微異構(gòu)架構(gòu),這一選擇的結(jié)果就是,天河2號的效率更高、相對于第二名之間的領(lǐng)先優(yōu)勢更大。。

注重性能提升速度和系統(tǒng)應(yīng)用效率的天河團(tuán)隊(duì),當(dāng)然不會不考慮更換新系統(tǒng)架構(gòu)和重新適應(yīng)編程模型的風(fēng)險,去使用英特爾微異構(gòu)架構(gòu),但英特爾微異構(gòu)架構(gòu)一脈相承的編程模型帶給了他們信心:英特爾至強(qiáng)與至強(qiáng)融核的協(xié)同、單一編程模式效率更高,可編程性更好,編程工作更容易學(xué)習(xí)和在未來的商業(yè)應(yīng)用上展開。

“改變是要冒極大的風(fēng)險的,而重新學(xué)習(xí)和適應(yīng)編程的成本則更高——除非這是他們早已熟悉的方式和方法。”

從開始設(shè)計(jì)系統(tǒng),到開展編程工作,再到?jīng)_擊TOP500排行榜和之后的商業(yè)運(yùn)作,高性能計(jì)算系統(tǒng)漫長的周期構(gòu)成了復(fù)雜的TCO(總體擁有成本)計(jì)算公式,在公式的左側(cè),是長期困擾行業(yè)的編程效率、計(jì)算效率、性能提升和復(fù)雜架構(gòu),而在公式的右側(cè)——這個公式的答案——則是英特爾微異構(gòu)架構(gòu)和至強(qiáng)融核協(xié)處理器。

美國勞倫斯伯克利國家實(shí)驗(yàn)室副主任Horst Simon在評價混合架構(gòu)(加速器)系統(tǒng)在榜單中下滑時所說的:“(過去三年)加速器并沒有被用于商業(yè)系統(tǒng)廣泛使用?!钡那樾?,在英特爾“微異構(gòu)架構(gòu)”的帶動下,將出現(xiàn)根本性的轉(zhuǎn)變。

分享到

cuihao

相關(guān)推薦