一个人看的www高清免费视频,国内精品久久影院综合日日

最近幾年TOP500排行榜上使用加速器的產(chǎn)品套數(shù)發(fā)展趨勢顯著看到英特爾微異構(gòu)所占份額的增加

加速器技術(shù)方興未艾誰是耀眼明星?

GPU及GPGPU加速器技術(shù)在2009年前后逐步被應(yīng)用在高性能計算系統(tǒng)中，在2010年6月的TOP500榜單中，開始出現(xiàn)NVIDIA的GPU加速器的身影，并在當(dāng)期榜單中幫助中國曙光公司的Nebulae高性能計算系統(tǒng)成為TOP500第二名的好成績。

此后，加速器技術(shù)被TOP500及全球高性能計算行業(yè)逐步接納，在半年后的2010年11月榜單中，中國的天河1A系統(tǒng)，更是成為了當(dāng)年舉世震驚的NO.1。

但令人不解的是，正是這樣一種幫助高性能計算系統(tǒng)快速上升計算能力，并廣被“高性能計算發(fā)展中國家”——如中國——使用的技術(shù)，卻為何出現(xiàn)了規(guī)模性的下滑?

幸運的是，月亮總有兩面：2012年6月，全球只有一套位于美國德克薩斯高級計算中心(TACC)的名為Stampede的高性能計算系統(tǒng)使用“定制版”的英特爾至強融核(Xeon Phi)作為加速器平臺，但最新一期榜單中，已經(jīng)有了12套高性能計算系統(tǒng)基于英特爾至強融核協(xié)處理器系統(tǒng)。

更引人注目的是使用英特爾至強融核協(xié)處理器系統(tǒng)的高性能計算系統(tǒng)火箭般上升的排名，以兩套知名的系統(tǒng)為例：位于TACC的Stampede系統(tǒng)2012年6月的榜單中還只是名列第150位，但如今已經(jīng)是第六名(甚至是進入前五的有力爭奪者)的位置。

天河1號和天河1A的后續(xù)家族成員天河2號，通過使用與前兩任完全不同的，由英特爾至強及至強融核協(xié)處理器組[袁1] 成的“微異構(gòu)架構(gòu)”之后，不僅自2010年11月之后時隔三年再度問鼎排行榜榜首，更在效率和計算性能上有了翻天覆地的變化：2010年11月，天河1A以4701.0TFlops的性能問鼎(Rpeak)，2013年6月，天河2號的性能達到了驚人的54902.4TFlops(Rpeak)。

于是，當(dāng)我們看到事實的另一面時就不難發(fā)現(xiàn)，并非是高性能計算中的加速器技術(shù)的采用出現(xiàn)了很大的問題，而是市場中用戶——尤其是具有代表性的高性能計算用戶——對加速器的選擇出現(xiàn)了新的轉(zhuǎn)向。

使用新的英特爾至強融核與至強處理器組成“微異構(gòu)架構(gòu)”的用戶，以及未使用加速器的傳統(tǒng)高性能計算系統(tǒng)架構(gòu)的用戶，正在逐步超過原有使用GPU及GPGPU加速技術(shù)的用戶在TOP500排行榜上的位置。

微異構(gòu)倍受認(rèn)可至強融核魅力何在?

為何一年過去英特爾至強融核協(xié)處理器系統(tǒng)能夠取得如此大的進步，能在競爭對手的加速器架構(gòu)跌出TOP500排行榜的情形下加速沖刺?

首先，英特爾至強融核為高性能計算系統(tǒng)帶來了巨大的性能提升，早在2011年英特爾就在DGEMM 進行的協(xié)處理器現(xiàn)場演示中，進行了使用單顆“ Knights Corner”協(xié)處理器提供超過 1 TeraFLOPs(每秒 1 萬億次浮點計算)雙精度實際性能的展示;在2012年年底進行的正式發(fā)布中，英特爾至強融核主要產(chǎn)品5110P能夠提供1011 Gigaflops(即每秒1萬億次浮點計算)的雙精度浮點計算性能。

Stampede系統(tǒng)是英特爾至強融核高性能最具代表性的受益者，這一系統(tǒng)在2012年6月僅以1809.9TFlops(Rpeak，以下同)位居第150位，但半年后的TOP500中就以3959.0TFlops的性能位列第七，更令人吃驚的是，這一系統(tǒng)目前已憑驚人的8520.1TFlops位列最新TOP500第六位。

其次，從Stampede的性能提升中我們不難發(fā)現(xiàn)，德州高級計算中心(TACC)在一年的時間里，不斷飛躍式的性能提升已經(jīng)明顯驗證了高性能計算系統(tǒng)性能提升的最佳“法則”——擴展更簡單、性能提升更快、效率提升顯著——這對傳統(tǒng)的異構(gòu)-混合架構(gòu)而言是很難實現(xiàn)的。

這說明，TACC的工程師們在擴展硬件規(guī)模的同時，讓應(yīng)用程序“跑滿”了系統(tǒng)的性能，讓程序代碼快速的適應(yīng)了大規(guī)模動態(tài)擴展的系統(tǒng)(甚至是在一個混合架構(gòu)中)，這一(混合架構(gòu))系統(tǒng)的可編程性遠遠超過它的“同類”們：Stampede是(第一款)使用英特爾至強融核協(xié)處理器的TOP500榜單角逐者，采用英特爾的“微異構(gòu)架構(gòu)”(Neo-heterogeneous architecture)。

“微異構(gòu)架構(gòu)”(Neo-heterogeneous architecture)的架構(gòu)以英特爾至強處理器和英特爾至強融核處理器組成，是一種具有多種類型、可提供計算力的硬件架構(gòu)，但卻由通用編程模型予以支持，以簡化開發(fā)和優(yōu)化過程。這一優(yōu)勢是傳統(tǒng)異構(gòu)架構(gòu)(使用CPU與GPU加速器的組合)所無法實現(xiàn)的。

在這一架構(gòu)中，用戶能夠充分利用在英特爾架構(gòu)上使用的常見編程模式、技術(shù)和開發(fā)者工具——用英特爾并行編程傳播總監(jiān)James Reinders的話說：“如果你想用相同的語言(比如Fortran)、相同的并行編程模型、熟悉的工具滿足高度并行的需要，至強和至強融核是最好的選擇。”

尤其是在“并行時代”，英特爾“微異構(gòu)架構(gòu)”的優(yōu)勢更為明顯。一方面，至強融核作為高度并行設(shè)備，在并行編程中能夠獲得強大的性能表現(xiàn)，而至強處理器也能夠獲益;另一方面，由于英特爾努力嘗試著解決了硬件特定編碼的問題，可以用Fortran、C、C++，編程不受限制，用戶可以在英特爾至強+英特爾至強融核的“微異構(gòu)架構(gòu)”中以“同樣的語言、并行編程模型和類似的工具來滿足高度并行的需求”，英特爾“微異構(gòu)架構(gòu)”通過“可復(fù)用、簡單、單一的編程模式”已經(jīng)獲得了大量用戶的認(rèn)可。

高效計算：高性能計算也看TCO

Stamped生動的說明，使用英特爾“微異構(gòu)架構(gòu)”的系統(tǒng)建設(shè)、擴展和編程工作更為簡便易行，用戶能夠以更短的時間完成高性能計算系統(tǒng)在上線前的“整個生命周期”，這也就意味著更低的TCO——更短時間的人力、資金和編程資源投入——從而極大的提升高性能計算系統(tǒng)的效益。

更有力的證據(jù)來自天河2號：短短兩年間，天河就完成了從天河1A到天河2號的兩度問鼎，而且據(jù)了解，在天河1A時期已初步熟悉NVIDIA編程架構(gòu)的天河團隊，卻并未讓天河2號采用與天河1A一樣的混合架構(gòu)及編程模型，而是改用半年多前才剛剛正式發(fā)布的英特爾微異構(gòu)架構(gòu)，這一選擇的結(jié)果就是，天河2號的效率更高、相對于第二名之間的領(lǐng)先優(yōu)勢更大。。

注重性能提升速度和系統(tǒng)應(yīng)用效率的天河團隊，當(dāng)然不會不考慮更換新系統(tǒng)架構(gòu)和重新適應(yīng)編程模型的風(fēng)險，去使用英特爾微異構(gòu)架構(gòu)，但英特爾微異構(gòu)架構(gòu)一脈相承的編程模型帶給了他們信心：英特爾至強與至強融核的協(xié)同、單一編程模式效率更高，可編程性更好，編程工作更容易學(xué)習(xí)和在未來的商業(yè)應(yīng)用上展開。

“改變是要冒極大的風(fēng)險的，而重新學(xué)習(xí)和適應(yīng)編程的成本則更高——除非這是他們早已熟悉的方式和方法?！?/p>

從開始設(shè)計系統(tǒng)，到開展編程工作，再到?jīng)_擊TOP500排行榜和之后的商業(yè)運作，高性能計算系統(tǒng)漫長的周期構(gòu)成了復(fù)雜的TCO(總體擁有成本)計算公式，在公式的左側(cè)，是長期困擾行業(yè)的編程效率、計算效率、性能提升和復(fù)雜架構(gòu)，而在公式的右側(cè)——這個公式的答案——則是英特爾微異構(gòu)架構(gòu)和至強融核協(xié)處理器。

美國勞倫斯伯克利國家實驗室副主任Horst Simon在評價混合架構(gòu)(加速器)系統(tǒng)在榜單中下滑時所說的：“(過去三年)加速器并沒有被用于商業(yè)系統(tǒng)廣泛使用?！钡那樾?，在英特爾“微異構(gòu)架構(gòu)”的帶動下，將出現(xiàn)根本性的轉(zhuǎn)變。

分享到

cuihao

相關(guān)推薦

近期文章

熱門標(biāo)簽