微異構(gòu)倍受認可 至強融核魅力何在?
DOIT原創(chuàng) 崔昊 發(fā)表于:13年06月25日 23:55 [原創(chuàng)] DOIT.com.cn
微異構(gòu)倍受認可 至強融核魅力何在?
為何一年過去英特爾至強融核協(xié)處理器系統(tǒng)能夠取得如此大的進步,能在競爭對手的加速器架構(gòu)跌出TOP500排行榜的情形下加速沖刺?
首先,英特爾至強融核為高性能計算系統(tǒng)帶來了巨大的性能提升,早在2011年英特爾就在DGEMM 進行的協(xié)處理器現(xiàn)場演示中,進行了使用單顆“ Knights Corner”協(xié)處理器提供超過 1 TeraFLOPs(每秒 1 萬億次浮點計算)雙精度實際性能的展示;在2012年年底進行的正式發(fā)布中,英特爾至強融核主要產(chǎn)品5110P能夠提供1011 Gigaflops(即每秒1萬億次浮點計算)的雙精度浮點計算性能。
Stampede系統(tǒng)是英特爾至強融核高性能最具代表性的受益者,這一系統(tǒng)在2012年6月僅以1809.9TFlops(Rpeak,以下同)位居第150位,但半年后的TOP500中就以3959.0TFlops的性能位列第七,更令人吃驚的是,這一系統(tǒng)目前已憑驚人的8520.1TFlops位列最新TOP500第六位。
其次,從Stampede的性能提升中我們不難發(fā)現(xiàn),德州高級計算中心(TACC)在一年的時間里,不斷飛躍式的性能提升已經(jīng)明顯驗證了高性能計算系統(tǒng)性能提升的最佳“法則”——擴展更簡單、性能提升更快、效率提升顯著——這對傳統(tǒng)的異構(gòu)-混合架構(gòu)而言是很難實現(xiàn)的。
這說明,TACC的工程師們在擴展硬件規(guī)模的同時,讓應用程序“跑滿”了系統(tǒng)的性能,讓程序代碼快速的適應了大規(guī)模動態(tài)擴展的系統(tǒng)(甚至是在一個混合架構(gòu)中),這一(混合架構(gòu))系統(tǒng)的可編程性遠遠超過它的“同類”們:Stampede是(第一款)使用英特爾至強融核協(xié)處理器的TOP500榜單角逐者,采用英特爾的“微異構(gòu)架構(gòu)”(Neo-heterogeneous architecture)。
“微異構(gòu)架構(gòu)”(Neo-heterogeneous architecture)的架構(gòu)以英特爾至強處理器和英特爾至強融核處理器組成,是一種具有多種類型、可提供計算力的硬件架構(gòu),但卻由通用編程模型予以支持,以簡化開發(fā)和優(yōu)化過程。這一優(yōu)勢是傳統(tǒng)異構(gòu)架構(gòu)(使用CPU與GPU加速器的組合)所無法實現(xiàn)的。
在這一架構(gòu)中,用戶能夠充分利用在英特爾架構(gòu)上使用的常見編程模式、技術(shù)和開發(fā)者工具——用英特爾并行編程傳播總監(jiān)James Reinders的話說:“如果你想用相同的語言(比如Fortran)、相同的并行編程模型、熟悉的工具滿足高度并行的需要,至強和至強融核是最好的選擇!
尤其是在“并行時代”,英特爾“微異構(gòu)架構(gòu)”的優(yōu)勢更為明顯。一方面,至強融核作為高度并行設備,在并行編程中能夠獲得強大的性能表現(xiàn),而至強處理器也能夠獲益;另一方面,由于英特爾努力嘗試著解決了硬件特定編碼的問題,可以用Fortran、C、C++,編程不受限制,用戶可以在英特爾至強+英特爾至強融核的“微異構(gòu)架構(gòu)”中以“同樣的語言、并行編程模型和類似的工具來滿足高度并行的需求”,英特爾“微異構(gòu)架構(gòu)”通過“可復用、簡單、單一的編程模式”已經(jīng)獲得了大量用戶的認可。