性能躍升:至強(qiáng)融核展現(xiàn)實(shí)力
DOIT原創(chuàng) 崔昊 發(fā)表于:12年11月27日 19:00 [原創(chuàng)] DOIT.com.cn
性能躍升:至強(qiáng)融核展現(xiàn)實(shí)力
上面我們已經(jīng)說到了英特爾“萬億次計(jì)算機(jī)計(jì)劃”的幾項(xiàng)重要宗旨,接下來,我們自然會(huì)在至強(qiáng)融核(Xeon Phi,為簡單起見,下面只稱至強(qiáng)融核)上面看到這一項(xiàng)目計(jì)劃所產(chǎn)生的影響,以及至強(qiáng)融核是如何從自身的特性上貫徹英特爾“萬億次計(jì)算機(jī)計(jì)劃”的。
談到性能和功耗比,英特爾至強(qiáng)處理器作為“高性能計(jì)算TOP500排行榜”上位列第一的處理器選擇,基本上每一代產(chǎn)品都會(huì)帶來極高的性能提升和功耗降低?偟膩碚f,我們會(huì)看到在同等對(duì)應(yīng)的至強(qiáng)處理器每代更新上,會(huì)看到1.3-2.1倍不等的性能提升,而同時(shí)其功耗卻能夠更進(jìn)一步的得到降低,可以說,至強(qiáng)E5本身已經(jīng)是不錯(cuò)的高性能計(jì)算處理器。
但至強(qiáng)+至強(qiáng)融核的架構(gòu)顯然有將這一優(yōu)勢(shì)更進(jìn)一步的可能性,我們都已經(jīng)見識(shí)到了協(xié)處理器在提升性能并保證功耗水平方面的巨大作用,尤其是對(duì)于越來越多的并行編程、并行計(jì)算來說,處理器+協(xié)處理器的方式顯然會(huì)更有效率,所以,至強(qiáng)融核所帶來的性能提升和功耗降低都將是十分明顯的。
首先,我們來看看至強(qiáng)融核兩個(gè)主要產(chǎn)品5110P和3100系列的性能表現(xiàn)。根據(jù)英特爾方面的數(shù)據(jù),5110P能夠提供1011 Gigaflops(即每秒1萬億次浮點(diǎn)計(jì)算)的雙精度浮點(diǎn)計(jì)算性能,3100系列則能夠肯定提供“超過1TeraFlops”的性能表現(xiàn),而這兩個(gè)皆為60核心的協(xié)處理器的性能水平,已經(jīng)達(dá)到了上文所談到的2007年英特爾CTO賈斯汀所展示的80核處理器的性能,當(dāng)時(shí)賈斯汀談到其能夠?qū)崿F(xiàn)1TeraFlops的性能,而當(dāng)時(shí)NVIDIA也展示了協(xié)處理器卡G80,其性能大約為520GFlops,如今的至強(qiáng)融核是這塊卡的兩倍。
在串行、并行的不同條件下,至強(qiáng)融核比至強(qiáng)運(yùn)行在并行編程下還是有2.3x的優(yōu)勢(shì)
在并行編程的條件下,Joe Curley展示了至強(qiáng)融核的并行計(jì)算能力。在資料中,串行代碼通過英特爾至強(qiáng)處理器的處理時(shí)間為67.097秒,而通過代碼的并行化,至強(qiáng)處理器能夠獲得145倍的提升,僅需要0.46秒去完成并行代碼的工作。但如果將并行代碼運(yùn)行在至強(qiáng)融核上,其結(jié)果僅為0.197秒,相比并行化處理器的至強(qiáng)處理器還要高出2.3倍。(后面會(huì)看到,這是一個(gè)SAXPY(Scalar Alpha X Plus Y)的例子)
顯然,60個(gè)超過1GHz性能的核心所能夠提供的并行計(jì)算效率是有較大提高的。至強(qiáng)處理器常見的六核心、八核心,核心數(shù)量差距最大甚至只有至強(qiáng)融核的十分之一,雖然其核心的頻率超過2GHz是至強(qiáng)融核的一倍多,但是如果能夠?qū)⒛切└⒅睾碎g通信、低延遲以及大量、重復(fù)簡單指令處理任務(wù)交給至強(qiáng)融核這樣的協(xié)處理器,其多核高并發(fā)的優(yōu)勢(shì)就能夠顯示出來——對(duì)于用戶來說,在不斷更新?lián)Q代的至強(qiáng)處理器之外,再針對(duì)并行模型獲得2-3倍的性能提升,是一件非常值得的事情,至少不需要去堆疊更多的至強(qiáng)處理器。
這就像在麥當(dāng)勞排隊(duì),至強(qiáng)處理器作為“星級(jí)服務(wù)員”能夠提供最佳的服務(wù),適應(yīng)各種不同顧客的需要,但是往往很多早餐的顧客只是為了點(diǎn)“6元早餐”或是一杯咖啡,此類的需求依靠普通的實(shí)習(xí)生就可以得到滿足:星級(jí)服務(wù)員+熟練實(shí)習(xí)生的組合能夠達(dá)到麥當(dāng)勞餐廳的最少顧客等待,而不必把所有任務(wù)都交給星級(jí)服務(wù)員去做。
從技術(shù)上來看,至強(qiáng)處理器被設(shè)計(jì)用來應(yīng)對(duì)更為復(fù)雜多變的負(fù)載,其中包括許多計(jì)算以外的考慮,比如設(shè)計(jì)預(yù)取和猜測(cè)執(zhí)行等提高指令的執(zhí)行效率,但這些邏輯組成并非為了簡單的雙精度浮點(diǎn)運(yùn)算——也就是簡單的派發(fā)“6元早餐”,而眾核的至強(qiáng)融核核之間的核心帶寬更高、延遲低,適合處理那些互相邏輯關(guān)聯(lián)性不強(qiáng)的簡單數(shù)學(xué)計(jì)算。
比如說,在《眾核體系結(jié)構(gòu)下單核的設(shè)計(jì)與優(yōu)化》這篇論文中,作者就提到,像是基因序列對(duì)比就需要大量的數(shù)據(jù)對(duì)比,對(duì)于處理系統(tǒng)來說,片上可用的處理器核心數(shù)量越多,對(duì)提高此類任務(wù)的性能就越發(fā)明顯。
在不同的應(yīng)用環(huán)境下,至強(qiáng)融核還是有一定優(yōu)勢(shì)的
在展示的資料中我們還能夠看到,至強(qiáng)融核對(duì)至強(qiáng)E5-2600系列處理器在SGEMM、DGEMM、SMP Linpack和STREAM Triad上2.9倍、2.8倍、2.6倍和2.2倍的性能提升,從性能上來看,至強(qiáng)融核在并行計(jì)算上所帶來的性能提升是非常顯著的,并且用戶能夠從中受益。
但我們也需要指出,所有這些性能的提升,都是在“并行編程”的前提下,也就是說,在大量應(yīng)用程序仍然是串行模型的前提下,至強(qiáng)融核是無法發(fā)揮其最大的功效的,而至強(qiáng)處理器作為多核處理器,其同樣會(huì)受益于多核編程,比如說在上面展示的SAXPY例子中,細(xì)心的人就會(huì)發(fā)現(xiàn),至強(qiáng)E5通過并行化代碼獲得了145倍的性能提升,在并行的前提下,至強(qiáng)融核的性能只比至強(qiáng)E5提高了2.3倍。
這也就說明,并行化模型并非只會(huì)讓至強(qiáng)融核受益,同樣也會(huì)讓英特爾至強(qiáng)E5處理器受益,一旦程序進(jìn)行并行化編譯,至強(qiáng)+至強(qiáng)融核能夠同時(shí)獲得極高的性能提升,這也就讓用戶通過使用至強(qiáng)融核更進(jìn)一步的獲得了性能的提升。
至強(qiáng)融核已經(jīng)獲得大量OEM的支持,其中也包括國內(nèi)的曙光、大洋、浪潮、天地超云等,從這個(gè)名單上看,英特爾已經(jīng)將亦莊云基地的天地超云作為不錯(cuò)的合作伙伴。
公司簡介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.