Intel Xeon Phi協(xié)處理器家族,5110P和定制產(chǎn)品SE10P采用被動散熱,適用于數(shù)據(jù)中心;3100系列有被動散熱和主動散熱兩種方案,后者適合于任何環(huán)境,包括工作站
雖然在消費市場上遭遇ARM的強勢挑戰(zhàn),公司市值亦首度被高通超越,但英特爾還有企業(yè)級市場作為堅強后盾。至強家族在服務(wù)器和存儲市場不斷蠶食RISC的領(lǐng)地,同屬x86陣營的AMD也被逼得向ARM遞上“投名狀”。
想想十多年前,還是RISC統(tǒng)治數(shù)據(jù)中心,x86把持桌面計算。現(xiàn)在形勢幾乎反轉(zhuǎn),前端的消費者市場,ARM攜智能手機和平板市場上的成功威脅PC,并伺機進攻后端的企業(yè)級市場,欲重復(fù)當(dāng)年x86的逆襲故事。正所謂“兵無常勢,水無常形。”同一時代的技術(shù)往往沒有絕對的優(yōu)劣之分,看誰更善于利用形勢,與時俱進,才是長盛之道。
Intel Xeon Phi 協(xié)處理器以PCI Express(PCIe)插卡的形式配合英特爾至強(Xeon)CPU使用
要說在企業(yè)級市場,英特爾還是很趕潮流的。去年云計算,今年大數(shù)據(jù),不是最早鼓吹的那個,但也不算落伍。按理,云計算和大數(shù)據(jù)能夠成為大眾話題,基礎(chǔ)設(shè)施層面上,離不開x86的遍地開花,可是,每當(dāng)英特爾往大數(shù)據(jù)上靠,總有人感覺不習(xí)慣。
英特爾表示,Xeion Phi 協(xié)處理器內(nèi)核在P54C基礎(chǔ)上加入了很多功能,包括64位支持?,F(xiàn)在內(nèi)核加上L2緩存,只有不到2%是x86成分(x87 Logic)
記得今年7月第二屆大數(shù)據(jù)世界論壇,有記者朋友走進會場,看到Intel的Logo,驚呼“英特爾和大數(shù)據(jù)有什么關(guān)系啊?”遂在微博上引發(fā)一番Hadoop知識普及的大討論(當(dāng)然,不能把Hadoop與大數(shù)據(jù)劃等號)。上個月,英特爾在介紹其至強融核(Xeon Phi)處理器時,將HPC(高性能計算)與大數(shù)據(jù)聯(lián)系到一起,又引起了同行的反彈。
我寧愿把這理解為對近來業(yè)內(nèi)談及趨勢時必稱“大數(shù)據(jù)”的反感。如果拋開這一層,不消英特爾多說,前一陣與幾位圈中好友私下討論時,已然認同以Hadoop為代表的大數(shù)據(jù)應(yīng)用,與高性能計算在模式上頗有共通之處——高度并行,從計算到I/O。
從計算到存儲,大數(shù)據(jù)與高性能計算很相似
隨后,在10月底公布的中國HPC TOP100排行榜上,前10名中,有4個安裝在互聯(lián)網(wǎng)服務(wù)提供商,而在總體上,應(yīng)用于互聯(lián)網(wǎng)服務(wù)的系統(tǒng)多達35套,占35%,在各行業(yè)中保持第一,比例有大幅度躍升。
我們不是說,互聯(lián)網(wǎng)服務(wù)就意味著Hadoop,或者大數(shù)據(jù),但起碼它們的應(yīng)用類型更為接近,而與科學(xué)計算等“傳統(tǒng)意義”上的科學(xué)計算距離較遠。一定程度上,互聯(lián)網(wǎng)服務(wù)/大數(shù)據(jù)應(yīng)用拓展了HPC的勢力范圍,幫助后者從象牙塔走出來,滲透到普通人生活的方方面面。
順著這個話頭說開去,我們正處在一個加速轉(zhuǎn)向并行處理的時代。CPU強調(diào)多核和多線程自不必說,硬盤驅(qū)動器(HDD)面臨被固態(tài)盤(SSD)部分乃至全部取代的危險,也體現(xiàn)了同樣的道理。英特爾在為SSD造勢時,給硬盤列的一大罪狀就是,十年間性能只提高了1.3倍,遠遠落后于CPU的進步幅度。對硬盤的評價有點兒偏頗,這里不細究,但是抓住了關(guān)鍵,即硬盤多年來都是同一時刻只有一個磁頭工作,并行度很差,改善性能基本只能靠加快機械部件的運轉(zhuǎn)速度,所以效果很有限。SSD則不然,雖然每個閃存芯片的性能和容量都不算高,但可以多個芯片(控制器多通道)同時讀/寫,具有很高的并行度,性能很容易就甩開硬盤好幾條街。
HPC市場的年復(fù)合增長率(CAGR)接近于云
雖然性能幾乎不隨著容量增長,但是硬盤在容量和價格上的優(yōu)勢仍非SSD所能企及。硬盤的并行度不行,那就盡量避免讓它同時干兩件事(減少隨機訪問)。譬如說,我的辦公環(huán)境是在虛擬機里運行Outlook,關(guān)閉Outlook和關(guān)閉虛擬機,都要向硬盤上大量寫入數(shù)據(jù)。如果執(zhí)行了關(guān)閉Outlook的動作,不等數(shù)據(jù)文件寫完,立刻關(guān)閉虛擬機,那么兩個寫操作就有部分重合,關(guān)機時間會很長;如果先等待Outlook完全關(guān)閉,再關(guān)閉虛擬機,那么總共花費的時間,能夠明顯的縮短。也就是說,在一個缺乏并行度的體系內(nèi),完全串行的執(zhí)行兩個任務(wù),所需時間要比在兩個任務(wù)之間來回切換,要來得短。(1+1<2?)
硬盤的并行能力雖差,但是多個硬盤同時工作,就能夠兼顧并行訪問和大容量,存儲系統(tǒng)(RAID)和Hadoop就是這么做的。
TACC的Stampede系統(tǒng)在新鮮出爐的HPC Top500排行榜上排名第7,得益于數(shù)千塊定制的Xeon Phi 協(xié)處理器SE10P
如果需要極致的并行訪問能力,就像剛剛過去的雙11淘寶數(shù)據(jù)庫,一天下來僅成交的交易就上億,離了高性能的PCIe SSD,是無法想象的。
以上想說明什么?并發(fā)度,組合。硬盤不是為并發(fā)訪問設(shè)計的,但在順序訪問時,輸出(throughput)并不比SSD差太多,且在容量和價格上占有優(yōu)勢。對并行度要求不太高的時候可以用硬盤組合,隨著并行訪問要求的提高,引入SSD,乃至完全依靠SSD。
Intel Xeon Phi 協(xié)處理器SE10P
但是,在Hadoop系統(tǒng)中,硬盤仍然占據(jù)主流,SSD相對少見,每個節(jié)點配的內(nèi)存容量也不是很大——雖然商業(yè)領(lǐng)域在倡導(dǎo)“內(nèi)存計算”。互聯(lián)網(wǎng)行業(yè)的文化是盡可能不依賴昂貴的硬件,利用整體架構(gòu)來分布任務(wù)。與金字塔尖上的超級計算系統(tǒng)相比,他們屬于平民版的HPC,講究投入產(chǎn)出比,可復(fù)制性更高。
我在TACC上機操作,可以看到Intel Xeon Phi 協(xié)處理器SE10P的信息,包括61個內(nèi)核及8GB GDDR5內(nèi)存,注意下面TACC Stampede和MIC協(xié)處理器的顯示
現(xiàn)在回過頭來說計算。x86 CPU的并行度非硬盤可比,但在高度并行化設(shè)計的GPU面前,差距又很明顯。剛剛奪得新一期全球Top500榜單頭名的Titan系統(tǒng),制勝法寶便是Nvidia Tesla K20X GPU加速芯片。
新鮮出爐的Top500榜單前10名,注意第1、7和8名
得克薩斯高級計算中心(TACC)的Stampede系統(tǒng),采用戴爾PowerEdge C8220X,至強E5-2680 8核CPU與Intel Xeon Phi協(xié)處理器的混合系統(tǒng),小勝兩年前的頭名——也是CPU + GPU的天河1號A,但與Titan系統(tǒng)還差得遠。
TACC的Stampede系統(tǒng)采用了6400臺戴爾PowerEdge C8220X刀片服務(wù)器,每一個刀片配備了2個8核Intel Xeon E5-2680處理器和32GB內(nèi)存
英特爾自家的GPU是薄弱環(huán)節(jié),又不可能坐視甚至扶植AMD或NV的GPU做大,反對CPU+GPU的混合系統(tǒng)是很自然的。英特爾的方案是,以Xeon Phi作為協(xié)處理器,替代GPU,輔助CPU處理高度并行的任務(wù)。GPU派攻擊協(xié)處理器的性能,英特爾則強調(diào)引入GPU需要大量重新編程,通用性不好。這方面口水戰(zhàn)甚多,我對HPC的了解有限,更非編程專家,這里就不拾人牙慧,主要探討下英特爾的做法。
戴爾PowerEdge C8220X刀片服務(wù)器
首先,英特爾強調(diào)至強E5是HPC的基石。這里面又有好幾層意思,一是x86 CPU中,E5占據(jù)明顯優(yōu)勢。CPU + GPU,后者再給力,也不能放任前者拖后腿。AMD的Opteron雖然內(nèi)核數(shù)更多,但總體上處于下風(fēng)。另外,至強E5平臺集成了PCI Express,摟草打兔子,配合PCIe接口的Xeon Phi,可以進一步縮短延遲。
在英特爾宣布將要推出Xeon Phi(當(dāng)時稱MIC)協(xié)處理器之后,Nvidia方面撰文稱“沒有免費的午餐”(指MIC運行x86程序無需更改代碼是無稽之談)。英特爾并行編程傳播總監(jiān)James Reinders不無幽默地回應(yīng)道,并行編程很重要,但沒人能獲得免費的午餐。
英特爾與Nvidia一樣很清楚,目前的很多程序都是串行編程,需要盡可能的并行化,才能充分發(fā)揮GPU或Xeon Phi協(xié)處理器的并行計算能力。不過,James Reinders強調(diào),并行化編程對挖掘CPU的潛力也很有幫助。
至強CPU采用為Xeon Phi 協(xié)處理器開發(fā)的并行化代碼后,性能可有上百倍的提升
他舉了一個SAXPY(Scalar Alpha X Plus Y,純量乘法與矢量加法的組合,是并行向量處理器中常用的計算操作指令)的例子,經(jīng)過并行化的代碼運行在Xeon Phi上,340.6倍于運行串行化代碼的6核至強E5-2600。但當(dāng)至強E5運行的代碼也經(jīng)過并行化編譯之后,這個倍數(shù)(Xeon Phi對E5-2600)就急劇下降到2.3。
單Xeon Phi 協(xié)處理器(右側(cè))對雙至強E5(左側(cè))的性能提升
英特爾旨在說明,像Xeon Phi這樣的高度并行設(shè)備需要高度并行編程,而至強E5這樣的(普通并行)處理器也可以從中獲益。并行時代,本來就要并行編程。James Reinders拋出了一個問題:你想用同樣的語言、并行編程模型和類似的工具來滿足高度并行的需求么?
另一些情況下,Xeon Phi 協(xié)處理器帶來的性能提升可達10倍
TACC的Jay Boisseau認為,用戶都想不用付出(改變代碼)就獲得性能躍升,但當(dāng)他們(為了提升性能)做了不愿做的事,還被鎖定在特定的硬件架構(gòu)(指GPU)會怎樣?至強Phi在通用并行計算的每瓦性能上還是不好,但很大程度上解決了硬件特定編碼的問題,可以用Fortran、C、C++,編程不受限制。至強Phi運行串行應(yīng)用會慢,所以要搭配至強E5工作。
總之,Xeon Phi結(jié)合了高級的性能和標(biāo)準(zhǔn)CPU編程模型的好處,這是Stampede系統(tǒng)選擇它與至強E5組合的主要原因。
至強CPU與Xeon Phi 協(xié)處理器搭配工作的幾種情況
每個用戶,選擇一個特定的解決方案,總有其充足的理由。至于不遠的將來,至強CPU與Xeon Phi協(xié)處理器的搭配,能否在Top500排行榜上擊敗CPU + GPU的組合,乃至登上王座,不是我能判斷出來的。
我的看法是,大數(shù)據(jù)雖然有被炒爛之虞,但英特爾將大數(shù)據(jù)作為并行計算的范例,甚至與HPC聯(lián)系在一起,未必只是心血來潮,亂搭熱門概念的順風(fēng)車。Xeon Phi真正投入市場也要2013年初了,短時間內(nèi)很難與在傳統(tǒng)HPC領(lǐng)域已有相當(dāng)積累的CPU + GPU組合架構(gòu)爭鋒(分走一塊市場還是可以的)??墒?,在范圍更為廣闊的大數(shù)據(jù)領(lǐng)域,特別是大量采用英特爾至強平臺搭建Hadoop集群的互聯(lián)網(wǎng)服務(wù)市場,Xeon Phi(較之GPU)在兼容性上的優(yōu)勢可能頗具吸引力。如果這個市場接受了英特爾的理念,也許會在(廣義的)HPC市場起到“農(nóng)村包圍城市”的效果……
類似的事情,英特爾以前做到過,ARM正在做,未來?就交給未來吧,瞎猜就此打住。