综合影院入口日韩欧美,最新亚洲人成无码网www电影,香蕉av久久一区二区三区

Intel Xeon Phi協(xié)處理器家族，5110P和定制產(chǎn)品SE10P采用被動散熱，適用于數(shù)據(jù)中心;3100系列有被動散熱和主動散熱兩種方案，后者適合于任何環(huán)境，包括工作站

雖然在消費市場上遭遇ARM的強勢挑戰(zhàn)，公司市值亦首度被高通超越，但英特爾還有企業(yè)級市場作為堅強后盾。至強家族在服務(wù)器和存儲市場不斷蠶食RISC的領(lǐng)地，同屬x86陣營的AMD也被逼得向ARM遞上“投名狀”。

想想十多年前，還是RISC統(tǒng)治數(shù)據(jù)中心，x86把持桌面計算?，F(xiàn)在形勢幾乎反轉(zhuǎn)，前端的消費者市場，ARM攜智能手機和平板市場上的成功威脅PC，并伺機進(jìn)攻后端的企業(yè)級市場，欲重復(fù)當(dāng)年x86的逆襲故事。正所謂“兵無常勢，水無常形。”同一時代的技術(shù)往往沒有絕對的優(yōu)劣之分，看誰更善于利用形勢，與時俱進(jìn)，才是長盛之道。

Intel Xeon Phi 協(xié)處理器以PCI Express(PCIe)插卡的形式配合英特爾至強(Xeon)CPU使用

要說在企業(yè)級市場，英特爾還是很趕潮流的。去年云計算，今年大數(shù)據(jù)，不是最早鼓吹的那個，但也不算落伍。按理，云計算和大數(shù)據(jù)能夠成為大眾話題，基礎(chǔ)設(shè)施層面上，離不開x86的遍地開花，可是，每當(dāng)英特爾往大數(shù)據(jù)上靠，總有人感覺不習(xí)慣。

英特爾表示，Xeion Phi 協(xié)處理器內(nèi)核在P54C基礎(chǔ)上加入了很多功能，包括64位支持。現(xiàn)在內(nèi)核加上L2緩存，只有不到2%是x86成分(x87 Logic)

記得今年7月第二屆大數(shù)據(jù)世界論壇，有記者朋友走進(jìn)會場，看到Intel的Logo，驚呼“英特爾和大數(shù)據(jù)有什么關(guān)系啊?”遂在微博上引發(fā)一番Hadoop知識普及的大討論(當(dāng)然，不能把Hadoop與大數(shù)據(jù)劃等號)。上個月，英特爾在介紹其至強融核(Xeon Phi)處理器時，將HPC(高性能計算)與大數(shù)據(jù)聯(lián)系到一起，又引起了同行的反彈。

我寧愿把這理解為對近來業(yè)內(nèi)談及趨勢時必稱“大數(shù)據(jù)”的反感。如果拋開這一層，不消英特爾多說，前一陣與幾位圈中好友私下討論時，已然認(rèn)同以Hadoop為代表的大數(shù)據(jù)應(yīng)用，與高性能計算在模式上頗有共通之處——高度并行，從計算到I/O。

大數(shù)據(jù)“泛濫”：Xeon Phi普及并行計算？

從計算到存儲，大數(shù)據(jù)與高性能計算很相似

隨后，在10月底公布的中國HPC TOP100排行榜上，前10名中，有4個安裝在互聯(lián)網(wǎng)服務(wù)提供商，而在總體上，應(yīng)用于互聯(lián)網(wǎng)服務(wù)的系統(tǒng)多達(dá)35套，占35%，在各行業(yè)中保持第一，比例有大幅度躍升。

我們不是說，互聯(lián)網(wǎng)服務(wù)就意味著Hadoop，或者大數(shù)據(jù)，但起碼它們的應(yīng)用類型更為接近，而與科學(xué)計算等“傳統(tǒng)意義”上的科學(xué)計算距離較遠(yuǎn)。一定程度上，互聯(lián)網(wǎng)服務(wù)/大數(shù)據(jù)應(yīng)用拓展了HPC的勢力范圍，幫助后者從象牙塔走出來，滲透到普通人生活的方方面面。

順著這個話頭說開去，我們正處在一個加速轉(zhuǎn)向并行處理的時代。CPU強調(diào)多核和多線程自不必說，硬盤驅(qū)動器(HDD)面臨被固態(tài)盤(SSD)部分乃至全部取代的危險，也體現(xiàn)了同樣的道理。英特爾在為SSD造勢時，給硬盤列的一大罪狀就是，十年間性能只提高了1.3倍，遠(yuǎn)遠(yuǎn)落后于CPU的進(jìn)步幅度。對硬盤的評價有點兒偏頗，這里不細(xì)究，但是抓住了關(guān)鍵，即硬盤多年來都是同一時刻只有一個磁頭工作，并行度很差，改善性能基本只能靠加快機械部件的運轉(zhuǎn)速度，所以效果很有限。SSD則不然，雖然每個閃存芯片的性能和容量都不算高，但可以多個芯片(控制器多通道)同時讀/寫，具有很高的并行度，性能很容易就甩開硬盤好幾條街。

大數(shù)據(jù)“泛濫”：Xeon Phi普及并行計算？

HPC市場的年復(fù)合增長率(CAGR)接近于云

雖然性能幾乎不隨著容量增長，但是硬盤在容量和價格上的優(yōu)勢仍非SSD所能企及。硬盤的并行度不行，那就盡量避免讓它同時干兩件事(減少隨機訪問)。譬如說，我的辦公環(huán)境是在虛擬機里運行Outlook，關(guān)閉Outlook和關(guān)閉虛擬機，都要向硬盤上大量寫入數(shù)據(jù)。如果執(zhí)行了關(guān)閉Outlook的動作，不等數(shù)據(jù)文件寫完，立刻關(guān)閉虛擬機，那么兩個寫操作就有部分重合，關(guān)機時間會很長;如果先等待Outlook完全關(guān)閉，再關(guān)閉虛擬機，那么總共花費的時間，能夠明顯的縮短。也就是說，在一個缺乏并行度的體系內(nèi)，完全串行的執(zhí)行兩個任務(wù)，所需時間要比在兩個任務(wù)之間來回切換，要來得短。(1+1<2?)

硬盤的并行能力雖差，但是多個硬盤同時工作，就能夠兼顧并行訪問和大容量，存儲系統(tǒng)(RAID)和Hadoop就是這么做的。

TACC的Stampede系統(tǒng)在新鮮出爐的HPC Top500排行榜上排名第7，得益于數(shù)千塊定制的Xeon Phi 協(xié)處理器SE10P

如果需要極致的并行訪問能力，就像剛剛過去的雙11淘寶數(shù)據(jù)庫，一天下來僅成交的交易就上億，離了高性能的PCIe SSD，是無法想象的。

以上想說明什么?并發(fā)度，組合。硬盤不是為并發(fā)訪問設(shè)計的，但在順序訪問時，輸出(throughput)并不比SSD差太多，且在容量和價格上占有優(yōu)勢。對并行度要求不太高的時候可以用硬盤組合，隨著并行訪問要求的提高，引入SSD，乃至完全依靠SSD。

大數(shù)據(jù)“泛濫”：Xeon Phi普及并行計算？

Intel Xeon Phi 協(xié)處理器SE10P

但是，在Hadoop系統(tǒng)中，硬盤仍然占據(jù)主流，SSD相對少見，每個節(jié)點配的內(nèi)存容量也不是很大——雖然商業(yè)領(lǐng)域在倡導(dǎo)“內(nèi)存計算”?；ヂ?lián)網(wǎng)行業(yè)的文化是盡可能不依賴昂貴的硬件，利用整體架構(gòu)來分布任務(wù)。與金字塔尖上的超級計算系統(tǒng)相比，他們屬于平民版的HPC，講究投入產(chǎn)出比，可復(fù)制性更高。

我在TACC上機操作，可以看到Intel Xeon Phi 協(xié)處理器SE10P的信息，包括61個內(nèi)核及8GB GDDR5內(nèi)存，注意下面TACC Stampede和MIC協(xié)處理器的顯示

現(xiàn)在回過頭來說計算。x86 CPU的并行度非硬盤可比，但在高度并行化設(shè)計的GPU面前，差距又很明顯。剛剛奪得新一期全球Top500榜單頭名的Titan系統(tǒng)，制勝法寶便是Nvidia Tesla K20X GPU加速芯片。

大數(shù)據(jù)“泛濫”：Xeon Phi普及并行計算？

新鮮出爐的Top500榜單前10名，注意第1、7和8名

得克薩斯高級計算中心(TACC)的Stampede系統(tǒng)，采用戴爾PowerEdge C8220X，至強E5-2680 8核CPU與Intel Xeon Phi協(xié)處理器的混合系統(tǒng)，小勝兩年前的頭名——也是CPU + GPU的天河1號A，但與Titan系統(tǒng)還差得遠(yuǎn)。

TACC的Stampede系統(tǒng)采用了6400臺戴爾PowerEdge C8220X刀片服務(wù)器，每一個刀片配備了2個8核Intel Xeon E5-2680處理器和32GB內(nèi)存

英特爾自家的GPU是薄弱環(huán)節(jié)，又不可能坐視甚至扶植AMD或NV的GPU做大，反對CPU+GPU的混合系統(tǒng)是很自然的。英特爾的方案是，以Xeon Phi作為協(xié)處理器，替代GPU，輔助CPU處理高度并行的任務(wù)。GPU派攻擊協(xié)處理器的性能，英特爾則強調(diào)引入GPU需要大量重新編程，通用性不好。這方面口水戰(zhàn)甚多，我對HPC的了解有限，更非編程專家，這里就不拾人牙慧，主要探討下英特爾的做法。

大數(shù)據(jù)“泛濫”：Xeon Phi普及并行計算？

戴爾PowerEdge C8220X刀片服務(wù)器

首先，英特爾強調(diào)至強E5是HPC的基石。這里面又有好幾層意思，一是x86 CPU中，E5占據(jù)明顯優(yōu)勢。CPU + GPU，后者再給力，也不能放任前者拖后腿。AMD的Opteron雖然內(nèi)核數(shù)更多，但總體上處于下風(fēng)。另外，至強E5平臺集成了PCI Express，摟草打兔子，配合PCIe接口的Xeon Phi，可以進(jìn)一步縮短延遲。

在英特爾宣布將要推出Xeon Phi(當(dāng)時稱MIC)協(xié)處理器之后，Nvidia方面撰文稱“沒有免費的午餐”(指MIC運行x86程序無需更改代碼是無稽之談)。英特爾并行編程傳播總監(jiān)James Reinders不無幽默地回應(yīng)道，并行編程很重要，但沒人能獲得免費的午餐。

英特爾與Nvidia一樣很清楚，目前的很多程序都是串行編程，需要盡可能的并行化，才能充分發(fā)揮GPU或Xeon Phi協(xié)處理器的并行計算能力。不過，James Reinders強調(diào)，并行化編程對挖掘CPU的潛力也很有幫助。

大數(shù)據(jù)“泛濫”：Xeon Phi普及并行計算？

至強CPU采用為Xeon Phi 協(xié)處理器開發(fā)的并行化代碼后，性能可有上百倍的提升

他舉了一個SAXPY(Scalar Alpha X Plus Y，純量乘法與矢量加法的組合，是并行向量處理器中常用的計算操作指令)的例子，經(jīng)過并行化的代碼運行在Xeon Phi上，340.6倍于運行串行化代碼的6核至強E5-2600。但當(dāng)至強E5運行的代碼也經(jīng)過并行化編譯之后，這個倍數(shù)(Xeon Phi對E5-2600)就急劇下降到2.3。

大數(shù)據(jù)“泛濫”：Xeon Phi普及并行計算？

單Xeon Phi 協(xié)處理器(右側(cè))對雙至強E5(左側(cè))的性能提升

英特爾旨在說明，像Xeon Phi這樣的高度并行設(shè)備需要高度并行編程，而至強E5這樣的(普通并行)處理器也可以從中獲益。并行時代，本來就要并行編程。James Reinders拋出了一個問題：你想用同樣的語言、并行編程模型和類似的工具來滿足高度并行的需求么?

大數(shù)據(jù)“泛濫”：Xeon Phi普及并行計算？

另一些情況下，Xeon Phi 協(xié)處理器帶來的性能提升可達(dá)10倍

TACC的Jay Boisseau認(rèn)為，用戶都想不用付出(改變代碼)就獲得性能躍升，但當(dāng)他們(為了提升性能)做了不愿做的事，還被鎖定在特定的硬件架構(gòu)(指GPU)會怎樣?至強Phi在通用并行計算的每瓦性能上還是不好，但很大程度上解決了硬件特定編碼的問題，可以用Fortran、C、C++，編程不受限制。至強Phi運行串行應(yīng)用會慢，所以要搭配至強E5工作。

總之，Xeon Phi結(jié)合了高級的性能和標(biāo)準(zhǔn)CPU編程模型的好處，這是Stampede系統(tǒng)選擇它與至強E5組合的主要原因。

大數(shù)據(jù)“泛濫”：Xeon Phi普及并行計算？

至強CPU與Xeon Phi 協(xié)處理器搭配工作的幾種情況

每個用戶，選擇一個特定的解決方案，總有其充足的理由。至于不遠(yuǎn)的將來，至強CPU與Xeon Phi協(xié)處理器的搭配，能否在Top500排行榜上擊敗CPU + GPU的組合，乃至登上王座，不是我能判斷出來的。

我的看法是，大數(shù)據(jù)雖然有被炒爛之虞，但英特爾將大數(shù)據(jù)作為并行計算的范例，甚至與HPC聯(lián)系在一起，未必只是心血來潮，亂搭熱門概念的順風(fēng)車。Xeon Phi真正投入市場也要2013年初了，短時間內(nèi)很難與在傳統(tǒng)HPC領(lǐng)域已有相當(dāng)積累的CPU + GPU組合架構(gòu)爭鋒(分走一塊市場還是可以的)?？墒牵诜秶鼮閺V闊的大數(shù)據(jù)領(lǐng)域，特別是大量采用英特爾至強平臺搭建Hadoop集群的互聯(lián)網(wǎng)服務(wù)市場，Xeon Phi(較之GPU)在兼容性上的優(yōu)勢可能頗具吸引力。如果這個市場接受了英特爾的理念，也許會在(廣義的)HPC市場起到“農(nóng)村包圍城市”的效果……

類似的事情，英特爾以前做到過，ARM正在做，未來?就交給未來吧，瞎猜就此打住。

分享到

tangrong

相關(guān)推薦

近期文章

熱門標(biāo)簽