至強融核不出 GPU高性能計算誰與爭鋒
比特網(wǎng) 發(fā)表于:12年11月15日 12:00 [轉載] 比特網(wǎng)
今天我想有不少人已經(jīng)看到新聞了,最新一輪的HPC TOP500名單已經(jīng)公布。作為全球高性能計算行業(yè)的風向標,我們在以前可能看到的更多是新一代使用CPU(比如Intel Xeon E5)、GPGPU(如NVIDIA Tesla)的系統(tǒng)有多少套上榜之類的亮點。而本次英特爾的至強融核(Xeon Phi)協(xié)處理器一共有7套上榜,并且最高排名第七,這或許宣告著一個新時代的來臨——單純依靠通用處理器來構建HPC系統(tǒng)的時代即將過去,而Xeon Phi也正式對以NVIDIA GPGPU為代表的異構計算發(fā)起挑戰(zhàn)。
在本月2日的中國科學院計算技術研究所——英特爾聯(lián)合實驗室揭牌儀式上,計算所所長孫凝暉博士也表達過類似的觀點。(詳見:“HPC TOP500只是競賽 異構計算志在數(shù)據(jù)中心”一文)
1997年,第一套使用Intel處理器的Teraflop(浮點運算次數(shù))系統(tǒng)一共使用了9,298顆CPU,占用空間達到72個服務器機柜。而今,英特爾至強融核協(xié)處理器提供1Teraflop的性能之需要一塊卡,占用1個PCIe插槽(寬度為雙插槽)。
可能有人會說,NVIDIA在數(shù)年前的T10(Tesla C1060/M1060的代號)就達到了1Teraflop,不過當時可是單精度浮點性能,雙精度需要除以8。也就是說Xeon Phi相當于達到了當今GPGPU計算能力的主流水平,不過它的優(yōu)勢主要并不在這里。
上面的照片拍得有些不清楚,我們具體解釋下。第一項“性能、性能功耗比”,對于一般并行化計算,CPU擅長而加速器(GPGPU)和Xeon Phi不擅長;高度并行化計算則是后兩者擅長,通用CPU的表現(xiàn)一般。
接下來的“硬件特定編碼”和“限制因異構產(chǎn)生的總擁有成本(TCO)”方面,加速器處于劣勢,因為NVIDIA和 AMD的GPU上面運行的程序都要用CUDA等開發(fā)環(huán)境重新編寫,與x86 CPU軟件完全是兩碼事;而Intel Xeon Phi盡管也需要重新開發(fā)應用,但由于眾核架構中使用了超過50個P54C(當年的Pentium 75-133的代號)核心,總的來說還能沿用x86指令集的編程體系。
Xeon Phi的制造工藝采用了Intel當前最先進的22nm 3-D柵極晶體管,并支持最新的Intel軟件開發(fā)產(chǎn)品。對于Linux操作系統(tǒng)這一點,今天我與英特爾服務器平臺產(chǎn)品經(jīng)理張振宇先生進行了確認—— Xeon Phi是可以不依賴傳統(tǒng)Xeon CPU直接運行的,BIOS等方面需要做一些小的改動,但為了兼容大量傳統(tǒng)x86應用目前還沒有推出這樣的平臺。
這一點讓我們想起了NVIDIA計劃在其未來GPU中加入ARM,以便獨立啟動Linux OS,但現(xiàn)狀是——適合,或者說這些協(xié)處理器能夠運行的應用還比較有限。也有媒體朋友與我討論:如果主板上取消CPU插座和相關電路,能夠降低系統(tǒng)的構建成本,但Xeon Phi會不會影響Xeon的出貨量呢?計算發(fā)展的趨勢也許不以人的意志而轉移吧。
現(xiàn)在Xeon Phi宣布了2款產(chǎn)品:3110和5110P,后者現(xiàn)已發(fā)貨(限制對部分客戶),前者還要等到明年上半年。Xeon Phi 5110P峰值雙精度浮點計算性能為1010 Gigaflop(1.01Teraflop),配備8GB GDDR5內(nèi)存——帶寬320GB/s,225W TDP(熱設計功耗)采用被動散熱設計。宣稱針對內(nèi)存密集型應用。
再看Xeon Phi 3100,性能只比5110P略低一點,6GB GDDR5內(nèi)存的帶寬為240GB/s,價格也低于5110P。而3110的TDP卻高達300W,因此分為主動和被動散熱兩種外形設計。
據(jù)Intel介紹,Xeon Phi 3100的核心數(shù)量有所精簡(內(nèi)存總線的位寬應該也是如此),通過較高的頻率來彌補性能,這又讓我們想起了GPU。于是3100就不太適合大型HPC等密集型應用,因為即使被動散熱對氣流和供電的要求也提高不少;诠ぷ髡镜膯螜C/小型集群環(huán)境應該更合適些吧。
下面,我們列出來自不同行業(yè)的客戶在Xeon Phi產(chǎn)品測試階段的第一手應用體驗(一共是4家)。
中國石化石油物探技術研究院
位于涿州的中石油東方地球物理勘探有限責任公司
中科院計算所
中科院過程工程所曾經(jīng)是NVIDIA Tesla在國內(nèi)最早批量應用的客戶之一,筆者曾經(jīng)在現(xiàn)場見到惠普xw8600工作站+雙Tesla C870的配置。