Power9的IO連接技術(shù),NVLink連接CPU-GPU,GPU-GPU(圖摘自the nextplatform)

從Power8發(fā)展到Power9,CAPI也從1.0升級到了2.0,CAPI(Coherent Accelerator Processor Interface)用的是PCIe 4.0 I/O插槽,速度翻倍為單通道16Gb/s,首先它原本也是IBM獨有的技術(shù),其核心理念是讓I/O加速器與CPU共享內(nèi)存和緩存,將CPU的能力外放,讓板卡廠商能多做點事兒。

與此形成對比的是,英特爾多年來一直努力地把很多東西集成到CPU里面去,很明顯大家的想法不一樣,很多人認(rèn)為這對創(chuàng)新和發(fā)展是不利的,英特爾把持的東西多而且生態(tài)又特強大,作為對抗的手段,現(xiàn)在IBM把CAPI開放出來了,叫OpenCAPI(比CAPI 2.0還快,單通道達(dá)25Gb/s)還拉著AMD、谷歌、Micron和Mennanox成立了OpenCAPI聯(lián)盟,用OpenCAPI的方式連接專有的設(shè)備,比如Xilinx的FPGA,SCM,ASIC等。

之所以有NVLink和CAPI的出現(xiàn),李永輝對記者解釋說,最關(guān)鍵的原因是PCIe現(xiàn)在慢下來了。我們看到業(yè)內(nèi)從PCIe 2.0到3.0花了很久,現(xiàn)在基本是PCIe 3.0,還沒出現(xiàn)PCIe 4.0的處理器,IBM的Power9是第一個用上PCIe 4.0的處理器,與x86相比支持的IO特性更強,線程更多。

AC922為AI而生

此次發(fā)布的AC922服務(wù)器單臺計算能力很強大,而且是為AI而生,具體就是可以加速Chainer,TensorFlow和Caffe。

圖片來自:IBM官網(wǎng)

為了讓Power能更好地跑AI負(fù)載,IBM發(fā)布了PowerAI,PowerAI是一個AI工具的企業(yè)級發(fā)布包這讓加速上述幾個開源框架成為可能,這些框架許多是不直接提供Power架構(gòu)下運行的版本的,所以需要IBM自己做許多調(diào)優(yōu)功能。IBM可以提供從底層硬件到上層AI環(huán)境的整套平臺,用戶做應(yīng)用層就可以。

李永輝

IBM杰出工程師、大中華區(qū)硬件系統(tǒng)部首席技術(shù)官李永輝表示,這種調(diào)優(yōu)對企業(yè)級用戶是很有必要的,因為直接自己下載開源的東西是有可能染上病毒的,IBM可以為用戶提供一層驗證。

很多客戶的很多關(guān)鍵的數(shù)據(jù)圖像都在自己的防火墻內(nèi),很多用戶需要構(gòu)建自己本地的一種人工智能平臺,李永輝在采訪中表示。以上兩點說明企業(yè)用戶的特點,對安全隱私比較關(guān)注,云計算時代,人工智能火了,但并不是直接因為云計算才火的,有一部分的AI負(fù)載是用戶私有環(huán)境下運行的。

為了說明Power9的在AI負(fù)載方面的性能優(yōu)勢,Power9做了深度學(xué)習(xí)測試,做法是用同樣的GPU,同樣采用來自ImageNet的數(shù)據(jù),都用一樣的AI模型——GoogleNet,結(jié)果發(fā)現(xiàn)比x86快了快3.8-3.7倍,將近4倍,這意味著模型訓(xùn)練的時間可以成倍縮減。

盡管單臺計算能力已經(jīng)很強大,但I(xiàn)BM表示Power9第一發(fā)的AC922是橫向擴(kuò)展的架構(gòu),2018年還會推出縱向擴(kuò)展架構(gòu)的服務(wù)器。

李永輝解釋說,如今很多開源的軟件都僅局限在一臺服務(wù)器上,AC922打破了這種局限。通過Spectrum Conductor Deep Learning Impact IBM可以把人工智能的框架放到多臺機(jī)器上運行。Spectrum Conductor不是新東西,是個原本IBM用在超算環(huán)境中的東西,它可以把一臺服務(wù)器上的計算數(shù)據(jù)分享給多個節(jié)點,配合Power 9自帶的多種連接技術(shù),從而達(dá)到橫向擴(kuò)展的效果。

侯淼

為什么說Power9是為AI而生?最簡單的說,是因為Power在AI負(fù)載方面最大的優(yōu)勢就是快。IBM副總裁大中華區(qū)硬件系統(tǒng)部總經(jīng)理侯淼表示,AI的負(fù)載不同于傳統(tǒng)轉(zhuǎn)賬(Transaction)負(fù)載,AI機(jī)器學(xué)習(xí)的訓(xùn)練時間越短越好。我們看到,Power9創(chuàng)新的架構(gòu)設(shè)計,多種I/O技術(shù)的加入,多個AI相關(guān)的框架(Framework)的發(fā)布,多個合作伙伴的創(chuàng)新合作,強化了Power9相對x86架構(gòu)計算的優(yōu)勢。

誰在用Power9

此次發(fā)布,IBM優(yōu)先照顧了AI的市場熱度,并沒有強調(diào)太多關(guān)于支持小型機(jī)的內(nèi)容,但Power9支持的內(nèi)容顯然不限于AI,在一張PPT里顯示,AC922數(shù)據(jù)庫處理的速度能提高1.8倍。

很多人已經(jīng)在用Power9了。比如谷歌正在打造一款基于Power9的數(shù)據(jù)中心服務(wù)器,叫做Zaius,谷歌有意打破由英特爾和AMD壟斷的x86數(shù)據(jù)中心服務(wù)器。

IBM基于AC922跟超融合代表領(lǐng)頭羊Nutanix也有合作。

橡樹嶺國家實驗室的“Summit”和勞倫斯利弗莫爾國家實驗室“Sierra”超算系統(tǒng)用的也是Power9,這是最典型的應(yīng)用案例之一,據(jù)說這臺超算看重的就是高密度空間里Power9+GPU的這種能力。

由于英特爾長期以超高的市場份額占據(jù)著數(shù)據(jù)中心市場,許多行業(yè)人士都希望出現(xiàn)新的架構(gòu)能更好地制衡英特爾,比如ARM架構(gòu),比如Power架構(gòu)的新拓展,Power9的出現(xiàn)帶來了新的希望,技術(shù)上有明顯優(yōu)勢,但需要做的還有很多,打造更完善的生態(tài)。未來,希望看到市場上取得新的突破。

分享到

zhupb

相關(guān)推薦