雖然IPU與GPU都是為密集型計算而生,但又同而不同。Graphcore大中華區(qū)總裁兼全球首席營收官盧濤解釋稱,云端AI計算最大的主流,一部分在CPU上,一部分在GPU,還有一部分在IPU。這三類處理器相當(dāng)于三個圓,各自中間都有交集的部分,但又都有彼此擅長的領(lǐng)域。
從芯片架構(gòu)上來看,IPU與GPU有三個大的差異點(diǎn)。第一,計算內(nèi)核更多,IPU擁有1400多個處理器內(nèi)核,每個內(nèi)核可以運(yùn)行6個線程。
第二,存儲架構(gòu)不同,數(shù)據(jù)讀取速度更快。GPU是層次化內(nèi)存架構(gòu),讀取數(shù)據(jù)流程是片內(nèi)緩存,然后是片外顯存或HBM。而IPU采用的是片內(nèi)存儲,分布式架構(gòu),如GC200擁有900MB處理器內(nèi)存儲。
第三通信調(diào)度優(yōu)化。在跨芯片多核通信調(diào)度時,GPU內(nèi)的SM核最后是多核多線程呈現(xiàn)給開發(fā)者,程序員要關(guān)注通信怎么做到數(shù)據(jù)同步。Graphcore則采用一套BSP(Bulk Synchronous Parallel)軟硬件結(jié)合算法,讓一個芯片一千多個核,甚至多個芯片跨IPU連接。
就像一萬個人在排隊,先把隊伍整理好了再往前走,到下一個點(diǎn)把隊伍整理好再往前走,這樣當(dāng)大規(guī)模并行處理時,就不需要把系統(tǒng)的復(fù)雜性顯示給程序員和開發(fā)者。
至于在不同AI應(yīng)用領(lǐng)域的領(lǐng)先。2021年11月份,Graphcore參加了MLPerf 1.1,并針對機(jī)器學(xué)習(xí)進(jìn)行了一系列基準(zhǔn)測試,每年四次,兩次推理,兩次訓(xùn)練,MLPerf 1.1是訓(xùn)練1.1。其中,在GPU占據(jù)優(yōu)勢的模型ResNet-50上測試顯示,Graphcore的IPU-POD16在計算機(jī)視覺模型ResNet-50方面表現(xiàn)優(yōu)于NVIDIA的DGX A100。在DGX A100上訓(xùn)練ResNet-50需要29.1分鐘,而IPU-POD16僅耗時28.3分鐘。
單一主機(jī)服務(wù)器做自然語言訓(xùn)練方面,也就是BERT,最快的是IPU-POD64系統(tǒng)。CPU和AI處理相解耦,基本在系統(tǒng)里就實(shí)現(xiàn)了針對目標(biāo)應(yīng)用的優(yōu)化,比如BERT是一臺兩個CPU的服務(wù)器對應(yīng)64個IPU,CPU和IPU的比例是1:32,計算機(jī)視覺領(lǐng)域基本上比例可以做到1:8。而其他提交者,如英偉達(dá)GPU系統(tǒng)里是2個CPU對應(yīng)8個GPU,1:4的固定配比,英特爾系統(tǒng)里,CPU和AI加速引擎是1:2的固定配比,而Graphcore可以針對不同場景靈活優(yōu)化。
在功耗上,同樣的算力,IPU的功耗比GPU更低,某種意義來看是在實(shí)現(xiàn)節(jié)能減排?;仡^看看Graphcore和一些合作伙伴做的事,比如Graphcore與升哲科技發(fā)布了基于IPU的合作,也是主要基于IPU進(jìn)行城市相關(guān)可持續(xù)發(fā)展的應(yīng)用。
此外,金融保險方面,牛津-英仕曼在用IPU進(jìn)行股票預(yù)測;Tractable在利用智能計算進(jìn)行保險理賠方面的輔助工作;電信方面,Graphcore和韓國電信合作發(fā)布了IPU云;醫(yī)療、生命科學(xué)方面,Graphcore和斯坦福大學(xué)醫(yī)學(xué)院采用IPU對以“醫(yī)療+隱私計算”為核心的方向進(jìn)行了研究和探索。
Graphcore擬未的2021年回顧篇
Graphcore中文名為擬未——類腦模擬,未來科技,起的名字格局是很大了。擬未是一家跨國企業(yè),企業(yè)規(guī)模700人。中國團(tuán)隊是Graphcore過去一年團(tuán)隊成長中很大的一部分,2020年年底,中國團(tuán)隊有20人,現(xiàn)在達(dá)到了80人。全球布局方面,Graphcore在亞洲的辦公室分布在北京、上海、深圳、臺灣,以及韓國、日本、新加坡。在歐洲,除英國、挪威以外,在法國和印度也有辦公室,波蘭新開設(shè)了一個軟件研發(fā)中心。
偏個題,小編有參觀擬未在北京的辦公場地,桌椅都是從國外運(yùn)來的,簡單舒適,桌子可以上下調(diào)節(jié)高度,設(shè)有游戲休閑區(qū),還有吊椅,慕了……
言歸正題。在2021年,Graphcore的IPU-POD系列有了產(chǎn)品擴(kuò)展,當(dāng)前IPU出貨量規(guī)模達(dá)到萬級以上。IPU-POD128、IPU-POD256已上市發(fā)售,用戶可以直接商用部署的平臺。并且擬未面向超算規(guī)模的AI集群或計算系統(tǒng)發(fā)布了兩款新品——IPU-POD128和IPU-POD256。
當(dāng)前Graphcore擁有的硬件產(chǎn)品系列可滿足處于不同發(fā)展階段企業(yè)的算力需求,比如IPU-POD16,產(chǎn)品定位為“EXPLORE”,新型機(jī)器學(xué)習(xí)、AI用戶需要從較小的系統(tǒng)開始,IPU-POD16就是支持企業(yè)的初期探索型平臺。當(dāng)企業(yè)逐漸到做一些生產(chǎn)型任務(wù),從探索轉(zhuǎn)向“BUILD”建設(shè)型,構(gòu)建自身的生產(chǎn)系統(tǒng),再是“GROW”擴(kuò)展系統(tǒng),適配更高算力,IPU從16到64、到128、到256,針對不同業(yè)務(wù),CPU和IPU的配比都非常靈活。
Graphcore的IPU提供高效AI計算,軟件Poplar具備易用性,軟硬件相結(jié)合加速系統(tǒng)中多種AI模型處理進(jìn)程。中間的Poplar SDK(軟件開發(fā)工具包),粉色部分是Poplar的協(xié)議棧。淺粉色部分是Poplar和機(jī)器學(xué)習(xí)框架中間層的軟件,如XLA、圖編譯器、PopART等。
框架層有新增,PyTorch Lightning、百度飛槳、Hugging Face是2021年發(fā)布的。2020年,百度正式宣布Graphcore加入百度飛槳硬件生態(tài)圈。2021年,百度飛槳在Graphcore IPU上實(shí)現(xiàn)了訓(xùn)練與推理全面支持。
前端是針對開發(fā)者,如Jupyter NoteBook,程序員像使用記事本一樣使用這個開發(fā)平臺。周圍是一些AI應(yīng)用、開發(fā)者生態(tài),包括開發(fā)工具、可視化工具,可以幫助用戶對應(yīng)用進(jìn)行可視化優(yōu)化,右下角是系統(tǒng)級的軟件,從硬件的管理到IPU虛擬化到系統(tǒng)級別集群、任務(wù)的調(diào)度。
新的一年,Graphcore會一些AI應(yīng)用領(lǐng)域進(jìn)一步深入,比如AI輔助科研,自動駕駛等領(lǐng)域?qū)⑹瞧湓贏I應(yīng)用或垂直領(lǐng)域中的重要方向,自動駕駛行業(yè)相關(guān)的盆友可以關(guān)注一下,時刻保持行業(yè)競爭力嘛。
寫在最后
印象深刻的是,盧濤在談及如何做好計算型芯片,在行業(yè)保有競爭力時的回答——預(yù)判+冒一點(diǎn)風(fēng)險+一點(diǎn)運(yùn)氣。一家芯片公司生態(tài)至關(guān)重要。AI計算與傳統(tǒng)CPU市場有所不同,在過去的5-10年間,CPU業(yè)務(wù)十分明確且處于主導(dǎo)地位,而AI領(lǐng)域內(nèi),生態(tài)構(gòu)建需要時間積累,但AI應(yīng)用是動態(tài)化的,有很多創(chuàng)新技術(shù)研究,新的技術(shù)領(lǐng)域,Graphcore會基于當(dāng)前應(yīng)用合作和未來技術(shù)發(fā)展作出趨勢預(yù)判,提前投入研究,要對未來勇于判斷。由此看來,擬未是一家大膽創(chuàng)新的芯片初創(chuàng)公司,全球而言創(chuàng)始人團(tuán)隊在芯片領(lǐng)域曾成功開發(fā)出11款微處理器,國內(nèi)盧濤在芯片領(lǐng)域擁有20多年的經(jīng)驗(yàn),此前曾任芯片制造商Cavium總經(jīng)理并作為零號員工領(lǐng)導(dǎo)Cavium在中國的業(yè)務(wù),強(qiáng)大的技術(shù)團(tuán)隊支撐未來AI計算的趨勢判斷,當(dāng)其AI生態(tài)逐步構(gòu)建,GPU,可能真的要小心了。