深度學(xué)習(xí),需要HPC“提速”

讓計(jì)算機(jī)擁有接近人類的智能水平是IT行業(yè)最偉大,也是最難實(shí)現(xiàn)的夢(mèng)想,而深度學(xué)習(xí)則是通往人工智能的漫漫長(zhǎng)路上一項(xiàng)重要的技術(shù)。深度學(xué)習(xí)的出發(fā)點(diǎn)是通過(guò)構(gòu)建深層神經(jīng)網(wǎng)絡(luò),模擬人腦神經(jīng)元和神經(jīng)突觸的信息和數(shù)據(jù)傳輸及計(jì)算,在抽象出來(lái)的規(guī)則限定下,逐漸讓機(jī)器像人一樣理解真實(shí)的世界。


浪潮集團(tuán)副總裁胡雷鈞與Altera公司服務(wù)器和存儲(chǔ)事業(yè)部總經(jīng)理David Gamba。

不過(guò),由于人腦每天能接觸數(shù)以萬(wàn)計(jì)的信息并且在短短幾秒內(nèi)給出判斷和反映,所以要實(shí)現(xiàn)讓機(jī)器能真正像人類一樣思考不僅依靠算法模型的精確,同時(shí)也需要媲美人腦計(jì)算效率的高性能計(jì)算技術(shù)。

可以說(shuō),深度學(xué)習(xí)對(duì)計(jì)算力資源的需求如同“黑洞”一般永無(wú)止境,這使得近幾年異構(gòu)加速技術(shù)在該領(lǐng)域得到越加廣泛的應(yīng)用,協(xié)處理器運(yùn)算速度的快速提升讓深度學(xué)習(xí)技術(shù)得到了硬件層面的有力支持。

FPGA,通用和專用之間的半定制化芯片

FPGA(Field-Programmable Gate Array,現(xiàn)場(chǎng)可編程門陣列)介于專用芯片和通用芯片之間,具有一定的可編程性,可同時(shí)進(jìn)行數(shù)據(jù)并行和任務(wù)并行計(jì)算,在處理特定應(yīng)用時(shí)有更加明顯的效率。更重要的是,F(xiàn)PGA具有明顯的性能功耗比優(yōu)勢(shì),其能耗比是CPU的10倍以上、GPU的3倍。此外,可定制化也是FPGA的一大重要特性。
 
正是因?yàn)榫邆錁O強(qiáng)的性能功耗比優(yōu)勢(shì)和定制化特點(diǎn),F(xiàn)PGA在諸多領(lǐng)域得到應(yīng)用,如邏輯控制,信號(hào)處理,圖像處理等方面,最近更是在深度學(xué)習(xí)中的在線識(shí)別系統(tǒng)中開(kāi)始嘗試使用。

不過(guò),傳統(tǒng)FPGA開(kāi)發(fā)采用Verilog、VHDL等硬件描述語(yǔ)言,對(duì)開(kāi)發(fā)者要求較高,開(kāi)發(fā)周期也較長(zhǎng),因此在高性能計(jì)算應(yīng)用受到限制。而采用OpenCL,利用軟件高級(jí)語(yǔ)言和模型編程,開(kāi)發(fā)周期可大幅縮短,對(duì)于一些應(yīng)用可以實(shí)現(xiàn)幾個(gè)人月完成,為FPGA的應(yīng)用發(fā)展提供了更為廣闊的平臺(tái)。
 
利用OpenCL實(shí)現(xiàn)基于FPGA平臺(tái)的語(yǔ)音識(shí)別系統(tǒng)

科大訊飛擁有中國(guó)最大的語(yǔ)音識(shí)別系統(tǒng),在常用場(chǎng)景下準(zhǔn)確率已達(dá)到98%,在業(yè)內(nèi)領(lǐng)先。。為了進(jìn)一步提升DNN算法的效率和性能,科大訊飛計(jì)劃在語(yǔ)音識(shí)別業(yè)務(wù)中啟用FPGA平臺(tái),而若性能符合要求,則將在未來(lái)建造一個(gè)上萬(wàn)規(guī)模的FPGA語(yǔ)音識(shí)別系統(tǒng)??拼笥嶏w技術(shù)總監(jiān)于振華表示,深度學(xué)習(xí)模型的軟件算法需要不斷地微調(diào)和優(yōu)化,隨著時(shí)間的推移,固定功能的服務(wù)器加速器效率會(huì)變得越來(lái)越低,浪費(fèi)空間和電力。相比之下,F(xiàn)PGA可以更加靈活的定制化,并且功耗更低。這也是科大訊飛決定將DNN算法移植到FPGA平臺(tái)的重要原因。
 
于是一項(xiàng)由浪潮、科大訊飛和Altera公司共同發(fā)起的合作誕生了——由Altera公司提供Altera Arria 10 FPGA平臺(tái),科大訊飛提供DNN識(shí)別算法,浪潮則負(fù)責(zé)完成基于FPGA 平臺(tái),采用OpenCL進(jìn)行DNN的并行設(shè)計(jì)、遷移與優(yōu)化。經(jīng)過(guò)努力,三方最終完成了基于OpenCL的FPGA線上深度學(xué)習(xí)語(yǔ)音識(shí)別加速方案。該方案硬件平臺(tái)采用CPU+Altera Arria 10 FPGA異構(gòu)架構(gòu),軟件完全采用高級(jí)編程模式OpenCL實(shí)現(xiàn)從CPU到FPGA的遷移,具備四大特點(diǎn):

(1)高性能:處理100 bound數(shù)據(jù),基于Intel Xeon E5-2650 V2 雙路CPU(啟動(dòng)16個(gè)線程),DNN運(yùn)行時(shí)間為242.027s,而基于Altera ARRIA 10 FPGA,DNN運(yùn)行時(shí)間為84.312s,性能加速2.871倍;

(2)低功耗:Altera Arria 10 FPGA功耗為30W,Intel Xeon E5-2650 V2 雙路CPU功耗為190W,F(xiàn)PGA功耗只有CPU的15.7%,在DNN 實(shí)際運(yùn)行測(cè)試中,F(xiàn)PGA可實(shí)現(xiàn)30GFlops/W的高性能功耗比,能大大節(jié)省應(yīng)用功耗成本;

(3)易編程:采用OpenCL編程模型,基于FPGA的DNN并行程序開(kāi)發(fā)完全由軟件工程師完成,僅僅耗費(fèi)4個(gè)人月。若采用傳統(tǒng)的Verilog、VHDL等底層語(yǔ)言,同樣的開(kāi)發(fā)工作至少需要12個(gè)人月,并且需要軟件工程師和硬件工程師配合完成。

(4)高適用性:FPGA即可以采用DNRange模式實(shí)現(xiàn)數(shù)據(jù)并行,也可以采用Pipeline模式實(shí)現(xiàn)任務(wù)并行,從而滿足了更多的應(yīng)用場(chǎng)景,可以為更多的應(yīng)用軟件帶來(lái)性能提升。

Altera公司服務(wù)器和存儲(chǔ)事業(yè)部總經(jīng)理David Gamba表示,此次三方成功完成基于Altera ARRIA 10 FPGA平臺(tái)的OpenCL 并行化設(shè)計(jì)與開(kāi)發(fā),創(chuàng)造出極高的功耗性能比,進(jìn)一步驗(yàn)證了Altera FPGA平臺(tái)的優(yōu)勢(shì)。本次方案的開(kāi)發(fā)成功將成為FPGA在深度學(xué)習(xí)領(lǐng)域應(yīng)用的重要參考。
 
通過(guò)此次合作,三方實(shí)現(xiàn)了基于 FPGA的HPC新異構(gòu)加速模式和技術(shù)的可行性研究,在實(shí)際深度學(xué)習(xí)DNN應(yīng)用的驗(yàn)證中,此方案在提升性能、節(jié)省功耗的同時(shí),實(shí)現(xiàn)了OpenCL 易編程性的印證。

談及下一步合作,浪潮集團(tuán)副總裁胡雷鈞表示,浪潮一直致力于為用戶提供最適合其需求的計(jì)算系統(tǒng)解決方案。FPGA具有極高的性能功耗比優(yōu)勢(shì),浪潮將進(jìn)一步和科大訊飛、Altera公司開(kāi)展基于FPGA的線上語(yǔ)音深度學(xué)習(xí)應(yīng)用合作,同時(shí)浪潮還將研發(fā)基于FPGA的通用系統(tǒng)方案,包括整機(jī)柜計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)FPGA方案,并將方案推廣到其它應(yīng)用領(lǐng)域和客戶。

未來(lái),CPU+FPGA或許將作為HPC新的異構(gòu)模式,被越來(lái)越多的HPC大應(yīng)用、數(shù)據(jù)中心、互聯(lián)網(wǎng)深度學(xué)習(xí)等越來(lái)越多的應(yīng)用領(lǐng)域采用。

 

分享到

xiesc

相關(guān)推薦