成人激色综合天天,久久久久久久久精品成人

深度學(xué)習(xí)，需要HPC“提速”

讓計算機(jī)擁有接近人類的智能水平是IT行業(yè)最偉大，也是最難實現(xiàn)的夢想，而深度學(xué)習(xí)則是通往人工智能的漫漫長路上一項重要的技術(shù)。深度學(xué)習(xí)的出發(fā)點是通過構(gòu)建深層神經(jīng)網(wǎng)絡(luò)，模擬人腦神經(jīng)元和神經(jīng)突觸的信息和數(shù)據(jù)傳輸及計算，在抽象出來的規(guī)則限定下，逐漸讓機(jī)器像人一樣理解真實的世界。

浪潮集團(tuán)副總裁胡雷鈞與Altera公司服務(wù)器和存儲事業(yè)部總經(jīng)理David Gamba。

不過，由于人腦每天能接觸數(shù)以萬計的信息并且在短短幾秒內(nèi)給出判斷和反映，所以要實現(xiàn)讓機(jī)器能真正像人類一樣思考不僅依靠算法模型的精確，同時也需要媲美人腦計算效率的高性能計算技術(shù)。

可以說，深度學(xué)習(xí)對計算力資源的需求如同“黑洞”一般永無止境，這使得近幾年異構(gòu)加速技術(shù)在該領(lǐng)域得到越加廣泛的應(yīng)用，協(xié)處理器運算速度的快速提升讓深度學(xué)習(xí)技術(shù)得到了硬件層面的有力支持。

FPGA，通用和專用之間的半定制化芯片

FPGA（Field－Programmable Gate Array，現(xiàn)場可編程門陣列）介于專用芯片和通用芯片之間，具有一定的可編程性，可同時進(jìn)行數(shù)據(jù)并行和任務(wù)并行計算，在處理特定應(yīng)用時有更加明顯的效率。更重要的是，F(xiàn)PGA具有明顯的性能功耗比優(yōu)勢，其能耗比是CPU的10倍以上、GPU的3倍。此外，可定制化也是FPGA的一大重要特性。

正是因為具備極強(qiáng)的性能功耗比優(yōu)勢和定制化特點，F(xiàn)PGA在諸多領(lǐng)域得到應(yīng)用，如邏輯控制，信號處理，圖像處理等方面，最近更是在深度學(xué)習(xí)中的在線識別系統(tǒng)中開始嘗試使用。

不過，傳統(tǒng)FPGA開發(fā)采用Verilog、VHDL等硬件描述語言，對開發(fā)者要求較高，開發(fā)周期也較長，因此在高性能計算應(yīng)用受到限制。而采用OpenCL，利用軟件高級語言和模型編程，開發(fā)周期可大幅縮短，對于一些應(yīng)用可以實現(xiàn)幾個人月完成，為FPGA的應(yīng)用發(fā)展提供了更為廣闊的平臺。

利用OpenCL實現(xiàn)基于FPGA平臺的語音識別系統(tǒng)

科大訊飛擁有中國最大的語音識別系統(tǒng)，在常用場景下準(zhǔn)確率已達(dá)到98%，在業(yè)內(nèi)領(lǐng)先。。為了進(jìn)一步提升DNN算法的效率和性能，科大訊飛計劃在語音識別業(yè)務(wù)中啟用FPGA平臺，而若性能符合要求，則將在未來建造一個上萬規(guī)模的FPGA語音識別系統(tǒng)。科大訊飛技術(shù)總監(jiān)于振華表示，深度學(xué)習(xí)模型的軟件算法需要不斷地微調(diào)和優(yōu)化，隨著時間的推移，固定功能的服務(wù)器加速器效率會變得越來越低，浪費空間和電力。相比之下，F(xiàn)PGA可以更加靈活的定制化，并且功耗更低。這也是科大訊飛決定將DNN算法移植到FPGA平臺的重要原因。

于是一項由浪潮、科大訊飛和Altera公司共同發(fā)起的合作誕生了——由Altera公司提供Altera Arria 10 FPGA平臺，科大訊飛提供DNN識別算法，浪潮則負(fù)責(zé)完成基于FPGA 平臺，采用OpenCL進(jìn)行DNN的并行設(shè)計、遷移與優(yōu)化。經(jīng)過努力，三方最終完成了基于OpenCL的FPGA線上深度學(xué)習(xí)語音識別加速方案。該方案硬件平臺采用CPU+Altera Arria 10 FPGA異構(gòu)架構(gòu)，軟件完全采用高級編程模式OpenCL實現(xiàn)從CPU到FPGA的遷移，具備四大特點：

(1)高性能：處理100 bound數(shù)據(jù)，基于Intel Xeon E5-2650 V2 雙路CPU（啟動16個線程），DNN運行時間為242.027s,而基于Altera ARRIA 10 FPGA，DNN運行時間為84.312s，性能加速2.871倍；

(2)低功耗：Altera Arria 10 FPGA功耗為30W，Intel Xeon E5-2650 V2 雙路CPU功耗為190W，F(xiàn)PGA功耗只有CPU的15.7%，在DNN 實際運行測試中，F(xiàn)PGA可實現(xiàn)30GFlops/W的高性能功耗比，能大大節(jié)省應(yīng)用功耗成本；

(3)易編程：采用OpenCL編程模型，基于FPGA的DNN并行程序開發(fā)完全由軟件工程師完成，僅僅耗費4個人月。若采用傳統(tǒng)的Verilog、VHDL等底層語言，同樣的開發(fā)工作至少需要12個人月，并且需要軟件工程師和硬件工程師配合完成。

(4)高適用性：FPGA即可以采用DNRange模式實現(xiàn)數(shù)據(jù)并行，也可以采用Pipeline模式實現(xiàn)任務(wù)并行，從而滿足了更多的應(yīng)用場景，可以為更多的應(yīng)用軟件帶來性能提升。

Altera公司服務(wù)器和存儲事業(yè)部總經(jīng)理David Gamba表示，此次三方成功完成基于Altera ARRIA 10 FPGA平臺的OpenCL 并行化設(shè)計與開發(fā)，創(chuàng)造出極高的功耗性能比，進(jìn)一步驗證了Altera FPGA平臺的優(yōu)勢。本次方案的開發(fā)成功將成為FPGA在深度學(xué)習(xí)領(lǐng)域應(yīng)用的重要參考。

通過此次合作，三方實現(xiàn)了基于 FPGA的HPC新異構(gòu)加速模式和技術(shù)的可行性研究，在實際深度學(xué)習(xí)DNN應(yīng)用的驗證中，此方案在提升性能、節(jié)省功耗的同時，實現(xiàn)了OpenCL 易編程性的印證。

談及下一步合作，浪潮集團(tuán)副總裁胡雷鈞表示，浪潮一直致力于為用戶提供最適合其需求的計算系統(tǒng)解決方案。FPGA具有極高的性能功耗比優(yōu)勢，浪潮將進(jìn)一步和科大訊飛、Altera公司開展基于FPGA的線上語音深度學(xué)習(xí)應(yīng)用合作，同時浪潮還將研發(fā)基于FPGA的通用系統(tǒng)方案，包括整機(jī)柜計算、網(wǎng)絡(luò)、存儲FPGA方案，并將方案推廣到其它應(yīng)用領(lǐng)域和客戶。

未來，CPU+FPGA或許將作為HPC新的異構(gòu)模式，被越來越多的HPC大應(yīng)用、數(shù)據(jù)中心、互聯(lián)網(wǎng)深度學(xué)習(xí)等越來越多的應(yīng)用領(lǐng)域采用。

分享到

xiesc

相關(guān)推薦

近期文章

熱門標(biāo)簽