機器的圖像識別錯誤率已遠低于人類

訓(xùn)練時間不是問題,運行時間才是關(guān)鍵

卷積網(wǎng)絡(luò)之父、Facebook人工智能實驗室主任Yann LeCun在一次采訪中表示,“大規(guī)模的在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練上可能是比較慢,但是在一個實際的應(yīng)用中,沒人關(guān)心訓(xùn)練到底要花多長時間,人們只關(guān)心運行需要多久。”

也就是說,當模型一旦被訓(xùn)練完成,線上推理的效率才決定用戶體驗。比如,有2個同樣AI模型的訓(xùn)練,一家公司用了1天訓(xùn)練完成,但線上推理的效率只有每秒100個任務(wù);另一家公司用了7天訓(xùn)練完成,但線上推理效率可以達到每秒1000個。那么對于最終用戶而言,第二家公司的應(yīng)用無疑更快、用戶體驗更佳。那么如何才能提升人工智能應(yīng)用的線上推理任務(wù)的效率?

CPU、GPU都無法滿足海量推理任務(wù)實時處理

目前,GPU已經(jīng)在深度學(xué)習(xí)訓(xùn)練模型領(lǐng)域開創(chuàng)性地創(chuàng)建了包含CNN、DNN、RNN、LSTM以及強化學(xué)習(xí)網(wǎng)絡(luò)等算法在內(nèi)的應(yīng)用加速平臺和完整的生態(tài)系統(tǒng)。

GPU雖火,但技術(shù)上也有一定的局限性:

  1. GPU在應(yīng)用過程中無法充分發(fā)揮并行計算優(yōu)勢。

深度學(xué)習(xí)包含兩個計算環(huán)節(jié),即線下訓(xùn)練和線上推理環(huán)節(jié)。GPU在深度學(xué)習(xí)算法模型訓(xùn)練上非常高效,但在推理時,一次性只能對于一個輸入項進行處理,并行計算的優(yōu)勢不能發(fā)揮出來。

  1. 運行能效比不佳。

相比較而言,運行深度學(xué)習(xí)算法實現(xiàn)同樣的性能,GPU所需功耗遠大于FPGA,通常情況下,GPU只能達到FPGA能效比的一半或更低。

  1. 硬件結(jié)構(gòu)固定不具備可編程性。

目前來看,深度學(xué)習(xí)算法還未完全成熟,算法還在迭代衍化過程中,若深度學(xué)習(xí)算法發(fā)生大的變化,GPU無法像FPGA一樣可以靈活的配置硬件結(jié)構(gòu),快速切入市場。

因此,F(xiàn)PGA和GPU未來在超級數(shù)據(jù)中心將成主流應(yīng)用。尤其是在深度學(xué)習(xí)方面, GPU強在訓(xùn)練,而FPGA強在推斷。原百度IDL常務(wù)副院長、現(xiàn)地平線機器人創(chuàng)始人&CEO余凱博士在北大一次公開課中透露:“百度廣告系統(tǒng)上線跟語音系統(tǒng)上線都需要實時計算,并且它的流量特別大,特別是廣告,這種情況下 CPU 跟 GPU 其實都扛不住,所以我們當時用 FPGA 去做專門的硬件加速?!?/p>

浪潮FPGA方案加速,能效比提升7倍以上

由于FPGA具有可編程專用性,高性能及低功耗的特點,浪潮推出基于FPGA的深度學(xué)習(xí)加速解決方案,希望通過更高配置的硬件板卡設(shè)計和內(nèi)置更高效已編譯算法,來加速FPGA在人工智能領(lǐng)域的應(yīng)用。

這一方案基于浪潮研發(fā)的業(yè)界最高密度的FPGA卡——F10A,單芯片峰值運算能力為1.5TFlops,而功耗僅35W,每瓦特性42GFlops。同時,F(xiàn)10A設(shè)計半高半長PCI-E插卡,具有靈活的板卡內(nèi)存配置,最大支持32G雙通道內(nèi)存,能夠寄存更多的并行任務(wù)數(shù)據(jù)。此外,F(xiàn)10A支持2個10Gb光口,可以實現(xiàn)數(shù)據(jù)直接從網(wǎng)絡(luò)到板卡處理,無需經(jīng)過CPU,減低了傳輸延時。

基于業(yè)界最強性能的浪潮F10A FPGA的圖像壓縮加速方案

而在算法上,浪潮FPGA深度學(xué)習(xí)加速解決方案針對CNN卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)算法進行優(yōu)化和固化。客戶在采用此解決方案后,只需要將目前深度學(xué)習(xí)的算法和模型編譯成與浪潮深度學(xué)習(xí)加速解決方案的配置腳本,即可進行線上應(yīng)用,省去至少3個月到半年的開發(fā)周期和相關(guān)成本。并且在算法運行效率上,浪潮FPGA加速方案相比CPU、GPU都有著很大優(yōu)勢。

目前,浪潮FPGA方案可加速ResNet等神經(jīng)網(wǎng)絡(luò),能夠應(yīng)用于圖片分類、對象檢測和人臉識別等應(yīng)用場景。以通過構(gòu)建ResNet殘差網(wǎng)絡(luò)的圖片識別分類任務(wù)為例,對通用圖像識別基礎(chǔ)數(shù)據(jù)集CIFAR-10進行測試,通過浪潮FPGA解決方案進行處理,能夠?qū)崿F(xiàn)每秒742張的處理速度,Top-5識別準確率達到99.7%。而在同樣的模型下,使用NVidia M4僅能達到172張每秒,并且M4的功耗為50-75W,浪潮FPGA的功耗僅為30-45W。因此,從能效比來看,浪潮FPGA加速解決方案在圖片識別分類應(yīng)用上,相比GPU能效比能提升7倍以上!同樣,與通用CPU對比,在處理這種高并行、小計算量的任務(wù)時,F(xiàn)PGA的優(yōu)勢將更明顯。

CIFAR-10數(shù)據(jù)集的部分測試圖片

除了AI,F(xiàn)PGA還有更多想象空間

除了在AI的線上推理方向,F(xiàn)PGA在其他很多方面也能發(fā)揮價值。在面向計算密集型任務(wù),比如矩陣運算、圖像處理、機器學(xué)習(xí)、壓縮、非對稱加密、搜索的排序等的時候,擁有流水線并行和數(shù)據(jù)并行的FPGA效率會高很多。

目前,浪潮已經(jīng)推出面向WebP圖片轉(zhuǎn)碼、Gzip數(shù)據(jù)壓縮和深度學(xué)習(xí)等方向的完整解決方案,能夠?qū)崿F(xiàn)10倍以上的圖片壓縮吞吐能力,8-10倍的數(shù)據(jù)壓縮效率和10倍以上的圖片分類識別能效比。

 

分享到

zhupb

相關(guān)推薦