圖1:DSA 需要加速 AI 和非 AI,圖片來源:Ben Dickson

先進模型的不斷演進

AI 研究界可以說是當今技術領域最活躍的領域之一,世界各地的頂級研究人員每天都在發(fā)明新的 AI 模型。這些模型提高了精度,降低了計算要求,并滿足了新型 AI 應用的需求。然而,這種快速的創(chuàng)新,無疑也持續(xù)給現(xiàn)有的半導體硬件器件帶來了壓力,需要更新的架構來有效地支持現(xiàn)代算法。MLPerf 等標準基準測試證明:在運行實際 AI 工作負載時,最先進的 CPU、GPU 和 AI ASIC 芯片,遠遠低于這些技術提供商們所宣傳的 30% 的性能。這種差距不斷推動著業(yè)界對新型 DSA 的需求,以期跟上創(chuàng)新的步伐。

驅動新型 DSA 需求的主要動力,包括以下這些最新趨勢。深度卷積是一個新興的層,需要高存儲器帶寬和專用內部存儲器緩存才能高效運行。AI 芯片和 GPU 通常采用固定的 L1/L2/L3 緩存架構和有限的內部存儲器帶寬,導致效率十分低下。

研究人員不斷發(fā)明新的定制層,而當前的芯片,本身并不提供本地支持。出于這個原因,它們需要在無加速的情況下在主機 CPU 上運行,這往往形成了性能瓶頸。

稀疏神經(jīng)網(wǎng)絡是另一種富有前景的優(yōu)化技術。在這種網(wǎng)絡中,通過修剪網(wǎng)絡邊緣、刪除卷積中的精細顆粒矩陣值等措施,網(wǎng)絡被高度修剪,簡化程度有時能高達 99%。然而,要在硬件中高效運行這一優(yōu)化,則需要專門的稀疏架構,并為這些運算提供編碼器和解碼器,大多數(shù)芯片都不具備這些功能。

二進制/三進制屬于極端優(yōu)化,讓所有數(shù)學運算都按單個數(shù)位操作。大多數(shù) AI 芯片和 GPU 僅有 8 位、16 位或浮點計算單元,因此采用極低精度并不能獲得任何性能或功耗效率。FPGA 和自適應 SoC 是完美的,因為開發(fā)者可以開發(fā)完美的 DSA,并根據(jù)產(chǎn)品的工作負載對現(xiàn)有器件進行重新編程。作為證明,最新的 MLPerf 包括賽靈思與Mipsology合作提交的一份文件,該文件使用 ResNet-50 標準基準測試實現(xiàn)了 100% 的硬件數(shù)據(jù)表性能。

圖2:針對 FPGA 的 MLPerf 基準測試,圖片來源:Ben Dickson

沒有硬件專業(yè)知識?毫無問題!

一直以來,F(xiàn)PGA 和自適應 SoC 面臨的最大挑戰(zhàn),就是需要硬件專業(yè)知識來實施和部署 DSA。好消息是:現(xiàn)在有了支持 C++、Python 和流行 AI 框架(如 TensorFlow 和 PyTorch)的工具,如:Vitis 統(tǒng)一軟件平臺,軟件和 AI 開發(fā)者之間的差距被大大縮小了。

除了軟件抽象工具方面的更多開發(fā)以外,開源庫(如 Vitis 硬件加速庫)在開發(fā)者社區(qū)中的采用度也顯著提高。在賽靈思最近舉辦的設計競賽中,吸引了 1000 多名開發(fā)者,并發(fā)布了眾多創(chuàng)新項目,從用手勢控制的無人機,到使用二進制神經(jīng)網(wǎng)絡的強化學習,不一而足。重要的是,大多數(shù)提交的項目都是由不具備 FPGA 使用經(jīng)驗的軟件和 AI 開發(fā)者完成的。這證明 FPGA 行業(yè)正在采取正確的措施,使軟件和 AI 開發(fā)者能夠化解現(xiàn)實生活中的 AI 產(chǎn)品化難題。

圖3:靈活應變萬物智能,圖片來源:Ben Dickson

直到最近,普通軟件開發(fā)者和 AI 科學家在想要利用硬件的自適應特性時仍會望而卻步, 因為這在以前都需要特定的硬件專業(yè)知識。而現(xiàn)如今,通過借助新的開源工具,軟件開發(fā)者一樣能夠運用自適應硬件。編程難度的下降,使得數(shù)十萬名軟件開發(fā)者和 AI 科學家們,能更充分地受益于 FPGA 和自適應 SoC 的優(yōu)勢,讓硬件解決方案成為下一代應用的選擇。事實上,DSA 將代表 AI 推斷的未來,軟件開發(fā)者和 AI 科學家將借助s硬件的自適應特性來開發(fā)他們的下一代應用。

分享到

xiesc

相關推薦