CPU和GPU負載實測數(shù)據(jù)

上圖是一個搭載4塊GPU卡服務(wù)器上運行Alexnet神經(jīng)網(wǎng)絡(luò)的測試分析圖,從圖上我們可以很清楚的看到計算的任務(wù)主要由GPU承擔(dān),4塊GPU卡的負載基本上都接近10%,而CPU的負載率只有不到40%。由此可見,AI計算的計算量主要都在GPU加速卡上。

?

內(nèi)存和顯存負載實測數(shù)據(jù)

同樣的測試環(huán)境,內(nèi)存容量固定時,總?cè)萘啃枨箅SBatch size擴大而增加,Alexnet模型,Batch size為256時,占用CPU內(nèi)存60GB,GPU顯存9GB。

這樣看,AI計算對于CPU內(nèi)存和GPU顯存容量的需求都很大。

 

磁盤IO實測數(shù)據(jù)

通過上圖我們可以看到,磁盤IO是一次讀,多次寫,在Alexnet模型下,磁盤讀帶寬85MB/s,寫帶寬0.5MB/s。所以,在模型訓(xùn)練階段,磁盤的IO并不是AI計算的瓶頸點。

 

PCIE帶寬負載實測數(shù)據(jù)

最后,我們再看看AI計算對于PCIE帶寬的占用情況。圖上顯示,帶寬與訓(xùn)練數(shù)據(jù)規(guī)模成正比。測試中,PCIE持續(xù)讀帶寬達到5.7GB/s,峰值帶寬超過8GB/s,因此PCIE的帶寬將是AI計算的關(guān)鍵瓶頸點。

于是,我們可以得出幾個結(jié)論:

  1. 數(shù)據(jù)預(yù)處理階段需要提高小文件的隨機讀寫性能
  2. 模型訓(xùn)練階段需要提升并行計算能力
  3. 線上推理階段需要提升批量模型推理的吞吐效率

 

用高計算性能的CPU服務(wù)器+高性能存儲,解決小文件隨機讀取難題

數(shù)據(jù)預(yù)處理的主要任務(wù)是處理缺失值,光滑噪聲數(shù)據(jù),識別或刪除利群點,解決數(shù)據(jù)的不一致性。這些任務(wù)可以利用基于CPU服務(wù)器來實現(xiàn),比如浪潮SA5212M5這種最新型2U服務(wù)器,搭載最新一代英特爾至強可擴展處理器,支持Intel Skylake平臺3/4/5/6/8全系處理器,支持全新的微處理架構(gòu),AVX512指令集可提供上一代2倍的FLOPs/core,多達28個內(nèi)核及56線程,計算性能可達到上一代的1.3倍,能夠快速實現(xiàn)數(shù)據(jù)的預(yù)處理任務(wù)。

在存儲方面,可以采用HDFS(Hadoop分布式文件系統(tǒng))存儲架構(gòu)來設(shè)計。HDFS是使用Java實現(xiàn)分布式的、可橫向擴展的文件系統(tǒng),因為深度學(xué)習(xí)天生用于處理大數(shù)據(jù)任務(wù),很多場景下,深度學(xué)習(xí)框架需要對接HDFS。通過浪潮SA5224M4服務(wù)器組成高效、可擴展的存儲集群,在滿足AI計算分布式存儲應(yīng)用的基礎(chǔ)上,最大可能降低整個系統(tǒng)的TCO。

浪潮SA5224M4 4U36盤位存儲服務(wù)器

SA5224M4一款4U36盤位的存儲型服務(wù)器,在4U的空間內(nèi)支持36塊大容量硬盤。并且相比傳統(tǒng)的雙路E5存儲服務(wù)器,功耗降低35W以上。同時,通過背板Expander芯片的帶寬加速技術(shù),顯著提升大容量SATA盤的性能表現(xiàn),更適合構(gòu)建AI所需要的HDFS存儲系統(tǒng)。

 

用GPU服務(wù)器實現(xiàn)更快速、精準的AI模型訓(xùn)練

從內(nèi)部結(jié)構(gòu)上來看,CPU中70%晶體管都是用來構(gòu)建 Cache(高速緩沖存儲器)和一部分控制單元,負責(zé)邏輯運算的部分并不多,控制單元等模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行,這種通用性結(jié)構(gòu)對于傳統(tǒng)的編程計算模式非常適合,但對于并不需要太多的程序指令,卻需要海量數(shù)據(jù)運算的深度學(xué)習(xí)計算需求,這種結(jié)構(gòu)就顯得有心無力了。

與 CPU 少量的邏輯運算單元相比,GPU設(shè)備整個就是一個龐大的計算矩陣,動輒具有數(shù)以千計的計算核心、可實現(xiàn) 10-100 倍應(yīng)用吞吐量,而且它還支持對深度學(xué)習(xí)至關(guān)重要的并行計算能力,可以比傳統(tǒng)處理器更加快速,大大加快了訓(xùn)練過程。

根據(jù)不同規(guī)模的AI模型訓(xùn)練場景,可能會用到2卡、4卡、8卡甚至到64卡以上的AI計算集群。在AI計算服務(wù)器方面,浪潮也擁有業(yè)界最全的產(chǎn)品陣列。既擁有NF5280M5、AGX-2、NF6248等傳統(tǒng)的GPU/KNL服務(wù)器以及FPGA卡等,也包含了創(chuàng)新的GX4、SR-AI整機柜服務(wù)器等獨立加速計算模塊。

浪潮AI計算服務(wù)器陣列

其中,SR-AI整機柜服務(wù)器面向超大規(guī)模線下模型訓(xùn)練,能夠?qū)崿F(xiàn)單節(jié)點16卡、單物理集群64卡的超高密擴展能力;GX4是能夠覆蓋全AI應(yīng)用場景的創(chuàng)新架構(gòu)產(chǎn)品,可以通過標準機架服務(wù)器連接協(xié)處理器計算擴展模塊的形式完成計算性能擴展,滿足AI云、深度學(xué)習(xí)模型訓(xùn)練和線上推理等各種AI應(yīng)用場景對計算架構(gòu)性能、功耗的不同需求;AGX-2是2U8 NVLink? GPU全球密度最高、性能最強的AI平臺,面向需要更高空間密度比AI算法和應(yīng)用服務(wù)商。

根據(jù)業(yè)務(wù)應(yīng)用的需要,選擇不同規(guī)模的GPU服務(wù)器集群,從而平衡計算能力和成本,達到最優(yōu)的TCO和最佳的計算效率。

 

用FPGA來實現(xiàn)更低延遲、更高吞吐量的線上推理

GPU在深度學(xué)習(xí)算法模型訓(xùn)練上非常高效,但在推理時一次性只能對于一個輸入項進行處理,并行計算的優(yōu)勢不能發(fā)揮出來。而FPGA正是強在推斷。大幅提升推斷效率的同時,還要最小限度損失精確性,這正是FPGA的強項。

業(yè)界支持OpenCL的最高密度最高性能的FPGA-浪潮F10A

以浪潮F10A為例,這是目前業(yè)界支持OpenCL的最高密度最高性能的FPGA加速設(shè)備,單芯片峰值運算能力達到了1.5TFlops,功耗卻只需35W,每瓦特性能到42GFlops。

測試數(shù)據(jù)顯示,在語音識別應(yīng)用下,浪潮F10A較CPU性能加速2.87倍,而功耗相當(dāng)于CPU的15.7%,性能功耗比提升18倍。在圖片識別分類應(yīng)用上,相比GPU能夠提升10倍以上。

通過CPU、GPU、FPGA等不同計算設(shè)備的組合,充分發(fā)揮各自在不同方向的優(yōu)勢,才能夠形成一套高效的AI計算平臺。然后選擇一個合適的框架,運用最優(yōu)的算法,就能夠?qū)崿F(xiàn)人工智能應(yīng)用的快速落地和精準服務(wù)。

分享到

zhangnn

相關(guān)推薦