浪潮聯(lián)合美國(guó)某知名的互聯(lián)網(wǎng)公司對(duì)主流深度學(xué)習(xí)框架的測(cè)試結(jié)果

從測(cè)試結(jié)果來(lái)看,當(dāng)運(yùn)行AlexNet網(wǎng)絡(luò)時(shí),Caffe性能最好,每秒可以訓(xùn)練圖片張數(shù)達(dá)到4675張,16個(gè)GPU比單個(gè)GPU的加速比達(dá)到14倍。其次是MXNet,最后是TensorFlow。

當(dāng)運(yùn)行GoogLeNet時(shí),MXNet性能最好,每秒可以訓(xùn)練的圖片張數(shù)達(dá)到2462張,16個(gè)GPU比單個(gè)GPU的加速比達(dá)到12.7倍。其次是Caffe,最后是TensorFlow。

從這個(gè)評(píng)測(cè)來(lái)看,基于不同的網(wǎng)絡(luò),所選擇最優(yōu)的框架是不一樣的。

基本上可以有大致的一個(gè)原則來(lái)選擇:我們會(huì)根據(jù)不同的場(chǎng)景和模型來(lái)選擇至少一種深度學(xué)習(xí)框架,目前很難說(shuō)一種框架能在所有的應(yīng)用場(chǎng)景中表現(xiàn)最優(yōu)。

如果是圖像方面的應(yīng)用,主要采用Caffe、TensorFlow和MXNET這三種框架;

如果是語(yǔ)音的話,可以選擇CNTK;

自然語(yǔ)言處理的話可以采用PaddlePaddle。

針對(duì)大數(shù)據(jù)量的訓(xùn)練,采用單機(jī)訓(xùn)練的話時(shí)間會(huì)很長(zhǎng),有可能是幾周或幾個(gè)月訓(xùn)練出一個(gè)模型,需要采用分布式框架。浪潮自研的深度學(xué)習(xí)框架Caffe-MPI,就實(shí)現(xiàn)了多機(jī)多GPU卡的并行訓(xùn)練。通過(guò)實(shí)際測(cè)試,Caffe-MPI采用16個(gè)GPU卡同時(shí)訓(xùn)練時(shí),每秒處理效率達(dá)到3061張,較單卡性能提升13倍,擴(kuò)展效率達(dá)到81%,性能將近是TensorFlow的2倍。

目前,浪潮Caffe-MPI框架目前已在Github開(kāi)源,如果有需要可以免費(fèi)下載使用。

當(dāng)機(jī)器越來(lái)越多,怎么管理才高效?

人工智能深度學(xué)習(xí)訓(xùn)練流程較長(zhǎng)、開(kāi)發(fā)環(huán)境較復(fù)雜,涉及數(shù)據(jù)準(zhǔn)備和處理、特征工程、建模、調(diào)參等多個(gè)步驟及多個(gè)框架和模型,每個(gè)框架依賴環(huán)境不同且有可能交叉使用。同時(shí),深度學(xué)習(xí)模型在訓(xùn)練時(shí)往往耗時(shí)較長(zhǎng),短則數(shù)小時(shí)長(zhǎng)則數(shù)天,以往在訓(xùn)練完成后才意識(shí)到模型存在問(wèn)題,大大耗費(fèi)了用戶的精力和時(shí)間。

浪潮AI管理軟件AIStation可以提供從數(shù)據(jù)準(zhǔn)備到分析訓(xùn)練結(jié)果的完整深度學(xué)習(xí)業(yè)務(wù)流程,支持Caffe、TensorFlow、CNTK等多種計(jì)算框架和GoogleNet、VGG、ResNet等多種模型。

AIStation支持對(duì)訓(xùn)練過(guò)程實(shí)時(shí)監(jiān)控并可視化訓(xùn)練過(guò)程,支持打印每一步的損失函數(shù)值的日志、訓(xùn)練誤差或測(cè)試誤差等;支持動(dòng)態(tài)分配GPU資源實(shí)現(xiàn)資源合理共享,實(shí)現(xiàn)了“一鍵式”部署深度學(xué)習(xí)計(jì)算環(huán)境、快速啟動(dòng)訓(xùn)練任務(wù);還可以實(shí)時(shí)監(jiān)控集群的使用情況,合理安排訓(xùn)練任務(wù),可及時(shí)發(fā)現(xiàn)運(yùn)行中的問(wèn)題,提高集群的可靠性。

浪潮AI管理軟件AIStation

除此以外,浪潮還可提供天眼高性能應(yīng)用特征監(jiān)控分析系統(tǒng),量化超算軟件特征,提取和記錄應(yīng)用軟件在高性能計(jì)算機(jī)運(yùn)行過(guò)程中實(shí)時(shí)產(chǎn)生的CPU、內(nèi)存、磁盤(pán)、網(wǎng)絡(luò)等系統(tǒng)信息和微架構(gòu)信息,及時(shí)幫助使用者找到系統(tǒng)瓶頸,并能準(zhǔn)確地分析出程序開(kāi)發(fā)者的應(yīng)用軟件特征,幫助用戶合理的劃分集群使用資源、提高使用效率。

有了強(qiáng)勁的AI計(jì)算平臺(tái)、適合的開(kāi)發(fā)框架、高效的AI管理監(jiān)控軟件,一個(gè)AI基礎(chǔ)平臺(tái)就基本構(gòu)建完成,剩下的就是靠?jī)?yōu)化的算法把你所擁有的數(shù)據(jù),轉(zhuǎn)化成更有價(jià)值的資源。2018年,AI仍將是一個(gè)巨大的風(fēng)口,希望以上浪潮測(cè)試數(shù)據(jù)和選型攻略能夠?yàn)榇蠹規(guī)?lái)一些啟發(fā)。

 

分享到

xiesc

相關(guān)推薦