如何選擇一款合適的深度學(xué)習(xí)框架?

隨著人工智能的火熱,目前開源出來的深度學(xué)習(xí)框架非常多,如Caffe、TensorFlow、MXNet、Torch等等??蚣鼙姸?,如何選擇?選擇一種框架還是多種組合?針對不同的場景或者模型需要選擇什么樣的框架?面對多大數(shù)據(jù)量需要選擇多機(jī)并行的框架?這些我們針對深度學(xué)習(xí)框架所面臨的挑戰(zhàn),難免會(huì)讓很多人犯難。

近期,浪潮與美國某知名的互聯(lián)網(wǎng)公司開展聯(lián)合測試,對主流的深度學(xué)習(xí)框架做了一個(gè)測評。把三個(gè)主流的框架Caffe、TensorFlow和MXNet部署到浪潮SR-AI整機(jī)柜服務(wù)器平臺(tái)上(配置16塊GPU卡),采用ImageNet數(shù)據(jù)集,測試AlexNet和GoogLeNet兩種典型網(wǎng)絡(luò)。

浪潮聯(lián)合美國某知名的互聯(lián)網(wǎng)公司對主流深度學(xué)習(xí)框架的測試結(jié)果

從這個(gè)評測來看,基于不同的網(wǎng)絡(luò),所選擇最優(yōu)的框架是不一樣的。

基本上可以有大致的一個(gè)原則來選擇:我們會(huì)根據(jù)不同的場景和模型來選擇至少一種深度學(xué)習(xí)框架,目前很難說一種框架能在所有的應(yīng)用場景中表現(xiàn)最優(yōu)。

針對大數(shù)據(jù)量的訓(xùn)練,采用單機(jī)訓(xùn)練的話時(shí)間會(huì)很長,有可能是幾周或幾個(gè)月訓(xùn)練出一個(gè)模型,需要采用分布式框架。浪潮自研的深度學(xué)習(xí)框架Caffe-MPI,就實(shí)現(xiàn)了多機(jī)多GPU卡的并行訓(xùn)練。通過實(shí)際測試,Caffe-MPI采用16個(gè)GPU卡同時(shí)訓(xùn)練時(shí),每秒處理效率達(dá)到3061張,較單卡性能提升13倍,擴(kuò)展效率達(dá)到81%,性能將近是TensorFlow的2倍。

目前,浪潮Caffe-MPI框架目前已在Github開源,如果有需要可以免費(fèi)下載使用。

 

當(dāng)機(jī)器越來越多,怎么管理才高效?

人工智能深度學(xué)習(xí)訓(xùn)練流程較長、開發(fā)環(huán)境較復(fù)雜,涉及數(shù)據(jù)準(zhǔn)備和處理、特征工程、建模、調(diào)參等多個(gè)步驟及多個(gè)框架和模型,每個(gè)框架依賴環(huán)境不同且有可能交叉使用。同時(shí),深度學(xué)習(xí)模型在訓(xùn)練時(shí)往往耗時(shí)較長,短則數(shù)小時(shí)長則數(shù)天,以往在訓(xùn)練完成后才意識到模型存在問題,大大耗費(fèi)了用戶的精力和時(shí)間。

浪潮AI管理軟件AIStation可以提供從數(shù)據(jù)準(zhǔn)備到分析訓(xùn)練結(jié)果的完整深度學(xué)習(xí)業(yè)務(wù)流程,支持Caffe、TensorFlow、CNTK等多種計(jì)算框架和GoogleNet、VGG、ResNet等多種模型。AIStation支持對訓(xùn)練過程實(shí)時(shí)監(jiān)控并可視化訓(xùn)練過程,支持打印每一步的損失函數(shù)值的日志、訓(xùn)練誤差或測試誤差等;支持動(dòng)態(tài)分配GPU資源實(shí)現(xiàn)資源合理共享,實(shí)現(xiàn)了“一鍵式”部署深度學(xué)習(xí)計(jì)算環(huán)境、快速啟動(dòng)訓(xùn)練任務(wù);還可以實(shí)時(shí)監(jiān)控集群的使用情況,合理安排訓(xùn)練任務(wù),可及時(shí)發(fā)現(xiàn)運(yùn)行中的問題,提高集群的可靠性。

浪潮AI管理軟件AIStation

除此以外,浪潮還可提供天眼高性能應(yīng)用特征監(jiān)控分析系統(tǒng),量化超算軟件特征,提取和記錄應(yīng)用軟件在高性能計(jì)算機(jī)運(yùn)行過程中實(shí)時(shí)產(chǎn)生的CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等系統(tǒng)信息和微架構(gòu)信息,及時(shí)幫助使用者找到系統(tǒng)瓶頸,并能準(zhǔn)確地分析出程序開發(fā)者的應(yīng)用軟件特征,幫助用戶合理的劃分集群使用資源、提高使用效率。

 

有了強(qiáng)勁的AI計(jì)算平臺(tái)、適合的開發(fā)框架、高效的AI管理監(jiān)控軟件,一個(gè)AI基礎(chǔ)平臺(tái)就基本構(gòu)建完成,剩下的就是靠優(yōu)化的算法把你所擁有的數(shù)據(jù),轉(zhuǎn)化成更有價(jià)值的資源。2018年,AI仍將是一個(gè)巨大的風(fēng)口,希望以上浪潮測試數(shù)據(jù)和選型攻略能夠?yàn)榇蠹規(guī)硪恍﹩l(fā)。

分享到

zhangnn

相關(guān)推薦