色综合天天综合婷婷伊人,一个人www在线视频免费,最近的中文字幕免费完整版

圖1. 華為云ModelArts功能視圖

在模型訓(xùn)練部分,ModelArts通過(guò)硬件、軟件和算法協(xié)同優(yōu)化來(lái)實(shí)現(xiàn)訓(xùn)練加速。尤其在深度學(xué)習(xí)模型訓(xùn)練方面,我們將分布式加速層抽象出來(lái),形成一套通用框架——MoXing(“模型”的拼音,意味著一切優(yōu)化都圍繞模型展開(kāi))。采用與fast.ai一樣的硬件、模型和訓(xùn)練數(shù)據(jù),ModelArts可將訓(xùn)練時(shí)長(zhǎng)可縮短到10分鐘,創(chuàng)造了新的記錄,為用戶(hù)節(jié)省44%的成本。

3.分布式加速框架MoXing

MoXing是華為云ModelArts團(tuán)隊(duì)自研的分布式訓(xùn)練加速框架,它構(gòu)建于開(kāi)源的深度學(xué)習(xí)引擎TensorFlow、MXNet、PyTorch、Keras之上,使得這些計(jì)算引擎分布式性能更高,同時(shí)易用性更好。

高性能

MoXing內(nèi)置了多種模型參數(shù)切分和聚合策略、分布式SGD優(yōu)化算法、級(jí)聯(lián)式混合并行技術(shù)、超參數(shù)自動(dòng)調(diào)優(yōu)算法,并且在分布式訓(xùn)練數(shù)據(jù)切分策略、數(shù)據(jù)讀取和預(yù)處理、分布式通信等多個(gè)方面做了優(yōu)化,結(jié)合華為云Atlas高性能服務(wù)器,實(shí)現(xiàn)了硬件、軟件和算法協(xié)同優(yōu)化的分布式深度學(xué)習(xí)加速。

華為云MoXing架構(gòu)圖

易用:讓開(kāi)發(fā)者聚焦業(yè)務(wù)模型,無(wú)憂其他

在易用性方面,上層開(kāi)發(fā)者僅需關(guān)注業(yè)務(wù)模型,無(wú)需關(guān)注下層分布式相關(guān)的API,僅需根據(jù)實(shí)際業(yè)務(wù)定義輸入數(shù)據(jù)、模型以及相應(yīng)的優(yōu)化器即可,訓(xùn)練腳本與運(yùn)行環(huán)境(單機(jī)或者分布式)無(wú)關(guān),上層業(yè)務(wù)代碼和分布式訓(xùn)練引擎可以做到完全解耦。

4.從兩大指標(biāo)看MoXing分布式加速關(guān)鍵技術(shù)

在衡量分布式深度學(xué)習(xí)的加速性能時(shí),主要有如下2個(gè)重要指標(biāo):

1)吞吐量,即單位時(shí)間內(nèi)處理的數(shù)據(jù)量;

2)收斂時(shí)間,即達(dá)到一定的收斂精度所需的時(shí)間。

吞吐量一般取決于服務(wù)器硬件(如更多、更大FLOPS處理能力的AI加速芯片,更大的通信帶寬等)、數(shù)據(jù)讀取和緩存、數(shù)據(jù)預(yù)處理、模型計(jì)算(如卷積算法選擇等)、通信拓?fù)涞确矫娴膬?yōu)化,除了低bit計(jì)算和梯度(或參數(shù))壓縮等,大部分技術(shù)在提升吞吐量的同時(shí),不會(huì)造成對(duì)模型精度的影響。為了達(dá)到最短的收斂時(shí)間,需要在優(yōu)化吞吐量的同時(shí),在調(diào)參方面也做調(diào)優(yōu)。如果調(diào)參調(diào)的不好,那么吞吐量有時(shí)也很難優(yōu)化上去,例如batch size這個(gè)超參不足夠大時(shí),模型訓(xùn)練的并行度就會(huì)較差,吞吐量難以通過(guò)增加計(jì)算節(jié)點(diǎn)個(gè)數(shù)而提升。

對(duì)用戶(hù)而言,最終關(guān)心的指標(biāo)是收斂時(shí)間,因此MoXing和ModelArts實(shí)現(xiàn)了全棧優(yōu)化,極大縮短了訓(xùn)練收斂時(shí)間。在數(shù)據(jù)讀取和預(yù)處理方面,MoXing通過(guò)利用多級(jí)并發(fā)輸入流水線使得數(shù)據(jù)IO不會(huì)成為瓶頸;在模型計(jì)算方面,MoXing對(duì)上層模型提供半精度和單精度組成的混合精度計(jì)算,通過(guò)自適應(yīng)的尺度縮放減小由于精度計(jì)算帶來(lái)的損失;在超參調(diào)優(yōu)方面,采用動(dòng)態(tài)超參策略(如momentum、batch size等)使得模型收斂所需epoch個(gè)數(shù)降到最低;在底層優(yōu)化方面,MoXing與底層華為自研服務(wù)器和通信計(jì)算庫(kù)相結(jié)合,使得分布式加速進(jìn)一步提升。

5.測(cè)試結(jié)果對(duì)比,用數(shù)據(jù)說(shuō)話

一般在ImageNet數(shù)據(jù)集上訓(xùn)練ResNet-50模型,當(dāng)Top-5精度≥93%或者Top-1 精度≥75%時(shí)即可認(rèn)為模型收斂。

我們測(cè)試的模型訓(xùn)練收斂曲線如下圖所示。此處Top-1和Top-5精度為訓(xùn)練集上的精度,為了達(dá)到極致的訓(xùn)練速度,訓(xùn)練過(guò)程中采用了額外進(jìn)程對(duì)模型進(jìn)行驗(yàn)證,最終驗(yàn)證精度如表1所示(包含與fast.ai的對(duì)比)。圖4(a)所對(duì)應(yīng)的模型在驗(yàn)證集上Top-1 精度≥75%,訓(xùn)練耗時(shí)為10分06秒;圖4(b)所對(duì)應(yīng)的模型在驗(yàn)證集上Top-5 精度≥93%,訓(xùn)練耗時(shí)為10分58秒。

(a)

(b)

圖4. ResNet50 on ImageNet訓(xùn)練收斂曲線(曲線上的精度為訓(xùn)練集上的精度)

表1. MoXing與fast.ai的訓(xùn)練結(jié)果對(duì)比

訓(xùn)練平臺(tái)	節(jié)點(diǎn)數(shù)量	訓(xùn)練時(shí)長(zhǎng)	Top-1 精度(驗(yàn)證集)	Top-5 精度(驗(yàn)證集)
Fast.ai on AWS	16	0:18:06	75.67%	93.11%
MoXing on ModelArts in Huawei Cloud	16	0:10:06	75.17%	92.70%
MoXing on ModelArts in Huawei Cloud	16	0:10:58	76.04%	93.15%

6. 未來(lái)展望–更快的、更普惠的AI開(kāi)發(fā)平臺(tái)

華為云ModelArts致力于為用戶(hù)提供更快的普惠AI開(kāi)發(fā)體驗(yàn),尤其在模型訓(xùn)練這方面,內(nèi)置的MoXing框架使得深度學(xué)習(xí)模型訓(xùn)練速度有了很大的提升。正如前所述,深度學(xué)習(xí)加速屬于一個(gè)從底層硬件到上層計(jì)算引擎、再到更上層的分布式訓(xùn)練框架及其優(yōu)化算法多方面協(xié)同優(yōu)化的結(jié)果,具備全棧優(yōu)化能力才能將用戶(hù)訓(xùn)練成本降到最低。

后續(xù),華為云ModelArts將進(jìn)一步整合軟硬一體化的優(yōu)勢(shì),提供從芯片(Ascend)、服務(wù)器(Atlas Server)、計(jì)算通信庫(kù)(CANN)到深度學(xué)習(xí)引擎(MindSpore)和分布式優(yōu)化框架(MoXing)全棧優(yōu)化的深度學(xué)習(xí)訓(xùn)練平臺(tái)。并且,ModelArts會(huì)逐步集成更多的數(shù)據(jù)標(biāo)注工具,擴(kuò)大應(yīng)用范圍,將繼續(xù)服務(wù)于智慧城市、智能制造、自動(dòng)駕駛及其它新興業(yè)務(wù)場(chǎng)景,在公有云上為用戶(hù)提供更普惠的AI服務(wù)。

目前華為云ModelArts已經(jīng)在火爆公測(cè)中,歡迎大家試用。

ModelArts官網(wǎng):登陸華為云首頁(yè)搜索ModelArts

分享到

ModelArts 華為云

xiesc

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽