Horovod流行的背后是AI算力需求的急劇增加

  Horovod實(shí)質(zhì)上是Uber開(kāi)發(fā)并開(kāi)源的一套先進(jìn)的分布式系統(tǒng),它并不依賴(lài)于某個(gè)框架,而是采用目前業(yè)界廣泛認(rèn)可的基于環(huán)形All-reduce通信的同步SGD算法,通過(guò)計(jì)算與通信異步、梯度合并、梯度壓縮等設(shè)備間通信優(yōu)化手段,完成allreduce、allgather等集體操作通信工作。這一特性使得Horovod可以非常方便地與主流深度學(xué)習(xí)框架TensorFlow、PyTorch、 MXNet等進(jìn)行匹配,在大規(guī)模GPU集群上的訓(xùn)練性能遠(yuǎn)高于原生框架的訓(xùn)練性能,提供非常高效的分布式訓(xùn)練性能加速。Horovod的另一大優(yōu)點(diǎn)在于其提供的接口極為簡(jiǎn)單,用戶(hù)只需修改幾行代碼,就可實(shí)現(xiàn)顯著的訓(xùn)練性能提升。

  Horovod之所以受到越來(lái)越多AI開(kāi)發(fā)者與研究機(jī)構(gòu)的青睞,其背后的原因在于越來(lái)越多的機(jī)器學(xué)習(xí)模型對(duì)數(shù)據(jù)和計(jì)算能力需求急劇增加。在大部分情況下,AI模型可以在單個(gè)或多GPU平臺(tái)的服務(wù)器上運(yùn)行,但隨著數(shù)據(jù)集的增大和訓(xùn)練時(shí)間的增長(zhǎng),有時(shí)訓(xùn)練需要一周甚至更長(zhǎng)時(shí)間。因此,AI開(kāi)發(fā)者們不得不尋求分布式訓(xùn)練方法來(lái)縮短模型訓(xùn)練的時(shí)間。

  Uber分享Horovod的“獨(dú)家秘笈”

  Uber目前已經(jīng)將深度學(xué)習(xí)應(yīng)用到了很多公司業(yè)務(wù)中,從自動(dòng)駕駛搜索路線到防御欺詐等。Uber深度學(xué)習(xí)平臺(tái)經(jīng)理寧旭認(rèn)為,訓(xùn)練現(xiàn)代復(fù)雜的深度學(xué)習(xí)模型需要大量的計(jì)算。將計(jì)算擴(kuò)展到多個(gè)GPU面臨兩大挑戰(zhàn):低成本、高效的GPU間通信庫(kù),以及用戶(hù)代碼可能會(huì)出現(xiàn)較大的更改。而Horovod成功地解決了這兩大難題。

  在AICC2019上,寧旭將帶來(lái)《利用Horovod進(jìn)行分布式深度學(xué)習(xí)》的主題演講,不僅將現(xiàn)場(chǎng)分享如何通過(guò)Horovod在TensorFlow、Keras、PyTorch和MXNet中實(shí)現(xiàn)更快、更輕松的分布式訓(xùn)練,講解Horovod的操作方法,同時(shí)也將披露Uber最近在橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室進(jìn)行的一項(xiàng)案例研究,講述Horovod在世界上最快的超級(jí)計(jì)算機(jī)上實(shí)現(xiàn)百億億級(jí)計(jì)算。

  寧旭曾帶領(lǐng)Uber大數(shù)據(jù)和基礎(chǔ)設(shè)施領(lǐng)域的團(tuán)隊(duì)負(fù)責(zé)一些開(kāi)源項(xiàng)目,在機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、大數(shù)據(jù)和大規(guī)模計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)問(wèn)題方面有豐富的經(jīng)驗(yàn)。在加入U(xiǎn)ber之前,寧旭曾在Facebook、Akamai和Microsoft以及幾家初創(chuàng)公司工作。

  AICC2019精彩紛呈

  本屆AICC 2019可謂精彩紛呈,核心板塊為主論壇與自動(dòng)駕駛、產(chǎn)業(yè)AI創(chuàng)新、AI計(jì)算與基準(zhǔn)測(cè)試、AI+視覺(jué)計(jì)算、AI+創(chuàng)投五大主題論壇,其中主論壇嘉賓云集了來(lái)自中國(guó)工程院、英國(guó)皇家工程院、百度、中國(guó)新一代人工智能發(fā)展戰(zhàn)略研究院、浪潮、Facebook等機(jī)構(gòu)的AI產(chǎn)學(xué)研頂尖專(zhuān)家學(xué)者,共聚一堂解讀AI產(chǎn)業(yè)趨勢(shì),分享前沿AI計(jì)算技術(shù)。大會(huì)同期舉行的AI千人訓(xùn)練營(yíng)將邀請(qǐng)百度、平安科技、浪潮的資深A(yù)I工程師講解最新AI計(jì)算技術(shù)與應(yīng)用,幫助學(xué)員從零入門(mén)AI。

  AICC 2019主論壇嘉賓陣容

  與此同時(shí),AICC2019大會(huì)期間還將重磅發(fā)布《2019-2020中國(guó)AI計(jì)算力發(fā)展報(bào)告》,公布中國(guó)AI計(jì)算力城市榜單與熱力分布等重要研究成果,為AI投資、創(chuàng)業(yè)與就業(yè)提供科學(xué)指導(dǎo)。

  AICC大會(huì)由中國(guó)工程院信息與電子工程學(xué)部主辦,浪潮集團(tuán)承辦,旨在圍繞人工智能的產(chǎn)業(yè)需求研討AI計(jì)算,促進(jìn)AI技術(shù)創(chuàng)新、合作發(fā)展與人才培養(yǎng)。目前,AICC大會(huì)已成為AI計(jì)算領(lǐng)域最具分量的前沿技術(shù)交流平臺(tái),每年都會(huì)吸引數(shù)千名AI產(chǎn)業(yè)與技術(shù)領(lǐng)袖、頂級(jí)AI專(zhuān)家和AI開(kāi)發(fā)者等參與。

分享到

zhangnn

相關(guān)推薦