挑戰(zhàn)

如何才能高效地進(jìn)行集群資源管理?

安擎此次合作的智能駕駛領(lǐng)域的知名AI企業(yè),其核心優(yōu)勢是深度學(xué)習(xí)算法研發(fā),但缺乏Linux經(jīng)驗(yàn)和平臺(tái)維護(hù)經(jīng)驗(yàn)。因此,搭建深度學(xué)習(xí)軟件棧耗費(fèi)了該企業(yè)大量的時(shí)間。實(shí)際情況如下:該企業(yè)配置了10臺(tái)GPU服務(wù)器,每臺(tái)GPU服務(wù)器承載8塊GPU卡。但因研發(fā)人員眾多,且使用的深度學(xué)習(xí)框架有好幾種,因此急需一套集群資源管理系統(tǒng)來統(tǒng)一管理所有GPU服務(wù)器,并且快速創(chuàng)建深度學(xué)習(xí)應(yīng)用。

安擎AI解決方案

基于對AI發(fā)展趨勢的把控以及對AI技術(shù)的持續(xù)關(guān)注和研究,安擎推出了軟硬件一體化的AI解決方案。在硬件上,該解決方案依托于安擎人工智能服務(wù)器EG840G-G20,這款機(jī)器使用的即是英特爾?至強(qiáng)?可擴(kuò)展處理器平臺(tái);在軟件上,安擎AI解決方案采用了以容器技術(shù)為核心、可達(dá)秒級(jí)創(chuàng)建的安擎深度學(xué)習(xí)平臺(tái)。

值得一提的是,配置了英特爾?至強(qiáng)?可擴(kuò)展處理器保證了該款服務(wù)器具備卓越性能、高可靠性、高安全性以及較強(qiáng)靈活性的優(yōu)勢。而安擎深度學(xué)習(xí)平臺(tái)在底層系統(tǒng)的驅(qū)動(dòng)和軟件庫層面進(jìn)行了足夠的性能優(yōu)化,充分發(fā)揮出了GPU集群的性能,并且能夠針對不同的深度學(xué)習(xí)框架,通過鏡像定制和分發(fā)平臺(tái),幫助用戶定制化鏡像和應(yīng)用。安擎深度學(xué)習(xí)平臺(tái)已在多個(gè)實(shí)際項(xiàng)目中得到驗(yàn)證,最大的節(jié)點(diǎn)規(guī)??蛇_(dá)上千個(gè)。

3333.gif

?安擎深度學(xué)習(xí)平臺(tái)

當(dāng)前的人工智能主要發(fā)展為計(jì)算機(jī)視覺、自然語言理解與交流、認(rèn)知與推理、機(jī)器人學(xué)、博弈與倫理和機(jī)器學(xué)習(xí)六大領(lǐng)域。在人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上發(fā)展起來的深度學(xué)習(xí)模型,是當(dāng)前最為有效的機(jī)器學(xué)習(xí)算法模型之一,也成為了當(dāng)前人工智能研究與應(yīng)用的熱點(diǎn)。

基本介紹

安擎深度學(xué)習(xí)平臺(tái)是一套基于GPU服務(wù)器集群的用于深度學(xué)習(xí)的資源管理平臺(tái)軟件,它將GPU資源、CPU資源、內(nèi)存、硬盤等資源虛擬化后進(jìn)行統(tǒng)一管理,按需分配給不同用戶和群組使用。安擎深度學(xué)習(xí)平臺(tái)支持主流機(jī)器學(xué)習(xí)框架(如TensorFlow、Caffe、Torch、Keras等),提供深度學(xué)習(xí)的模型(算法)庫(LeNet、MLSTM、Alexnet、Googlenet、ResNet、GAN、Faster R-CNN等)、標(biāo)準(zhǔn)數(shù)據(jù)集(ImageNet、COCO、PASCAL VOC、CIFAR、Open Image、Youtube-8M)、Demo演示程序(人臉識(shí)別門禁程序、手寫數(shù)字識(shí)別、快速多目標(biāo)識(shí)別等)。

系統(tǒng)功能架構(gòu)圖

11.png

客戶價(jià)值

l? 快速部署 一鍵部署,快速搭建AI訓(xùn)練集群;

l? 節(jié)省投資 提高IT設(shè)備利用率,按需分配;節(jié)省研發(fā)時(shí)間,縮減研發(fā)成本;

l? 提高效率 支持分布式,顯著提高訓(xùn)練速度;

l? 教學(xué)實(shí)訓(xùn) 降低技術(shù)門檻,聚焦深度學(xué)習(xí)算法,加快科研速度。

 

價(jià)值與收益

縮短管理周期,資源利用率顯著提高

安擎AI解決方案部署后,將所有服務(wù)器統(tǒng)一管理,解決了從集群部署到資源分配和監(jiān)控的整個(gè)生命周期內(nèi)的管理需求。圖形化界面,簡單易用,一鍵秒級(jí)創(chuàng)建主流機(jī)器學(xué)習(xí)應(yīng)用(Tensorflow、Caffe、Torch等),且應(yīng)用之間相互獨(dú)立,互不干擾,資源得到了有效利用。

 

訓(xùn)練及研發(fā)效率有效提升

安擎AI解決方案實(shí)現(xiàn)了跨GPU節(jié)點(diǎn)分布式運(yùn)行Torch訓(xùn)練,大大提高了訓(xùn)練效率,節(jié)省了90%的訓(xùn)練時(shí)間。

222.gif

總結(jié)

安擎AI解決方案能夠助力科研單位、高等院校、人工智能企業(yè)更快地進(jìn)入深度學(xué)習(xí)研發(fā)領(lǐng)域,更好地聚焦算法本身,更快地推出能夠解決實(shí)際問題和需求的產(chǎn)品。此外,安擎提供7×24h技術(shù)支持服務(wù),有效幫助客戶提高研發(fā)效率。

分享到

zhangnn

相關(guān)推薦