而AWS除了提供上述內(nèi)容,還是少數(shù)還可以提供機(jī)器學(xué)習(xí)訓(xùn)練環(huán)境的廠商,AWS提供的Amazon SageMaker是AWS人工智能服務(wù)的核心產(chǎn)品,它能解決機(jī)器學(xué)習(xí)過程中的許多問題,掃清了機(jī)器學(xué)習(xí)過程中的許多障礙,給了我們一把開啟智能時(shí)代的鑰匙。

1,這項(xiàng)功能讓AWS的機(jī)器學(xué)習(xí)開發(fā)平臺(tái)廣受認(rèn)可

2017年,AWS首次發(fā)布了Amazon SageMaker,此后經(jīng)歷了數(shù)不清的迭代,2018年,我曾嘗試用SageMaker訓(xùn)練了一個(gè)簡(jiǎn)單的模型,當(dāng)時(shí)對(duì)于SageMaker的主要印象是,這是一個(gè)托管了Jupyter Notebook的服務(wù),可以調(diào)用AWS云的各種資源,但實(shí)際上我個(gè)人電腦上安裝一個(gè)Anaconda集成的服務(wù)也能達(dá)到類似的效果。

2019年年末,AWS推出了Amazon SageMaker Studio之后,AWS的云上AI訓(xùn)練服務(wù)才有了應(yīng)該有的樣子,其中新增的SageMaker Autopilot(Autopilot-中文可譯作自動(dòng)駕駛)自動(dòng)化的機(jī)器學(xué)習(xí)令人眼前為之一亮。

Gartner對(duì)于SageMaker Autopilot評(píng)價(jià)非常高,在Gartner發(fā)布《云AI開發(fā)者服務(wù)魔力象限》中,AWS被評(píng)為領(lǐng)導(dǎo)者,主要原因就是推出了廣受好評(píng)的SageMaker Autopilot。

SageMaker Autopilot作為SageMaker的明星級(jí)功能,解決了從數(shù)據(jù)預(yù)處理、算法選擇、訓(xùn)練到最后模型訓(xùn)練的全流程,只需輸入需要用來訓(xùn)練的數(shù)據(jù),選擇要預(yù)測(cè)的是什么,然后一切都交給它自動(dòng)來完成,過程中會(huì)自動(dòng)生成很多模型。

SageMaker Autopilot的出現(xiàn)讓什么都不懂的人也有機(jī)會(huì)自己訓(xùn)練一個(gè)模型,然后了解機(jī)器學(xué)習(xí)的原理,作為稍微了解一些機(jī)器學(xué)習(xí)的人,應(yīng)該知道SageMaker Autopilot幫我們解決了很多繁瑣的問題。

在數(shù)據(jù)準(zhǔn)備階段,通常需要做很多細(xì)致繁瑣的操作,并不是所有數(shù)據(jù)天生就為了訓(xùn)練而生的,真實(shí)環(huán)境中的數(shù)據(jù)經(jīng)常會(huì)有各種問題,比如有的數(shù)據(jù)會(huì)有缺失,有的數(shù)據(jù)可能是錯(cuò)亂的,有的數(shù)據(jù)格式不統(tǒng)一,由于不正確的數(shù)據(jù)會(huì)直接影響訓(xùn)練模型的效果,所以,出現(xiàn)的這些問題都要解決掉。

算法選擇也是一個(gè)難題,根據(jù)不同的數(shù)據(jù)類型,不同的場(chǎng)景,不同的預(yù)測(cè)項(xiàng)目,適應(yīng)的算法都不相同,如果不了解算法的特性,很難做出正確選擇,訓(xùn)練完成后效果差強(qiáng)人意又浪費(fèi)時(shí)間。

訓(xùn)練過程中,不停重復(fù)迭代的訓(xùn)練將模型調(diào)整到一個(gè)更好的值,比如,一個(gè)更高的準(zhǔn)確度,訓(xùn)練本身可能會(huì)出一些問題,比如過擬合的問題,比如過度訓(xùn)練的問題,訓(xùn)練出來的模型對(duì)原有數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確度特別高,但是對(duì)新的數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確度就非常低,這樣的模型要來有何用?所以,訓(xùn)練過程中除了不斷調(diào)參數(shù),還要提防這些問題。

模型部署階段其實(shí)相對(duì)簡(jiǎn)單一些,將訓(xùn)練出來的模型部署在具有運(yùn)行環(huán)境的主機(jī)上即可,主機(jī)要確保性能和穩(wěn)定性即可。

SageMaker Autopilot自動(dòng)化能力在這里充分得到了體現(xiàn),在數(shù)據(jù)準(zhǔn)備階段能自動(dòng)完成數(shù)據(jù)的處理,算法選擇階段會(huì)自動(dòng)按照數(shù)據(jù)的特征來選擇,訓(xùn)練過程中會(huì)記錄訓(xùn)練的一些細(xì)節(jié),可以自定義一些規(guī)則,比如當(dāng)出現(xiàn)過擬合和過度訓(xùn)練后會(huì)報(bào)警提示。

SageMaker Autopilot會(huì)自動(dòng)輸出一個(gè)高質(zhì)量的模型,生成過程對(duì)用戶可見,而且可以控制和調(diào)整優(yōu)化,生成的模型在一些工具支持下來實(shí)現(xiàn)可移植性,能部署在云端,也能部署在邊緣端等任何想運(yùn)行程序的地方。

SageMaker Autopilot讓AWS的機(jī)器學(xué)習(xí)開發(fā)平臺(tái)廣受認(rèn)可,這算是機(jī)器學(xué)習(xí)工具中非常高級(jí)的一種,但對(duì)于普通用戶來說,SageMaker還有很多不那么驚艷,但很實(shí)用的技能。

2,SagaMaker掃清機(jī)器學(xué)習(xí)的障礙

自動(dòng)駕駛不能取代人類司機(jī),SageMaker Autopilot也并不能取代真正專業(yè)的數(shù)據(jù)科學(xué)家,數(shù)據(jù)科學(xué)家要求對(duì)整個(gè)機(jī)器學(xué)習(xí)的訓(xùn)練過程有更強(qiáng)的掌控能力,而SagaMaker能為數(shù)據(jù)科學(xué)家提供許多便利性,在我看來,大概有以下幾點(diǎn)。

省去配置環(huán)境的麻煩。SagaMaker集成了完備的機(jī)器學(xué)習(xí)運(yùn)行環(huán)境,支持各種主流的機(jī)器學(xué)習(xí)框架,包括工業(yè)界最常用的TensorFlow,學(xué)術(shù)界更喜歡的PyTorch,以及AWS更推崇的MXNET。AWS在托管的Jupyter NoteBook里提供這一集成環(huán)境,省去配置環(huán)境的麻煩。

召之即來的彈性資源。說到底,AWS還是出售資源服務(wù)的,AWS平臺(tái)上能提供多種多樣的資源,用于存儲(chǔ)訓(xùn)練數(shù)據(jù)的S3,計(jì)算方面能提供各種實(shí)例,各種資源可以呼之即來,從使用的角度看,AWS不斷優(yōu)化資源分配的靈活性和便捷性,比如,可以隨時(shí)輕松的調(diào)整托管Jupyter NoteBook實(shí)例的算力配置,而不用在本地不停的換計(jì)算設(shè)備,這點(diǎn)非常有吸引力。

一站式的機(jī)器學(xué)習(xí)開發(fā)環(huán)境。Amazon SageMaker Studio(以下簡(jiǎn)稱Studio)是一個(gè)面向機(jī)器學(xué)習(xí)的集成開發(fā)環(huán)境,涉及SageMaker絕大部分功能,在Studio里,用戶可以像所有IDE一樣可以查看和組織源代碼、依賴項(xiàng)、文檔等,透過Studio用戶,可以調(diào)用AWS的資源來組織Notebook和數(shù)據(jù)集,可以方便地進(jìn)行討論和協(xié)作,而且,在構(gòu)建、訓(xùn)練、解釋、檢查、監(jiān)視、調(diào)試和運(yùn)行模型各方面都有許多實(shí)用功能,可以說是一個(gè)一站式的服務(wù)。

SageMaker能解決訓(xùn)練過程和模型部署時(shí)候的許多實(shí)際問題。

訓(xùn)練階段,SageMaker Experiments可以跟蹤記錄機(jī)器學(xué)習(xí)模型的迭代,說白了就是記錄修改一個(gè)參數(shù)或者數(shù)值的時(shí)候模型的變化,由于這種修改的次數(shù)很多,又沒有一個(gè)便利記錄系統(tǒng),所以很不方便,SageMaker Experiments自動(dòng)捕獲輸入?yún)?shù)、配置和結(jié)果,開發(fā)者可以瀏覽、回顧和比較實(shí)驗(yàn)結(jié)果,總之,SageMaker Experiments能幫助開發(fā)者快速迭代和開發(fā)模型。

訓(xùn)練階段,SageMaker Debugger可以在模型訓(xùn)練期間進(jìn)行調(diào)試和分析,讓開發(fā)者更好地理解模型。機(jī)器學(xué)習(xí)的訓(xùn)練過程是不透明的,模型又無法解釋,SageMaker Debugger在訓(xùn)練過程中會(huì)自動(dòng)發(fā)出收集到的關(guān)鍵指標(biāo),用戶能看到訓(xùn)練的準(zhǔn)確性和性能,如果訓(xùn)練時(shí)候有問題,SageMaker Debugger會(huì)提供警告和補(bǔ)救建議,SageMaker Debugger也可幫助開發(fā)者解讀模型是如何工作的,向神經(jīng)網(wǎng)絡(luò)的可解釋性邁出了第一步。

推理階段,SageMaker還有模型運(yùn)行狀態(tài)監(jiān)控功能,其實(shí)主要就是概念漂移檢測(cè)功能。所謂概念漂移通常是指當(dāng)新輸入的數(shù)據(jù)發(fā)生了變化,導(dǎo)致模型預(yù)測(cè)出現(xiàn)問題。比如,你用夏天的數(shù)據(jù)訓(xùn)練一個(gè)能預(yù)測(cè)超市里冰棍兒銷量的模型,當(dāng)冬天來了,這樣的預(yù)測(cè)模型肯定會(huì)出問題,此時(shí),SageMaker Model Monitor會(huì)給出報(bào)警提示,需要對(duì)數(shù)據(jù)、參數(shù)或者模型等進(jìn)行調(diào)整。

SageMaker設(shè)計(jì)數(shù)據(jù)處理、訓(xùn)練、推理的全流程,用戶只需邊際調(diào)整自己的代碼即可,作為一個(gè)云上AI開發(fā)平臺(tái),AWS的SageMaker從功能上來講,可以說已經(jīng)非常完備了,真正做到了讓數(shù)據(jù)開發(fā)者專注于開發(fā)這件事本身。

3,用戶價(jià)值,用戶案例體現(xiàn)價(jià)值

2020年5月,AWS宣布Amazon SageMaker在中國(guó)寧夏和北京兩個(gè)區(qū)可用,這是少有一次與全球幾乎同步的產(chǎn)品發(fā)布,事實(shí)上,許多用戶已經(jīng)享受到了SageMaker帶來的價(jià)值。

大宇無限是一家移動(dòng)應(yīng)用開發(fā)的初創(chuàng)企業(yè),主要面向拉美、中東和東南亞等新興市場(chǎng)國(guó)家提供移動(dòng)短視頻服務(wù),由于大宇無限剝離自豌豆莢的海外事業(yè)部,在用戶體驗(yàn)設(shè)計(jì)上有許多積累,主力產(chǎn)品Snaptube在用戶對(duì)視頻的搜索以及下載功能上提供了很好的用戶體驗(yàn),Snaptube月活用戶已突破1億,日活幾千萬。

短視頻熱潮爆發(fā)后,2019年上半年,大宇無限又開發(fā)了一個(gè)叫Zapee的短視頻聚合APP,APP上除了觀看視頻,還能夠去互動(dòng)、分享,深受年輕人喜愛,在2019年11月份,它已經(jīng)突破了百萬的日活。

面對(duì)海量的數(shù)據(jù)與海量的用戶,大宇無限想打造一個(gè)精準(zhǔn)的個(gè)性化內(nèi)容推薦系統(tǒng),但對(duì)于一個(gè)初創(chuàng)企業(yè)來說,在人力和時(shí)間相當(dāng)有限的情況下,要構(gòu)建一個(gè)滿足海量用戶和千萬級(jí)規(guī)模的視頻推薦系統(tǒng),要面臨的挑戰(zhàn)非常大。

大宇無限機(jī)器學(xué)習(xí)技術(shù)總監(jiān)蘇映濱表示:“SageMaker的出現(xiàn),幫我們實(shí)現(xiàn)從0到1的突破。構(gòu)建一個(gè)機(jī)器學(xué)習(xí)平臺(tái)不僅需要非常專業(yè)的人,而且投入的人力、資金和時(shí)間都非常大,對(duì)于大宇無限來說,這不太現(xiàn)實(shí)?!?/p>

蘇映濱還表示,SageMaker的出現(xiàn)極大地簡(jiǎn)化了整個(gè)機(jī)器學(xué)習(xí)的構(gòu)建、訓(xùn)練和部署的流程,而且,SageMaker提供的很多算法優(yōu)化得非常好,基本上可以直接用來做訓(xùn)練,直接調(diào)用接口、設(shè)置參數(shù),基本上幾個(gè)命令完成后,就可以直接部署上線了。

大宇無限在機(jī)器學(xué)習(xí)方面的經(jīng)驗(yàn)并不多,在SageMaker的幫助下,他們用三個(gè)月時(shí)間就完成了整個(gè)系統(tǒng)的搭建。SageMaker不僅幫助大宇無限完成了搭建,而且,在使用過程中還發(fā)現(xiàn)它的訓(xùn)練成本遠(yuǎn)低于自己搭建一套系統(tǒng),據(jù)蘇映濱估計(jì),平均下來能節(jié)省70%的訓(xùn)練成本。

在實(shí)際的機(jī)器學(xué)習(xí)訓(xùn)練過程中,不僅要切換不同算法,還要嘗試不同框架,SageMaker作為一個(gè)機(jī)器學(xué)習(xí)平臺(tái),幫助大宇無限節(jié)省了非常多的時(shí)間和精力,而且,服務(wù)還非常穩(wěn)定,如果要自己搭建一套系統(tǒng),在穩(wěn)定性的運(yùn)維上也是一筆不少的投入。

結(jié)語

AWS首席云計(jì)算企業(yè)戰(zhàn)略顧問張俠博士介紹說,亞馬遜在人工智能、機(jī)器學(xué)習(xí)方面積累非常深厚,目前亞馬遜有數(shù)千名工程師和數(shù)據(jù)科學(xué)家在從事與人工智能有關(guān)的工作,在電商系統(tǒng)各個(gè)環(huán)節(jié),倉(cāng)儲(chǔ)管理、無人機(jī)配送、Amazon Echo智能音響、無人值守便利店Amazon GO等都有機(jī)器學(xué)習(xí)的身影。

AWS把在機(jī)器學(xué)習(xí)方面的經(jīng)驗(yàn)積累包裝成通用的產(chǎn)品和服務(wù),把它提供給別人使用,把機(jī)器學(xué)習(xí)的能力交到每一位創(chuàng)建者的手中,這一做法跟設(shè)立AWS云服務(wù)的路徑如出一轍。

在未來的發(fā)展中,我們相信機(jī)器學(xué)習(xí)將廣泛、深入地改變我們的生活,我們看到SageMaker解決了機(jī)器學(xué)習(xí)中的許多難題,AWS還將繼續(xù)提供更多類似的工具和服務(wù),會(huì)有更多像大宇無限這樣的企業(yè)將受益,而作為普通人,我們也應(yīng)該意識(shí)到SageMaker給了我們一把打開智能時(shí)代的鑰匙。

分享到

zhupb

相關(guān)推薦