據(jù)德勤發(fā)布的《全球人工智能發(fā)展白皮書》預(yù)測,到2025年,世界人工智能市場規(guī)模將超過6萬億美元。

面對數(shù)字經(jīng)濟的發(fā)展機遇,多個國家和地區(qū)已將人工智能列為優(yōu)先發(fā)展的國家戰(zhàn)略。

2020年11月21日,國家工業(yè)信息安全發(fā)展研究中心在《2020人工智能與制造業(yè)融合發(fā)展白皮書》中指出了目前融合存在的諸多難點,其中人才匱乏問題尤為嚴重。而人社部官網(wǎng)的報道中測算,目前我國人工智能人才的缺口超過500萬,國內(nèi)的供求比例為1:10,供需比例嚴重失衡。

德勤發(fā)布的《全球人工智能發(fā)展白皮書》指出,在人工智能眾多的分支領(lǐng)域中,機器學習是人工智能的核心研究領(lǐng)域之一。包括89%的人工智能專利申請和40%人工智能范圍內(nèi)的相關(guān)專利均為機器學習范疇。

AWS是云計算的引領(lǐng)者,也是機器學習的翹楚。面對機器學習這樣一個充滿前途的事業(yè),以及當前嚴重缺乏人才的處境,AWS通過多種方式,采取一系列措施,著重通過技術(shù)創(chuàng)新,為機器學習擴圈。

首次推出開箱即用的工業(yè)領(lǐng)域機器學習解決方案

擴圈舉措之一,是推出開箱即用的解決方案。在re:Invent大會上,AWS發(fā)布了五項用于工業(yè)領(lǐng)域的機器學習服務(wù),分別是Amazon Monitron、Amazon Lookout for Equipment、AWS Panorama一體機、AWS Panorama SDK和Amazon Lookout for Vision。這是AWS首次推出開箱即用的工業(yè)領(lǐng)域機器學習解決方案。

Amazon Monitron和Amazon Lookout for Equipment通過機器學習支持預(yù)測性維護。Amazon Monitron面向沒有建立傳感器網(wǎng)絡(luò)的客戶,提供由傳感器、網(wǎng)關(guān)和機器學習服務(wù)組成的端到端機器監(jiān)控系統(tǒng),檢測異常并預(yù)測何時需要維護工業(yè)設(shè)備。Amazon Lookout for Equipment面向已經(jīng)擁有傳感器、但不希望自己構(gòu)建機器學習模型的客戶,由AWS為其構(gòu)建模型并返回預(yù)測結(jié)果,檢測異常設(shè)備行為。

AWS Panorama通過計算機視覺改善工業(yè)運營和工作場所安全。AWS Panorama一體機是一個硬件設(shè)備,將它連接到工業(yè)場所的網(wǎng)絡(luò)中,它就可以自動識別攝像頭數(shù)據(jù)流,與工業(yè)攝像頭進行交互。AWS Panorama軟件開發(fā)套件(SDK),方便工業(yè)相機制造商在新相機中嵌入計算機視覺功能。

Amazon Lookout for Vision為工業(yè)客戶提供高精度、低成本的產(chǎn)品質(zhì)量異常檢測解決方案。它通過機器學習技術(shù),每小時可以處理數(shù)千張圖像,發(fā)現(xiàn)產(chǎn)品缺陷和異常。客戶可以將攝像頭圖像批量或?qū)崟r發(fā)送到Amazon Lookout for Vision,找出異常,例如機器部件的裂紋、面板上的凹痕、不規(guī)則形狀或產(chǎn)品上的顏色錯誤等。

目前已經(jīng)使用AWS工業(yè)領(lǐng)域機器學習服務(wù)的客戶和合作伙伴包括Axis、凌華科技、BP、德勤、Fender芬達、GE 醫(yī)療和西門子交通等等。

打造包羅萬象的工具箱,賦能每一位AI工作者

擴圈舉措之二,是打造全面豐富的工具集,用顧凡的話說, right tool for the right job(為每一項工作都提供一個趁手的工具)。AWS提供的機器學習工具集包括三個層面。

工具集的底層,面向那些技術(shù)能力超強的客戶,希望將人工智能和機器學習作為自己的核心競爭力。AWS為他們提供強大的算力、全面的算力選擇、豐富的機器學習框架選擇。AWS支持主流的機器學習框架,客戶還可以通過容器部署的方式,自帶機器學習框架;AWS可以提供基于英偉達、英特爾、AMD、賽靈思等芯片廠商的最新處理器的強大算力,同時還通過自主設(shè)計的處理器,極大地降低機器學習的算力成本。

工具集的中間層,面向那些技術(shù)能力較強的客戶,他們有大量的數(shù)據(jù)可以進行機器學習模型訓練,有一定的算法人才,不要花精力管理基礎(chǔ)設(shè)施,專注于自己的應(yīng)用和業(yè)務(wù)創(chuàng)新。AWS的Amazon SageMaker為他們提供了首個全托管的機器學習集成開發(fā)環(huán)境,并為這個開發(fā)環(huán)境不斷增加新功能,從數(shù)據(jù)準備、到模型訓練、參數(shù)調(diào)優(yōu)與模型迭代、到模型部署、模型質(zhì)量監(jiān)控,在整個過程中最大限度地提高他們開展機器學習的效率,降低他們開展機器學習的門檻。

工具集的頂層,面向技術(shù)能力相對薄弱的客戶,他們有一定的數(shù)據(jù),但沒有算法人才,他們希望在業(yè)務(wù)場景中直接引入人工智能。AWS為他們提供開箱即用的人工智能服務(wù),目前已經(jīng)涵蓋機器視覺、語音文字轉(zhuǎn)換、機器對話、文本處理、電商業(yè)務(wù)、客服、企業(yè)內(nèi)信息搜索、開發(fā)與運維、工業(yè)AI等方面。

通過這樣一個全面的工具集,AWS可以覆蓋和賦能所有的人工智能工作者。

拓展到數(shù)據(jù)庫開發(fā)者和數(shù)據(jù)分析師

擴圈舉措之三,是將機器學習拓展到數(shù)據(jù)開發(fā)者和數(shù)據(jù)分析師。數(shù)據(jù)庫開發(fā)者、數(shù)據(jù)分析師這個群體,人數(shù)比機器學習開發(fā)人員群體大得多,他們沒有機器學習的知識和技能,但是不缺少機器學習的想法。于是,AWS將機器學習能力跟數(shù)據(jù)庫進行嫁接,讓數(shù)據(jù)庫開發(fā)者、數(shù)據(jù)分析師沿用數(shù)據(jù)庫查詢的方式,讓他們的機器學習想法落地到業(yè)務(wù)應(yīng)用中。Amazon Aurora是AWS著名的關(guān)系型數(shù)據(jù)庫服務(wù),AWS針對Aurora推出了新功能Amazon Aurora ML。數(shù)據(jù)庫開發(fā)者發(fā)起數(shù)據(jù)庫查詢(SQL)時,只要選擇一個機器學習模型,就會喚醒機器學習服務(wù),Aurora ML自動將查詢結(jié)果交給機器學習模型進行推理,返回結(jié)果。例如,要查詢一個客戶評價是正面還是負面,數(shù)據(jù)庫開發(fā)者只管做數(shù)據(jù)庫查詢、選擇這個模型,返回來的查詢結(jié)果就會自動附加正面或負面判斷。類似地,出海電商想把數(shù)據(jù)庫中的商品信息變成多語種,數(shù)據(jù)庫開發(fā)者只管查詢商品信息、選擇多語種翻譯,返回的結(jié)果就會自動包含商品信息的多語種翻譯。

Amazon Athena是數(shù)據(jù)分析師經(jīng)常用到的服務(wù)。通過這項服務(wù),可以直接從Amazon S3上的對象文件中,利用SQL語句進行數(shù)據(jù)查詢(SQL是結(jié)構(gòu)化查詢語言,原本用于關(guān)系型數(shù)據(jù)查詢,而S3的對象文件不是關(guān)系型數(shù)據(jù))。AWS也推出了新功能Amazon Athena ML,查詢返回的結(jié)果也可以自動附帶機器學習推理的結(jié)果。

Amazon Redshift是云原生的數(shù)據(jù)倉庫。AWS推出的新功能Amazon Redshift ML,甚至把選擇模型這一步省了。舉一個例子,電商領(lǐng)域經(jīng)常會哪些客戶有可能流失,這時你可能并沒有一個模型來判斷什么樣特征的客戶有可能會流失。通過Redshift ML,數(shù)據(jù)分析師只管SQL查詢,Redshift ML可以把數(shù)據(jù)導入S3,然后SageMaker的Autopilot功能結(jié)合。Autopilot是一個自動建模的功能。這樣的Redshift ML可以自動進行數(shù)據(jù)清洗、模型訓練,選擇最優(yōu)的模型進行預(yù)測。

Amazon Neptune是AWS的一個圖數(shù)據(jù)庫,主要用于知識圖譜、身份圖譜、欺詐檢測、推薦引擎、社交關(guān)系、生命科學等場景,用圖的方式表示各個數(shù)據(jù)實體之間的關(guān)系,例如,好友關(guān)系圖。對圖數(shù)據(jù)庫,只是表示出數(shù)據(jù)的相關(guān)性顯然不夠,用戶更需要的是,根據(jù)這些相關(guān)性進行機器學習推理。新功能Neptune ML,就是將圖數(shù)據(jù)庫和機器學習打通,通過機器學習模型去訪圖數(shù)據(jù)庫,進行更精準的預(yù)測。

Amazon QuickSight是AWS的一個商業(yè)智能(BI)服務(wù),可以輕松地調(diào)用各種數(shù)據(jù)進行分析和展現(xiàn)。AWS于2020年5月推出了QuickSight ML新功能,它也跟SageMaker的Autopilot功能進行了結(jié)合,數(shù)據(jù)分析人員可以用它開展欺詐檢測、銷售預(yù)測等工作。

在今年的re:Invent大會上,AWS推出了更酷的機器學習新功能QuickSight Q。通過它,可以用自然語言對數(shù)據(jù)進行提問,獲得想要的數(shù)據(jù)洞察。例如,直接在查詢框中輸入“我們的同比增長率是多少?”幾秒鐘之內(nèi)就可以得到高度準確的答案。如果按以往的方式,需要在模型中預(yù)先定義增長率、更新模型、處理數(shù)據(jù),可能需要幾天甚至幾周時間。

AWS還推出了Amazon Lookout For Metrics,它利用機器學習技術(shù),通過企業(yè)多種數(shù)據(jù)的比對,檢測出數(shù)據(jù)異常。顧凡舉例說,一件商品的售價200元,在某個數(shù)據(jù)源變成了20元。通過Amazon Lookout For Metrics找出這種異常數(shù)據(jù),意義重大。如果是在線銷售中出現(xiàn)這樣的價格錯誤,有可能給企業(yè)帶來巨大的損失。

此外,AWS還發(fā)布了利用機器學習的運維服務(wù)Amazon DevOps Guru,它可以幫助應(yīng)用開發(fā)人員自動檢測運維操作的問題,給出建議補救措施,提高應(yīng)用程序可用性。此前,AWS已經(jīng)推出了Amazon CodeGuru,可以讓開發(fā)人員使用機器學習自動進行代碼審核,并且提供指導和建議。

Amazon SageMaker再添九項新功能,快上加快,簡單再簡單

擴圈舉措之四,大力發(fā)展機器學習的中間力量。如前所述,Amazon SageMaker是面向機器學習開發(fā)者的一個集成開發(fā)環(huán)境,是一項全托管的服務(wù)。它消除了機器學習過程中每個階段的挑戰(zhàn),化繁為簡,使開發(fā)人員和數(shù)據(jù)科學家能夠從根本上更輕松、更快速地構(gòu)建、訓練和部署機器學習模型。Amazon SageMaker的功能也在快速迭代中,過去一年就交付了50多項新功能。在今年的re:Invent大會上,AWS再次發(fā)布9項新功能。

(1) Data Wranger,數(shù)據(jù)特征提取器。Amazon SageMaker Data Wrangler可以簡化機器學習的數(shù)據(jù)準備工作。機器學習訓練中有一個重要的工作,稱為特征工程,就是從不同來源、格式多樣的數(shù)據(jù)提取數(shù)據(jù),形成規(guī)范化的數(shù)據(jù)字段(也稱為特征),作為機器學習模型的輸入,這項工作非常耗時。通過Data Wrangler,客戶可以將各種數(shù)據(jù)存儲中的數(shù)據(jù)一鍵導入。Data Wrangler內(nèi)置了300多個數(shù)據(jù)轉(zhuǎn)換器,讓客戶無需編寫任何代碼,就可以機器學習用到的特征進行規(guī)范化、轉(zhuǎn)換和組合??蛻艨梢酝ㄟ^在SageMaker Studio(首個用于機器學習的端到端集成開發(fā)環(huán)境)中查看這些轉(zhuǎn)換,快速預(yù)覽和檢查這些轉(zhuǎn)換是否符合預(yù)期。

(2) Feature Store,數(shù)據(jù)特征存儲庫。鑒于有大量的特征需要管理,AWS為Amazon SageMaker推出了一項新功能,名為Feature Store。它一個用于更新、檢索和共享機器學習特征的專用庫。通過Data Wrangler把特征設(shè)計出來以后,可以保存在Feature Store 中,以供重復(fù)使用。一組特征會用于不同的模型,被多個開發(fā)人員和數(shù)據(jù)科學家使用,需要有效地跟蹤、管理這些特征,及時更新,保持一致性。模型訓練和利用模型進行推理(也就是實際運用模型),對特征的使用場景也不同。在訓練過程中,模型可以離線、批量地訪問特征,使用時間長。而對于推理,通常只用到特征庫的一部分,不過需要實時訪問,幾毫秒內(nèi)返回預(yù)測結(jié)果。因此,如何特征庫的管理是一件復(fù)雜的事兒,F(xiàn)eature Store就用于解決這些問題。

(3) Pipelines,自動化工作流。跟傳統(tǒng)編程一樣,編排和自動化可以提高機器學習的效率。Amazon SageMaker Pipelines是第一個專為機器學習構(gòu)建的、方便易用的CI/CD(持續(xù)集成和持續(xù)交付)服務(wù)。

(4) Clarify,模型偏差檢測。通過Amazon SageMaker Clarify,開發(fā)人員可以方便地檢測整個機器學習工作流中的統(tǒng)計偏差,為機器學習模型所做的預(yù)測做出解釋,識別偏差,清晰描述可能的偏差來源及其嚴重程度,指導開發(fā)人員采取措施減小偏差。

(5) Deep Profiling for Amazon SageMaker Debugger,對模型訓練進行剖析。通過Deep Profiling,能夠自動監(jiān)控系統(tǒng)資源利用率,例如 GPU、CPU、網(wǎng)絡(luò)吞吐量和內(nèi)存 I/O,對訓練過程中的資源瓶頸進行告警,讓開發(fā)者及時調(diào)度資源,更快地訓練模型。

(6-7) Distributed Training,大型復(fù)雜深度學習模型的分布式訓練。AWS提供了兩種方法,模型訓練拆分到幾百、幾千個CPU上進行。一個是數(shù)據(jù)并行引擎,對數(shù)據(jù)集進行拆分。一個是模型并行引擎,自動剖析、識別分割模型的最佳方式,在多個 GPU上高效分割具有幾十億參數(shù)的大型復(fù)雜模型。通過對訓練進行拆分,Amazon SageMaker可以將訓練大型復(fù)雜深度學習模型的速度比當前的方法快兩倍。

(8) Edge Manager,邊緣端模型質(zhì)量監(jiān)控和管理。Amazon SageMaker Edge Manager 可以幫助開發(fā)人員優(yōu)化、保護、監(jiān)控和維護部署在邊緣設(shè)備集群上的機器學習模型。模型部署到邊緣設(shè)備以后,仍然需要管理和監(jiān)控模型,確保它們持續(xù)以高精度運行。當模型的準確性隨著時間的推移而下降時,開發(fā)人員可以重新訓練模型,不斷提高模型的質(zhì)量。

(9) JumpStart,快捷起步工具。通過Amazon SageMaker JumpStart,客戶可以快速找到跟自己類似的機器學習場景相關(guān)信息。新手開發(fā)人員可以從多個完整的解決方案進行選擇,例如欺詐檢測、客戶流失預(yù)測或時序預(yù)測,直接部署到自己的Amazon SageMaker Studio環(huán)境中。有一些經(jīng)驗的用戶則可以從100多個機器學習模型中選擇,快速開始模型構(gòu)建和訓練。

不斷豐富的新功能,讓Amazon SageMaker備受客戶歡迎。它推出短短三年時間,已經(jīng)有幾萬家客戶在使用,包括3M、ADP、阿斯利康、Avis、拜耳、Bundesliga、Capital One、Cerner、Chick-fil-A、Convoy、達美樂比薩、富達投資、GE醫(yī)療、Georgia-Pacific、赫斯特、iFood、iHeartMedia、摩根大通、Intuit、聯(lián)想、Lyft、國家橄欖球聯(lián)盟、Nerdwallet、T-Mobile、湯森路透、Vanguard等等。

AWS的系列擴圈之舉,背后是AWS對機器學習的雄心。Swami說,15年前他研究生畢業(yè),有幸進入AWS開始云計算事業(yè)。如今可以毫無不夸張地說,云計算釋放出巨大的力量,幫助各種創(chuàng)業(yè)公司和成熟企業(yè)取得了巨大的成功。機器學習目前就處于那樣的早期階段。我們從Swami的字里行間可以讀出,機器學習就是AWS的下一個金礦。

分享到

zhupb

相關(guān)推薦