亞馬遜云科技大中華區(qū)產品部總經理 陳曉建解釋了大數(shù)據(jù)和機器學習融合的原因,大數(shù)據(jù)技術的能力是機器學習建模的基礎,同時,機器學習能為大數(shù)據(jù)提供更高的智能,助力業(yè)務產生價值。
從技術角度來看,大數(shù)據(jù)和機器學習的融合確實有必要。
大數(shù)據(jù)側重海量數(shù)據(jù)的采集、清洗、查詢等,而機器學習更看重算法優(yōu)化本身,再好的算法沒有高質量的數(shù)據(jù)支撐也沒什么用。
比如,自然語言處理場景中,一個語氣詞可能會被標注成多個不同語義,如果靠模型來擬合,則會增加模型的復雜度,影響模型精度,而如果通過大數(shù)據(jù)清洗技術加以處理,則有助于機器學習模型的精度,提高機器學習推理的準確度。
同理,僅靠傳統(tǒng)大數(shù)據(jù)技術無法全方位提供充足的數(shù)據(jù)見解,仍需要機器學習的模型能力補充,越來越多的數(shù)據(jù)項目會融合大數(shù)據(jù)和機器學習兩者的能力。
融合面臨的挑戰(zhàn)和應對之道
大數(shù)據(jù)和機器學習的融合主要有三方面的挑戰(zhàn):
一方面,主要是管理的挑戰(zhàn)。在企業(yè)實踐中,大數(shù)據(jù)團隊和機器學習技術團隊經常屬于兩個團隊。同時,企業(yè)普遍存在數(shù)據(jù)孤島的問題,要用的數(shù)據(jù)可能存在于多個不同部門。最后,即使拿到數(shù)據(jù),機器學習專家也很難在短時間內理解數(shù)據(jù)的業(yè)務含義。
另一方面,數(shù)據(jù)處理能力不足的挑戰(zhàn)。好的算法離不開大量業(yè)務數(shù)據(jù)的輸入和處理,需要不斷迭代才能訓練出好的模型,否則便不可能達到預期的業(yè)務目標,這需要機器學習團隊擁有處理海量數(shù)據(jù)的IT技術架構。
第三方面,數(shù)據(jù)分析人員參與度低。許多算法模型在開發(fā)和測試階段表現(xiàn)非常好,但實戰(zhàn)環(huán)節(jié)則有較大落差,究其原因在于,開發(fā)測試只是真實環(huán)境的簡單的模擬,而真實環(huán)境的復雜度會高很多。
三大挑戰(zhàn)之下,大數(shù)據(jù)和機器學習要如何融合呢?
陳曉建給出了一條實現(xiàn)數(shù)智融合的有效途徑,他認為,企業(yè)在云中要打造統(tǒng)一的數(shù)據(jù)基礎底座,以此來實現(xiàn)大數(shù)據(jù)和機器學習的“雙劍合璧”,為企業(yè)發(fā)展提供創(chuàng)新引擎。
數(shù)據(jù)基礎底座的功能主要有三方面,第一個,用來實現(xiàn)數(shù)據(jù)的統(tǒng)一治理,打破各種數(shù)據(jù)孤島;第二個,用統(tǒng)一的權限管理實現(xiàn)數(shù)據(jù)在不同業(yè)務之間的流轉;第三個,具備統(tǒng)一的開發(fā)和流程編排能力,用來提升整體的開發(fā)效率。
陳曉建表示,數(shù)據(jù)基礎底座還應該具備三點素質。第一個,靈活彈性的存儲和計算能力,靈活滿足大量數(shù)據(jù)計算和存儲的需求;第二個,用大數(shù)據(jù)的能力優(yōu)化數(shù)據(jù)質量;第三個,內涵多元的機器學習算法。
另外,陳曉建還提到賦能業(yè)務人員的重要性。他認為,技術研發(fā)人員和業(yè)務人員不應該是割裂的,而應該是合作的關系,而且,很重要的一個趨勢是,要將數(shù)據(jù)技術賦能業(yè)務人員,從而提升業(yè)務響應速度,好的數(shù)據(jù)基礎底座應該提供幫助。
亞馬遜云科技助力企業(yè)實現(xiàn)大數(shù)據(jù)和機器學習融合
亞馬遜云科技大中華區(qū)產品部技術專家團隊總監(jiān) 王曉野介紹了亞馬遜云科技在大數(shù)據(jù)和機器學習融合方面的優(yōu)勢。
首先,打破數(shù)據(jù)和技術孤島方面的優(yōu)勢。數(shù)據(jù)方面,可以用Amazon Lake Formation來實現(xiàn)數(shù)據(jù)的共享和權限控制。技術方面,可同時使用Amazon Athena、Amazon EMR、數(shù)據(jù)倉庫Amazon Redshift、機器學習平臺Amazon SageMaker等來構建統(tǒng)一的技術開發(fā)平臺。
在數(shù)據(jù)處理能力方面,亞馬遜云科技除了有標準的計算存儲服務,其大數(shù)據(jù)平臺有許多都是基于Serverless來構建的,無需管理底層基礎設施即可輕松處理各種規(guī)模的數(shù)據(jù)。而且,旗下的大數(shù)據(jù)和機器學習技術方案有一個最大的特點,就是很齊全。
賦能業(yè)務人員探索創(chuàng)新方面,亞馬遜云科技在盡力降低技術的使用門檻。比如,支持通過自然語言來使用機器學習,提供了可視數(shù)據(jù)準備工具Amazon Glue DataBrew,零代碼化的機器學習模型工具 Amazon SageMaker Canvas等服務,讓業(yè)務人員探索機器學習建模。
王曉野總結了一些企業(yè)在大數(shù)據(jù)和機器學習融合方面的現(xiàn)狀。
一些企業(yè)的機器學習能力誕生于大數(shù)據(jù)團隊,這類企業(yè)喜歡的亞馬遜云科技的Amazon EMR,Amazon EMR與開源框架完全兼容,同時,具備靈活擴展的能力。
另一類企業(yè)則是從機器學習項目開始的,這類企業(yè)最喜歡“智能湖倉”架構里的Amazon SageMaker,用Amazon SageMaker完成從數(shù)據(jù)標記到模型部署推理的全流程。
還有一類企業(yè),當原本沒有技術負擔的時候,也可以充分利用大數(shù)據(jù)與機器學習融合的能力。
淄博熱力是一家傳統(tǒng)的供暖公司,利用亞馬遜云科技端到端大數(shù)據(jù)與機器學習融合的能力,通過采用Amazon Redshift來實現(xiàn)海量數(shù)據(jù)的加工處理,通過Amazon SageMaker統(tǒng)一開發(fā)的入口,實現(xiàn)了快速迭代開發(fā),兩年時間以來,節(jié)省了上千萬成本,客戶投訴量也大大減少。
王曉野還提到了實驗環(huán)境效果和生產環(huán)境效果的問題,他認為這是真實數(shù)據(jù)在規(guī)模和實效性差異引起的,他認為,Amazon Redshift Serverless和Amazon EMR這類Serverless服務會有幫助,它能讓用戶關注于如何使用數(shù)據(jù)分析服務,而不用關心底層基礎設施。
硅谷銀行作為硅谷最大的銀行,為超過三萬家初創(chuàng)企業(yè)提供了種子基金,硅谷銀行從大數(shù)據(jù)入手,先解決了數(shù)據(jù)和技術互融互通的問題。同時,用Amazon SageMaker去替代了傳統(tǒng)機器學習方案,該方案實施一年就節(jié)省了4300萬美元成本。
寶馬集團也實現(xiàn)了大數(shù)據(jù)和機器學習的融合,打破了數(shù)據(jù)和技術孤島,同時,還使用Amazon SageMaker Canvas以及Amazon SageMaker提供的自動機器學習的能力,讓業(yè)務人員能夠自主式的取得數(shù)據(jù),并自助進行機器學習訓練。
IDC中國助理研究總監(jiān)盧言霞表示:“根據(jù)IDC 2022年中國人工智能及自動化市場的十大預測,人工智能將無處不在。到2022年,60%的中國1000強公司將在所有關鍵業(yè)務的橫向職能中擴大使用AI/ML,如營銷、法務、人力資源、采購和供應鏈、物流等。由于機器學習更加依賴算力、算法、數(shù)據(jù),人工智能的快速發(fā)展拉動了對AI基礎數(shù)據(jù)服務的需求,預計在未來幾年內將穩(wěn)步增長。在大數(shù)據(jù)與機器學習領域,亞馬遜云科技提供廣泛而深入的服務,通過云、數(shù)、智深度融合迎合市場需求,能夠降低更多行業(yè)用戶上云用數(shù)賦智的門檻,更好地開展云上數(shù)智融合之旅?!?/p>
我們能看到,部分企業(yè)借助云計算已經實現(xiàn)了大數(shù)據(jù)和機器學習的融合,希望本文對于希望了解和探索大數(shù)據(jù)和機器學習的朋友有所幫助。