上面這張圖就涵蓋了亞馬遜云科技所說的智能湖倉的全部內容,說它簡單是因為看起來很簡單,顧名思義,它包括數據倉庫和數據湖,說它復雜,因為它包含的東西不只是數據倉庫和數據湖。

首先要知道,亞馬遜云科技所說的智能湖倉不是一個具體的技術,它是一系列技術產品組合在一起的技術架構,大體上包括三部分:

第一部分,主要指的是數據存儲系統(tǒng)。這里主要指的是大名鼎鼎的,能存放各種類型、各種規(guī)模數據的Amazon S3對象存儲。配套的還有數據預處理的配套工具Amazon Glue,還有快速構建數據湖的工具Amazon Lake Formation。

第二部分,利用數據、消費數據的各種服務。比如有用于大數據分析的Amazon EMR,用于日志分析的Amazon ElasticSearch,用于商業(yè)智能的專業(yè)工具Amazon QuickInsight,用于實時分析的Amazon Kinesis Data,以及作為機器學習的專業(yè)工具的Amazon SageMaker等。

第三部分指的是用于收集和遷移數據的各種方案,指的是能把數據從各種環(huán)境(包括有網環(huán)境、沒網環(huán)境以及網絡環(huán)境不大好的地方),從各種數據源頭(各種關系型和菲關系型數據庫,數據流)匯聚到數據湖里的各種工具。

亞馬遜云科技智能湖倉有什么技術產品?

上文提到顧凡的介紹讓我聯想到了數據與水的相似之處,最直接的聯想來自這樣一張圖。

圖的中間是數據湖,它是存放數據的地方,除了有S3對象存儲,還有可直接對數據進行交互式查詢的Amazon Athena。

以中間部分的數據湖為中心,外圍有六大數據服務,包括:關系型數據庫Amazon Aurora,非關系型數據庫Amazon DynamoDB,機器學習服務Amazon SageMaker,數據倉庫Amazon Redshift,日志服務Amazon Elasticsearch,大數據服務Amazon EMR。

數據能在外圍流轉,也都能與中間部分的數據湖進行數據交換,相互之間是貫通的。如同許多生態(tài)系統(tǒng)中,動植物相互間有直接或者間接的關聯,以某種形式相互交換信息,而處于不同形態(tài)的數據之間也是相互有聯系的。

比如,當數據倉庫中完成了一次查詢,查詢的結果會存入到數據湖中,存入的數據被機器學習調用后又會生成機器學習模型,從而開展更有價值的業(yè)務。又比如,當實時數據流服務把用戶在網頁的交互數據傳到數據湖之后,用數據倉庫進行分析會得到一份用戶活躍情況報告。

這種不同系統(tǒng)間的相互聯系,不同系統(tǒng)中數據的無縫遷移正是亞馬遜云科技智能湖倉所追求的終極目標,是一件聽起來很簡單但做起來很復雜的事。

亞馬遜云科技智能湖倉架構的五大特點

亞馬遜云科技智能湖倉架構其實并不難想象,難的是具體的實現,在具體實現中,亞馬遜云科技的智能湖倉架構構建了這五大優(yōu)勢:

第一,靈活擴展、安全可靠。這一特點描述的都是亞馬遜云科技的基礎服務的特點,具體指的就是Amazon S3對象存儲,作為亞馬遜云科技的第一個云服務,S3各方面都非常成熟,是業(yè)內最好的標桿,在可靠性、安全性、合規(guī)性、成本優(yōu)化等多個方面一直引領行業(yè)。

第二,專門構建、極致性能。亞馬遜云科技喜歡強調專門構建,強調是為某個場景構建最適合的工具,它往往不是單個工具,而是成體系的一個工具,都是以組合拳的形式出現,各產品間職責劃分明確,定位清晰,用戶選擇的時候不迷惑,用的時候能更順手。

第三,數據融合、統(tǒng)一治理。這一點可以說是智能湖倉架構的靈魂了,包括數據在各點移動和轉化工作,比如提取轉換加載(ETL)之類的操作,比如為數據可視化、為機器學習做準備的各種操作,以及還有數據復制之類的操作等等。

第四,敏捷分析、深度智能。這里提到的是兩個融合,一個是Amazon SageMaker和數據倉庫融合,SageMaker從Amazon Redshift或Amazon S3里直接調取數據,服務于機器學習專家。一個是讓數據倉庫與Amazon SageMaker集成,讓不會機器學習的數據庫工程師和分析師也能訓練機器學習模型。

第五,擁抱開源、開放共贏。與許多云廠商一樣,亞馬遜云科技托管了許多開源項目,同時也反哺開源社區(qū),產品方面遵循開源標準,以標準化API保持與開源生態(tài)的聯系,避免鎖定用戶,降低用戶遷移的代價。

亞馬遜云科技智能湖倉的落地

亞馬遜云科技有豐富全面的工具,過去的半年里,亞馬遜云科技與光環(huán)新網和西云數據合作發(fā)布了近40項數據分析相關服務和特性,包括Amazon Glue 2.0,Amazon Athena 2.0,Amazon Lake formation以及Amazon SageMaker相關的功能特性。

除了產品技術,亞馬遜云科技的專業(yè)服務在用戶側落地環(huán)節(jié)中也至關重要,賦能團隊幫助許多中國企業(yè)完成數據從想法到原型到生產系統(tǒng)的實現過程,市場觀察者Frost Rader認可亞馬遜云科技在中國數據管理解決方案綜合市場中的表現,將其評為2020中國數據管理解決方案市場領導者。

豐田互聯基于亞馬遜云科技搭建靈活可擴展數據湖。豐田車聯網服務把經授權數據通過Amazon Kinesis Data Stream傳到豐田互聯構建的一個超大的數據湖,通過Amazon EMR對整個的數據做ETL的處理后,對數據湖里面的數據做分析,根據駕駛員的使用習慣提供一些安全用車建議,根據駕駛員的駕駛習慣來決定是否在保險費用上作出調整。

亞馬遜云科技助力TCL消除數據孤島并構建數據融合。TCL先是把多個部門的多種不同數據統(tǒng)一匯聚到基于Amazon S3的數據湖里,消除了數據孤島。同時,使用大數據服務Amazon EMR對整個湖里的數據做ETL處理和分析后,把數據加載到數據倉庫Amazon Redshift里來生成報表和分析報告。

亞馬遜云科技幫助德比軟件構建了一套緩存系統(tǒng)。德比軟件一方面收集房客點擊流數據獲知房客期望的房屋概況,一方面獲知酒店房型的狀態(tài),將數據注入到數據湖后,由Amazon EMR完成ETL,然后交給Amazon SageMaker來訓練可以預測房屋情況的模型。德比軟件的系統(tǒng)在預測的基礎上結合實時查詢,從而實現性能和成本的最佳平衡,幫助德比軟件實現降本增效。

結語

在聽顧凡介紹之前,筆者總是感覺數據湖的說法并不陌生,但許多時候并不落地。但從一番介紹中能看到,無論是數據湖還是數據倉庫,又或者是機器學習和商業(yè)智能,亞馬遜云科技幾乎都提供有具體的方案,使得落地的路徑變得清晰可見。

分享到

zhupb

相關推薦