上面這張圖就涵蓋了亞馬遜云科技所說的智能湖倉的全部內(nèi)容,說它簡單是因?yàn)榭雌饋砗芎唵?,顧名思義,它包括數(shù)據(jù)倉庫和數(shù)據(jù)湖,說它復(fù)雜,因?yàn)樗臇|西不只是數(shù)據(jù)倉庫和數(shù)據(jù)湖。

首先要知道,亞馬遜云科技所說的智能湖倉不是一個(gè)具體的技術(shù),它是一系列技術(shù)產(chǎn)品組合在一起的技術(shù)架構(gòu),大體上包括三部分:

第一部分,主要指的是數(shù)據(jù)存儲系統(tǒng)。這里主要指的是大名鼎鼎的,能存放各種類型、各種規(guī)模數(shù)據(jù)的Amazon S3對象存儲。配套的還有數(shù)據(jù)預(yù)處理的配套工具Amazon Glue,還有快速構(gòu)建數(shù)據(jù)湖的工具Amazon Lake Formation。

第二部分,利用數(shù)據(jù)、消費(fèi)數(shù)據(jù)的各種服務(wù)。比如有用于大數(shù)據(jù)分析的Amazon EMR,用于日志分析的Amazon ElasticSearch,用于商業(yè)智能的專業(yè)工具Amazon QuickInsight,用于實(shí)時(shí)分析的Amazon Kinesis Data,以及作為機(jī)器學(xué)習(xí)的專業(yè)工具的Amazon SageMaker等。

第三部分指的是用于收集和遷移數(shù)據(jù)的各種方案,指的是能把數(shù)據(jù)從各種環(huán)境(包括有網(wǎng)環(huán)境、沒網(wǎng)環(huán)境以及網(wǎng)絡(luò)環(huán)境不大好的地方),從各種數(shù)據(jù)源頭(各種關(guān)系型和菲關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)流)匯聚到數(shù)據(jù)湖里的各種工具。

亞馬遜云科技智能湖倉有什么技術(shù)產(chǎn)品?

上文提到顧凡的介紹讓我聯(lián)想到了數(shù)據(jù)與水的相似之處,最直接的聯(lián)想來自這樣一張圖。

圖的中間是數(shù)據(jù)湖,它是存放數(shù)據(jù)的地方,除了有S3對象存儲,還有可直接對數(shù)據(jù)進(jìn)行交互式查詢的Amazon Athena。

以中間部分的數(shù)據(jù)湖為中心,外圍有六大數(shù)據(jù)服務(wù),包括:關(guān)系型數(shù)據(jù)庫Amazon Aurora,非關(guān)系型數(shù)據(jù)庫Amazon DynamoDB,機(jī)器學(xué)習(xí)服務(wù)Amazon SageMaker,數(shù)據(jù)倉庫Amazon Redshift,日志服務(wù)Amazon Elasticsearch,大數(shù)據(jù)服務(wù)Amazon EMR。

數(shù)據(jù)能在外圍流轉(zhuǎn),也都能與中間部分的數(shù)據(jù)湖進(jìn)行數(shù)據(jù)交換,相互之間是貫通的。如同許多生態(tài)系統(tǒng)中,動(dòng)植物相互間有直接或者間接的關(guān)聯(lián),以某種形式相互交換信息,而處于不同形態(tài)的數(shù)據(jù)之間也是相互有聯(lián)系的。

比如,當(dāng)數(shù)據(jù)倉庫中完成了一次查詢,查詢的結(jié)果會存入到數(shù)據(jù)湖中,存入的數(shù)據(jù)被機(jī)器學(xué)習(xí)調(diào)用后又會生成機(jī)器學(xué)習(xí)模型,從而開展更有價(jià)值的業(yè)務(wù)。又比如,當(dāng)實(shí)時(shí)數(shù)據(jù)流服務(wù)把用戶在網(wǎng)頁的交互數(shù)據(jù)傳到數(shù)據(jù)湖之后,用數(shù)據(jù)倉庫進(jìn)行分析會得到一份用戶活躍情況報(bào)告。

這種不同系統(tǒng)間的相互聯(lián)系,不同系統(tǒng)中數(shù)據(jù)的無縫遷移正是亞馬遜云科技智能湖倉所追求的終極目標(biāo),是一件聽起來很簡單但做起來很復(fù)雜的事。

亞馬遜云科技智能湖倉架構(gòu)的五大特點(diǎn)

亞馬遜云科技智能湖倉架構(gòu)其實(shí)并不難想象,難的是具體的實(shí)現(xiàn),在具體實(shí)現(xiàn)中,亞馬遜云科技的智能湖倉架構(gòu)構(gòu)建了這五大優(yōu)勢:

第一,靈活擴(kuò)展、安全可靠。這一特點(diǎn)描述的都是亞馬遜云科技的基礎(chǔ)服務(wù)的特點(diǎn),具體指的就是Amazon S3對象存儲,作為亞馬遜云科技的第一個(gè)云服務(wù),S3各方面都非常成熟,是業(yè)內(nèi)最好的標(biāo)桿,在可靠性、安全性、合規(guī)性、成本優(yōu)化等多個(gè)方面一直引領(lǐng)行業(yè)。

第二,專門構(gòu)建、極致性能。亞馬遜云科技喜歡強(qiáng)調(diào)專門構(gòu)建,強(qiáng)調(diào)是為某個(gè)場景構(gòu)建最適合的工具,它往往不是單個(gè)工具,而是成體系的一個(gè)工具,都是以組合拳的形式出現(xiàn),各產(chǎn)品間職責(zé)劃分明確,定位清晰,用戶選擇的時(shí)候不迷惑,用的時(shí)候能更順手。

第三,數(shù)據(jù)融合、統(tǒng)一治理。這一點(diǎn)可以說是智能湖倉架構(gòu)的靈魂了,包括數(shù)據(jù)在各點(diǎn)移動(dòng)和轉(zhuǎn)化工作,比如提取轉(zhuǎn)換加載(ETL)之類的操作,比如為數(shù)據(jù)可視化、為機(jī)器學(xué)習(xí)做準(zhǔn)備的各種操作,以及還有數(shù)據(jù)復(fù)制之類的操作等等。

第四,敏捷分析、深度智能。這里提到的是兩個(gè)融合,一個(gè)是Amazon SageMaker和數(shù)據(jù)倉庫融合,SageMaker從Amazon Redshift或Amazon S3里直接調(diào)取數(shù)據(jù),服務(wù)于機(jī)器學(xué)習(xí)專家。一個(gè)是讓數(shù)據(jù)倉庫與Amazon SageMaker集成,讓不會機(jī)器學(xué)習(xí)的數(shù)據(jù)庫工程師和分析師也能訓(xùn)練機(jī)器學(xué)習(xí)模型。

第五,擁抱開源、開放共贏。與許多云廠商一樣,亞馬遜云科技托管了許多開源項(xiàng)目,同時(shí)也反哺開源社區(qū),產(chǎn)品方面遵循開源標(biāo)準(zhǔn),以標(biāo)準(zhǔn)化API保持與開源生態(tài)的聯(lián)系,避免鎖定用戶,降低用戶遷移的代價(jià)。

亞馬遜云科技智能湖倉的落地

亞馬遜云科技有豐富全面的工具,過去的半年里,亞馬遜云科技與光環(huán)新網(wǎng)和西云數(shù)據(jù)合作發(fā)布了近40項(xiàng)數(shù)據(jù)分析相關(guān)服務(wù)和特性,包括Amazon Glue 2.0,Amazon Athena 2.0,Amazon Lake formation以及Amazon SageMaker相關(guān)的功能特性。

除了產(chǎn)品技術(shù),亞馬遜云科技的專業(yè)服務(wù)在用戶側(cè)落地環(huán)節(jié)中也至關(guān)重要,賦能團(tuán)隊(duì)幫助許多中國企業(yè)完成數(shù)據(jù)從想法到原型到生產(chǎn)系統(tǒng)的實(shí)現(xiàn)過程,市場觀察者Frost Rader認(rèn)可亞馬遜云科技在中國數(shù)據(jù)管理解決方案綜合市場中的表現(xiàn),將其評為2020中國數(shù)據(jù)管理解決方案市場領(lǐng)導(dǎo)者。

豐田互聯(lián)基于亞馬遜云科技搭建靈活可擴(kuò)展數(shù)據(jù)湖。豐田車聯(lián)網(wǎng)服務(wù)把經(jīng)授權(quán)數(shù)據(jù)通過Amazon Kinesis Data Stream傳到豐田互聯(lián)構(gòu)建的一個(gè)超大的數(shù)據(jù)湖,通過Amazon EMR對整個(gè)的數(shù)據(jù)做ETL的處理后,對數(shù)據(jù)湖里面的數(shù)據(jù)做分析,根據(jù)駕駛員的使用習(xí)慣提供一些安全用車建議,根據(jù)駕駛員的駕駛習(xí)慣來決定是否在保險(xiǎn)費(fèi)用上作出調(diào)整。

亞馬遜云科技助力TCL消除數(shù)據(jù)孤島并構(gòu)建數(shù)據(jù)融合。TCL先是把多個(gè)部門的多種不同數(shù)據(jù)統(tǒng)一匯聚到基于Amazon S3的數(shù)據(jù)湖里,消除了數(shù)據(jù)孤島。同時(shí),使用大數(shù)據(jù)服務(wù)Amazon EMR對整個(gè)湖里的數(shù)據(jù)做ETL處理和分析后,把數(shù)據(jù)加載到數(shù)據(jù)倉庫Amazon Redshift里來生成報(bào)表和分析報(bào)告。

亞馬遜云科技幫助德比軟件構(gòu)建了一套緩存系統(tǒng)。德比軟件一方面收集房客點(diǎn)擊流數(shù)據(jù)獲知房客期望的房屋概況,一方面獲知酒店房型的狀態(tài),將數(shù)據(jù)注入到數(shù)據(jù)湖后,由Amazon EMR完成ETL,然后交給Amazon SageMaker來訓(xùn)練可以預(yù)測房屋情況的模型。德比軟件的系統(tǒng)在預(yù)測的基礎(chǔ)上結(jié)合實(shí)時(shí)查詢,從而實(shí)現(xiàn)性能和成本的最佳平衡,幫助德比軟件實(shí)現(xiàn)降本增效。

結(jié)語

在聽顧凡介紹之前,筆者總是感覺數(shù)據(jù)湖的說法并不陌生,但許多時(shí)候并不落地。但從一番介紹中能看到,無論是數(shù)據(jù)湖還是數(shù)據(jù)倉庫,又或者是機(jī)器學(xué)習(xí)和商業(yè)智能,亞馬遜云科技幾乎都提供有具體的方案,使得落地的路徑變得清晰可見。

分享到

zhupb

相關(guān)推薦