傳統(tǒng)數(shù)倉存儲的數(shù)據(jù)類型,主要是以關(guān)系型數(shù)據(jù)庫組織起來的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)通過轉(zhuǎn)換、整合以及清理,導(dǎo)入到目標(biāo)表中。在數(shù)倉中,數(shù)據(jù)存儲的結(jié)構(gòu)與其定義的schema是強匹配的。針對實時數(shù)據(jù)處理,非結(jié)構(gòu)化數(shù)據(jù)處理能力較弱,以及在數(shù)據(jù)量支持方面相對有限。
第二階段:數(shù)據(jù)湖
數(shù)據(jù)湖是一種不斷演進中、可擴展的大數(shù)據(jù)存儲、處理、分析的基礎(chǔ)設(shè)施,它就像一個大型倉庫存儲企業(yè)多樣化原始數(shù)據(jù)以數(shù)據(jù)為導(dǎo)向,實現(xiàn)任意來源、任意速度、任意規(guī)模、任意類型數(shù)據(jù)的全量獲取、全量存儲、多模式處理與全生命周期管理。擁有強大的信息處理能力和處理幾乎無限的并發(fā)任務(wù)或工作的能力。
數(shù)據(jù)湖從企業(yè)的多個數(shù)據(jù)源獲取原始數(shù)據(jù),數(shù)據(jù)可能是任意類型的信息,從結(jié)構(gòu)化數(shù)據(jù)到完全非結(jié)構(gòu)化數(shù)據(jù),并通過與各類外部異構(gòu)數(shù)據(jù)源的交互集成,支持各類企業(yè)級應(yīng)用。結(jié)合先進的數(shù)據(jù)科學(xué)與機器學(xué)習(xí)技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運營模型,也能為企業(yè)提供其他能力,如預(yù)測分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長。
數(shù)據(jù)湖與數(shù)倉的區(qū)別:
在儲存方面上:數(shù)據(jù)湖中的數(shù)據(jù)為非結(jié)構(gòu)化的,所有數(shù)據(jù)都保持原始形式僅在分析時再進行轉(zhuǎn)換。數(shù)據(jù)倉庫就是數(shù)據(jù)通常從事務(wù)系統(tǒng)中提取。在將數(shù)據(jù)加載到數(shù)據(jù)倉庫之前,會對數(shù)據(jù)進行清理與轉(zhuǎn)換。
在數(shù)據(jù)抓取中:數(shù)據(jù)湖捕獲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)倉庫則只捕獲結(jié)構(gòu)化數(shù)據(jù)并將其按模式組織。數(shù)據(jù)湖的目的是非常適合深入分析的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)科學(xué)家可能會用具有預(yù)測建模和統(tǒng)計分析等功能的高級分析工具。而數(shù)據(jù)倉庫就非常適用于BI分析等操作用途,因為它具有高度結(jié)構(gòu)化。
第三階段:KeenDataLakeHouse(湖倉一體)
KeenData LakeHouse架構(gòu)成為當(dāng)下架構(gòu)演進最熱的趨勢,將數(shù)據(jù)倉庫的高性能與管理能力與數(shù)據(jù)湖的靈活性相互融合。
企業(yè)創(chuàng)建數(shù)據(jù)倉庫來支持商業(yè)智能,主要場景包括編制報表、發(fā)布下游數(shù)據(jù)集市(Data Marts),以及支持自助式商業(yè)智能等。數(shù)據(jù)湖來自于數(shù)據(jù)科學(xué)對數(shù)據(jù)的探索,主要場景包括通過快速實驗創(chuàng)建和檢驗假設(shè),以及利用半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)等。
KeenData LakeHouse的最佳實踐是基于存算分離架構(gòu)來構(gòu)建。存算分離最大的問題在于網(wǎng)絡(luò),特別是對于高頻訪問的數(shù)倉數(shù)據(jù),網(wǎng)絡(luò)性能至關(guān)重要。實現(xiàn)Lakehouse 的可選方案很多,比如Delta,Hudi,Iceberg。雖然三者側(cè)重點有所不同,但是都具備數(shù)據(jù)湖通用的一些功能,比如:統(tǒng)一元數(shù)據(jù)管理、支持多元分析引擎、支持高階分析和計算存儲分離。
如上圖所示:藍(lán)色數(shù)據(jù)流是離線數(shù)據(jù)流。實現(xiàn)離線數(shù)據(jù)湖能力,數(shù)據(jù)通過批量集成,存儲到Hudi,再通過Spark進行加工。紅色數(shù)據(jù)流是實時流。數(shù)據(jù)通過CDC實時捕獲,通過Flink實時寫入Hudi;通過Redis做變量緩存,以實現(xiàn)實時數(shù)據(jù)加工處理,之后送到諸如Clickhouse 、Redis、Hbase等專題集市里對外提供服務(wù)。
KeenData LakeHouse有了自己的角色和定位,但是一項技術(shù)的發(fā)展壯大還不能就此停止,它還必須在完善自身功能的基礎(chǔ)上去解決因為它的出現(xiàn)而導(dǎo)致的善后問題以及它出現(xiàn)之前的歷史遺留問題,只有這樣,它才能被真正廣泛接受。比如對于已有的系統(tǒng),特別是企業(yè)已經(jīng)存在的龐大規(guī)模的基于HDFS存儲的數(shù)據(jù)倉庫和基于MPP架構(gòu)的實時數(shù)據(jù)倉庫系統(tǒng),如何按照KeenData LakeHouse架構(gòu)來實行?
二、KeenDataLakeHouse湖倉一體敏捷數(shù)據(jù)平臺
基于企業(yè)內(nèi)的這些場景,科杰大數(shù)據(jù)總結(jié)十余年企業(yè)級大數(shù)據(jù)工作開展經(jīng)驗,融合數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)勢,不斷優(yōu)化數(shù)據(jù)架構(gòu),升級為統(tǒng)一數(shù)據(jù)采集層(離線、實時)、計算中心(離線、實時、機器學(xué)習(xí))、服務(wù)發(fā)布中心的KeenData LakeHouse湖倉一體敏捷數(shù)據(jù)平臺。
新架構(gòu)設(shè)計在具備數(shù)據(jù)湖開放文件存儲靈活性的同時兼具數(shù)據(jù)倉庫的使用效率,非常適合大規(guī)模下的數(shù)據(jù)集成、標(biāo)準(zhǔn)化、資產(chǎn)化以及數(shù)據(jù)安全管理的需求。
KeenDataLakeHouse湖倉一體敏捷數(shù)據(jù)平臺具備5大能力:
1、統(tǒng)一數(shù)據(jù)集成,全界面化的數(shù)據(jù)集成能力
提供多種數(shù)據(jù)抽取方式,將生產(chǎn)中大量結(jié)構(gòu)化和非結(jié)構(gòu)化的離線、實時數(shù)據(jù)抽取到數(shù)據(jù)倉庫,實現(xiàn)數(shù)據(jù)匯聚為數(shù)據(jù)的資產(chǎn)化和標(biāo)準(zhǔn)化提供數(shù)據(jù)基礎(chǔ)。
2、打通元數(shù)據(jù),提供集團統(tǒng)一的元數(shù)據(jù)管理能力
提供數(shù)據(jù)庫元數(shù)據(jù)管理功能,實現(xiàn)各種數(shù)據(jù)庫和數(shù)倉的元數(shù)據(jù)無縫打通和統(tǒng)一管理;科杰湖倉一體敏捷數(shù)據(jù)平臺將HiveMetaStore 中 database 映射為平臺內(nèi)的的Rowdata,對 Hive Database 的改動會實時反應(yīng)在這個Rowdata中,實現(xiàn)lake+house一體化存儲訪問功能。
3、對不同存儲的數(shù)據(jù)提供統(tǒng)一的開發(fā)管理能力
提供多引擎計算能力,支持將多個數(shù)據(jù)存儲內(nèi)的數(shù)據(jù)通過HQL、Spark、MR、shell等開發(fā)任務(wù),進行統(tǒng)一開發(fā)、智能調(diào)度、數(shù)據(jù)治理和任務(wù)管理能力;同時提供跨團隊大規(guī)模項目的協(xié)同開發(fā)能力,極大的提升開發(fā)效率。
4、一站式、全托管、云原生智能化的敏捷數(shù)據(jù)平臺能力
提供全可視化任務(wù)開發(fā)配置功能,智能解析任務(wù)依賴,并在數(shù)據(jù)處理的全流程提供數(shù)據(jù)質(zhì)量和標(biāo)準(zhǔn)管理,在數(shù)據(jù)從產(chǎn)生到消費的全生命周期自動沉淀數(shù)據(jù)資產(chǎn)。
5、企業(yè)級高性能、穩(wěn)定性、可靠性
平臺云原生架構(gòu),系統(tǒng)基于模塊化、組件化、服務(wù)化構(gòu)建,支持存儲、服務(wù)、計算彈性伸縮。當(dāng)部分設(shè)備發(fā)生故障時,仍可正常運行,滿足企業(yè)對系統(tǒng)可用性的要求,可達99.99%以上。
三、KeenDataLakeHouse敏捷數(shù)據(jù)平臺的落地應(yīng)用
科杰大數(shù)據(jù)服務(wù)某能源企業(yè),構(gòu)建湖倉一體架構(gòu)的敏捷數(shù)據(jù)平臺。根據(jù)該能源企業(yè)的業(yè)務(wù)發(fā)展目標(biāo),結(jié)合數(shù)據(jù)平臺建設(shè)的實際業(yè)務(wù)要求,面向能源開發(fā)全域數(shù)據(jù)內(nèi)容,覆蓋數(shù)據(jù)處理全過程,搭建大數(shù)據(jù)基礎(chǔ)設(shè)施,建設(shè)統(tǒng)一數(shù)據(jù)管理與服務(wù)體系能力。通過數(shù)據(jù)匯聚、標(biāo)準(zhǔn)化、治理、ETL處理等過程,形成高可用的數(shù)據(jù)資產(chǎn),實現(xiàn)數(shù)據(jù)資產(chǎn)的服務(wù)化。同時,運用有效數(shù)據(jù)管理機制,有效管理和提升數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全,實現(xiàn)數(shù)據(jù)資產(chǎn)的自動沉降更新。
湖倉一體的敏捷數(shù)據(jù)平臺使該客戶在人效方面、數(shù)據(jù)建設(shè)及使用效率方面以及大規(guī)模業(yè)務(wù)智能落地方面均有明顯的改善和提升。
1、企業(yè)人效方面的提升
相較于傳統(tǒng)的大數(shù)據(jù)基礎(chǔ)平臺,單點重復(fù)式的煙囪開發(fā)建設(shè)到基于敏捷數(shù)據(jù)平臺數(shù)據(jù)資產(chǎn)之上進行高度復(fù)用的協(xié)同開發(fā),整體開發(fā)模式和研發(fā)效率是質(zhì)的改變,大大提升人效。
其次,從數(shù)據(jù)開發(fā)人員方向上,傳統(tǒng)的大數(shù)據(jù)研發(fā)對開發(fā)人員會有一定的技術(shù)壁壘,門檻較高,科杰提供的湖倉一體敏捷數(shù)據(jù)平臺,讓更多的人員在綜合安全管理管控的情況下使用平臺進行自助分析和開發(fā),提高數(shù)據(jù)在企業(yè)內(nèi)流轉(zhuǎn)和使用效率。
2、企業(yè)數(shù)據(jù)建設(shè)及使用效率的提升
相較于傳統(tǒng)大數(shù)據(jù)基礎(chǔ)平臺,湖倉一體的敏捷數(shù)據(jù)平臺實現(xiàn)存算一體的升級和迭代,進行數(shù)據(jù)全鏈路血緣關(guān)系數(shù)據(jù)資產(chǎn)沉淀,形成統(tǒng)一公司內(nèi)數(shù)據(jù)門戶,大大提升企業(yè)數(shù)據(jù)資產(chǎn)的使用效率。
3、全面支撐企業(yè)未來大規(guī)模業(yè)務(wù)智能落地
湖倉一體的敏捷數(shù)據(jù)平臺是一套企業(yè)級的大數(shù)據(jù)&AI基礎(chǔ)設(shè)施,幫助企業(yè)建立數(shù)據(jù)資產(chǎn)、實現(xiàn)數(shù)據(jù)業(yè)務(wù)化、進而推進全線業(yè)務(wù)智能化,實現(xiàn)數(shù)據(jù)驅(qū)動下的企業(yè)數(shù)據(jù)智能創(chuàng)新,全面支撐企業(yè)未來大規(guī)模業(yè)務(wù)智能落地。
結(jié)語:
20年的大數(shù)據(jù)發(fā)展,讓我們看到了數(shù)據(jù)湖與數(shù)據(jù)倉庫的不斷創(chuàng)新與發(fā)展,也看到了湖倉一體化的技術(shù)架構(gòu)為企業(yè)數(shù)據(jù)能力帶來的提升。特別是云原生+大數(shù)據(jù)的時代,湖倉一體更能發(fā)揮出數(shù)據(jù)湖的靈活性與生態(tài)豐富性,以及數(shù)據(jù)倉庫的成長性與企業(yè)級能力。
未來,基于湖倉一體的數(shù)據(jù)架構(gòu)應(yīng)用將迎來爆發(fā),以創(chuàng)造數(shù)據(jù)價值為核心目標(biāo),以技術(shù)驅(qū)動產(chǎn)品創(chuàng)新升級,推動大規(guī)模數(shù)據(jù)智能化落地,將成為數(shù)字化轉(zhuǎn)型的一片“新藍(lán)?!?。