央國(guó)企數(shù)字化轉(zhuǎn)型正式進(jìn)入深水區(qū)。

近日,國(guó)資委明確表示,要加快構(gòu)建“1+98+X”國(guó)資央企大數(shù)據(jù)體系,全面增強(qiáng)國(guó)資央企用數(shù)能力。其中,“1”是國(guó)資央企大數(shù)據(jù)平臺(tái), “98”即98戶中央企業(yè)自建的數(shù)據(jù)平臺(tái),“X”是指國(guó)資委組建的國(guó)內(nèi)領(lǐng)域的大數(shù)據(jù)平臺(tái)。

實(shí)際上,構(gòu)建底層大數(shù)據(jù)基礎(chǔ)平臺(tái)已成大勢(shì)所趨。從數(shù)據(jù)資產(chǎn)管理出發(fā),首先得從底層把數(shù)據(jù)“存”起來(lái),再進(jìn)行數(shù)據(jù)管理,最后實(shí)現(xiàn)數(shù)據(jù)的有效利用。

然而,現(xiàn)實(shí)情況是我們的數(shù)據(jù)量雖然不小,但真正有效利用的比例非常小。如何通過(guò)數(shù)據(jù)智能化平臺(tái)建設(shè),讓數(shù)據(jù)成為有效數(shù)據(jù),發(fā)揮數(shù)據(jù)價(jià)值,各個(gè)領(lǐng)域尤其是大型集團(tuán)企業(yè)開(kāi)始爭(zhēng)相發(fā)力。

為何必須構(gòu)建湖倉(cāng)一體數(shù)據(jù)平臺(tái)?

湖倉(cāng)一體作為新一代數(shù)據(jù)智能技術(shù),為企業(yè)的數(shù)據(jù)平臺(tái)建設(shè)提供了最佳可能。

IDC數(shù)據(jù)研究預(yù)測(cè):到2026 年,非結(jié)構(gòu)化數(shù)據(jù)預(yù)計(jì)將占IDC全球數(shù)據(jù)圈中90%以上的數(shù)據(jù)。也就是說(shuō),在過(guò)去的數(shù)據(jù)量以及數(shù)據(jù)狀態(tài)下,企業(yè)還能靠煙囪式架構(gòu)或者技術(shù)堆棧式服務(wù)來(lái)支撐業(yè)務(wù)發(fā)展,但隨著大量的視頻、圖片、文件等非結(jié)構(gòu)化數(shù)據(jù)走向?qū)嶋H業(yè)務(wù)場(chǎng)景,其數(shù)據(jù)規(guī)模和復(fù)雜度就超越了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)管理范圍。

為了快速響應(yīng)業(yè)務(wù)需求,構(gòu)建實(shí)時(shí)數(shù)據(jù)處理能力,企業(yè)必須進(jìn)行平臺(tái)架構(gòu)的提升,解決好海量數(shù)據(jù)的高并發(fā)和實(shí)時(shí)處理要求。但問(wèn)題是為什么要構(gòu)建“湖倉(cāng)一體平臺(tái)”?答案只有一個(gè),那就是大數(shù)據(jù)技術(shù)不斷演進(jìn)的結(jié)果。

早期,企業(yè)大多建設(shè)的是以關(guān)系模型為主的數(shù)據(jù)倉(cāng)庫(kù),如NewSQL具備可擴(kuò)展性、且支持ACID等優(yōu)勢(shì)。再之后,面向在線分析處理OLAP的組織級(jí)數(shù)據(jù)資源管理成為一股新興力量,底層的技術(shù)架構(gòu)也從關(guān)系模型為主的數(shù)據(jù)倉(cāng)庫(kù)演化到跨模態(tài)的數(shù)據(jù)湖倉(cāng)一體化平臺(tái)。

1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對(duì)數(shù)據(jù)庫(kù)查詢分析的需要。1999年,Oracle發(fā)布其數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品,標(biāo)志著數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)成為關(guān)系模型下OLAP的主流技術(shù)產(chǎn)品。2011年,谷歌 BigQuery發(fā)布后,代表數(shù)據(jù)倉(cāng)庫(kù)進(jìn)入云時(shí)代,SQL數(shù)據(jù)庫(kù)和以MapReduce并行處理模式的發(fā)展,提升了數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用效果。2010年,美國(guó)商業(yè)數(shù)據(jù)分析工具企業(yè)Pentaho提出數(shù)據(jù)湖概念,將數(shù)據(jù)資源管理的范圍,從關(guān)系型數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)(行和列),擴(kuò)展到半結(jié)構(gòu)化數(shù)據(jù)(CSV、日志、XML、JSON)和二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻)。2020年,Databricks提出Lakehouse湖倉(cāng)一體概念,將數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的優(yōu)勢(shì)結(jié)合,進(jìn)一步提升了數(shù)據(jù)質(zhì)量和性能,降低了成本。

回歸到央國(guó)企技術(shù)需求,從數(shù)據(jù)倉(cāng)庫(kù)演化到跨模態(tài)的數(shù)據(jù)湖倉(cāng)一體化平臺(tái),也是必然趨勢(shì)。在數(shù)據(jù)量小、數(shù)據(jù)清晰的業(yè)務(wù)模式下,企業(yè)通過(guò)數(shù)據(jù)倉(cāng)庫(kù)處理較小規(guī)模的精煉關(guān)系數(shù)據(jù),且模型統(tǒng)一,分析能力強(qiáng),更容易生成商業(yè)智能報(bào)告等;數(shù)據(jù)湖則可以處理超大規(guī)模、多模態(tài)、異構(gòu)原始數(shù)據(jù),可以低成本地統(tǒng)一數(shù)據(jù)存儲(chǔ)池,支持簡(jiǎn)單的數(shù)據(jù)分析。

湖倉(cāng)一體之所以更勝一籌,是因?yàn)榭梢匀诤蠑?shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖優(yōu)勢(shì),底層多種數(shù)據(jù)模型并存,支持異構(gòu)數(shù)據(jù)的實(shí)時(shí)查詢和分析,流數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等。尤其當(dāng)企業(yè)的實(shí)時(shí)數(shù)據(jù)處理需求增多,湖倉(cāng)一體的優(yōu)勢(shì)逐漸突顯。有數(shù)據(jù)統(tǒng)計(jì),隨著5G和物聯(lián)網(wǎng)等技術(shù)的發(fā)展,全球數(shù)據(jù)規(guī)模逐漸增大,其中實(shí)時(shí)數(shù)據(jù)的比例到2025年預(yù)計(jì)將達(dá)到30%。

而且,當(dāng)企業(yè)數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),并行發(fā)展成第一要?jiǎng)?wù),企業(yè)需要根據(jù)處理需求的不同,同時(shí)處理不同的數(shù)據(jù),應(yīng)對(duì)多種不同的并行計(jì)算模型,包括:批處理、流處理、混合處理、圖處理。在實(shí)際應(yīng)用場(chǎng)景中,往往需要同時(shí)支持多種處理模式,既有批處理,也有流處理需求,但構(gòu)建兩套獨(dú)立的系統(tǒng)難協(xié)調(diào),資源利用率低,采用Lambda架構(gòu)系統(tǒng)復(fù)雜,難部署。而湖倉(cāng)一體架構(gòu)可以海納百川,不管是小規(guī)模、低維、單源單模態(tài)的數(shù)據(jù)處理,還是海量、高維多源多模態(tài)的實(shí)時(shí)數(shù)據(jù)處理,都能在一套平臺(tái)體系下搞定。

多湖多租戶場(chǎng)景下的湖倉(cāng)一體技術(shù)實(shí)踐

不過(guò),相對(duì)單一湖倉(cāng)單一租戶場(chǎng)景,大型集團(tuán)企業(yè)通常分總部、子公司,業(yè)務(wù)也有多部門(mén),要面對(duì)的最大挑戰(zhàn)是多湖多租戶場(chǎng)景,這帶來(lái)一系列新的挑戰(zhàn):

第一,維護(hù)成本高。在多湖多租戶場(chǎng)景下,系統(tǒng)需要支持多個(gè)湖倉(cāng)實(shí)例和多個(gè)租戶,這意味著需要更多的資源來(lái)維護(hù)和管理這些實(shí)例和租戶。

第二,安全需求高。大型集團(tuán)企業(yè)通常處理的是敏感數(shù)據(jù),數(shù)據(jù)安全和隔離將變得尤為重要。系統(tǒng)需要具備更強(qiáng)的數(shù)據(jù)保護(hù)措施,包括數(shù)據(jù)加密、訪問(wèn)控制、審計(jì)等技術(shù),以確保不同湖倉(cāng)實(shí)例和租戶之間的數(shù)據(jù)不會(huì)被泄露或者干擾。

第三,數(shù)據(jù)管理難度大。數(shù)據(jù)資源分布在不同的湖倉(cāng)實(shí)例和租戶之中,每個(gè)湖倉(cāng)實(shí)例和租戶都有自己獨(dú)立的數(shù)據(jù)模型和元數(shù)據(jù)管理方式,以確保不同湖倉(cāng)實(shí)例和租戶之間的數(shù)據(jù)能夠正確地進(jìn)行交互和整合。

第四,需要更高的技術(shù)水平。央國(guó)企通常有更高的技術(shù)標(biāo)準(zhǔn)和安全需求,需要更高的技術(shù)水平來(lái)搭建和維護(hù)系統(tǒng),這涉及到更高級(jí)的技術(shù)領(lǐng)域,例如分布式系統(tǒng)、網(wǎng)絡(luò)安全、數(shù)據(jù)加密等。

面對(duì)這一新的場(chǎng)景需求,分布式數(shù)據(jù)湖技術(shù)方案提供了新的解決思路,既可管理海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),同時(shí)又可以通過(guò)數(shù)據(jù)目錄授權(quán)共享的方式實(shí)現(xiàn)跨湖查詢,支持更多樣化、更快速的數(shù)據(jù)分析需求。

具體來(lái)看,分布式數(shù)據(jù)湖可以支持海量數(shù)據(jù)的存儲(chǔ)和處理,能夠滿足不同規(guī)模、不同類(lèi)型的數(shù)據(jù)需求;具有高度靈活性,可根據(jù)具體情況進(jìn)行部署和擴(kuò)展,支持多語(yǔ)言、多框架的應(yīng)用;強(qiáng)調(diào)數(shù)據(jù)的自描述性和元數(shù)據(jù)管理,使數(shù)據(jù)更易于理解、管理和利用。

以滴普科技實(shí)時(shí)湖倉(cāng)平臺(tái)FastData為例,主要提供了分布式數(shù)據(jù)湖+統(tǒng)一Catalog管理的思路,它可以實(shí)現(xiàn)多種數(shù)據(jù)源和數(shù)據(jù)湖的統(tǒng)一,核心能力包含:

提供物理湖(租戶)/邏輯湖/項(xiàng)目空間的多級(jí)靈活設(shè)計(jì),滿足了復(fù)雜的業(yè)務(wù)場(chǎng)景

統(tǒng)一Catalog管理能力,連接數(shù)據(jù)孤島,統(tǒng)一數(shù)據(jù)語(yǔ)義,提供統(tǒng)一權(quán)限管控能力

統(tǒng)一SQL引擎,滿足查詢加速、聯(lián)邦查詢和數(shù)據(jù)處理的需求

特別是基于DLink Mesh能力擴(kuò)展支持多級(jí)分布式數(shù)據(jù)湖架構(gòu),連接多個(gè)數(shù)據(jù)孤島實(shí)現(xiàn)多湖管理,并具備統(tǒng)一的多租戶權(quán)限和安全管控機(jī)制,實(shí)現(xiàn)加速查詢和聯(lián)邦數(shù)據(jù)分析。在滴普科技看來(lái),構(gòu)建多級(jí)數(shù)據(jù)湖的重點(diǎn),就是以物理或者邏輯的方式實(shí)現(xiàn)租戶間的元數(shù)據(jù)隔離,同時(shí)還能保持元數(shù)據(jù)在權(quán)限控制下的分享和互通,而FastData基于物理湖(多租戶)/邏輯湖/項(xiàng)目空間的多級(jí)靈活設(shè)計(jì),滿足多業(yè)務(wù)層級(jí)下的跨域數(shù)據(jù)湖使用需求。

湖倉(cāng)一體數(shù)據(jù)技術(shù)架構(gòu)帶來(lái)更多可能

放眼未來(lái),滿足大型集團(tuán)企業(yè)數(shù)據(jù)智能化需求的新一代大數(shù)據(jù)平臺(tái),還需覆蓋幾個(gè)關(guān)鍵能力:

1、事務(wù)支持

Lakehouse在企業(yè)級(jí)應(yīng)用中,許多數(shù)據(jù)管道通常會(huì)同時(shí)讀取和寫(xiě)入數(shù)據(jù)。通常多方同時(shí)使用SQL讀取或?qū)懭霐?shù)據(jù),Lakehouse保證支持ACID事務(wù)的一致性。

2、模式實(shí)施和治理

Lakehouse應(yīng)該有一種支持模式實(shí)施和演變的方法,支持DW模式規(guī)范,例如star/snowflake-schemas。該系統(tǒng)應(yīng)該能夠推理數(shù)據(jù)完整性,并且應(yīng)該具有健壯的治理和審核機(jī)制。

3、BI支持

Lakehouse可以直接在源數(shù)據(jù)上使用BI工具。這樣可以減少延遲,提升數(shù)據(jù)實(shí)時(shí)性,并且降低必須在數(shù)據(jù)湖和倉(cāng)庫(kù)中操作兩個(gè)數(shù)據(jù)副本的成本。

4、存儲(chǔ)與計(jì)算分離

事實(shí)上,這意味著存儲(chǔ)和計(jì)算使用單獨(dú)的群集,因此這些系統(tǒng)能夠擴(kuò)展到更多并發(fā)用戶和更大數(shù)據(jù)量。

5、兼容性

Lakehouse使用的存儲(chǔ)格式滿足開(kāi)放和標(biāo)準(zhǔn)化需求,例如Parquet,并且它提供了多種API,包括機(jī)器學(xué)習(xí)和Python/R庫(kù),因此各種工具和引擎都可以直接有效地訪問(wèn)數(shù)據(jù),并且支持從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的多種數(shù)據(jù)類(lèi)型。

就目前來(lái)看,國(guó)內(nèi)外各大廠商都已經(jīng)在重兵部署“湖倉(cāng)一體”技術(shù)方案,如亞馬遜云科技的Redshift Spectrum、微軟的Azure Data Lake、Databricks、華為云的FusionInsight、滴普科技的FastData等,并賦能各行業(yè)數(shù)據(jù)平臺(tái)建設(shè)。

作為湖倉(cāng)一體數(shù)據(jù)智能基礎(chǔ)軟件獨(dú)角獸,滴普科技憑借新一代湖倉(cāng)一體、流批一體優(yōu)勢(shì),為諸多央國(guó)企提供了數(shù)據(jù)平臺(tái)建設(shè)方案。以某能源集團(tuán)為例,該集團(tuán)是以油氣業(yè)務(wù)、工程技術(shù)服務(wù)、石油工程建設(shè)、石油裝備制造等為主營(yíng)業(yè)務(wù)的綜合性國(guó)際能源公司,該集團(tuán)希望由離線數(shù)倉(cāng)升級(jí)為新一代實(shí)時(shí)湖倉(cāng),實(shí)現(xiàn)全量油田數(shù)據(jù)入湖?;诖?,滴普科技將DLink實(shí)時(shí)湖倉(cāng)引擎與該集團(tuán)現(xiàn)有平臺(tái)進(jìn)行集成,支持結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)匯聚,同時(shí)能夠?qū)崿F(xiàn)數(shù)據(jù)實(shí)時(shí)計(jì)算、聯(lián)邦查詢等高級(jí)特性。

通過(guò)滴普科技的湖倉(cāng)一體技術(shù)賦能,為該能源集團(tuán)提供了11大類(lèi)全量油田數(shù)據(jù)入湖服務(wù),并基于滴普科技DLink Mesh提升油田勘探開(kāi)發(fā)數(shù)據(jù)服務(wù)的時(shí)效性,及主數(shù)據(jù)湖和分布式區(qū)域湖管理等能力,支撐八大油氣數(shù)據(jù)應(yīng)用智能場(chǎng)景,以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)價(jià)值,讓數(shù)據(jù)實(shí)現(xiàn)可用、好用、易用。

小 結(jié)

技術(shù)創(chuàng)新為央國(guó)企的智能化創(chuàng)新帶來(lái)了更多可能性,而滿足新時(shí)代需求的湖倉(cāng)一體,可以在海量數(shù)據(jù)處理、多模數(shù)據(jù)入湖和存儲(chǔ)、湖倉(cāng)數(shù)據(jù)應(yīng)用、數(shù)據(jù)全鏈路追蹤等方面,有更卓越表現(xiàn),真正滿足企業(yè)在大數(shù)據(jù)分析過(guò)程中遇到的敏捷性和實(shí)時(shí)性等特定場(chǎng)景要求。

從這個(gè)角度看,湖倉(cāng)一體掀起央國(guó)企數(shù)據(jù)智能化創(chuàng)新浪潮,不是沒(méi)有可能。要想以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)價(jià)值,讓數(shù)據(jù)可用、好用、易用,“湖倉(cāng)一體”自然是大數(shù)據(jù)平臺(tái)的首選。未來(lái),隨著央國(guó)企數(shù)字化轉(zhuǎn)型進(jìn)程加快,“湖倉(cāng)一體”的發(fā)展前景或?qū)⒉豢晒懒俊?/p>

分享到

崔歡歡

相關(guān)推薦