批流融合及全鏈路CDC需要同時滿足實時和批量的數(shù)據(jù)處理能力,降低企業(yè)維護的成本和復(fù)雜性,擴大最佳的資源使用效能;需要滿足全鏈路CDC,端到端實現(xiàn)從數(shù)據(jù)源到湖倉數(shù)據(jù)的增量分析,兼?zhèn)鋵崟r數(shù)據(jù)分析的全面性和準(zhǔn)確性。
事務(wù)ACID一致性需要提供ACID保證數(shù)據(jù)寫入一致性;提供快照保證讀寫的并發(fā);提供upsert/merge into能力極大地縮小數(shù)據(jù)庫入庫延遲。對象存儲不支持文件原地更新,新的記錄以 append 的方式寫入新文件,即使對文件中的一行記錄進行更改,也要重寫整個文件,并且多線程并發(fā)讀寫也可能造成數(shù)據(jù)不一致。湖倉一體通過多版本的方式保證事務(wù)讀寫并發(fā)不沖突,通過將修改記錄在 change file 中通過合并 base 文件的方式提升記錄更改效率。
DataOps提供數(shù)據(jù)統(tǒng)一服務(wù)、數(shù)據(jù)沙箱、數(shù)據(jù)開發(fā)、代碼版本管理、CI/CD、工程化運維的流程化和自動化。
統(tǒng)一元數(shù)據(jù)管理支持異構(gòu)數(shù)據(jù)的統(tǒng)一元數(shù)據(jù)管理,實現(xiàn)端到端的數(shù)據(jù)鏈路的自動化元數(shù)據(jù)采集,支持全鏈路血緣,一鍵式分析技術(shù)、業(yè)務(wù)、操作元數(shù)據(jù)詳情,為數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)和數(shù)據(jù)質(zhì)量提供重要支撐。湖倉一體中的 Catalog 是統(tǒng)一的元數(shù)據(jù)目錄,它可以幫助我們讓數(shù)據(jù)發(fā)現(xiàn)變的更簡單,更加快速的查找到你想要的數(shù)據(jù),同時提供面向多引擎(Hive Spark flinktrino 等)的公共元數(shù)據(jù)存儲和統(tǒng)一元數(shù)據(jù)服務(wù)。
基于云原生架構(gòu),與主流云廠商深度連接,提供基于多云架構(gòu)的統(tǒng)一數(shù)據(jù)平臺,幫助企業(yè)以最優(yōu)成本、最敏捷的方式搭建數(shù)據(jù)資產(chǎn)和數(shù)據(jù)分析的全鏈路,更加精細化實現(xiàn)數(shù)據(jù)價值。FastData 2.0面向企業(yè)高密度數(shù)據(jù)應(yīng)用場景,立足數(shù)據(jù)驅(qū)動業(yè)務(wù),圍繞提升客戶業(yè)務(wù)價值的核心目標(biāo),將湖倉一體作為產(chǎn)品升級迭代的核心架構(gòu),同時全面整合了從數(shù)據(jù)源、數(shù)據(jù)分析到數(shù)據(jù)價值實現(xiàn)的完整鏈路,對產(chǎn)品能力進行了全面深入的升級優(yōu)化。
從產(chǎn)品形態(tài)與服務(wù)上來看,產(chǎn)品可實主流公有云環(huán)境的靈活部署,包括AWS、Azure、華為云、阿里云等云上環(huán)境;提供實時湖倉引擎,將結(jié)構(gòu)化、非/半結(jié)構(gòu)化源數(shù)據(jù)存儲到數(shù)據(jù)湖中,調(diào)動分析引擎進行數(shù)據(jù)計算,最終將計算數(shù)據(jù)存儲到湖倉的表引擎中;此外,F(xiàn)astData還重點拓展了支持機器學(xué)習(xí)的數(shù)據(jù)智能開發(fā)能力,并將湖倉中的數(shù)據(jù)通過可視化技術(shù)將業(yè)務(wù)運維要求實時反映出來,真正幫助企業(yè)用好數(shù)據(jù),高效釋放數(shù)據(jù)價值,驅(qū)動企業(yè)業(yè)務(wù)的發(fā)展。
FastData 2.0產(chǎn)品線全面升級
升級后的FastData2.0,從底層的實時湖倉引擎DLink,到中間Dataops的數(shù)據(jù)智能開發(fā)平臺DataFacts,再到上層面向商業(yè)應(yīng)用及數(shù)據(jù)應(yīng)用的數(shù)據(jù)分析平臺DataSense,已形成完整的湖倉體系。
解決數(shù)據(jù)存儲、處理及分析效率——實時湖倉引擎FastDataDLink
搭建企業(yè)級流批一體、湖倉一體分布式數(shù)據(jù)庫,提供多種數(shù)據(jù)類型的統(tǒng)一存儲能力,支持流批一體數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)科學(xué)等多工作負載。采用存算分離架構(gòu),彈性擴展、高并發(fā)、低延時,支持EB級多模數(shù)據(jù)存儲與處理,無縫連接大數(shù)據(jù)生態(tài),提供一站式數(shù)據(jù)探索與數(shù)據(jù)開發(fā)能力。
解決數(shù)據(jù)開發(fā)效率及數(shù)據(jù)管理問題——數(shù)據(jù)智能開發(fā)平臺FastDataDataFacts
降低企業(yè)數(shù)字化轉(zhuǎn)型實施門檻,實現(xiàn)數(shù)據(jù)價值可持續(xù)釋放,為數(shù)據(jù)工程師提供數(shù)據(jù)集成、數(shù)據(jù)建模、數(shù)據(jù)開發(fā)、數(shù)據(jù)服務(wù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全等開箱即用的服務(wù)能力,降低企業(yè)數(shù)字化轉(zhuǎn)型實施門檻,提升數(shù)據(jù)智能平臺構(gòu)建效率,賦能企業(yè)數(shù)據(jù)資產(chǎn)持續(xù)沉淀,從而實現(xiàn)數(shù)據(jù)價值可持續(xù)釋放。
解決“數(shù)據(jù)最后一公里”——數(shù)據(jù)分析平臺FastDataDataSense
用數(shù)據(jù)透視業(yè)務(wù),助力精準(zhǔn)決策。DataSense是基于統(tǒng)一業(yè)務(wù)語義的數(shù)據(jù)分析平臺,通過無代碼開發(fā)的數(shù)據(jù)工廠Metric Store提升資產(chǎn)開發(fā)效率,為企業(yè)各類業(yè)務(wù)應(yīng)用提供組裝式的數(shù)據(jù)分析服務(wù)能力。
致力于打造更加堅實靈活的湖倉一體,存算分離數(shù)據(jù)平臺底座,是FastData 2.0的全線產(chǎn)品升級的目標(biāo)。支持同時滿足實時和批量的數(shù)據(jù)處理能力,實現(xiàn)數(shù)據(jù)智能開發(fā)與可視化增強分析,幫助企業(yè)以最優(yōu)成本、最敏捷的方式搭建數(shù)據(jù)資產(chǎn)和數(shù)據(jù)分析的全鏈路,更加精細化實現(xiàn)數(shù)據(jù)價值。滴普科技產(chǎn)品線總裁楊磊表示:“客戶的核心邏輯都是基于業(yè)務(wù)考慮,在這個過程中,如何打通數(shù)據(jù)鏈路,持續(xù)優(yōu)化企業(yè)內(nèi)部的運營效率,是核心關(guān)注點”。