對(duì)此可以看到有三個(gè)維度的明顯變化,在數(shù)據(jù)類型方面,交易核心數(shù)據(jù)庫往往需要處理單一的結(jié)構(gòu)化的交易結(jié)果數(shù)據(jù),如余額、交易帳單等。而在數(shù)據(jù)核心中,需要保存的則是在每次余額并發(fā)、交易帳單生成的背后所伴隨的大量結(jié)構(gòu)化、半結(jié)構(gòu)化流水記錄等等。從整體來看,數(shù)據(jù)類型呈現(xiàn)更加多元化。

在實(shí)效性方面,交易核心數(shù)據(jù)庫更注重的是單個(gè)賬務(wù)交易系統(tǒng)中,低延時(shí)處理事務(wù)的并發(fā)性能。而在數(shù)據(jù)核心中,更注重的是在復(fù)雜的跨業(yè)務(wù)的場(chǎng)景中,對(duì)靈活可變的數(shù)據(jù)類型進(jìn)行處理,并為前后端業(yè)務(wù)提供高并發(fā)的全量數(shù)據(jù)實(shí)時(shí)查詢能力。

在業(yè)務(wù)范圍方面,交易核心數(shù)據(jù)庫往往僅為某個(gè)單個(gè)系統(tǒng)的業(yè)務(wù)系統(tǒng)單獨(dú)建設(shè)。而面向全量數(shù)據(jù)的數(shù)據(jù)核心系統(tǒng),由于存放了企業(yè)的全量數(shù)據(jù),將成為數(shù)10個(gè)甚至數(shù)百個(gè)的數(shù)據(jù)基礎(chǔ)設(shè)施,而不再是煙囪式的獨(dú)立建設(shè)。

對(duì)于全量數(shù)據(jù)的離線使用,不少企業(yè)中已經(jīng)有了比較成熟的解決方案,市場(chǎng)上目前主要是通過MPP數(shù)據(jù)倉庫,結(jié)合Hadoop大數(shù)據(jù)平臺(tái)來處理全量數(shù)據(jù),來構(gòu)建數(shù)據(jù)湖系統(tǒng)。而在數(shù)字化經(jīng)濟(jì)的發(fā)展下,全量數(shù)據(jù)的實(shí)時(shí)對(duì)個(gè)查詢以及分析能力是提升客戶滿意度的關(guān)鍵因素。但因?yàn)镸PP數(shù)據(jù)倉庫及Hadoop架構(gòu)的限制,實(shí)際上我們難以在這類平臺(tái)下提供高并發(fā)的實(shí)時(shí)對(duì)客查詢能力。因此,此時(shí)的數(shù)據(jù)價(jià)值僅停留于對(duì)內(nèi)部系統(tǒng)提供離線的數(shù)據(jù)分析、統(tǒng)計(jì)、加工等能力,而無法全面有效的釋放價(jià)值。

那么,如何讓一部離線的全量數(shù)據(jù)充分釋放其價(jià)值呢?巨杉數(shù)據(jù)庫通過湖倉一體架構(gòu),在數(shù)據(jù)流入以及數(shù)據(jù)高并發(fā)對(duì)客兩個(gè)方向提供實(shí)時(shí)能力。

數(shù)據(jù)入湖后,除了可以進(jìn)行實(shí)時(shí)分析、統(tǒng)計(jì)、加工以外,更可以提供結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)對(duì)客高并發(fā)查詢以及對(duì)象數(shù)據(jù)的實(shí)時(shí)存儲(chǔ)服務(wù),從而讓全量數(shù)據(jù)從異步離線的使用模式轉(zhuǎn)向?qū)崟r(shí)對(duì)客,進(jìn)一步釋放全量數(shù)據(jù)價(jià)值。

中國是世界上人口最多的國家,眾多的人口以及領(lǐng)先的移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展,也讓中國成為數(shù)字化創(chuàng)新最快的國家。金融行業(yè)的科技發(fā)展更是催生于領(lǐng)先全球的行業(yè)需求。10年前,在巨杉數(shù)據(jù)庫萌芽之初,我們的創(chuàng)始團(tuán)隊(duì)發(fā)現(xiàn),以Hadoop為代表的Spark產(chǎn)品,雖可以存放大量數(shù)據(jù),但無法支持實(shí)時(shí)對(duì)客的服務(wù)能力。

為了解決這個(gè)問題,我們沒有選擇基于開源產(chǎn)品二次開發(fā)的道路。而是憑借IBM、DB2等歸國分布式數(shù)據(jù)庫研發(fā)專家和華為分布式存儲(chǔ)研發(fā)專家組成的創(chuàng)始團(tuán)隊(duì)開始了自研內(nèi)核的開發(fā)。

從2013年正式商業(yè)化起,伴隨著客戶對(duì)于多模數(shù)據(jù)處理、實(shí)時(shí)高并發(fā)以及數(shù)據(jù)分析的業(yè)務(wù)需求,巨杉數(shù)據(jù)庫從多模數(shù)據(jù)湖、實(shí)時(shí)數(shù)據(jù)湖發(fā)展到湖倉一體??梢哉f巨杉數(shù)據(jù)庫背后的技術(shù)創(chuàng)新來自于我們與中國金融銀行客戶的持續(xù)合作,這些需求推動(dòng)著巨杉從數(shù)據(jù)湖到“湖倉一體”的持續(xù)演變,也推動(dòng)著我們與國際競(jìng)品同期發(fā)展。

10年來,我們初心不改,繼續(xù)面向海量、實(shí)時(shí)、多模的需求,提升全量數(shù)據(jù)場(chǎng)景下的查詢以及分析性能,釋放全量數(shù)據(jù)價(jià)值。眾所周知,金融銀行業(yè)對(duì)于數(shù)據(jù)庫的要求是十分嚴(yán)格的。巨杉在過去的10年里獲得了行業(yè)大型企業(yè)規(guī)?;瘧?yīng)用,不少客戶部署規(guī)模達(dá)到200臺(tái)~400臺(tái)物理服務(wù)器,數(shù)據(jù)容量達(dá)PB級(jí)別,數(shù)據(jù)記錄數(shù)更是突破萬億。

與此同時(shí),我們可以看到客戶接入到巨杉數(shù)據(jù)庫的各類生產(chǎn)業(yè)務(wù)系統(tǒng)超過100個(gè)之多,這說明說明巨杉數(shù)據(jù)庫并不是替代原有生產(chǎn)系統(tǒng)交易核心數(shù)據(jù)庫,而是通過成為數(shù)據(jù)底座,為交易系統(tǒng)提供了全企業(yè)跨業(yè)務(wù)視角的多模、實(shí)時(shí)、全量數(shù)據(jù),逐步成為客戶全新的數(shù)據(jù)核心。

當(dāng)前,巨杉數(shù)據(jù)庫產(chǎn)品已經(jīng)在超過100家金融行業(yè)客戶規(guī)?;a(chǎn)戰(zhàn)線,除金融行業(yè)外,巨杉數(shù)據(jù)庫還廣泛應(yīng)用于政府、能源、運(yùn)輸?shù)榷鄠€(gè)行業(yè)。

在今年的7月底巨杉數(shù)據(jù)庫發(fā)布了最新的5.2版,重點(diǎn)在實(shí)施能力上進(jìn)行了提升,主要體現(xiàn)在以下四點(diǎn)。

首先,面向結(jié)構(gòu)化數(shù)據(jù),巨杉數(shù)據(jù)庫提供深度的Join優(yōu)化+列存微分區(qū)技術(shù),在多個(gè)查詢場(chǎng)景下,性能達(dá)到了毫秒級(jí)的實(shí)時(shí)返回。分析場(chǎng)景中,性能更獲得了10倍以上的性能提升,讓查詢分析更實(shí)時(shí)。

其次,面向非結(jié)構(gòu)化的數(shù)據(jù),巨杉數(shù)據(jù)庫通過分片并發(fā)以及可分片大小技術(shù),相比原有版本吞吐量提升30%,讓非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)更實(shí)時(shí)。

這兩個(gè)部分也是今天分享的重點(diǎn),將來有機(jī)會(huì)的時(shí)候會(huì)再與大家分享這里所提到的生命周期管理以及鏈路監(jiān)控方面的話題。

首先讓我們來看看Join優(yōu)化的提升。前面提到,企業(yè)承接的技術(shù)方案中,會(huì)通過Hadoop構(gòu)建數(shù)據(jù)平臺(tái)以存存放全量數(shù)據(jù)。但這些數(shù)據(jù)只能為離線的數(shù)據(jù)分析、BI報(bào)告等提供服務(wù),無法提供對(duì)客的實(shí)時(shí)服務(wù),導(dǎo)致數(shù)據(jù)價(jià)值無法充分釋放。

對(duì)此,巨杉數(shù)據(jù)庫通過專門針對(duì)高并發(fā)查詢優(yōu)化的分布式存儲(chǔ)結(jié)構(gòu)以及Sequoia實(shí)時(shí)查詢引擎,實(shí)現(xiàn)了面向企業(yè)全量數(shù)據(jù)的高并發(fā)對(duì)客服務(wù),讓全量數(shù)據(jù)的價(jià)值從內(nèi)部離線分析向?qū)蛯?shí)時(shí)查詢進(jìn)一步釋放。

在某全國性股份制銀行的生產(chǎn)案例中,我們?yōu)槿写鎯?chǔ)超過1.4萬億的數(shù)據(jù),物理服務(wù)器達(dá)到了400臺(tái),共計(jì)對(duì)接超過120個(gè)生產(chǎn)系統(tǒng)。一方面通過分布式數(shù)據(jù)提供高并發(fā)的對(duì)客查詢服務(wù),包括借記卡、信用卡、實(shí)時(shí)批量查詢的工作復(fù)診,從大機(jī)以及小機(jī)的查詢流量下云。有效的降低了主機(jī)內(nèi)部式消耗,同時(shí)獲得更大的并發(fā)支持以及橫向擴(kuò)展能力。響應(yīng)時(shí)間方面,實(shí)時(shí)查詢保障100毫秒以內(nèi)。批量查詢表現(xiàn)也與原主機(jī)系統(tǒng)相當(dāng)。

另外一方面,金融機(jī)構(gòu)匯集多個(gè)業(yè)務(wù)系統(tǒng)的全量歷史以及流水?dāng)?shù)據(jù),為客戶提供跨業(yè)務(wù)的流水查詢、客戶資產(chǎn)視圖、客戶成長(zhǎng)等系統(tǒng)的數(shù)據(jù)底座。

以對(duì)客業(yè)務(wù)流水查詢?yōu)槔?,過去客戶的歷史數(shù)據(jù),往往因?yàn)閿?shù)據(jù)量過于龐大,業(yè)務(wù)系統(tǒng)無法存放而推送到離線系統(tǒng),甚至磁帶冷存儲(chǔ)。以往針對(duì)業(yè)務(wù)的數(shù)據(jù)延遲,往往達(dá)到小時(shí)級(jí)甚至需要數(shù)天時(shí)間,需要從磁盤去恢復(fù),耗費(fèi)大量的技術(shù)能力。

而基于巨杉分布式數(shù)據(jù)庫的“湖倉一體”架構(gòu),客戶可以幾乎無限的擴(kuò)展存儲(chǔ)空間,同時(shí)所有數(shù)據(jù)可對(duì)客提供高并發(fā)毫秒級(jí)的訪問。底層技術(shù)能力的提升,使得銀行獲得更實(shí)時(shí)的業(yè)務(wù)能力,有效提升了客戶體驗(yàn),提升了數(shù)字化轉(zhuǎn)型下的競(jìng)爭(zhēng)優(yōu)勢(shì)。

面對(duì)客戶對(duì)于實(shí)時(shí)數(shù)據(jù)查詢需求的提升,巨杉數(shù)據(jù)庫在巨杉5.2的版本中,針對(duì)Join進(jìn)行了深度的優(yōu)化,特別是在BKI Join 和Index Merge方面進(jìn)行了深度優(yōu)化。

在實(shí)時(shí)對(duì)客業(yè)務(wù)中,并不是所有操作都只需要進(jìn)行單表查詢,很多中后的業(yè)務(wù)也往往需要進(jìn)行Join處理。在分布式架構(gòu)下,這類處理往往會(huì)消耗大量的網(wǎng)絡(luò)IO,一方面導(dǎo)致查詢響應(yīng)緩慢,另一方面,由于大量的占用網(wǎng)絡(luò)IO,甚至?xí)鹫麄€(gè)分布數(shù)據(jù)庫的堵塞。

在巨杉5.2版本中,在實(shí)際的客戶場(chǎng)景下,我們?cè)诳蛻魯?shù)億計(jì)的查詢中,對(duì)于多字段關(guān)聯(lián)查詢,多類應(yīng)用場(chǎng)景等查詢性能均實(shí)現(xiàn)了毫秒級(jí)返回。這主要是來自于我們?cè)谛掳姹局?,?duì)BKA-Join方面進(jìn)行了有效提升。當(dāng)Join操作內(nèi)表有可用的數(shù)據(jù)進(jìn)行訪問時(shí),5.2首先使用緩沖區(qū),累計(jì)Join外表查詢記錄,再批量拉取內(nèi)表結(jié)果,與緩沖區(qū)Hadoop查找匹配,性能表現(xiàn)可獲得巨大的提升。在Index使用上,在特定的Index Merge場(chǎng)景下,5.2版通過避免回表操作,減少網(wǎng)絡(luò)I/O,以提升查詢性能。在不同場(chǎng)景下同樣獲得了十分顯著的性能提升。

為了讓高并發(fā)的對(duì)客實(shí)時(shí)查詢更加平穩(wěn),巨杉提供了多維分區(qū)技術(shù)。基于“數(shù)據(jù)域”按需基于時(shí)間、范圍、分類等條件,實(shí)現(xiàn)數(shù)據(jù)的精準(zhǔn)定位,可以有效提升查詢性能。在基于條件的范圍查詢中,避免形成全標(biāo)的數(shù)據(jù)偏離,降低網(wǎng)絡(luò)消耗,提升并發(fā)效率。

通過Join優(yōu)化以及多維切片技術(shù),巨杉數(shù)據(jù)庫持續(xù)為全量的對(duì)客實(shí)時(shí)查詢提供穩(wěn)定的高并發(fā)支持。在數(shù)據(jù)庫,特別是分布式數(shù)據(jù)庫中,刷新引擎是性能的關(guān)鍵。我們將持續(xù)在這方面深度優(yōu)化,為客戶提供更實(shí)時(shí)的操作體驗(yàn)。

為了有效示范全量數(shù)據(jù)價(jià)值,我們不但要有更實(shí)時(shí)的查詢,更需要提供實(shí)時(shí)的分析能力。而巨杉5.2版本將提供列存及微分區(qū)架構(gòu),來進(jìn)一步提供分析的性能。

回到巨杉數(shù)據(jù)庫“湖倉一體”的業(yè)務(wù)示意圖。在全新的數(shù)據(jù)核心中,結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù),不但需要滿足實(shí)時(shí)的對(duì)客查詢,還需要面向?qū)ο髷?shù)據(jù)提供實(shí)時(shí)的對(duì)客存儲(chǔ)能力。不僅如此,我們對(duì)于統(tǒng)計(jì)分析、數(shù)據(jù)加工及BI報(bào)表生成的時(shí)效性要求也越來越高。比如在我們的監(jiān)管報(bào)送場(chǎng)景下,客戶需要越來越短的報(bào)送時(shí)間間隔周期。而決策支持體系則更需要實(shí)時(shí)的數(shù)據(jù)來對(duì)應(yīng)瞬息萬變的市場(chǎng)競(jìng)爭(zhēng)。

“湖倉一體”架構(gòu)可以幫助客戶在統(tǒng)一的數(shù)據(jù)管理體系中兼顧查詢級(jí)分析能力,幫助企業(yè)釋放數(shù)據(jù)價(jià)值。

巨杉數(shù)據(jù)庫在此前的版本中是通過SparkSQL來實(shí)現(xiàn)我們的準(zhǔn)實(shí)時(shí)和批量數(shù)據(jù)入庫能力。通過對(duì)接巨杉數(shù)據(jù)庫,使用分布式的高并發(fā)插入能力,我們可以實(shí)現(xiàn)秒級(jí)入庫以及通過SQL引擎實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)的數(shù)據(jù)查詢能力。同時(shí),我們對(duì)接了SparkSQL,能夠直接使用Spark Streaming,訪問行存中結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)高效的分析能力。

在此基礎(chǔ)之上,巨杉數(shù)據(jù)庫5.2版,進(jìn)一步對(duì)接業(yè)界的領(lǐng)先技術(shù),實(shí)現(xiàn)“流批一體”的數(shù)據(jù)入湖能力。我們對(duì)接了Flink SQL,采用巨杉數(shù)據(jù)庫Flink Connector,實(shí)現(xiàn)了更低延時(shí)的數(shù)據(jù)入庫,把數(shù)據(jù)準(zhǔn)實(shí)時(shí)的注入到的行存引擎當(dāng)中。同時(shí)我們對(duì)接了列存引擎,使得SparkSQL分析批量能力得到了進(jìn)一步的提升。

接下來的版本當(dāng)中,我們將提供行列轉(zhuǎn)換的能力,同時(shí)也可以提供對(duì)外的增量數(shù)據(jù)輸出能力,實(shí)現(xiàn)湖對(duì)下游提供數(shù)據(jù)服務(wù),這樣我們就可以實(shí)現(xiàn)端到端打通。從前端數(shù)據(jù)實(shí)時(shí)租入到按需行列轉(zhuǎn)換以及近實(shí)時(shí)的統(tǒng)計(jì)分析能力,從數(shù)據(jù)湖到“湖倉一體”,實(shí)現(xiàn)端到端的“湖倉數(shù)據(jù)一體化”。

讓我們看一看在實(shí)際客戶場(chǎng)景下“湖倉分析”的性能提升。在多張500個(gè)以上的大表關(guān)聯(lián)場(chǎng)景中,通過列存,結(jié)合列上微分區(qū)的預(yù)統(tǒng)計(jì)信息,我們實(shí)現(xiàn)了3~10倍的性能提升,讓數(shù)據(jù)分析更實(shí)時(shí)。除了結(jié)構(gòu)化數(shù)據(jù)需要對(duì)并發(fā)查詢級(jí)復(fù)雜分析進(jìn)行優(yōu)化以外,非結(jié)構(gòu)化數(shù)據(jù)的管理性能提升也是“湖倉一體”的重要課題。

巨杉數(shù)據(jù)庫的“湖倉一體”架構(gòu)是以數(shù)據(jù)湖為基礎(chǔ)向數(shù)據(jù)倉庫的能力延伸。數(shù)據(jù)湖中除了要管理結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)外,非結(jié)構(gòu)化數(shù)據(jù)的管理同樣需要更實(shí)時(shí)的能力,以應(yīng)對(duì)數(shù)據(jù)核心的全新要求。對(duì)此,巨杉數(shù)據(jù)庫通過“分片并發(fā)+可分片大小”,持續(xù)提升對(duì)非結(jié)構(gòu)化數(shù)據(jù)的管理性能,讓非結(jié)構(gòu)化數(shù)據(jù)的訪問更實(shí)時(shí)。

首先我們來介紹一下分片并發(fā)的技術(shù)。在巨杉數(shù)據(jù)庫中,我們通過數(shù)據(jù)引擎層和存儲(chǔ)引擎層兩部分進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)的管理和訪問。為了獲得高性能的非結(jié)構(gòu)化的數(shù)據(jù)處理能力,數(shù)據(jù)引擎層以及存儲(chǔ)引擎層分別形成專門的數(shù)據(jù)處理優(yōu)化。當(dāng)業(yè)務(wù)系統(tǒng)向數(shù)據(jù)引擎層寫入對(duì)象時(shí),高速數(shù)據(jù)通道減少對(duì)象數(shù)據(jù)在各模塊中的網(wǎng)絡(luò)傳輸,通過緩存共享、壓縮等技術(shù),提升數(shù)據(jù)的流通效率,極大的縮短響應(yīng)延時(shí)。

而在存儲(chǔ)引擎層,傳入的對(duì)象則是根據(jù)分區(qū)、元數(shù)據(jù)緩存進(jìn)行哈希分片管理。分片數(shù)據(jù)打包分發(fā)給各個(gè)存儲(chǔ)節(jié)點(diǎn)并發(fā)處理,極大提升了性能。同時(shí),這是基于哈希算法實(shí)現(xiàn)快速存儲(chǔ),最大限度利用了順序IO的能力,降低IO的訪問次數(shù),實(shí)現(xiàn)了性能的提升。

此外,我們知道數(shù)據(jù)分片有其并發(fā)的優(yōu)勢(shì),也有其明顯的缺點(diǎn)。分片太小,IO會(huì)過于碎片化,IO能力不升反降,分片過大了,則會(huì)導(dǎo)致大量的空間浪費(fèi)。因此,業(yè)界的很多系統(tǒng)采用了后臺(tái)合并技術(shù),來重新壓縮空間,解決空間浪費(fèi)的問題。這就帶來了大量的IO放大和分片存儲(chǔ)的IO次數(shù)增加,對(duì)生成業(yè)務(wù)讀寫帶來很大的性能波動(dòng)。

巨杉數(shù)據(jù)庫采用可分片大小的技術(shù),能夠根據(jù)對(duì)象自身的大小,在4K至4MB/片之間自適應(yīng)的調(diào)整分片大小。在并發(fā)性能和空間利用率上取得了很好的平衡效果。在保障業(yè)務(wù)讀寫的性能穩(wěn)定性的同時(shí),提升非結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)吞吐能力。分片并發(fā)級(jí)可分片大小技術(shù),有效提升了非結(jié)構(gòu)化數(shù)據(jù)的處理能力,并且伴隨并發(fā)量和系統(tǒng)規(guī)模的增長(zhǎng),具有良好的新興擴(kuò)展能力。

相比此前版本,5.2版,無論是在200K、400K還是1M吞吐量中都有明顯的性能提升,有助于為業(yè)務(wù)提供更實(shí)時(shí)的非結(jié)構(gòu)化存儲(chǔ)性能。

接下來讓我們通過兩個(gè)巨杉數(shù)據(jù)庫的典型應(yīng)用場(chǎng)景來看看巨杉數(shù)據(jù)庫是如何基于客戶需求的演進(jìn),在多模、實(shí)時(shí)的能力上持續(xù)發(fā)展的。

首先,讓我們看看多模能力在新一代影像數(shù)據(jù)平臺(tái)的使用。

影像系統(tǒng)是金融行業(yè)重要的數(shù)據(jù)管理系統(tǒng),管理著海量的憑單、支票、合約、身份證明信息等內(nèi)容。這些數(shù)據(jù)包括影像文件本身,同時(shí)也包括其包括其背后的影像元數(shù)據(jù)、影像標(biāo)簽數(shù)據(jù)。

在傳統(tǒng)的技術(shù)架構(gòu)中,我們需要為不同的結(jié)構(gòu)模型構(gòu)建各自獨(dú)立的數(shù)據(jù)庫進(jìn)行管理。例如用結(jié)構(gòu)化的MySQL管理影像元數(shù)據(jù),基于JSON DB管理持續(xù)變化的標(biāo)簽數(shù)據(jù),以及通過NAS或者對(duì)象存儲(chǔ)非結(jié)構(gòu)化的數(shù)據(jù)。

以往影像系統(tǒng)僅作于存單使用,但隨著業(yè)務(wù)的互聯(lián)網(wǎng)化,影像系統(tǒng)管理的非結(jié)構(gòu)化數(shù)據(jù)已成為A類交易系統(tǒng)背后重要的技術(shù)平臺(tái),往往要求更嚴(yán)格的容錯(cuò)能力。傳統(tǒng)架構(gòu)下,各個(gè)數(shù)據(jù)系統(tǒng)需要單獨(dú)搭建HA容災(zāi)結(jié)構(gòu),極大的的提升了運(yùn)維團(tuán)隊(duì)的管理難度。同時(shí)各個(gè)數(shù)據(jù)系統(tǒng)間的數(shù)據(jù)依次性需要運(yùn)用系統(tǒng)執(zhí)行管理,也大大提升了開發(fā)團(tuán)隊(duì)的研發(fā)難度。這對(duì)于企業(yè)技術(shù)團(tuán)隊(duì)的人效是巨大的浪費(fèi)。

巨杉數(shù)據(jù)庫的多模能力既涵蓋了結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),也涵蓋了非結(jié)構(gòu)化數(shù)據(jù),并可進(jìn)行統(tǒng)一的容災(zāi)管理。不僅可以提供同城摘備、同城雙核、“兩地三中心”、“三地五中心”等多種在線容災(zāi)策略。多模數(shù)據(jù)統(tǒng)一容災(zāi),且保證一致性,極大簡(jiǎn)化了開發(fā)及運(yùn)維的難度。

第二個(gè)場(chǎng)景,讓我們一起看看巨杉數(shù)據(jù)庫在數(shù)據(jù)核心場(chǎng)景的應(yīng)用。

在這里我想再次強(qiáng)調(diào),巨杉數(shù)據(jù)庫并不是為了以傳統(tǒng)交易核心數(shù)據(jù)庫形成替換的競(jìng)爭(zhēng)。而是通過基于原生分布式數(shù)據(jù)庫的“湖倉一體”技術(shù)架構(gòu),解決傳統(tǒng)交易核心數(shù)據(jù)庫所無法管理的海量數(shù)據(jù)級(jí)多模數(shù)據(jù)處理的綜合需求,從而與傳統(tǒng)交易核心數(shù)據(jù)庫形成有效系統(tǒng)。

左邊是在線的賬戶類系統(tǒng),如核心分戶賬,前置柜面以及各類交易系統(tǒng)。這些系統(tǒng)通常會(huì)使用各自獨(dú)立的數(shù)據(jù)庫。由于其事物敏感性以及數(shù)據(jù)獨(dú)立性,各個(gè)系統(tǒng)間一般不會(huì)共用同一個(gè)數(shù)據(jù)庫進(jìn)行業(yè)務(wù)交易。右邊是離線的大數(shù)據(jù)以及數(shù)據(jù)倉庫,左邊核心數(shù)據(jù)的數(shù)據(jù)通過ETL清洗加工后再存放到右邊的大數(shù)據(jù)和數(shù)據(jù)倉庫中,然后再提供T+1甚至更高延遲的離線數(shù)據(jù)訪問以及數(shù)據(jù)分析挖掘能力。

然而,伴隨著業(yè)務(wù)適時(shí)能力的發(fā)展,在手機(jī)移動(dòng)端業(yè)務(wù),跨系統(tǒng)綜合實(shí)時(shí)查詢,客戶實(shí)時(shí)資產(chǎn)識(shí)圖等場(chǎng)景中提出了“T+0全量數(shù)據(jù)實(shí)時(shí)服務(wù)”的需求。需要數(shù)據(jù)庫系統(tǒng)在存放全量數(shù)據(jù)的前提下提供高并發(fā)查詢能力。

在這個(gè)需求下,傳統(tǒng)架構(gòu)都有著不可避免的短版。左邊專注于交易核心的關(guān)系型數(shù)據(jù)庫,顯然無法存儲(chǔ)跨業(yè)務(wù)系統(tǒng)的多模全量數(shù)據(jù)。右邊的Hadoop及各類NPP數(shù)據(jù)倉庫產(chǎn)品又受到架構(gòu)的限制。雖然可以存放多模的全量數(shù)據(jù),卻無法提供高并發(fā)的實(shí)時(shí)的對(duì)客處理能力。

過去的幾年里,巨杉數(shù)據(jù)庫提供實(shí)時(shí)數(shù)據(jù)庫能力,為眾多客戶提供了有效的解決方案。巨杉數(shù)據(jù)庫可實(shí)現(xiàn)在萬億級(jí)數(shù)據(jù)量下,100毫秒級(jí)別的查詢響應(yīng)能力。而擴(kuò)展性方面,和Hadoop一樣,可提供高達(dá)PB級(jí)數(shù)量橫向擴(kuò)展,可同時(shí)支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),為開發(fā)者提供SQL,節(jié)省S3等多模引擎接口。

巨杉數(shù)據(jù)庫的實(shí)時(shí)數(shù)據(jù)湖,相當(dāng)于提供了一個(gè)可無限擴(kuò)展、無須定期刪除數(shù)據(jù)的包大型ODS。既能夠提供高并發(fā)全量數(shù)據(jù)查詢能力,為對(duì)客實(shí)時(shí)移動(dòng)業(yè)務(wù),跨系統(tǒng)綜合實(shí)時(shí)查詢,客戶實(shí)時(shí)資產(chǎn)視圖等系統(tǒng)提供有效的支持。又能夠讓各類手機(jī)及終端的綜合業(yè)務(wù)運(yùn)行更實(shí)時(shí),幫助提升用戶的滿意度。

在此基礎(chǔ)上,我們今年正式提供“微分區(qū)+列存”的分析能力。當(dāng)前已經(jīng)在部分戰(zhàn)略合作客戶中試運(yùn)行落地。在實(shí)時(shí)數(shù)據(jù)湖的基礎(chǔ)上,提供可靈活配制的高性能列存分析引擎,進(jìn)一步提升巨杉數(shù)據(jù)庫“湖倉一體”的全量數(shù)據(jù)分析能力。讓客戶可在巨杉數(shù)據(jù)庫系統(tǒng)中進(jìn)行一體化實(shí)時(shí)數(shù)據(jù)探索,并提供更豐富的能力支持,為客戶全面提供數(shù)據(jù)核心所需的全量、多模、實(shí)時(shí)能力。

通過以上我們的技術(shù)介紹,相信大家對(duì)巨杉數(shù)據(jù)庫的多模技術(shù)特性都有了更進(jìn)一步的了解。數(shù)據(jù)庫的發(fā)展不但需要技術(shù)的創(chuàng)新迭代,同時(shí)也需要建立良好的技術(shù)生態(tài)。

在人才培養(yǎng)方面,巨杉建立了自有的數(shù)據(jù)庫技術(shù)培訓(xùn)體系以及課程,并在2021年發(fā)布了首本《以分布式數(shù)據(jù)庫為一體的巨杉分布式數(shù)據(jù)庫權(quán)威指南》。通過數(shù)據(jù)以及線上的課程,為市場(chǎng)培養(yǎng)具備動(dòng)手能力的數(shù)據(jù)管理級(jí)開發(fā)人才。

當(dāng)前,通過巨杉數(shù)據(jù)庫培訓(xùn)認(rèn)證的技術(shù)工程師已經(jīng)超過了1萬人。在過去的1年里,巨杉數(shù)據(jù)庫先后在華南理工大學(xué)、深圳大學(xué)設(shè)立長(zhǎng)期的巨杉數(shù)據(jù)庫獎(jiǎng)學(xué)金,推動(dòng)中國分布式數(shù)據(jù)庫人才的培育,為客戶級(jí)上下游合作伙伴提供更多優(yōu)質(zhì)的分布式數(shù)據(jù)庫人才。

與此同時(shí),2021年我們與華為、微軟一同支持了全球三大數(shù)據(jù)庫頂級(jí)會(huì)議之一的ACM SIGMOD/PODS全球三大數(shù)據(jù)庫學(xué)術(shù)會(huì)議之一,在西安舉辦。吸引了來自全球數(shù)千名數(shù)據(jù)庫學(xué)者,共同討論全球數(shù)據(jù)庫技術(shù)的發(fā)展。

未來,巨杉數(shù)據(jù)庫將積極投入產(chǎn)學(xué)研的多邊合作,與客戶及上下游合作伙伴一道構(gòu)建更完善的產(chǎn)業(yè)生態(tài)。

(本文基于巨杉數(shù)據(jù)庫SequoiaDB 首席架構(gòu)師程祺演講速記整理而成,未經(jīng)本人審閱)

分享到

songjy

相關(guān)推薦