亚洲国产在一区二区三区,香蕉av久久一区二区三区,中文字幕日韩一区二区三区不卡

技術(shù)框架的調(diào)研與演進(jìn)

1.原有技術(shù)框架

原有技術(shù)框架以及整個(gè)PGW實(shí)時(shí)會(huì)話業(yè)務(wù)的處理流程如上。實(shí)時(shí)數(shù)據(jù)通過流處理組件處理后，針對不同需求和業(yè)務(wù)方，數(shù)據(jù)存儲(chǔ)和展示借助多技術(shù)組件。并且大多情況下為滿足一個(gè)業(yè)務(wù)需求往往需要多技術(shù)組件配合使用。如PGW明細(xì)會(huì)話查詢，往往是借助Redis或ES作為索引組件再去查詢Hbase，一方面Hbase只能進(jìn)行簡單的模糊查詢，無法做到聯(lián)邦查詢、聚合統(tǒng)計(jì)查詢，另一方面若統(tǒng)計(jì)查詢借助Impala+Hive時(shí)效性往往很難保證。

2.MPP技術(shù)框架的調(diào)研

為解決實(shí)時(shí)分析的時(shí)效性，同時(shí)又能保證數(shù)據(jù)快速寫入，并且能夠?qū)ν馓峁┮粋€(gè)較為統(tǒng)一和簡單的OLAP數(shù)據(jù)平臺(tái)。我們先后調(diào)研了ClickHouse、DorisDB、Kudu。并針對我們的業(yè)務(wù)分析和業(yè)務(wù)痛點(diǎn)做了以下測試。

ClickHouse：雖然具備較好的OLAP分析性能，但因其底層的架構(gòu)設(shè)計(jì)，集群模式下數(shù)據(jù)寫入需開發(fā)人員手動(dòng)指定寫入節(jié)點(diǎn)以及數(shù)據(jù)存儲(chǔ)目錄以保證集群數(shù)據(jù)平衡。同時(shí)集群擴(kuò)容后很難做到數(shù)據(jù)自平衡，對運(yùn)維人員提出較高要求，另一方面由于該數(shù)據(jù)庫不支持事務(wù)特性，在數(shù)據(jù)更新時(shí)容易出現(xiàn)數(shù)據(jù)重復(fù)，且不易解決此問題。

DorisDB：查詢分析性能強(qiáng)悍，多表關(guān)聯(lián)速度比其他產(chǎn)品快很多。與Clickhouse類似，DorisDB目前不支持字段級(jí)別的數(shù)據(jù)更新，同時(shí)查詢性能與表的設(shè)計(jì)和集群性能密切相關(guān)。原則上集群性能隨數(shù)據(jù)節(jié)點(diǎn)線性增長。另外，簡便的運(yùn)維管理也是DorisDB的一大亮點(diǎn)。目前DorisDB開發(fā)版本迭代快，需要及時(shí)跟進(jìn)官方的版本進(jìn)展。

Kudu：支持快速數(shù)據(jù)更新、快速數(shù)據(jù)分析與即席查詢，但是數(shù)據(jù)量不宜過大，單表數(shù)據(jù)量不宜超過15億。

性能方面，批量寫入性能Clickhouse略優(yōu)于其他系統(tǒng)，相同資源條件下明細(xì)查詢性能ClickHouse和DorisDB比Impala+Kudu更快，DorisDB有比較方便的物化視圖（Rollup）可以滿足統(tǒng)計(jì)查詢的需求，另外DorisDB在關(guān)聯(lián)查詢方面性能有比較明顯的優(yōu)勢。

綜上所述，實(shí)時(shí)數(shù)倉方案，采用Kudu+DorisDB相結(jié)合，實(shí)現(xiàn)現(xiàn)有PGW實(shí)時(shí)會(huì)話業(yè)務(wù)。DorisDB作為主要技術(shù)組件，Kudu輔助實(shí)現(xiàn)字段級(jí)別更新業(yè)務(wù)場景。

3.現(xiàn)有技術(shù)框架

3.1現(xiàn)有技術(shù)框架整體介紹

為解決現(xiàn)有的業(yè)務(wù)痛點(diǎn)，同時(shí)平衡在實(shí)時(shí)數(shù)據(jù)處理技術(shù)實(shí)現(xiàn)上的難點(diǎn)。我們摒棄了部分技術(shù)組件，采用新的技術(shù)組件搭建整個(gè)實(shí)時(shí)數(shù)倉用于滿足PGW實(shí)時(shí)會(huì)話業(yè)務(wù)。其中DorisDB可以滿足大多場景的需求。

PGW會(huì)話業(yè)務(wù)中流式Join問題，一部分我們通過在DorisDB中星型建模的方案的解決，另一部分我們借助關(guān)系型內(nèi)存數(shù)據(jù)庫VoltDB+Google Guava Cache，流式組件處理過程中代碼實(shí)現(xiàn)。

存量數(shù)據(jù)的排序、實(shí)時(shí)分析問題。我們借助DorisDB range分區(qū)以及高效的OLAP性能初步緩解。

最后統(tǒng)一OLAP分析平臺(tái)，我們完全借助DorisDB實(shí)現(xiàn)。

3.2 DorisDB解決的痛點(diǎn)和挑戰(zhàn)

1.充分利用DorisDB在多表join方面的性能優(yōu)化，如Colocate Join、內(nèi)存表等特性。將原來的流式j(luò)oin方案改為通過星型建模方案，在數(shù)據(jù)服務(wù)層進(jìn)行多表join的聯(lián)邦查詢；

2.通過DorisDB動(dòng)態(tài)分區(qū)特性對存量數(shù)據(jù)進(jìn)行分區(qū)，然后利用Bitmap數(shù)據(jù)類型進(jìn)行精確去重，然后再在各分區(qū)內(nèi)完成排序。排序的結(jié)果進(jìn)一步匯總到一張數(shù)據(jù)表中，和實(shí)時(shí)到來的數(shù)據(jù)放在一起排序，可以有效地解決數(shù)據(jù)亂序問題，并且保證數(shù)據(jù)分析的效率。

3.DorisDB可作為數(shù)據(jù)服務(wù)層的統(tǒng)一對外引擎，一方面保證查詢性能，另一方面避免了原來多技術(shù)組件帶來的冗余問題，極大降低了系統(tǒng)的管理成本。

4.技術(shù)實(shí)現(xiàn)方面：替代Hbase部分業(yè)務(wù)，緩解了Hbase分區(qū)分裂帶來的性能問題；通過ES外表引擎，解決ES表不能進(jìn)行join、語法特殊等技術(shù)問題。

DorisDB在具體項(xiàng)目上的應(yīng)用及優(yōu)化

目前DorisDB集群總共25臺(tái)BE，4臺(tái)FE，存儲(chǔ)采用支持采用NVME協(xié)議的SSD硬盤。

1.PGW用戶實(shí)時(shí)位置軌跡

1.1方案介紹

實(shí)時(shí)收集到的GGSN報(bào)文，通過DorisDB的聚合模型，將發(fā)生位置變更軌跡的明細(xì)數(shù)據(jù)實(shí)時(shí)沉淀下來。并對不同的區(qū)域維度生成Rollup表。最細(xì)粒度到基站級(jí)別，然后生成省、地市級(jí)別的Rollup表以供不同業(yè)務(wù)查詢。

GGSN報(bào)文量35萬/s，通過SparkStreaming處理解析后，每1分鐘StreamLoad一次入DorisDB。

1.2方案優(yōu)化

最開始因?yàn)镽ollup表建了省、地市、區(qū)縣、鄉(xiāng)鎮(zhèn)，導(dǎo)致在寫入時(shí)IO負(fù)擔(dān)過大，寫入速度跟不上數(shù)據(jù)推送，SparkStreaming出現(xiàn)擠壓，后期通過性能測試Rollup表只建立了省、地市維度。同時(shí)新增一張鄉(xiāng)鎮(zhèn)base表，并在其基礎(chǔ)上建立區(qū)縣Rollup表。

同時(shí)為保證查詢的時(shí)效性,base表Rollup表前綴索引在字段類型和選擇上按照官方建議，避免使用Varchar類型。

2區(qū)域會(huì)話明細(xì)模型

2.1項(xiàng)目背景

數(shù)據(jù)服務(wù)層需對外提供每張物聯(lián)卡，統(tǒng)一會(huì)話發(fā)生位置變更后在不同區(qū)域的套餐使用情況，會(huì)話時(shí)常等信息。進(jìn)而統(tǒng)計(jì)物聯(lián)卡各區(qū)域的漫入漫出情況。

2.2項(xiàng)目方案

實(shí)時(shí)收集到的GGSN報(bào)文，通過DorisDB的聚合模型，將發(fā)生位置變更時(shí)的套餐記錄，變更時(shí)間沉淀下來。然后通過定時(shí)任務(wù)，從聚合模型明細(xì)數(shù)據(jù)中計(jì)算出套餐使用情況，會(huì)話時(shí)長，生成新的DWD表。DorisDB目前的物化視圖很有用，但還不是很靈活，比如，只支持明細(xì)數(shù)據(jù)表模型，并且支持單表創(chuàng)建物化視圖，不支持多表Join構(gòu)建物化視圖。

DorisDB在中移物聯(lián)網(wǎng)PGW實(shí)時(shí)會(huì)話業(yè)務(wù)領(lǐng)域的展望

一方面我們目前了解到，DorisDB開發(fā)團(tuán)隊(duì)，目前正在解決DorisDB字段級(jí)別無法支持更新的短板。在未來DorisDB升級(jí)過程中，我們可能會(huì)摒棄掉Kudu,完全借助DorisDB實(shí)現(xiàn)實(shí)時(shí)數(shù)倉技術(shù)架構(gòu)。

另一方面，我們期待DorisDB物化視圖的靈活性更高，可以支持Join級(jí)別的物化視圖和不同表引擎的物化視圖。除此之外，在接下來的項(xiàng)目開發(fā)過程中我們也計(jì)劃進(jìn)一步使用bitmap索引、Colocation Join等更豐富的功能提高我們的查詢速度。

除此之外，為了完善實(shí)時(shí)數(shù)倉的分層結(jié)構(gòu)，我們計(jì)劃在未來使用Flink來對接DorisDB，保證數(shù)倉的分層結(jié)構(gòu)，同時(shí)進(jìn)一步完善統(tǒng)一的OLAP數(shù)據(jù)分析平臺(tái)。

分享到

建模數(shù)據(jù)

zhangnn

相關(guān)推薦

近期文章

熱門標(biāo)簽