首先,未來我們的商業(yè)智能系統(tǒng)會逐漸地走向移動化,從現(xiàn)在的兩級架構(gòu)變成了全網(wǎng)一級。同時,實現(xiàn)數(shù)據(jù)模型的標(biāo)準(zhǔn)化,把各系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)一的處理,把很多的詳單數(shù)據(jù)進(jìn)行統(tǒng)一處理。這樣的好處是首先通過集約化實現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化。
第二,通過數(shù)據(jù)集中化來實現(xiàn)各系統(tǒng)的綜合分析,同時也有利于快速地進(jìn)行數(shù)據(jù)分析和決策支持。因為現(xiàn)在很多的數(shù)據(jù)應(yīng)該說是在二級、省內(nèi)或者是地市系統(tǒng)里?,F(xiàn)在如果從公司整體來說做數(shù)據(jù)分析和決策支持,往往是需要省公司定期地提供一些匯總數(shù)據(jù)。所以這實際上對分析的實時響應(yīng)還是存在一定的問題。集中化的商業(yè)智能系統(tǒng)首先面臨著海量數(shù)據(jù)存儲的壓力。集中化的商業(yè)智能系統(tǒng)一方面面臨著數(shù)據(jù)規(guī)模大,數(shù)據(jù)處理復(fù)雜,同時不同類的用戶存在著混合負(fù)載的問題。
首先從數(shù)據(jù)規(guī)模上來說,我們預(yù)測到2015年的時候,結(jié)構(gòu)化的數(shù)據(jù)是需要3.7P,非結(jié)構(gòu)化數(shù)據(jù)是4.4P。這是保守的需求,我們數(shù)據(jù)存放的時間是非常短的。但正像前面所說的,有很多的數(shù)據(jù)是企業(yè)的戰(zhàn)略資產(chǎn),有很多的互聯(lián)網(wǎng)公司對這類數(shù)據(jù)是永遠(yuǎn)不刪除的。實際上運營商未來數(shù)據(jù)存儲的容量需求應(yīng)該還是不斷地擴(kuò)大的。目前我們采用的傳統(tǒng)的數(shù)據(jù)倉庫成本還是很高的,目前公司擴(kuò)容的壓力還比較大。
第二是數(shù)據(jù)處理的復(fù)雜性。目前我們面臨著很多新型數(shù)據(jù)的處理,包括非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),所以這方面是需要引入新的技術(shù)來進(jìn)行處理的。同時,還需要對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行混合深度的數(shù)據(jù)挖掘。最后是混合負(fù)載的多樣性,傳統(tǒng)的數(shù)據(jù)倉庫和我們的商業(yè)智能的應(yīng)用大部分是屬于固定應(yīng)用,屬于報表類的應(yīng)用。目前以數(shù)據(jù)倉庫為核心的架構(gòu)現(xiàn)在還不能滿足業(yè)務(wù)要求。
這就決定了,應(yīng)用開發(fā)實際上跟下面的平臺是沒有辦法非常完美地優(yōu)化和設(shè)計的。
對潛在的幾種技術(shù)做了分析,包括傳統(tǒng)的數(shù)據(jù)倉庫,指通過小型機(jī)加盤陣的高性能的硬件,也包括了軟硬件一體化的新型的數(shù)據(jù)倉庫。我們都?xì)w為基于高性能硬件的數(shù)據(jù)倉庫。
第二種是新型的基于X86的數(shù)據(jù)庫。第三類是Hadoop分布式系統(tǒng)。從復(fù)雜多表關(guān)聯(lián)分析這方面來看,目前關(guān)系型數(shù)據(jù)倉庫這方面會有更的優(yōu)勢,因為通過這種索引和分區(qū)建的技術(shù)保證多表關(guān)聯(lián)的效率會比較高,而Hadoop目前缺少高效索引,因為現(xiàn)在我們無法支持次級索引。
關(guān)系型數(shù)據(jù)倉庫是為結(jié)構(gòu)化數(shù)據(jù)處理,當(dāng)然很多的數(shù)據(jù)倉庫目前跟Hadoop相集成提供一些非結(jié)構(gòu)化數(shù)據(jù)庫的處理能力。但關(guān)系型數(shù)據(jù)倉庫是不支持非結(jié)構(gòu)化數(shù)據(jù)的處理的,而Hadoop的能力非常強(qiáng)。
實時相應(yīng)有關(guān)關(guān)系型數(shù)據(jù)倉庫和X86的通用平臺都有比較好的整體優(yōu)化,Hadoop目前的優(yōu)化比較少,所以實時性這塊差一些。而且做單相查詢的性能是比較好的。
第三,在數(shù)據(jù)的ETL采集預(yù)處理的環(huán)節(jié),我們會盡量多地采用Hadoop和分布式ETL的方式,提高數(shù)據(jù)轉(zhuǎn)換的效率,同時降低成本。
最后,考慮到運營商實際上是比較龐大和分散的組織架構(gòu),我們公司對商業(yè)智能的需求也是比較多。所以,前面幾位專家提到的,我們把云計算的概念引入到大數(shù)據(jù)里面,未來形成一個商業(yè)智能的pass平,這個平臺會實現(xiàn)平臺建設(shè)和數(shù)據(jù)存儲的集中。但應(yīng)用開發(fā)可以讓各個省公司和地市公司自行進(jìn)行應(yīng)用開發(fā)。上載到平臺上分析出結(jié)果。這可以很好地解決平臺集中化和應(yīng)用需求分散化的矛盾。