與很多大型企業(yè)一樣,海瀾之家購買了很多設(shè)備,如SAN、NAS、對象存儲;用來存儲結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù);采用Oracle數(shù)據(jù)庫、ERP、SAP HANA等軟件解決方案,支持了很多業(yè)務(wù)應(yīng)用。

無論這些系統(tǒng),還是存儲平臺,海瀾集團(tuán)沉淀積累了很多數(shù)據(jù)。

大數(shù)據(jù)時代,基于數(shù)據(jù)創(chuàng)新業(yè)務(wù)應(yīng)用,這是海瀾集團(tuán)近期的目標(biāo)。

知彼,要靠 “爬蟲”

很多人知道數(shù)據(jù)業(yè)務(wù)創(chuàng)新,但是從業(yè)務(wù)角度出發(fā),往往找不到方向。

以上是AWS Werner Vogels博士給出的一些應(yīng)用場景。其中,個性化推薦,以及欺詐偵測是國內(nèi)談?wù)撟疃嗟模渌麘?yīng)用國內(nèi)見到的案例不多。

海瀾集團(tuán)要做什么呢?

對于海瀾之家來說,在數(shù)據(jù)使用上,進(jìn)行了很多探索和嘗試,包括ERP和SAP HANA,其數(shù)據(jù)大部分屬于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。

海瀾之家所欠缺的是非結(jié)構(gòu)化數(shù)據(jù)管理及挖掘技術(shù),來自互聯(lián)網(wǎng)用戶評價(jià)數(shù)據(jù)以及競品分析數(shù)據(jù)和企業(yè)內(nèi)部數(shù)據(jù)難以及時融合與分析挖掘,從而也影響了企業(yè)決策及時性和正確性。

加強(qiáng)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)獲取和分析就成為了時下的當(dāng)務(wù)之急。

這里涉及兩個問題,一個是數(shù)據(jù)的獲??;還有一個是數(shù)據(jù)處理和分析。數(shù)據(jù)獲取主要靠“爬蟲”,如今,很多電商平臺意識到數(shù)據(jù)是核心資產(chǎn),紛紛制定了各種反爬蟲的措施,因此 “爬蟲需要一定經(jīng)驗(yàn)和技術(shù)能力。

“爬蟲”來的數(shù)據(jù),還需要分門別類處理、存儲和分析,從中獲取自己所需的結(jié)果和信息。在此,很多企業(yè)主要依靠Hadoop大數(shù)據(jù)平臺,但是鑒于Hadoop平臺的復(fù)雜性,很多企業(yè)被絆倒在“建?!钡倪^程中,與此同時,隨著數(shù)據(jù)的積累,Hadoop的效率越來越低,從“數(shù)據(jù)湖”演變?yōu)榱藬?shù)據(jù)的沼澤。

多增加一個Pentaho

與傳統(tǒng)企業(yè)方法相比,海瀾之家最大的不同是在“數(shù)據(jù)準(zhǔn)備和加載”以及“數(shù)據(jù)查詢分發(fā)”階段增加一個Pentaho的大數(shù)據(jù)平臺工具。

增加這樣一個平臺工具有什么意義嗎?他與數(shù)據(jù)倉庫、Hadoop的關(guān)系是什么呢?

簡單說,有個Pentaho之后,可以實(shí)現(xiàn)更好的數(shù)據(jù)管理。在Pentaho的管理和調(diào)度下,更好發(fā)揮Hadoop就近存儲/就近處理的特點(diǎn),讓數(shù)據(jù)貼近計(jì)算;暫時用不到的數(shù)據(jù),被保存在HCP等對象存儲平臺。

與此同時,Pentaho提供了數(shù)據(jù)分析和展示工具,幫助使用者更好的理解數(shù)據(jù)結(jié)果。

作為平臺,Pentaho建立在開源平臺的基礎(chǔ)上,與tableau、Qlink、Pathon等平臺進(jìn)行更好的對接。

Pentaho幫助用戶實(shí)現(xiàn)了數(shù)據(jù)組織加載的靈活性,以及數(shù)據(jù)分析、展現(xiàn)的直觀性,通過與Hadoop、數(shù)據(jù)倉庫以及其他分析工具平臺的對接,幫助用戶釋放數(shù)據(jù)的價(jià)值。

用戶可以繼續(xù)使用Hadoop,Pentaho可與之對接,當(dāng)然用戶也可以不使用Hadoop,Pentaho也可以勝任。

Pentaho此前與HDS(日立數(shù)據(jù)系統(tǒng))并購,成為轉(zhuǎn)型后的Hitachi Vantara公司的重要組成部分進(jìn)入中國市場。

與日立存儲的密切合作,也是促成Pentaho數(shù)據(jù)分析應(yīng)用的重要原因。

據(jù)了解,數(shù)據(jù)加載、分析、呈現(xiàn)的過程,Pentaho全部實(shí)現(xiàn)了圖像化,無需編程,任意拖拽,業(yè)務(wù)人員可以自行組織、查找、分析希望了解的信息。

也是因?yàn)槿绱耍懼夜麛噙x擇了Pentaho。

小結(jié)

從應(yīng)用場景看,海瀾之家大數(shù)據(jù)應(yīng)用還只是幫助企業(yè)決策,從知己不知彼,到知己知彼,帶來的進(jìn)步和價(jià)值顯而易見。

不僅僅如此,良好數(shù)據(jù)調(diào)度平臺,自動化、圖形化分析展現(xiàn),從企業(yè)戰(zhàn)略決策,到基于數(shù)據(jù)的業(yè)務(wù)創(chuàng)新,也僅僅是一窗之隔,窗戶紙很容易捅破。既然春天已經(jīng)來了,花開滿園的景象還會遠(yuǎn)嗎?

海瀾之家的未來值得期待!

歡迎關(guān)注:“尋找中國最具智慧行業(yè)案例”系列報(bào)道(參見http://www.gensurebio.cn/p/325189.html:)

分享到

songjy

相關(guān)推薦