▲2013中國數(shù)據(jù)庫大會專題

自2010年以來,國內(nèi)領先的IT專業(yè)網(wǎng)站IT168聯(lián)合旗下ITPUB、ChinaUnix技術社區(qū)已經(jīng)連續(xù)舉辦了三屆數(shù)據(jù)庫技術大會,每屆大會超過千人規(guī)模,云集了國內(nèi)技術水平最高的數(shù)據(jù)架構師、DBA、數(shù)據(jù)庫開發(fā)工程師、研發(fā)總監(jiān)、IT經(jīng)理等,是目前國內(nèi)最受歡迎的數(shù)據(jù)庫技術盛會。

當大數(shù)據(jù)還在被我們冠以新技術,討論新的趨勢的時候,人人游戲已經(jīng)走在了實踐的前列,給我們帶來了更多關于移動互聯(lián)網(wǎng)與大數(shù)據(jù)相結合的實戰(zhàn)經(jīng)驗。人人游戲首席數(shù)據(jù)科學家 陳繼東現(xiàn)場表示:從企業(yè)的需要對結構化數(shù)據(jù)的管理需求,目前是非常成功的IT技術。現(xiàn)在數(shù)據(jù)不再被刪除而是需要被保存下來,除了查詢還需要挖掘價值,對數(shù)據(jù)的處理和分析遠遠大于數(shù)據(jù)的查詢。但是也面臨著諸多的問題:數(shù)據(jù)越來越大,PB的數(shù)據(jù)關系型數(shù)據(jù)庫同樣非常難處理,對非結構化的處理很難,而且對數(shù)據(jù)的分析做的并不好,這些都需要進行不斷的改進。

大數(shù)據(jù)分析在移動互聯(lián)網(wǎng)的應用

▲人人游戲首席數(shù)據(jù)科學家 陳繼東

越來越多的信息能夠得到和生活相關的數(shù)據(jù),而且都能記錄。基礎的架構很廉價,能夠很好的存儲數(shù)據(jù)。良好的伸縮性強的基礎管理架構,云計算提供了很好的架構,基礎的管理等等。

大數(shù)據(jù)分析在移動互聯(lián)網(wǎng)的應用

▲數(shù)據(jù)管理發(fā)展趨勢

大數(shù)據(jù)分析在移動互聯(lián)網(wǎng)的應用

▲大數(shù)據(jù)整體框架

大數(shù)據(jù)關鍵技術和工具

從信息生命周期的角度梳理大數(shù)據(jù)的關鍵技術和工具。當我們把數(shù)據(jù)收集之后需要存儲,也可以存儲在分布式文件系統(tǒng)中,并行數(shù)據(jù)庫中,和NOSQL中,甚至直接在數(shù)據(jù)庫中處理都可以。流式處理和主內(nèi)存是流行的趨勢: 延時性小。

關鍵技術包括:

大數(shù)據(jù)分析在移動互聯(lián)網(wǎng)的應用
大數(shù)據(jù)分析在移動互聯(lián)網(wǎng)的應用

Mapreduce VS 并行數(shù)據(jù)庫

MapReduce最早是谷歌做大量非結構化網(wǎng)頁的爬取的需求下出現(xiàn)的。數(shù)據(jù)庫和Mapreduce相比的的缺陷是模式不靈活。

大數(shù)據(jù)分析在移動互聯(lián)網(wǎng)的應用

•當前并行數(shù)據(jù)庫的問題

–擴展性:需要擴展到上千臺節(jié)點

–容錯性:需要改進容錯,更細粒度,更高效率

–靈活性:需要Scheme free的處理,更好適應非結構化數(shù)據(jù)

–成本:更多開源實現(xiàn)和外圍開源工具

•MapReduce類方案的問題(Hive)

–性能:當前為次優(yōu)的實現(xiàn),增加索引和查詢優(yōu)化

–實時處理能力:實時加載,實時復雜查詢能力

–標準的SQL接口:應用遷移,與DW透明訪問

–更豐富的外圍工具:OLAP工具,自助分析工具

NoSQL VS SQL

定制化查詢 NoSQL很好的方案比Mysql集群要強很多。數(shù)據(jù)庫的趨勢是如何做深入的分析,如何將數(shù)據(jù)挖掘和機器學習并行化。大數(shù)據(jù)的趨勢:線性模型+簡單的特征要比復雜的模型+簡單的特征要好,現(xiàn)在是一個特征的工程。

•NoSQL的特點

–高可擴展性和彈性, 靈活數(shù)據(jù)模型, 強容錯, 高可用性(犧牲ACID,單記錄事務和最終一致性)

–適用于海量數(shù)據(jù)定制化存儲,高吞吐查詢(如全屬性選擇應用)

•SQL的特點

–強大的語義表達及關系表達, 查詢處理和優(yōu)化,ACID, 強一致性

–擴展性和靈活性差,用于高性能查詢和復雜分析

大數(shù)據(jù)分析在移動互聯(lián)網(wǎng)的應用

▲NoSQL VS SQL

移動大數(shù)據(jù)應用

人人游戲首席數(shù)據(jù)科學家 陳繼東認為,移動互聯(lián)網(wǎng)將成為大數(shù)據(jù)應用的主戰(zhàn)場,主要體現(xiàn)在:1、移動大數(shù)據(jù)核心載體,智能設備普及。2、高寬帶引流大數(shù)據(jù),手機使用3G和Wifi接入互聯(lián)網(wǎng)。3、移動大數(shù)據(jù)聚集地,Android和iOS成為主流OS。4、移動大數(shù)據(jù)源頭和關鍵節(jié)點,移動互聯(lián)網(wǎng)入口:搜索,移動瀏覽器,移動應用/商店,移動廣告;海量的獨立移動應用,對深入分析的需求更強。

通過大數(shù)據(jù)分析增強用戶體驗,用戶希望采用語音或者手勢進行輸入,后臺對于非結構化海量數(shù)據(jù)的分析非常重要。因此,數(shù)據(jù)驅(qū)動未來差異化發(fā)展,同時也會引發(fā)用戶對個性化需求?;ヂ?lián)網(wǎng)企業(yè)和移動互聯(lián)網(wǎng)企業(yè)都在討論數(shù)據(jù)驅(qū)動運營,以及移動互聯(lián)網(wǎng)的競爭營銷,借助對用戶的分析可以做到。

另外。對空間和時間維度的擴展,碎片化也是一個非常重要的特點。數(shù)據(jù)量更大,維度更高,數(shù)據(jù)量遠超過互聯(lián)網(wǎng)。包括設備信息,上網(wǎng)方式,種類紛繁復雜。

移動大數(shù)據(jù)數(shù)據(jù)的特點

1、數(shù)據(jù)的核心節(jié)點是人而不再是終端、網(wǎng)頁或ID

2、數(shù)據(jù)量更大,種類更多,覆蓋更廣(時空擴展)

3、更多個性化屬性,如用戶地理位置,設備屬性

4、不受限于瀏覽器Cookie,數(shù)據(jù)更穩(wěn)定長久,更干凈準確

5、用戶行為數(shù)據(jù)更碎片化,更實時性

數(shù)據(jù)的節(jié)點是人而不是終端設備,移動互聯(lián)網(wǎng)中沒有cookie,移動的核心節(jié)點不再是ID,而是設備,因此確定到某一個人。

移動大數(shù)據(jù)分析的挑戰(zhàn)主要體現(xiàn)在:

1、采集數(shù)據(jù)補償

2、大數(shù)據(jù)實時處理與深入分析

3、用戶時空行為模式的挖掘和利用

4、跨應用跨平臺跨設備多維數(shù)據(jù)分析

大數(shù)據(jù)在移動互聯(lián)網(wǎng)中的應用

▲移動廣告分析的典型架構

分享到

zhangcun

相關推薦