▲2013中國數(shù)據(jù)庫大會專題
自2010年以來,國內(nèi)領先的IT專業(yè)網(wǎng)站IT168聯(lián)合旗下ITPUB、ChinaUnix技術社區(qū)已經(jīng)連續(xù)舉辦了三屆數(shù)據(jù)庫技術大會,每屆大會超過千人規(guī)模,云集了國內(nèi)技術水平最高的數(shù)據(jù)架構師、DBA、數(shù)據(jù)庫開發(fā)工程師、研發(fā)總監(jiān)、IT經(jīng)理等,是目前國內(nèi)最受歡迎的數(shù)據(jù)庫技術盛會。
當大數(shù)據(jù)還在被我們冠以新技術,討論新的趨勢的時候,人人游戲已經(jīng)走在了實踐的前列,給我們帶來了更多關于移動互聯(lián)網(wǎng)與大數(shù)據(jù)相結合的實戰(zhàn)經(jīng)驗。人人游戲首席數(shù)據(jù)科學家 陳繼東現(xiàn)場表示:從企業(yè)的需要對結構化數(shù)據(jù)的管理需求,目前是非常成功的IT技術。現(xiàn)在數(shù)據(jù)不再被刪除而是需要被保存下來,除了查詢還需要挖掘價值,對數(shù)據(jù)的處理和分析遠遠大于數(shù)據(jù)的查詢。但是也面臨著諸多的問題:數(shù)據(jù)越來越大,PB的數(shù)據(jù)關系型數(shù)據(jù)庫同樣非常難處理,對非結構化的處理很難,而且對數(shù)據(jù)的分析做的并不好,這些都需要進行不斷的改進。
▲人人游戲首席數(shù)據(jù)科學家 陳繼東
越來越多的信息能夠得到和生活相關的數(shù)據(jù),而且都能記錄。基礎的架構很廉價,能夠很好的存儲數(shù)據(jù)。良好的伸縮性強的基礎管理架構,云計算提供了很好的架構,基礎的管理等等。
▲數(shù)據(jù)管理發(fā)展趨勢
▲大數(shù)據(jù)整體框架
大數(shù)據(jù)關鍵技術和工具
從信息生命周期的角度梳理大數(shù)據(jù)的關鍵技術和工具。當我們把數(shù)據(jù)收集之后需要存儲,也可以存儲在分布式文件系統(tǒng)中,并行數(shù)據(jù)庫中,和NOSQL中,甚至直接在數(shù)據(jù)庫中處理都可以。流式處理和主內(nèi)存是流行的趨勢: 延時性小。
關鍵技術包括:
Mapreduce VS 并行數(shù)據(jù)庫
MapReduce最早是谷歌做大量非結構化網(wǎng)頁的爬取的需求下出現(xiàn)的。數(shù)據(jù)庫和Mapreduce相比的的缺陷是模式不靈活。
•當前并行數(shù)據(jù)庫的問題
–擴展性:需要擴展到上千臺節(jié)點
–容錯性:需要改進容錯,更細粒度,更高效率
–靈活性:需要Scheme free的處理,更好適應非結構化數(shù)據(jù)
–成本:更多開源實現(xiàn)和外圍開源工具
•MapReduce類方案的問題(Hive)
–性能:當前為次優(yōu)的實現(xiàn),增加索引和查詢優(yōu)化
–實時處理能力:實時加載,實時復雜查詢能力
–標準的SQL接口:應用遷移,與DW透明訪問
–更豐富的外圍工具:OLAP工具,自助分析工具
NoSQL VS SQL
定制化查詢 NoSQL很好的方案比Mysql集群要強很多。數(shù)據(jù)庫的趨勢是如何做深入的分析,如何將數(shù)據(jù)挖掘和機器學習并行化。大數(shù)據(jù)的趨勢:線性模型+簡單的特征要比復雜的模型+簡單的特征要好,現(xiàn)在是一個特征的工程。
•NoSQL的特點
–高可擴展性和彈性, 靈活數(shù)據(jù)模型, 強容錯, 高可用性(犧牲ACID,單記錄事務和最終一致性)
–適用于海量數(shù)據(jù)定制化存儲,高吞吐查詢(如全屬性選擇應用)
•SQL的特點
–強大的語義表達及關系表達, 查詢處理和優(yōu)化,ACID, 強一致性
–擴展性和靈活性差,用于高性能查詢和復雜分析
▲NoSQL VS SQL
移動大數(shù)據(jù)應用
人人游戲首席數(shù)據(jù)科學家 陳繼東認為,移動互聯(lián)網(wǎng)將成為大數(shù)據(jù)應用的主戰(zhàn)場,主要體現(xiàn)在:1、移動大數(shù)據(jù)核心載體,智能設備普及。2、高寬帶引流大數(shù)據(jù),手機使用3G和Wifi接入互聯(lián)網(wǎng)。3、移動大數(shù)據(jù)聚集地,Android和iOS成為主流OS。4、移動大數(shù)據(jù)源頭和關鍵節(jié)點,移動互聯(lián)網(wǎng)入口:搜索,移動瀏覽器,移動應用/商店,移動廣告;海量的獨立移動應用,對深入分析的需求更強。
通過大數(shù)據(jù)分析增強用戶體驗,用戶希望采用語音或者手勢進行輸入,后臺對于非結構化海量數(shù)據(jù)的分析非常重要。因此,數(shù)據(jù)驅(qū)動未來差異化發(fā)展,同時也會引發(fā)用戶對個性化需求?;ヂ?lián)網(wǎng)企業(yè)和移動互聯(lián)網(wǎng)企業(yè)都在討論數(shù)據(jù)驅(qū)動運營,以及移動互聯(lián)網(wǎng)的競爭營銷,借助對用戶的分析可以做到。
另外。對空間和時間維度的擴展,碎片化也是一個非常重要的特點。數(shù)據(jù)量更大,維度更高,數(shù)據(jù)量遠超過互聯(lián)網(wǎng)。包括設備信息,上網(wǎng)方式,種類紛繁復雜。
移動大數(shù)據(jù)數(shù)據(jù)的特點
1、數(shù)據(jù)的核心節(jié)點是人而不再是終端、網(wǎng)頁或ID
2、數(shù)據(jù)量更大,種類更多,覆蓋更廣(時空擴展)
3、更多個性化屬性,如用戶地理位置,設備屬性
4、不受限于瀏覽器Cookie,數(shù)據(jù)更穩(wěn)定長久,更干凈準確
5、用戶行為數(shù)據(jù)更碎片化,更實時性
數(shù)據(jù)的節(jié)點是人而不是終端設備,移動互聯(lián)網(wǎng)中沒有cookie,移動的核心節(jié)點不再是ID,而是設備,因此確定到某一個人。
移動大數(shù)據(jù)分析的挑戰(zhàn)主要體現(xiàn)在:
1、采集數(shù)據(jù)補償
2、大數(shù)據(jù)實時處理與深入分析
3、用戶時空行為模式的挖掘和利用
4、跨應用跨平臺跨設備多維數(shù)據(jù)分析
▲移動廣告分析的典型架構