圖一:華東師范大學云計算與大數(shù)據(jù)研究中心主任、海量計算研究所所長周傲英教授發(fā)表演講。

周傲英表示數(shù)據(jù)系統(tǒng)往往應用在關(guān)鍵應用上,價格也較為昂貴。高性能數(shù)據(jù)系統(tǒng)主要可以分為四類:第一類是數(shù)據(jù)庫機器,典型代表就是Teradata、Exadata等機器;第二類是無共享并行系統(tǒng),代表就是DB2/PE,Hadoop以及Aster;第三類則是內(nèi)存/事務型系統(tǒng),代表有HANA、TimesTen以及OceanBase等;最后一類則是分析型系統(tǒng),代表則是Hadoop、Aster以及Greenplum。

圖二:高性能數(shù)據(jù)系統(tǒng)的本質(zhì)。

圖三:并行數(shù)據(jù)處理歷史。

周傲英認為數(shù)據(jù)系統(tǒng)或者大數(shù)據(jù)一個繞不開的話題就是Hadoop。他表示像Google和Amazon等互聯(lián)網(wǎng)公司具有大量的非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)的價值并不確定,如果采用購買商用機器的方式將會非常昂貴,所以這些用戶采用了Hadoop來構(gòu)建廉價的系統(tǒng)。

圖四:Hadoop是一個繞不開的話題。

根據(jù)介紹,在Hadoop誕生之前,Google公司在2003年發(fā)表了GFS(Google File System)系列論文,Jeffrey Dean等在2004年和2006年又分表發(fā)表了Mapreduce論文和BigTable論文。自此,奠定了Hadoop的發(fā)展基礎(chǔ)。

圖五:Hadoop的誕生。

周傲英教授認為Hadoop是一個可以更容易開發(fā)和存儲大規(guī)模數(shù)據(jù)的軟件平臺,幫助用戶快速、低成本地實現(xiàn)大數(shù)據(jù)的存儲、管理及分析查詢。Hadoop的關(guān)鍵在于MapReduce和HDFS,MapReduce可以實現(xiàn)高性能分布式并行數(shù)據(jù)處理,HDFS則提供可靠數(shù)據(jù)存儲服務,低廉MPP,高容錯,高通量以及可伸縮等特性功能。

圖六:Hadoop不等于大數(shù)據(jù)。

周傲英表示,Hadoo雖然有很多優(yōu)點,但并不等于大數(shù)據(jù)。Hadoop在MapReduce過程中仍然無法控制實時時間,所以在實時事務處理的時候還是沒有數(shù)據(jù)庫更強。

 

圖七:周傲英教授認為大數(shù)據(jù)應該進行分類,他認為大數(shù)據(jù)主要有Web數(shù)據(jù)、決策數(shù)據(jù)以及科學數(shù)據(jù)。

周教授表示在大數(shù)據(jù)時代下,應用需求在變化、應用環(huán)境的變化、硬件的變化、體系結(jié)構(gòu)的變化、計算環(huán)境的變化使得數(shù)據(jù)系統(tǒng)重新面對的。

圖八:SQL、NoSQL以及NewSQL的對比。

最后,周教授表示傳統(tǒng)數(shù)據(jù)庫的研究理念和方法在大數(shù)據(jù)環(huán)境下仍然有指導意義和參考價值,大數(shù)據(jù)研究是應用驅(qū)動的, 國內(nèi)在大數(shù)據(jù)時代中充滿機會。

分享到

shaolong

相關(guān)推薦