Citus Hadoop架構(gòu)(來源gigaom.com)

如今,可以說大數(shù)據(jù)打開企業(yè)數(shù)據(jù)分析以及選擇性數(shù)據(jù)存儲的應用領(lǐng)域。有效地將兩項結(jié)合需要學習新的語言,使用多工具處理,甚至在分析平臺上或許要犧牲一部分性能。

據(jù)了解,CitusDB是Citus Data公司的旗艦數(shù)據(jù)庫產(chǎn)品,建立在PostgreSQL之上,目的就是為關(guān)系型數(shù)據(jù)設計像谷歌Dremel規(guī)模和性能的數(shù)據(jù)庫。特別是名為 “foreign data wrappers”功能,它能夠在多種數(shù)據(jù)類型(像CSV, log以及JSON files)上運行SQL。

另外特點就是,CitusDB不僅具有良好的靈活性而且性能很快。相比較甲骨文Exadata machine上TPC-H基準測試中數(shù)據(jù)直接存儲在硬盤有明顯優(yōu)勢,而之前在亞馬遜EC2云上的Postgres-Hadoop查詢幾秒鐘內(nèi)實現(xiàn)。

以Hadoop舉例,MapReduce提供數(shù)據(jù)集的計算,但是每一個Job需要對整個數(shù)據(jù)集進行掃描,導致Hadoop上的SQL查詢工具Hive性能慢的原因。CitusDB比Hive查詢數(shù)據(jù)類型的速度快3~20倍。

但是CitusDB市場上競爭對手是SQL-On-Hadoop的項目,相比Aster Data,Platfora,Cloudera (Impala)等公司在Hadoop上的產(chǎn)品,CitusDB除了查詢多個數(shù)據(jù)源之外,Citus絕非一個查詢執(zhí)行引擎產(chǎn)品,而是具有企業(yè)級數(shù)據(jù)庫的特點。

分享到

zhaohang

相關(guān)推薦