Hadoop雖然強(qiáng)大但不是萬能的

IT邵年發(fā)表于：14年02月08日 00:44 [轉(zhuǎn)載] 至頂網(wǎng)

分享：

[導(dǎo)讀]隨著 Hadoop 應(yīng)用的不斷拓展，使很多人陷入了對(duì)它的盲目崇拜中，認(rèn)為它能解決一切問題。雖然Hadoop是一個(gè)偉大的分布式大型數(shù)據(jù)計(jì)算的框架，但Hadoop不是萬能的。

隨著Hadoop應(yīng)用的不斷拓展，使很多人陷入了對(duì)它的盲目崇拜中，認(rèn)為它能解決一切問題。雖然Hadoop是一個(gè)偉大的分布式大型數(shù)據(jù)計(jì)算的框架，但Hadoop不是萬能的。比如在下面這幾種場(chǎng)景就不適合使用Hadoop：

1、低延遲的數(shù)據(jù)訪問

Hadoop并不適用于需要實(shí)時(shí)查詢和低延遲的數(shù)據(jù)訪問。數(shù)據(jù)庫(kù)通過索引記錄可以降低延遲和快速響應(yīng)，這一點(diǎn)單純的用Hadoop是沒有辦法代替的。但是如果你真的想要取代一個(gè)實(shí)時(shí)數(shù)據(jù)庫(kù)，可以嘗試一下HBase來實(shí)現(xiàn)數(shù)據(jù)庫(kù)實(shí)時(shí)讀寫。

2、結(jié)構(gòu)化數(shù)據(jù)

Hadoop不適用于結(jié)構(gòu)化數(shù)據(jù)，卻非常適用于半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。Hadoop和RDBMS不同，一般采用分布式存儲(chǔ)，因此在查詢處理的時(shí)候?qū)?huì)面臨延遲問題。

3、數(shù)據(jù)量并不大的時(shí)候

Hadoop一般適用于多大的數(shù)據(jù)量呢？答案是：TB 或者PB。當(dāng)你的數(shù)據(jù)只有幾十GB時(shí)，使用Hadoop是沒有任何好處的。按照企業(yè)的需求有選擇性的的使用Hadoop，不要盲目追隨潮流。Hadoop很強(qiáng)大。但企業(yè)在使用Hadoop或者大數(shù)據(jù)之前，首先要明確自己的目標(biāo)，再確定是否選對(duì)了工具。

4、大量的小文件

小文件指的是那些size比HDFS的block size(默認(rèn)64M)小得多的文件。如果在HDFS中存儲(chǔ)大量的小文件，每一個(gè)個(gè)文件對(duì)應(yīng)一個(gè)block，那么就將要消耗namenode大量的內(nèi)存來保存這些block的信息。如果小文件規(guī)模再大一些，那么將會(huì)超出現(xiàn)階段計(jì)算機(jī)硬件所能滿足的極限。

5、太多的寫入和文件更新

HDFS是采用的一些多讀方式。當(dāng)有太多文件更新需求，Hadoop沒有辦法支持。

6、MapReduce可能不是最好的選擇

MapReduce是一個(gè)簡(jiǎn)單的并行編程模型。是大數(shù)據(jù)并行計(jì)算的利器，但很多的計(jì)算任務(wù)、工作及算法從本質(zhì)上來說就是不適合使用MapReduce框架的。

如果你讓數(shù)據(jù)共享在MapReduce，你可以這樣做：

迭代：運(yùn)行多個(gè) MapReduce jobs ，前一個(gè) MapReduce 的輸出結(jié)果，作為下一個(gè) MapReduce 的輸入。
共享狀態(tài)信息：但不要分享信息在內(nèi)存中，由于每個(gè)MapReduce的工作是在單個(gè)JVM上運(yùn)行。

[責(zé)任編輯：邵海宏]

聯(lián)想23億接盤IBM低端服務(wù)器誰贏誰輸？

聯(lián)想23億接盤IBM低端服務(wù)器使得自己在服務(wù)器渠道中的優(yōu)勢(shì)更加明顯，但是如何與以前的ThinkServer品牌產(chǎn)品線做整合，還是個(gè)問題。如何梳理這些渠道，

官方微信

相關(guān)閱讀

精彩專題更多

2014企業(yè)級(jí)IT風(fēng)云榜

存儲(chǔ)風(fēng)云榜”是由DOIT傳媒主辦的年度大型活動(dòng)�；仡�2014年，存儲(chǔ)作為IT系統(tǒng)架構(gòu)中最基礎(chǔ)的元素，已經(jīng)成為了推動(dòng)信息產(chǎn)業(yè)發(fā)展的核心動(dòng)力，存儲(chǔ)產(chǎn)業(yè)的發(fā)展邁向成熟，數(shù)據(jù)經(jīng)濟(jì)的概念順勢(shì)而為的提出。

華為OceanStor V3開啟全融合數(shù)據(jù)架構(gòu)時(shí)代

華為OceanStor V3系列存儲(chǔ)系統(tǒng)是面向企業(yè)級(jí)應(yīng)用的新一代統(tǒng)一存儲(chǔ)產(chǎn)品。在功能、性能、效率、可靠性和易用性上都達(dá)到業(yè)界領(lǐng)先水平，很好的滿足了大型數(shù)據(jù)庫(kù)OLTP/OLAP、文件共享、云計(jì)算等各種應(yīng)用下的數(shù)據(jù)存儲(chǔ)需求。

聯(lián)想亮相高交會(huì)

聯(lián)想攜ThinkServer+System+七大行業(yè)解決方案驚艷第十六屆高交會(huì)

噜噜噜综合,又色又爽又高潮免费观看,综合无码一区二区三区四区五区,中文字幕无码人妻aaa片,四虎成人精品永久网站

Hadoop雖然強(qiáng)大但不是萬能的