Erir首先介紹的什么是大數(shù)據(jù)。以及Hadoop的概念。Erir認(rèn)為不同的企業(yè)對(duì)大數(shù)據(jù)的應(yīng)用都不同。
“首先可以看到交易系統(tǒng),看看現(xiàn)在公司在做什么,他們也在更新自己的一些數(shù)據(jù)??梢钥吹竭@里有很多的數(shù)據(jù)是你的公司要處理的,一個(gè)傳統(tǒng)平臺(tái)并沒(méi)有這么高的成本效益來(lái)處理大數(shù)據(jù),所以我們需要一個(gè)很好的平臺(tái)能夠搜集所有的有效的數(shù)據(jù),有效地處理大數(shù)據(jù),與它的系統(tǒng)進(jìn)行交流和溝通。一個(gè)小的數(shù)據(jù)平臺(tái)和大的數(shù)據(jù)平臺(tái)有什么區(qū)別?首先在水平上有擴(kuò)展性,這是一個(gè)很具有挑戰(zhàn)性的問(wèn)題,所以需要一個(gè)使用起來(lái)非常方便并且非常靈活能夠在不同一些應(yīng)用中都能使用的,也能在虛擬的云計(jì)算中使用的平臺(tái),這是你所期待的平臺(tái),這是大數(shù)據(jù)平臺(tái)的概念。”Erir講到。

對(duì)Hadoop概念的答案是,它總結(jié)了Apache平臺(tái)上各種開(kāi)源的存儲(chǔ)和項(xiàng)目,所以有很多的處理,處理了很大的數(shù)據(jù),這有兩個(gè)基本的層面,一個(gè)是HDS,它是一個(gè)分布式的文件系統(tǒng),還有Map  Reduce,是一個(gè)處理平臺(tái)可以處理非常簡(jiǎn)單的工作,能夠把它進(jìn)行細(xì)分,然后把它分布到成千上萬(wàn)個(gè)機(jī)器上。通過(guò)這樣的系統(tǒng)可以看到,有4.5萬(wàn)這樣的應(yīng)用,通過(guò)開(kāi)源來(lái)進(jìn)行應(yīng)用,使用起來(lái)非常地方便和快捷。這個(gè)平臺(tái)有什么關(guān)鍵的特點(diǎn)。首先我們有可擴(kuò)展性,你需要有這個(gè)能力很容易地在電腦上使用,現(xiàn)在已經(jīng)有4萬(wàn)多臺(tái)電腦,而且在可控制性上非常地重要,而且可靠性是非常重要的。雖然它的重要性變得日益地增加就更加地重要了,如果在另外的集群如果有問(wèn)題會(huì)造成巨大的問(wèn)題。

Hadoop的核心是百分百開(kāi)源

部署Hadoop的,可以看到這里有各種各樣的價(jià)值,包括交易價(jià)值和社會(huì)價(jià)值,社交媒體也在使用。所以可以利用企業(yè)智能工具進(jìn)行自己的部署。因此我們有了分銷(xiāo)也有了相關(guān)的參考架構(gòu),同時(shí)也有一些機(jī)構(gòu)來(lái)支持Hadoop的企業(yè)級(jí)應(yīng)用和部署。我想,Hadoop將會(huì)是未來(lái)的大數(shù)據(jù)的平臺(tái),2015年的時(shí)候,全球的數(shù)據(jù)中的一半將會(huì)是通過(guò)Apache的Hadoop來(lái)處理的。另外Hortonworks的使命是為大家提供百分之百開(kāi)源的Hadoop的平臺(tái)。另外我們也會(huì)做進(jìn)一步的投資使它成為企業(yè)級(jí)的大數(shù)據(jù)平臺(tái)。因此我們鼓勵(lì)生態(tài)系統(tǒng)的開(kāi)發(fā)商能夠提供更多的生態(tài)系統(tǒng)的開(kāi)發(fā)來(lái)支持Hadoop的平臺(tái)。另外我們會(huì)做大量的培訓(xùn)。

核心是什么?我們希望每個(gè)人都關(guān)注百分之百的開(kāi)源分布,因?yàn)楹诵氖沁@個(gè)平臺(tái)一定是開(kāi)源的平臺(tái),尤其對(duì)全球來(lái)說(shuō)都是開(kāi)源的。對(duì)大數(shù)據(jù)來(lái)說(shuō),為什么會(huì)成功?成功的關(guān)鍵在于達(dá)到一個(gè)臨界的質(zhì)的積累。這也是為什么我們公司支持百分之百的Hadoop開(kāi)源分布。這樣在未來(lái)任何一個(gè)合作伙伴和供應(yīng)商都可以在開(kāi)源平臺(tái)上合作?,F(xiàn)在很多人都在做Apache的Hadoop的標(biāo)準(zhǔn)調(diào)整,希望和我們的平臺(tái)結(jié)果對(duì)接。但我想,在未來(lái)我們不希望把市場(chǎng)進(jìn)行細(xì)分,不管是怎樣的狀況。

Hadoop可以減少成本 提供效率

“如果你需要在單元的成本上減少,而人員的操作成本上也可以減少,這是非常重要的一點(diǎn)。我們看看Hadoop的應(yīng)用和部署吧。”Hadoop主要的活動(dòng),一個(gè)是交易系統(tǒng),包括了網(wǎng)站、網(wǎng)址、數(shù)據(jù)系統(tǒng)和與客戶的交流,下面還有業(yè)務(wù)情報(bào)和分析,這里會(huì)用到很多這樣的系統(tǒng)。這樣的系統(tǒng)在成千上萬(wàn)的公司中都會(huì)用到,價(jià)值非常之高,也需要用Hadoop。這里有一些新的技術(shù),這些的一些數(shù)據(jù)并不太與傳統(tǒng)的結(jié)構(gòu)相配合,可能會(huì)影響到其他的應(yīng)用上的空間或性能和容量,可以造成很大的問(wèn)題,Hadoop可以很高效地把數(shù)據(jù)搜集起來(lái)對(duì)它進(jìn)行處理和精煉。實(shí)際上Hadoop并不是替代了現(xiàn)有的數(shù)據(jù)的結(jié)構(gòu)而是不足、補(bǔ)充現(xiàn)在所看到的就是你實(shí)施了Hadoop,你可以做之前公司做不了的事情,包括捕獲一些新的數(shù)據(jù),以成本效益很低的形式來(lái)處理數(shù)據(jù),可以把它用在傳統(tǒng)的系統(tǒng)架構(gòu)之上。當(dāng)然以前也能處理,但成本效益在傳統(tǒng)的系數(shù)上很低,很多的數(shù)據(jù)都會(huì)把數(shù)據(jù)進(jìn)行轉(zhuǎn)型和轉(zhuǎn)換用于數(shù)據(jù)庫(kù)之中,他們?cè)趥鹘y(tǒng)的平臺(tái)上做的效率非常低。所以通過(guò)Hadoop就能夠增加你的成本效率,包括你的數(shù)據(jù)庫(kù)、數(shù)據(jù)平臺(tái)這方面都可以得到更高的效率。

Erir舉例說(shuō)明,在不同的行業(yè)里可以因?yàn)檫@個(gè)應(yīng)用會(huì)得到更好的成功。“我們也觀察到在早期的時(shí)候技術(shù)剛開(kāi)始采用的人們是非常關(guān)注那些能夠找到技術(shù)優(yōu)勢(shì)的人們,他們?cè)敢獠捎蔑L(fēng)險(xiǎn)來(lái)嘗試一些新的東西。隨著技術(shù)逐漸的成熟,而且應(yīng)用更加地廣泛,一些使用者開(kāi)始使用,他們需要看到和使用這個(gè)技術(shù)給他們帶來(lái)更多的價(jià)值。所以這主要是作為愿景的應(yīng)用,慢慢地逐漸得以使用,使自己的業(yè)務(wù)能帶來(lái)更多優(yōu)勢(shì)的轉(zhuǎn)型。所以說(shuō),技術(shù)怎么能實(shí)現(xiàn)這樣的轉(zhuǎn)型?一定在剛開(kāi)始有很多成功的案例,使用起來(lái)非常地容易。另外我們要給予培訓(xùn)和支持,建立良好的生態(tài)系統(tǒng),這樣才能更好的應(yīng)用在各個(gè)企業(yè)。”

目前世界500強(qiáng)企業(yè)以及其他公司基于互聯(lián)網(wǎng)投資Hadoop。首先是現(xiàn)在的ATL可以從其他的新聞中搜集數(shù)據(jù)進(jìn)行處理,把它的放在系統(tǒng)上,挖掘數(shù)據(jù)。它的關(guān)注點(diǎn)是,詢(xún)問(wèn)數(shù)據(jù),用觀察數(shù)據(jù)找到未來(lái)的形式,豐富數(shù)據(jù)的使用,經(jīng)常在網(wǎng)上使用,這也是在雅虎上經(jīng)常使用的?,F(xiàn)在Hadoop在4.2多萬(wàn)個(gè)電腦上使用了。雅虎每個(gè)頁(yè)基本上的內(nèi)容都是通過(guò)我們來(lái)處理的,所以它確實(shí)對(duì)于雅虎上個(gè)人化的應(yīng)用和其他一些公司的服務(wù)產(chǎn)生了重大的影響。

Hadoop是在整個(gè)的空間中毫無(wú)斷線地運(yùn)營(yíng)下去,它可以存儲(chǔ)各種各樣的數(shù)據(jù),因?yàn)榇蠖鄶?shù)的數(shù)據(jù)特別是很多公司投資的新的數(shù)據(jù)并不是一些傳統(tǒng)上遵循傳統(tǒng)結(jié)構(gòu)的數(shù)據(jù),而且它必須具有經(jīng)濟(jì)效益,這也是我們不能低估和忽視的一點(diǎn),比較強(qiáng)調(diào)的一點(diǎn)。大數(shù)據(jù)意味著成本很高,如果你擴(kuò)展平臺(tái)中的運(yùn)營(yíng)和效率會(huì)產(chǎn)生很多的成本。

接下來(lái)再看一下未來(lái)我們要做怎樣的投資。我們對(duì)Hadoop平臺(tái)的開(kāi)發(fā)是非常振奮的。Ambari是管理和監(jiān)測(cè)服務(wù)的供應(yīng)商,在4000多個(gè)個(gè)集群上部署數(shù)面臨著很多的挑戰(zhàn)的。新的Apache項(xiàng)目是由Ambari負(fù)責(zé)的,他做了大量的監(jiān)測(cè)和警戒的工作。現(xiàn)在大家也看到了Apache領(lǐng)域的進(jìn)展,我們也期待著未來(lái)合作伙伴可以有更多的創(chuàng)新。

企業(yè)為什么愿意采用Hadoop?

為什么很多企業(yè)都愿意采用Hadoop呢?是因?yàn)樗軌蛱幚矸浅4笮偷臄?shù)據(jù),而且對(duì)未來(lái)的數(shù)據(jù)需求來(lái)說(shuō)是非常重要的。但隨著數(shù)據(jù)的增加我們還是面臨著挑戰(zhàn),所以每個(gè)人、每家企業(yè)都因?yàn)檫@個(gè)項(xiàng)目來(lái)選擇Hadoop,主要是因?yàn)閺拇髷?shù)據(jù)的規(guī)模的角度來(lái)說(shuō)愿意采用。所以看一下Hadoop的變化,Hadoop2.0改進(jìn)了拓展性,還有任何的框架上都可以在Hadoop上進(jìn)行運(yùn)行,另外,還有一些項(xiàng)目、流、CP包括處理引擎等等。另外還有服務(wù)器。我們還支持其他的框架,比如說(shuō)比較低的之后還有服務(wù)和流。這樣可以用一個(gè)Hadoop群集可以做以前需要多個(gè)群集才能做的事情。另外還有一個(gè)HDFC2.0,實(shí)際上它是類(lèi)似于一個(gè)聯(lián)盟的性質(zhì),因?yàn)樗梢酝ㄟ^(guò)多個(gè)NameNodes進(jìn)行拓展,這給存儲(chǔ)帶來(lái)了價(jià)值,另外也允許我們新的NameNodes提供新的性能,因?yàn)樵贖adoop里面會(huì)提供新的拓展,我們整個(gè)社區(qū)在做著大量的創(chuàng)新。

分享到

renxinbo

相關(guān)推薦