Erir首先介紹的什么是大數(shù)據(jù)。以及Hadoop的概念。Erir認(rèn)為不同的企業(yè)對大數(shù)據(jù)的應(yīng)用都不同。
“首先可以看到交易系統(tǒng),看看現(xiàn)在公司在做什么,他們也在更新自己的一些數(shù)據(jù)。可以看到這里有很多的數(shù)據(jù)是你的公司要處理的,一個傳統(tǒng)平臺并沒有這么高的成本效益來處理大數(shù)據(jù),所以我們需要一個很好的平臺能夠搜集所有的有效的數(shù)據(jù),有效地處理大數(shù)據(jù),與它的系統(tǒng)進(jìn)行交流和溝通。一個小的數(shù)據(jù)平臺和大的數(shù)據(jù)平臺有什么區(qū)別?首先在水平上有擴(kuò)展性,這是一個很具有挑戰(zhàn)性的問題,所以需要一個使用起來非常方便并且非常靈活能夠在不同一些應(yīng)用中都能使用的,也能在虛擬的云計算中使用的平臺,這是你所期待的平臺,這是大數(shù)據(jù)平臺的概念。”Erir講到。
對Hadoop概念的答案是,它總結(jié)了Apache平臺上各種開源的存儲和項目,所以有很多的處理,處理了很大的數(shù)據(jù),這有兩個基本的層面,一個是HDS,它是一個分布式的文件系統(tǒng),還有Map Reduce,是一個處理平臺可以處理非常簡單的工作,能夠把它進(jìn)行細(xì)分,然后把它分布到成千上萬個機(jī)器上。通過這樣的系統(tǒng)可以看到,有4.5萬這樣的應(yīng)用,通過開源來進(jìn)行應(yīng)用,使用起來非常地方便和快捷。這個平臺有什么關(guān)鍵的特點。首先我們有可擴(kuò)展性,你需要有這個能力很容易地在電腦上使用,現(xiàn)在已經(jīng)有4萬多臺電腦,而且在可控制性上非常地重要,而且可靠性是非常重要的。雖然它的重要性變得日益地增加就更加地重要了,如果在另外的集群如果有問題會造成巨大的問題。
Hadoop的核心是百分百開源
部署Hadoop的,可以看到這里有各種各樣的價值,包括交易價值和社會價值,社交媒體也在使用。所以可以利用企業(yè)智能工具進(jìn)行自己的部署。因此我們有了分銷也有了相關(guān)的參考架構(gòu),同時也有一些機(jī)構(gòu)來支持Hadoop的企業(yè)級應(yīng)用和部署。我想,Hadoop將會是未來的大數(shù)據(jù)的平臺,2015年的時候,全球的數(shù)據(jù)中的一半將會是通過Apache的Hadoop來處理的。另外Hortonworks的使命是為大家提供百分之百開源的Hadoop的平臺。另外我們也會做進(jìn)一步的投資使它成為企業(yè)級的大數(shù)據(jù)平臺。因此我們鼓勵生態(tài)系統(tǒng)的開發(fā)商能夠提供更多的生態(tài)系統(tǒng)的開發(fā)來支持Hadoop的平臺。另外我們會做大量的培訓(xùn)。
核心是什么?我們希望每個人都關(guān)注百分之百的開源分布,因為核心是這個平臺一定是開源的平臺,尤其對全球來說都是開源的。對大數(shù)據(jù)來說,為什么會成功?成功的關(guān)鍵在于達(dá)到一個臨界的質(zhì)的積累。這也是為什么我們公司支持百分之百的Hadoop開源分布。這樣在未來任何一個合作伙伴和供應(yīng)商都可以在開源平臺上合作?,F(xiàn)在很多人都在做Apache的Hadoop的標(biāo)準(zhǔn)調(diào)整,希望和我們的平臺結(jié)果對接。但我想,在未來我們不希望把市場進(jìn)行細(xì)分,不管是怎樣的狀況。
Hadoop可以減少成本 提供效率
“如果你需要在單元的成本上減少,而人員的操作成本上也可以減少,這是非常重要的一點。我們看看Hadoop的應(yīng)用和部署吧。”Hadoop主要的活動,一個是交易系統(tǒng),包括了網(wǎng)站、網(wǎng)址、數(shù)據(jù)系統(tǒng)和與客戶的交流,下面還有業(yè)務(wù)情報和分析,這里會用到很多這樣的系統(tǒng)。這樣的系統(tǒng)在成千上萬的公司中都會用到,價值非常之高,也需要用Hadoop。這里有一些新的技術(shù),這些的一些數(shù)據(jù)并不太與傳統(tǒng)的結(jié)構(gòu)相配合,可能會影響到其他的應(yīng)用上的空間或性能和容量,可以造成很大的問題,Hadoop可以很高效地把數(shù)據(jù)搜集起來對它進(jìn)行處理和精煉。實際上Hadoop并不是替代了現(xiàn)有的數(shù)據(jù)的結(jié)構(gòu)而是不足、補(bǔ)充現(xiàn)在所看到的就是你實施了Hadoop,你可以做之前公司做不了的事情,包括捕獲一些新的數(shù)據(jù),以成本效益很低的形式來處理數(shù)據(jù),可以把它用在傳統(tǒng)的系統(tǒng)架構(gòu)之上。當(dāng)然以前也能處理,但成本效益在傳統(tǒng)的系數(shù)上很低,很多的數(shù)據(jù)都會把數(shù)據(jù)進(jìn)行轉(zhuǎn)型和轉(zhuǎn)換用于數(shù)據(jù)庫之中,他們在傳統(tǒng)的平臺上做的效率非常低。所以通過Hadoop就能夠增加你的成本效率,包括你的數(shù)據(jù)庫、數(shù)據(jù)平臺這方面都可以得到更高的效率。
Erir舉例說明,在不同的行業(yè)里可以因為這個應(yīng)用會得到更好的成功。“我們也觀察到在早期的時候技術(shù)剛開始采用的人們是非常關(guān)注那些能夠找到技術(shù)優(yōu)勢的人們,他們愿意采用風(fēng)險來嘗試一些新的東西。隨著技術(shù)逐漸的成熟,而且應(yīng)用更加地廣泛,一些使用者開始使用,他們需要看到和使用這個技術(shù)給他們帶來更多的價值。所以這主要是作為愿景的應(yīng)用,慢慢地逐漸得以使用,使自己的業(yè)務(wù)能帶來更多優(yōu)勢的轉(zhuǎn)型。所以說,技術(shù)怎么能實現(xiàn)這樣的轉(zhuǎn)型?一定在剛開始有很多成功的案例,使用起來非常地容易。另外我們要給予培訓(xùn)和支持,建立良好的生態(tài)系統(tǒng),這樣才能更好的應(yīng)用在各個企業(yè)。”
目前世界500強(qiáng)企業(yè)以及其他公司基于互聯(lián)網(wǎng)投資Hadoop。首先是現(xiàn)在的ATL可以從其他的新聞中搜集數(shù)據(jù)進(jìn)行處理,把它的放在系統(tǒng)上,挖掘數(shù)據(jù)。它的關(guān)注點是,詢問數(shù)據(jù),用觀察數(shù)據(jù)找到未來的形式,豐富數(shù)據(jù)的使用,經(jīng)常在網(wǎng)上使用,這也是在雅虎上經(jīng)常使用的。現(xiàn)在Hadoop在4.2多萬個電腦上使用了。雅虎每個頁基本上的內(nèi)容都是通過我們來處理的,所以它確實對于雅虎上個人化的應(yīng)用和其他一些公司的服務(wù)產(chǎn)生了重大的影響。
Hadoop是在整個的空間中毫無斷線地運營下去,它可以存儲各種各樣的數(shù)據(jù),因為大多數(shù)的數(shù)據(jù)特別是很多公司投資的新的數(shù)據(jù)并不是一些傳統(tǒng)上遵循傳統(tǒng)結(jié)構(gòu)的數(shù)據(jù),而且它必須具有經(jīng)濟(jì)效益,這也是我們不能低估和忽視的一點,比較強(qiáng)調(diào)的一點。大數(shù)據(jù)意味著成本很高,如果你擴(kuò)展平臺中的運營和效率會產(chǎn)生很多的成本。
接下來再看一下未來我們要做怎樣的投資。我們對Hadoop平臺的開發(fā)是非常振奮的。Ambari是管理和監(jiān)測服務(wù)的供應(yīng)商,在4000多個個集群上部署數(shù)面臨著很多的挑戰(zhàn)的。新的Apache項目是由Ambari負(fù)責(zé)的,他做了大量的監(jiān)測和警戒的工作?,F(xiàn)在大家也看到了Apache領(lǐng)域的進(jìn)展,我們也期待著未來合作伙伴可以有更多的創(chuàng)新。
企業(yè)為什么愿意采用Hadoop?
為什么很多企業(yè)都愿意采用Hadoop呢?是因為它能夠處理非常大型的數(shù)據(jù),而且對未來的數(shù)據(jù)需求來說是非常重要的。但隨著數(shù)據(jù)的增加我們還是面臨著挑戰(zhàn),所以每個人、每家企業(yè)都因為這個項目來選擇Hadoop,主要是因為從大數(shù)據(jù)的規(guī)模的角度來說愿意采用。所以看一下Hadoop的變化,Hadoop2.0改進(jìn)了拓展性,還有任何的框架上都可以在Hadoop上進(jìn)行運行,另外,還有一些項目、流、CP包括處理引擎等等。另外還有服務(wù)器。我們還支持其他的框架,比如說比較低的之后還有服務(wù)和流。這樣可以用一個Hadoop群集可以做以前需要多個群集才能做的事情。另外還有一個HDFC2.0,實際上它是類似于一個聯(lián)盟的性質(zhì),因為它可以通過多個NameNodes進(jìn)行拓展,這給存儲帶來了價值,另外也允許我們新的NameNodes提供新的性能,因為在Hadoop里面會提供新的拓展,我們整個社區(qū)在做著大量的創(chuàng)新。