Hadoop之父,Cloudera首席架構(gòu)師Doug Cutting先生

問(wèn):作為Hadoop創(chuàng)始人,請(qǐng)您回顧一下Hadoop歷史和初衷?

Doug Cutting:創(chuàng)建Hadoop的時(shí)候,當(dāng)時(shí)我正在做一個(gè)項(xiàng)目,這個(gè)項(xiàng)目的代號(hào)叫Nutch。當(dāng)時(shí)希望能夠基于開(kāi)源去創(chuàng)建出一種網(wǎng)絡(luò)搜索的引擎,實(shí)現(xiàn)一種具有可擴(kuò)展性、可收縮性的數(shù)據(jù)技術(shù)。

同期我看到了來(lái)自于Google的幾篇論文,我覺(jué)得他們的想法和我們的想法是完全一致的,所以我們把Google的想法放到了Nutch項(xiàng)目當(dāng)中來(lái)實(shí)施了。當(dāng)時(shí)我個(gè)人有這樣的一個(gè)需要,就是要做好手上的項(xiàng)目,當(dāng)時(shí)我確實(shí)是沒(méi)有預(yù)想到一旦創(chuàng)建出來(lái)這個(gè)技術(shù)以后,它具有如此之廣的用途,沒(méi)有預(yù)見(jiàn)到它在制造、銀行、電信等很多行業(yè)的價(jià)值。它讓我感覺(jué)到非常驚喜。

問(wèn):如今Hadoop的進(jìn)展,有沒(méi)有和最初設(shè)想不太一樣的地方?

Doug Cutting:當(dāng)初也沒(méi)有一個(gè)關(guān)于Hadoop將來(lái)如何發(fā)展的計(jì)劃,Hadoop發(fā)展的演進(jìn)范圍、規(guī)模大大超出了我當(dāng)初的預(yù)想。而且最讓我驚喜的就是圍繞著Hadoop以及基于Hadoop所有的項(xiàng)目和技術(shù),并不是基于某一個(gè)單獨(dú)的技術(shù)。而是基于多種技術(shù)組成的系列家族,整個(gè)技術(shù)系列是在不斷發(fā)展和演進(jìn)之中,也就是說(shuō)圍繞著Hadoop現(xiàn)在已經(jīng)形成了非常強(qiáng)大的生態(tài)系統(tǒng),Hadoop整體生態(tài)系統(tǒng)的演進(jìn)和發(fā)展并不受制于其中的任何一種組成的技術(shù)。

問(wèn): Hadoop常常和大數(shù)據(jù)聯(lián)系在一起,和人工智能也有關(guān)聯(lián)嗎?

Doug Cutting :我覺(jué)得Hadoop和AI之間是非常適合、非常匹配的一項(xiàng)技術(shù),因?yàn)锳I本身就是一種大數(shù)據(jù)的應(yīng)用。

特別對(duì)于AI系統(tǒng)進(jìn)行訓(xùn)練的時(shí)候,使用的數(shù)據(jù)越多,AI系統(tǒng)就越先進(jìn)。上周Google發(fā)表了一篇文章,主要講的是基于AI的圖像識(shí)別,也就是說(shuō),在用數(shù)以十億計(jì)的圖像識(shí)別的深度智能系統(tǒng)培訓(xùn)基礎(chǔ)之上,圖像越多,識(shí)別能力就越強(qiáng)。因此,從這個(gè)意義上來(lái)說(shuō),AI就是一種大數(shù)據(jù)應(yīng)用。

問(wèn):如何看待Hadoop和開(kāi)源軟件之間的演變關(guān)系?

Doug Cutting: Hadoop作為一項(xiàng)基礎(chǔ)仍然是在發(fā)揮著關(guān)鍵作用,與此同時(shí)spark對(duì)于像IoT和AI的應(yīng)用,也在起到越來(lái)越重要的作用。

除此之外,我們也會(huì)看到新的技術(shù)會(huì)涌現(xiàn)出來(lái),這樣能夠使得開(kāi)源的整個(gè)生態(tài)系統(tǒng)進(jìn)一步得到發(fā)展和改進(jìn)。這對(duì)于整個(gè)開(kāi)源的生態(tài)系統(tǒng)來(lái)說(shuō)是一件好事,比方說(shuō)如果有了更好的存儲(chǔ)技術(shù)或者是更好的分析技術(shù),毫無(wú)疑問(wèn)Cloudera會(huì)采用這些技術(shù)。因?yàn)樵陂_(kāi)源的世界當(dāng)中,競(jìng)爭(zhēng)的邏輯是不一樣的,沒(méi)有哪個(gè)公司是擁有開(kāi)源的技術(shù)。每當(dāng)開(kāi)源的技術(shù)有了新的發(fā)明或進(jìn)展,開(kāi)源群體的每一分子都會(huì)受益于其中。比方說(shuō)如果在有一些領(lǐng)域會(huì)出現(xiàn)新的技術(shù),在某些方面會(huì)優(yōu)于Hadoop,那Cloudera也會(huì)毫無(wú)疑問(wèn)去采納這樣的技術(shù)放到我們的解決方案當(dāng)中去交付給客戶,例如kudu,它是一個(gè)非常強(qiáng)大的存儲(chǔ)引擎,它既具備了像Hbase的隨機(jī)訪問(wèn)能力,同時(shí)又具有HDFS快速查詢能力,兩者兼而有之。再例如Kafka,它有很強(qiáng)的實(shí)時(shí)應(yīng)用支持能力和流處理能力,Cloudera已經(jīng)把這兩個(gè)技術(shù)采納到平臺(tái)當(dāng)中,更好地滿足需求。

另外我們也在構(gòu)建一些更多基于Spark機(jī)器學(xué)習(xí)的工具,與之相關(guān)的有一個(gè)項(xiàng)目叫Apache Spot,它幫助我們的客戶保護(hù)他們的網(wǎng)絡(luò)安全,免遭黑客的攻擊,這是我們?cè)贖adoop和Spark基礎(chǔ)之上的進(jìn)一步發(fā)展。

問(wèn):對(duì)于Hadoop分布式存儲(chǔ)來(lái)說(shuō),在處理速度、網(wǎng)絡(luò)延時(shí)和成本幾個(gè)要素之間如何取得比較好的平衡?

Doug Cutting:在很多案例當(dāng)中,我們看到處理器很多但也能夠做到低延遲,關(guān)鍵在于對(duì)于要處理的問(wèn)、處理任務(wù)怎樣劃分,比如通過(guò)Hbase或通過(guò)很多交互式的系統(tǒng)像Solr 搜索,在節(jié)點(diǎn)越多的情況下反而能降低延遲,這是因?yàn)槿蝿?wù)處理有很好的并行性??梢哉f(shuō)現(xiàn)在大部分情況下,節(jié)點(diǎn)的數(shù)量或處理器的數(shù)量和延遲之間的平衡是不難找到的。

接下來(lái)就要講成本,成本確實(shí)是一個(gè)考慮因素,首先我們的軟件是開(kāi)源的,而且我們所有解決方案能夠使用普通的商用硬件,所以和上一代相比成本有大幅度降低。而且我們認(rèn)為今天這種低成本的架構(gòu)是可以去運(yùn)行很多其他的應(yīng)用,只不過(guò)有很多其他的應(yīng)用暫時(shí)還沒(méi)有用上低成本的架構(gòu),還有進(jìn)一步降低成本的潛力。

問(wèn):Cloudera在Hadoop、Spark領(lǐng)域競(jìng)爭(zhēng)的優(yōu)勢(shì)是什么?

Doug Cutting :首先IBM、微軟等幾家ISV對(duì)于Hadoop也是大力支持的,比方說(shuō)微軟是Cloudera的合作伙伴,Oracle是Cloudera的分銷商。而且我們看到在大數(shù)據(jù)領(lǐng)域,采用最多的還是開(kāi)源的系統(tǒng)。

盡管在亞馬遜、微軟和谷歌的云平臺(tái)之上會(huì)有一些用戶,他們的大數(shù)據(jù)應(yīng)用使用的是專有的商用軟件服務(wù)。但是我認(rèn)為假以時(shí)日,這些客戶會(huì)再次認(rèn)識(shí)到在云中使用開(kāi)源的大數(shù)據(jù)解決方案,具備成本更低、質(zhì)量更高的優(yōu)勢(shì),因?yàn)槭褂瞄_(kāi)源的解決方案使客戶可以在不同的云環(huán)境之間自由遷移。將來(lái)如果有這樣的必要性,可以選擇把這個(gè)軟件本地安裝來(lái)使用。

迄今為止,這些在大數(shù)據(jù)領(lǐng)域的商業(yè)或者專有軟件對(duì)Cloudera來(lái)說(shuō),我認(rèn)為并不構(gòu)成威脅。

問(wèn):如何看待Hadoop和云計(jì)算的關(guān)系?

Doug Cutting:云計(jì)算或云模式使得客戶在使用Hadoop的方式上具有了更大的靈活性,比方說(shuō)他們可以在云環(huán)境中來(lái)使用Hadoop。如果他們把Hadoop用本地安裝運(yùn)行的形式來(lái)使用的話,他們往往是建一個(gè)單個(gè)很大的集群來(lái)支持各種不同的應(yīng)用,并且擁有一個(gè)統(tǒng)一的數(shù)據(jù)拷貝。如果在云環(huán)境當(dāng)中來(lái)運(yùn)行Hadoop,他們的數(shù)據(jù)會(huì)在亞馬遜存儲(chǔ)之類的系統(tǒng)當(dāng)中,云環(huán)境供應(yīng)商已經(jīng)幫助他們管理了數(shù)據(jù)的拷貝。

在云環(huán)境當(dāng)中使用Hadoop,客戶可以針對(duì)不同的應(yīng)用創(chuàng)建應(yīng)用不同的集群,而這樣的集群開(kāi)關(guān)或者是規(guī)模的伸縮,都可以按需進(jìn)行,這樣對(duì)于客戶來(lái)說(shuō),可以實(shí)現(xiàn)更好控制和靈活性。

我們從整個(gè)IT長(zhǎng)遠(yuǎn)的發(fā)展趨勢(shì)來(lái)看,過(guò)去IT在一個(gè)企業(yè)當(dāng)中往往是集中在一個(gè)部門的手中,但是現(xiàn)在我們看到很多的企業(yè)的數(shù)據(jù)和數(shù)字技術(shù),是在整個(gè)企業(yè)當(dāng)中得到了擴(kuò)散和廣泛使用,并不是所有IT的事項(xiàng)像過(guò)去一樣要找IT部門解決,各個(gè)非IT的部門具有越來(lái)越大的能力,在IT方面進(jìn)行自我管理、自我服務(wù),也有越來(lái)越多的工具能夠幫助他們做到這一點(diǎn)。而云計(jì)算是促進(jìn)和推動(dòng)了這一趨勢(shì)的發(fā)展,由于有云計(jì)算使得一個(gè)公司當(dāng)中非IT部門,例如運(yùn)營(yíng)、制造、市場(chǎng)營(yíng)銷部門都能夠自行采購(gòu)一些服務(wù)并且加以運(yùn)行,他們的控制能力和靈活性都大大增加了。

云計(jì)算本身也是促進(jìn)了IT和數(shù)據(jù)的分散化、自助化,而不是像過(guò)去那種集中化的模式。

問(wèn):有數(shù)據(jù)專家現(xiàn)在趨向于把Hadoop當(dāng)作數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的補(bǔ)充,請(qǐng)問(wèn)您是怎么理解的?對(duì)于有一些數(shù)據(jù)量極小的應(yīng)用, Hadoop會(huì)是殺雞用牛刀嗎?

Doug Cutting:我們是可以把整個(gè)數(shù)據(jù)倉(cāng)庫(kù)都建立在Hadoop之上的。五年前我們和Ralph Kimball博士,他是數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)主要的創(chuàng)建人,一起搞清楚了,也是證實(shí)了可以完全基于Hadoop來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)。而且也有很多用戶確實(shí)是把他們的數(shù)據(jù)倉(cāng)庫(kù)完全建立在Hadoop的基礎(chǔ)之上。

當(dāng)然就建立數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)而言,有其他的一些技術(shù)或者是工具,和Hadoop相比,這些存在的年頭更長(zhǎng),可能已經(jīng)有了數(shù)十年的歷史。而事實(shí)上對(duì)于這些時(shí)間更加長(zhǎng)久的技術(shù),Hadoop并沒(méi)有能夠具備其中所有的功能、所有的性能。但即使如此,很多用戶選擇把他們的數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建在Hadoop的架構(gòu)之上,他們是為了能夠?qū)崿F(xiàn)更加優(yōu)越的可擴(kuò)展性、更高的性價(jià)比,以及更好的靈活性。

就第二個(gè)問(wèn)而言,是不是殺雞用牛刀,這主要看用戶完成任務(wù)當(dāng)中需要使用什么樣的工具。有的時(shí)候也許在規(guī)模上、在擴(kuò)展性上是超出了需求,但是仍然能夠帶來(lái)靈活性的優(yōu)勢(shì)。比方說(shuō)使用基于Spark的機(jī)器學(xué)習(xí)的工具。在這些情況下,用戶仍然發(fā)現(xiàn)Hadoop的平臺(tái)對(duì)于完成他們的任務(wù)非常有用,雖然他的規(guī)??赡苁沁^(guò)大的。當(dāng)然我們講的也很清楚,我們并不認(rèn)為Hadoop是一種通用的工具能夠解決所有的問(wèn)。

在實(shí)際應(yīng)用中,即使是規(guī)模很小的集群,比方說(shuō)5個(gè)節(jié)點(diǎn)的集群,客戶也發(fā)現(xiàn)使用Hadoop與其他技術(shù)選項(xiàng)相比能夠產(chǎn)生更好的產(chǎn)出,帶來(lái)更多的價(jià)值與競(jìng)爭(zhēng)。

問(wèn):對(duì)于大數(shù)據(jù)應(yīng)用發(fā)展的速度,您感覺(jué)滿意嗎?

Doug Cutting:整個(gè)大數(shù)據(jù)的發(fā)展是在非常早期的階段,而且大數(shù)據(jù)是保持著穩(wěn)步持續(xù)地增長(zhǎng)。我們看到很多公司在自己的大數(shù)據(jù)項(xiàng)目上都取得了成功,雖然目前這些大數(shù)據(jù)的項(xiàng)目規(guī)模還比較小,就大數(shù)據(jù)解決方案而言,我們的大數(shù)據(jù)解決方案客戶的也是也是在穩(wěn)步增長(zhǎng),他們用于大數(shù)據(jù)解決方案集群的規(guī)模也是在穩(wěn)步增長(zhǎng)。至少自從Cloudera誕生以來(lái),我們看到整個(gè)的數(shù)據(jù)的應(yīng)用是處在穩(wěn)步增長(zhǎng)的曲線之中,而并沒(méi)有出現(xiàn)停滯不前或者是失去動(dòng)力的情況。

大數(shù)據(jù)已經(jīng)很成功應(yīng)用在很多領(lǐng)域,像金融反欺詐應(yīng)用,在醫(yī)療領(lǐng)域,大數(shù)據(jù)也已經(jīng)有了很多成功案例,比方說(shuō)美國(guó)有一家公司Cerner開(kāi)發(fā)了一套大數(shù)據(jù)系統(tǒng),主要是來(lái)判斷患者有可能發(fā)生敗血癥的情況。目前通過(guò)Cerner已經(jīng)對(duì)幾百名有產(chǎn)生敗血癥風(fēng)險(xiǎn)的患者先期采取措施進(jìn)行了治療,預(yù)防了敗血癥的發(fā)生,這就是一個(gè)非常成功的案例。

在癌癥治療方面,大數(shù)據(jù)的應(yīng)用也在取得很多的進(jìn)展,比方說(shuō)主要是在基因組學(xué)的研究方面,在取得治療癌癥方面的進(jìn)展。舉一個(gè)例子,加州大學(xué)的舊金山分校,他們做的大數(shù)據(jù)項(xiàng)目就是通過(guò)基因組的分析來(lái)找到癌細(xì)胞、腫瘤細(xì)胞突變的原因,并且來(lái)匹配相應(yīng)的療法。他們用這樣的基于大數(shù)據(jù)的解決方案,已經(jīng)開(kāi)始對(duì)一些患者治療。雖然接受這種治療方法的患者人數(shù)不是太多,因?yàn)槟壳斑@種治療方法的價(jià)格還是非常昂貴,但是價(jià)格是在逐漸下降當(dāng)中的。即使用大數(shù)據(jù)的解決方案治療癌癥,我們也是在取得很大的進(jìn)步。

只是治療癌癥是一個(gè)很大的難題,我們可能還要花幾十年的時(shí)間。但是我確信未來(lái)癌癥的治療肯定是要基于大數(shù)據(jù)系統(tǒng)。

簡(jiǎn)而言之,大數(shù)據(jù)應(yīng)用的普及是一個(gè)長(zhǎng)期的過(guò)程,應(yīng)該讓每一家公司、每一個(gè)組織機(jī)構(gòu)都能夠用正確的方式來(lái)用好數(shù)據(jù),這需要花很長(zhǎng)的時(shí)間。不像智能手機(jī)帶來(lái)的變化,把智能手機(jī)賣到人手一臺(tái),這個(gè)事情就完成了。大數(shù)據(jù)的普及,也是需要組織結(jié)構(gòu)本身發(fā)生很大的變化,還需要很多的教育工作、人才的培養(yǎng)工作,但是這一切都是在穩(wěn)步推進(jìn)當(dāng)中。

問(wèn):您怎么看待中國(guó)大數(shù)據(jù)應(yīng)用狀況?針對(duì)開(kāi)發(fā)者,Cloudera有哪些計(jì)劃?

Doug Cutting:從中國(guó)的角度來(lái)說(shuō),從大數(shù)據(jù)出現(xiàn)一直到今天,中國(guó)一直是在大量使用、采用和參與推進(jìn)大數(shù)據(jù)的發(fā)展。而且在過(guò)去十年當(dāng)中,Hadoop在中國(guó)也是一直得到了大力推進(jìn),取得了非常大的成功。我們可以看到中國(guó)市場(chǎng)和Hadoop之間有一個(gè)非常自然的契合和匹配,從數(shù)據(jù)的角度來(lái)說(shuō)中國(guó)可能是世界上最大的單一市場(chǎng),在中國(guó)擁有數(shù)據(jù)的數(shù)量和規(guī)模超過(guò)了世界上大部分其他的國(guó)家,這也就是為什么Hadoop在中國(guó)有著非常成功的發(fā)展。

中國(guó)Hadoop生態(tài)圈和其他國(guó)家相比有一個(gè)不同:就是在中國(guó)很多Hadoop用戶習(xí)慣使用Hadoop的開(kāi)源版本,而不是購(gòu)買專業(yè)公司支持和幫助。對(duì)此,需要花更多的時(shí)間對(duì)市場(chǎng)進(jìn)行教育和培育,也就是讓人們能夠了解到從更加長(zhǎng)遠(yuǎn)的角度來(lái)說(shuō),在使用這些軟件的過(guò)程當(dāng)中如果能夠得到有關(guān)方面的支持和幫助,會(huì)有更好的結(jié)果。

就培訓(xùn)而言,Cloudera是一直在推動(dòng)各種培訓(xùn)的項(xiàng)目。對(duì)于一個(gè)零起步的開(kāi)發(fā)者來(lái)說(shuō),學(xué)習(xí)Hadoop最好的方式不是通過(guò)教科書,而是要通過(guò)案例來(lái)學(xué)習(xí),通過(guò)案例的需求在具體實(shí)施當(dāng)中、具體實(shí)踐當(dāng)中來(lái)學(xué),這樣的學(xué)習(xí)效果是更好的。Cloudera有一個(gè)Cloudera學(xué)術(shù)計(jì)劃,清華大學(xué)就是首批合作伙伴,還有其他的大學(xué)加入。在這個(gè)計(jì)劃當(dāng)中,Cloudera是把大數(shù)據(jù)培訓(xùn)的技能、教材、內(nèi)容免費(fèi)提供給大學(xué)合作伙伴。另外在亞洲有一個(gè)BASE Initiative(大數(shù)據(jù)分析技能培訓(xùn)計(jì)劃)的教育項(xiàng)目,對(duì)潛在對(duì)象進(jìn)行大數(shù)據(jù)技能的教育培訓(xùn),并且招聘其中的一些人到有大數(shù)據(jù)技能需求的公司來(lái)工作。

問(wèn):您如何看待知識(shí)圖譜?

Doug Cutting:在我看來(lái)知識(shí)圖譜、支持工程的方法沒(méi)有統(tǒng)計(jì)學(xué)方法那么成功。在八十年代,像知識(shí)工程就已經(jīng)非常流行了,在我還當(dāng)學(xué)生的時(shí)候知識(shí)工程就很流行。但是深度學(xué)習(xí)在當(dāng)今取得的成功,主要依靠的是統(tǒng)計(jì)學(xué)的方法,也就是基于巨量數(shù)據(jù)的各種模型的訓(xùn)練,而不是通過(guò)知識(shí)工程的方式,而且主要是在像圖像識(shí)別、語(yǔ)音識(shí)別以及分類任務(wù)的完成之上取得了很大的進(jìn)展。

當(dāng)然我也不是說(shuō)像知識(shí)圖譜、知識(shí)工程的方式在人工智能當(dāng)中永遠(yuǎn)不會(huì)成功,只是在目前的現(xiàn)狀當(dāng)中不如統(tǒng)計(jì)學(xué)的方法更加有效。對(duì)于深度學(xué)習(xí)進(jìn)一步發(fā)展的挑戰(zhàn),我認(rèn)為最大的一個(gè)挑戰(zhàn)就是深度學(xué)習(xí)的有用性、適用性、廣度到底有多大。目前在一些認(rèn)識(shí)、識(shí)別任務(wù)的完成當(dāng)中,深度學(xué)習(xí)非常有效,比方說(shuō)在大量的噪音或者是干擾的因素當(dāng)中進(jìn)行清晰的識(shí)別、分類、標(biāo)簽,做得非常好。但是有很多其他的任務(wù),這樣的任務(wù)當(dāng)中對(duì)形勢(shì)進(jìn)行分析,并且做出決策,并不是完全依靠剛才說(shuō)到的這種能力。

雖然目前人們對(duì)于深度學(xué)習(xí)能夠完成很多其他的任務(wù)是非常樂(lè)觀的,但是我希望這樣的樂(lè)觀不會(huì)是一種過(guò)度的樂(lè)觀。

分享到

songjy

相關(guān)推薦