基于這樣一個(gè)平臺(tái),Cloudera可提供六方面的能力。
第一個(gè)是Data Hub的數(shù)據(jù)接入能力,它可以提供一個(gè)用來(lái)集中存放數(shù)據(jù)、管理數(shù)據(jù)的能力。
第二個(gè)是Data Flow & Streaming的數(shù)據(jù)收集傳輸能力,CDP有一系列實(shí)時(shí)數(shù)據(jù)處理方案,常見(jiàn)比如有Apache Kafka。
第三塊是Cloudera Data Engineering的批處理能力,顧名思義主要就是用來(lái)做批量數(shù)據(jù)處理。
第四塊是Cloudera Data Warehouse的數(shù)據(jù)倉(cāng)庫(kù)服務(wù),它可以替換原有的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù),類似于一些在銀行等領(lǐng)域經(jīng)??梢钥吹降腗PP類型的數(shù)據(jù)倉(cāng)庫(kù)。
第五塊是Operational Database,是包括Hbase在內(nèi)的一些實(shí)時(shí)的非結(jié)構(gòu)化數(shù)據(jù)庫(kù),能夠提供互聯(lián)網(wǎng)級(jí)別的對(duì)外服務(wù)能力。
最后一塊是機(jī)器學(xué)習(xí)平臺(tái),將AI能力賦能給用戶,幫助企業(yè)將AI在企業(yè)內(nèi)部里面真正的推廣開(kāi)來(lái),讓企業(yè)作出基于數(shù)據(jù)驅(qū)動(dòng)的決策。
在六大核心能力之上,CDP還有一個(gè)獨(dú)特的數(shù)據(jù)管理層——SDX,即共享數(shù)據(jù)體驗(yàn),在SDX的幫助下,所有存放在Cloudera平臺(tái)上的數(shù)據(jù),無(wú)論是在做批量處理,還是做報(bào)表,還是用于機(jī)器學(xué)習(xí),所有數(shù)據(jù)的使用都會(huì)提供統(tǒng)一的數(shù)據(jù)管理、統(tǒng)一的數(shù)據(jù)目錄、統(tǒng)一數(shù)據(jù)的安全管控,提供同一套數(shù)據(jù)治理控制的機(jī)制。
Cloudera CDP優(yōu)化了使用體驗(yàn),首先它上手非常簡(jiǎn)單,可以像使用公有云服務(wù)一樣使用該平臺(tái),通過(guò)按紐配置就能部署上線應(yīng)用,值得一提的是,它的一些用戶界面是面向業(yè)務(wù)部門(mén)來(lái)設(shè)計(jì)的,非常界面友好,甚至業(yè)務(wù)部門(mén)可以做自主服務(wù)。
Cloudera CDP推出了私有云版本和公有云PaaS服務(wù)兩種形式,支持混合云的部署方式,既可以部署在企業(yè)自己的數(shù)據(jù)中心、私有云環(huán)境,也可以部署在AWS、Azure等公有云以及多云環(huán)境,即使用戶在不同環(huán)境下,也能有近乎一致的使用體驗(yàn)。
容器為Cloudera CDP帶來(lái)了諸多方面的優(yōu)勢(shì)
在真實(shí)的企業(yè)環(huán)境中,部署和應(yīng)用數(shù)據(jù)系統(tǒng)其實(shí)是非常復(fù)雜的一件事,常常面臨諸多方面的問(wèn)題,這些問(wèn)題因?yàn)樾碌娜萜骷夹g(shù)的引入在很大程度上得到了解決。
由于歷史原因,用戶內(nèi)部經(jīng)常會(huì)有許多過(guò)去已經(jīng)設(shè)立的項(xiàng)目,這些項(xiàng)目中有很多都有重復(fù)性,久而久之,系統(tǒng)中的數(shù)據(jù)冗余現(xiàn)象就越來(lái)越明顯,數(shù)據(jù)使用效率也是越來(lái)越低。由于容器技術(shù)的引入,全新的CDP可以很好地從技術(shù)層面解決這一問(wèn)題。
作為非?,F(xiàn)代化的方案,在技術(shù)架構(gòu)上,Cloudera CDP采用了容器技術(shù),由于Hadoopp包含的組件非常多,部署非常麻煩,以前需要幾個(gè)星期才能完成的部署,現(xiàn)在用了容器化之后大概只需要幾分鐘。
不僅如此,由于采用了容器技術(shù),所以,平臺(tái)還可以為某個(gè)應(yīng)用設(shè)定特定該版本的計(jì)算引擎,而無(wú)需關(guān)注別的應(yīng)用對(duì)應(yīng)的計(jì)算引擎,當(dāng)用戶喜歡新版本的計(jì)算引擎的某些新特性的時(shí)候,可以自由升級(jí)到新版本,無(wú)需關(guān)注別的計(jì)算引擎的版本。
容器不僅能讓系統(tǒng)承載不同的軟件版本,而且還能提供彈性伸縮能力。當(dāng)系統(tǒng)中運(yùn)行著來(lái)自多個(gè)租戶的不同應(yīng)用時(shí),如果沒(méi)有好的資源隔離,應(yīng)用之間會(huì)相互搶占資源,如果有些關(guān)鍵工作負(fù)載的SLA受到影響的話,運(yùn)維人員就會(huì)采取一些簡(jiǎn)單粗暴的方法,比如把非關(guān)鍵型工作負(fù)載關(guān)停,而有了容器技術(shù)后,它帶來(lái)的彈性伸縮能快速靈活作出響應(yīng)。
作為一款企業(yè)級(jí)數(shù)據(jù)平臺(tái),Cloudera非常重視數(shù)據(jù)安全性和管控的機(jī)制。Cloudera追求的是無(wú)論用戶在哪里運(yùn)行其數(shù)據(jù)資產(chǎn),都能確保一致的數(shù)據(jù)安全性,能對(duì)數(shù)據(jù)進(jìn)行有效的治理,對(duì)數(shù)據(jù)的來(lái)龍去脈以及血緣關(guān)系進(jìn)行跟蹤,對(duì)數(shù)據(jù)進(jìn)行加密等等,可以在整個(gè)企業(yè)范圍內(nèi)確保數(shù)據(jù)的安全。
作為一款全球范圍內(nèi)都非常有影響力的大數(shù)據(jù)平臺(tái),Cloudera CDP發(fā)布前在全球范圍內(nèi)有許多用戶試用,在中國(guó),Cloudera與上海的浦發(fā)銀行的聯(lián)合實(shí)驗(yàn)室也在做相關(guān)驗(yàn)證。全球范圍內(nèi),有許多與Cloudera在產(chǎn)品層面有深入合作的客戶,這些用戶會(huì)率先嘗試許多新產(chǎn)品,Cloudera CDP目前也得到了許多積極反饋。
100%代碼開(kāi)源
作為一個(gè)融合了Cloudera CDH和Hortonworks HDP平臺(tái)的產(chǎn)品,原來(lái)的用戶都可以升級(jí)到新的CDP平臺(tái)上,用戶不需要做遷移,可以直接在本地原地升級(jí)到CDP,保持了產(chǎn)品層面上的連續(xù)性。而CDH跟HDP將在未來(lái)某個(gè)時(shí)間段內(nèi)停止更新。
與以往不同的是,Cloudera CDP此次推行的是100%代碼開(kāi)源策略,不過(guò),由于開(kāi)源策略的修改,只有付費(fèi)的用戶才能夠下載到這些軟件,100%的開(kāi)源也只是面向付費(fèi)用戶。此外,徐晉還表示,Cloudera后續(xù)的產(chǎn)品也會(huì)保證所有的源代碼都是100%開(kāi)源,承諾將繼續(xù)為開(kāi)源社區(qū)項(xiàng)目做貢獻(xiàn)。
之所以有這樣的調(diào)整,徐晉表示這是為了能夠更好地服務(wù)到用戶,希望付費(fèi)客戶所獲得的價(jià)值要與免費(fèi)使用的用戶有所區(qū)別。
最后,對(duì)于Hadoop的未來(lái)發(fā)展也是充滿了信心,徐晉認(rèn)為Hadoop已經(jīng)過(guò)了泡沫期,現(xiàn)在進(jìn)入了一個(gè)緩步增長(zhǎng)的過(guò)程當(dāng)中。
從市場(chǎng)用戶的實(shí)際反映來(lái)看,Hadoop是一個(gè)默認(rèn)的事實(shí)標(biāo)準(zhǔn),大量客戶新建大數(shù)據(jù)平臺(tái)的時(shí)候,默認(rèn)會(huì)使用Hadoop技術(shù),Hadoop是一個(gè)最成熟、最理性的選擇。
Hadoop本身已經(jīng)比較成熟,但作為一個(gè)有40個(gè)開(kāi)源項(xiàng)目組成的集合體,Cloudera把很多的新的開(kāi)源的項(xiàng)目納入到CDP里,不斷豐富以Hadoop為起點(diǎn)的大數(shù)據(jù)開(kāi)源社區(qū),社區(qū)的生命力,社區(qū)的運(yùn)作模式,客戶的接受度,都是處于一個(gè)非常好的勢(shì)頭。