最新国产一区在线观看,一个人看的视频www在线

西瓜哥

西瓜哥：謝謝大家，堅(jiān)持到最后。

今天我主要講Hadoop的事情，但是我是做存儲(chǔ)的，所以主要講Hadoop后面存儲(chǔ)的一些事情，還有我自己的一些觀察。

“高端存儲(chǔ)知識(shí)”，這是我的公眾號(hào)，因?yàn)槲沂荄OIT的?？停鍟?huì)也參加很多屆了，估計(jì)來(lái)看我的，聽(tīng)我的人可能大部分還是知道，如果不知道就搜索一下“高端存儲(chǔ)知識(shí)”加我的公眾號(hào)就可以。公眾號(hào)里面有我的個(gè)人微信。

今天晚上我們?cè)谂赃呉舶艘粋€(gè)茶館，如果大家聊不完的話，晚上茶館見(jiàn)。

這段時(shí)間自媒體很多文章說(shuō)Hadoop不行了，Hadoop涼涼，為什么呢？有可能會(huì)看到兩個(gè)巨大的Hadoop發(fā)行廠商合并了，Cloudera和Hortonworks，所有大家覺(jué)得是不是Hadoop不行了。

我講講我的想法，Hadoop其實(shí)就是一個(gè)開(kāi)源項(xiàng)目，它是一個(gè)的框架，我們里面很多的部件我們都很熟悉。什么HDFS，現(xiàn)在又出了一個(gè)新的子項(xiàng)目叫對(duì)象存儲(chǔ)的，他們現(xiàn)在也搞對(duì)象存儲(chǔ)。應(yīng)該是后來(lái)發(fā)現(xiàn)對(duì)象可能越來(lái)越流行，所以它也搞一些對(duì)象的東西。

Hadoop相關(guān)的項(xiàng)目很多，我們看得什么Hive、Spark其實(shí)都在里面，所以Hadoop是一個(gè)比較廣義的東西，狹義的可能也就是那幾個(gè)項(xiàng)目。但是廣義的話，相關(guān)的東西還是很多的。

我們看業(yè)界Hadoop的發(fā)行版廠商也很多，除了公共云廠商，基本都在里面。阿里，Google、亞馬遜都在里面，企業(yè)市場(chǎng)這邊我們看到有國(guó)內(nèi)的華為，國(guó)內(nèi)的東方金信，星環(huán)等等。這一塊的市場(chǎng)廠商還是蠻多的，而且我們看到很多發(fā)行版廠商其實(shí)在云上面也有部署。除了富士通沒(méi)有在云上部署，只是在企業(yè)里面有部署，其它都是云上云下都可以用。

整個(gè)市場(chǎng)，我個(gè)人觀點(diǎn)是，發(fā)行版市場(chǎng)現(xiàn)在很動(dòng)蕩，現(xiàn)在公司被收購(gòu)、合并，但是從數(shù)據(jù)來(lái)看它們一直在增長(zhǎng)了，所以它可能是跌落神壇而已?？赡苁谴蠹遗醯奶?，跌落神壇，個(gè)人覺(jué)得這個(gè)市場(chǎng)還是增長(zhǎng)的。

他們現(xiàn)在確實(shí)面臨著很大的競(jìng)爭(zhēng)，為什么？第一個(gè)，很多的應(yīng)用，它們都有自己的發(fā)行版，比如說(shuō)它可以單獨(dú)發(fā)行，它也不依賴Hadoop的發(fā)行版，比如我在上面部署Spark，Spark可以獨(dú)立發(fā)行，Hadoop發(fā)行版它不是一個(gè)必須的東西。

第二，我們看大量的Hadoop都部署到公共云上去了，為什么？因?yàn)楸緛?lái)數(shù)據(jù)就在云上，所以分析也會(huì)在云上做。中國(guó)這邊可能很多企業(yè)它數(shù)據(jù)不敢上公有云，所以它還放在線下。本來(lái)數(shù)據(jù)就是在線上，從互聯(lián)網(wǎng)收集的，它一般就是云上。云上有一個(gè)很大的好處，我不需要升級(jí)Hadoop的版本，公有云廠商就幫你搞定了，你用這個(gè)服務(wù)就可以了，所以現(xiàn)在云端增長(zhǎng)比較快。

可以看到在，中國(guó)發(fā)展也很快，在這個(gè)市場(chǎng)也取得很大的進(jìn)步?？赡芤灿幸恍﹩?wèn)題，原來(lái)很多已經(jīng)部署的Hadoop的廠商，后來(lái)發(fā)現(xiàn)這個(gè)收益不是特別好，可能因?yàn)橛蠥I的東西，這個(gè)收益就不見(jiàn)的一定能體現(xiàn)……可能跟很多實(shí)用性項(xiàng)目比，可能不能得到領(lǐng)導(dǎo)的認(rèn)可，所以感覺(jué)后面沒(méi)錢投入，多少會(huì)有一些問(wèn)題。

這兩個(gè)公司的合并，對(duì)整個(gè)市場(chǎng)格局的改變還是蠻大的。Hadoop從剛開(kāi)始在雅虎部署到現(xiàn)在13年了，Cloudera應(yīng)該有10年。這兩個(gè)公司合并我們看到他們的宣傳，他們有2000個(gè)客戶，而且有很多客戶收的超過(guò)了100萬(wàn)美元，我覺(jué)得這個(gè)市場(chǎng)其實(shí)并沒(méi)有萎縮，還是有利的。

從他們的銷售數(shù)據(jù)我也看到，數(shù)據(jù)庫(kù)的銷售情況，右邊是統(tǒng)計(jì)，左邊是它的格局。這個(gè)格局主要是整個(gè)數(shù)據(jù)庫(kù)的市場(chǎng)。我們可以看到增長(zhǎng)最快的還是公有云廠商，Hadoop廠商，包括其它的廠商雖然在增長(zhǎng)，但是增長(zhǎng)率確實(shí)不如公有云。

我們看到整個(gè)市場(chǎng)沒(méi)有下跌，基本上都在增長(zhǎng)。Gartner也做了調(diào)查，它調(diào)查到現(xiàn)在使用Hadoop的用戶已經(jīng)有34%，很多用戶已經(jīng)部署了Hadoop。16年調(diào)查的時(shí)候好像只有大概16%，這是對(duì)2019年做的調(diào)查統(tǒng)計(jì)，其實(shí)是2018年的情況。

未來(lái)兩年部署Hadoop的廠商有50%多，我覺(jué)得大家并沒(méi)有看衰這個(gè)市場(chǎng)，只是幾個(gè)發(fā)行版的廠商受到了影響。因?yàn)镠adoop本身的優(yōu)勢(shì)，它在數(shù)據(jù)湖里面還是比較適合的，對(duì)一些未知的數(shù)據(jù)類型，未知的數(shù)據(jù)分析，Hadoop還是一個(gè)比較合適的解決方案。數(shù)據(jù)湖建不好，這個(gè)就變成了數(shù)據(jù)沼澤，那是另外一回事。從架構(gòu)來(lái)講，它還是有些優(yōu)勢(shì)。

往下看Hadoop后面用的存儲(chǔ)，它一般是用什么架構(gòu)？我們就看一下HDFS，因?yàn)镠adoop最開(kāi)始用的HDFS，現(xiàn)在又開(kāi)始做對(duì)象存儲(chǔ)。HDFS跟傳統(tǒng)的分布式文件系統(tǒng)不太一樣，它是做了很多優(yōu)化的。它拋棄了很多的POSIX的操作，比如不能更改等等，它更強(qiáng)調(diào)一種流式的應(yīng)用。大家在分析流的情況下，它的效率還是可以的，這是它針對(duì)分布式文件系統(tǒng)的優(yōu)化。

HDFS協(xié)議它會(huì)支持很多現(xiàn)代的應(yīng)用，也就是說(shuō)并不是說(shuō)新的應(yīng)用就不用就支持。所以要分析數(shù)據(jù)的話，還是保證兼容，而且HDFS一直在發(fā)展，原來(lái)最大問(wèn)題是EC，現(xiàn)在也支持。EC生產(chǎn)里面很少看到用，因?yàn)樾阅鼙容^差一些。我們看到HDFS也做了分層，做了很多權(quán)限和快照，其實(shí)功能也一直在發(fā)展。但是畢竟不是一個(gè)專業(yè)存儲(chǔ)廠商做的存儲(chǔ)產(chǎn)品，可能從企業(yè)角度來(lái)看更多是開(kāi)源的組件，還是有一定的差距。

現(xiàn)在很多企業(yè)會(huì)把數(shù)據(jù)庫(kù)建立在對(duì)象存儲(chǔ)上，用S3A接口去對(duì)接。因?yàn)镠adoop支持的這個(gè)接口。所以支持對(duì)象存儲(chǔ)，但是有這個(gè)通用接口對(duì)接有性能的問(wèn)題，所以說(shuō)只能滿足對(duì)性能要求不是特別高的場(chǎng)景，或者說(shuō)做當(dāng)Hadoop的分層存儲(chǔ)來(lái)使用。

因?yàn)镠adoop有本地?cái)?shù)據(jù)優(yōu)先的特性，用Das的方式，性能一般來(lái)說(shuō)比較好。但是我們看到用Hadoop本身這種方式有些缺點(diǎn)，主要缺點(diǎn)計(jì)算和存儲(chǔ)不分離，大部分時(shí)候Hadoop存儲(chǔ)容量增長(zhǎng)比計(jì)算快，分開(kāi)部署更靈活一些。

Hadoop本身CE是支持的，但是性能或者是硬盤(pán)重構(gòu)問(wèn)題，可能沒(méi)有專業(yè)的廠商做得好。有一些問(wèn)題，所以很多出了廠商除了Hadoop產(chǎn)品，還做分布式文件。這一塊很多是可以代替這一層，主要是快更加方便，主要是靈活性的擴(kuò)展，可能也有一些缺點(diǎn)了，比如也許性能不如Hadoop。

有沒(méi)有辦法能解決這些問(wèn)題？我們要分離的部署，但如何有比較好的性能呢？可能會(huì)有一些方法，今天分析了一些做法，EMC在Hadoop對(duì)象存儲(chǔ)就是ECS，做了專用的客戶端。解決了Hadoop一些問(wèn)題，所以擴(kuò)展性非常好。他會(huì)在這個(gè)生態(tài)上做比較好一些，不是用標(biāo)準(zhǔn)S3A來(lái)跟對(duì)象來(lái)對(duì)接，但是有ECS目前規(guī)格還不支持閃存的加速，所以我覺(jué)得本身的性能有一些不太好。在共享存儲(chǔ)分析的時(shí)候，數(shù)據(jù)不動(dòng)進(jìn)行分析，而且分析出的結(jié)果可以直接用。ECS是云存儲(chǔ)，也是跨區(qū)域的，其原數(shù)據(jù)是同步的，它可以在不同的數(shù)據(jù)中心可以分析同一個(gè)數(shù)據(jù)集，這個(gè)是它本身的優(yōu)勢(shì)。但是賣的最多還是Isilon，因?yàn)樗欠植际降奈募到y(tǒng)，把HDFS協(xié)議做到系統(tǒng)里面去，不需要客戶端，所以這個(gè)賣得更多一些，性能也會(huì)更好一些。它的生態(tài)做的還可以，跟廠商都有聯(lián)合的銷售合作。而且我看最新的博客，Cloudera合并以后會(huì)重新跟他們做認(rèn)證，現(xiàn)在又推出新的認(rèn)證協(xié)議做一些認(rèn)證的東西，他們合作的還是可以的。博客里面我看到一些信息我也分析了一下，一共有2000個(gè)客戶，但是跟他合作的只有100個(gè)客戶，也就是說(shuō)只有5%的用戶了使用了共享的存儲(chǔ)Isilon。

我覺(jué)得在Isilon在市場(chǎng)上應(yīng)該占一半的份額，其他有一半的份額其他共享存儲(chǔ)的，這樣加起來(lái)也只有10%。用戶現(xiàn)在布置Hadoop，更多是Hadoop DAS更多一些，如果是用分離的部署方案，用第三方存儲(chǔ)可能我認(rèn)為市場(chǎng)占比不超過(guò)10%。這個(gè)是我目前的觀點(diǎn)，但是未來(lái)會(huì)做的更好一點(diǎn)。

IBM針對(duì)Object Storage開(kāi)發(fā)了一個(gè)對(duì)象客戶端，這個(gè)客戶端有點(diǎn)像ECS的客戶端，主要解決的問(wèn)題就是解決對(duì)象里面不能更名的問(wèn)題。大家知道Hadoop做完分析以后結(jié)果輸入到臨時(shí)目錄里面，分析完以后才會(huì)輸?shù)秸侥夸浝锩?。他把這個(gè)東西拷到正式目錄里面有一個(gè)更名的過(guò)程，或者改一個(gè)什么文件目錄，這些在對(duì)象存儲(chǔ)是很難操作的，因?yàn)閷?duì)象沒(méi)有更改的操作，更名一個(gè)文件在對(duì)象里面只能把這個(gè)對(duì)象刪掉，操作起來(lái)很費(fèi)勁，所以說(shuō)IBM的客戶端主要是解決這個(gè)問(wèn)題，現(xiàn)在新的S3A版本也會(huì)解決這些問(wèn)題。IBM的測(cè)試跟老的S3A比性能還是可以的，他也應(yīng)該開(kāi)源了。但是我覺(jué)得市場(chǎng)上好像碰到不是很多。

IBM也有分布式的文件系統(tǒng)GPFS，也開(kāi)發(fā)了專用的客戶端，主要是對(duì)接HDFS。這個(gè)分布式的文件協(xié)議還是不太一樣的，沒(méi)有專用客戶端不能把一些協(xié)議卸載過(guò)來(lái)。當(dāng)然，IBM在Hadoop生態(tài)還是做的比較多的，比如說(shuō)做了一些復(fù)制的工具，性能會(huì)好很多，可以做Hadoop數(shù)據(jù)遷移，如果把Hadoop數(shù)據(jù)牽過(guò)來(lái)的話比較方便。

Alluxio這個(gè)廠商是做內(nèi)存加速的，也會(huì)出加速的產(chǎn)品，它可以用內(nèi)存來(lái)加速，上面協(xié)議可做轉(zhuǎn)換，直接對(duì)接Hadoop性能不佳的問(wèn)題。它測(cè)試起來(lái)會(huì)發(fā)現(xiàn)用它的加速層以后性能跟本地的Hadoop性能還好一些，但是成本肯定會(huì)上去，因?yàn)楫吘故鞘斟X的，而且是要硬件的加速。

華為目前在文件這塊原來(lái)的9000出了一個(gè)客戶端支持Hadoop的對(duì)接，對(duì)象里面還沒(méi)有看到相應(yīng)的客戶端，可能還是用標(biāo)準(zhǔn)S3A對(duì)接，文件還是有客戶端對(duì)接的。

MapR公司被惠普收購(gòu)了，但自己做了HDFS的實(shí)現(xiàn)，相當(dāng)做了一個(gè)存儲(chǔ)層，把HDFS文件系統(tǒng)功能替換掉了，所以發(fā)行版是不用的HDFS的，全部自己做了。

Minio這個(gè)是開(kāi)源的對(duì)象存儲(chǔ)廠商，它沒(méi)有專用的客戶端，但是他做了一些優(yōu)化，比如說(shuō)有一個(gè)命令行的客戶端，比hadoop fs好用。同時(shí)，也支持AWS的SQL Select語(yǔ)句，可以放到對(duì)象存儲(chǔ)上直接上面執(zhí)行，這個(gè)是做的比較好的地方。

8月份它剛剛發(fā)布測(cè)試數(shù)據(jù)，用的最新的S3A客戶端，支持output commiter，發(fā)現(xiàn)性能要比Hadoop的性能要好，但是這個(gè)測(cè)試有一個(gè)小問(wèn)題，不是對(duì)等的，他用了24個(gè)節(jié)點(diǎn)對(duì)應(yīng)原來(lái)的12個(gè)節(jié)點(diǎn)，也就是原來(lái)計(jì)算存儲(chǔ)是融合的，它又拿存儲(chǔ)做了12個(gè)節(jié)點(diǎn)，相當(dāng)于資源多用了一倍，這個(gè)性能說(shuō)服力不是特別夠。

Pure Storage這個(gè)沒(méi)有客戶端、有分布式文件，直接把NFS文件系統(tǒng)掛做本地盤(pán)用，這樣還是解決不了擴(kuò)展性的問(wèn)題，但是可以形成快速的分析。NetApp這塊做的比較好，有專門(mén)的客戶端，而且有開(kāi)源，上面做了很多的優(yōu)化，只是針對(duì)文件的對(duì)接。

下面提幾個(gè)SDS廠商，比如說(shuō)XSKY，可以看到他們有一個(gè)專用的XSKY HDFS Client，有點(diǎn)對(duì)標(biāo)EMC的ECS的HDFS Clinet。對(duì)象存儲(chǔ)用標(biāo)準(zhǔn)的S3A客戶端來(lái)對(duì)接Hadoop，路徑比較長(zhǎng)。

做了客戶端以后相當(dāng)于Hadoop直接可以和后面XSKY對(duì)象存儲(chǔ)的OSD通訊，路徑變短了，性能也提升起來(lái)了。我們看來(lái)一下他們的測(cè)試數(shù)據(jù)。

這邊布了三個(gè)獨(dú)立的data node，那邊也用了同樣的硬件做了對(duì)象存儲(chǔ)存儲(chǔ)，所以這兩個(gè)配置硬件都是一樣的，上面計(jì)算都是五臺(tái)，測(cè)試結(jié)果跟很多情況下XSKY HDFS Client性能還是比Remote HDFS略好一些，但有一些場(chǎng)景可能會(huì)差一些。總的來(lái)說(shuō)跟本地部署的HDFS性能是基本上是可以PK的，性能上還是可以的。

Redhat也做了測(cè)試，測(cè)試Ceph和Hadoop HDFS的性能比較，副本我們看到比HDFS低一些，但是Ceph EC性能是雖然只有一半，但是成本上優(yōu)勢(shì)比較明顯。今天閃存峰會(huì)還要和閃存掛一點(diǎn)邊，我們看英特爾和他們做了全閃存的測(cè)試，他們也測(cè)試了對(duì)接Hadoop的性能，他們發(fā)現(xiàn)用全閃存的方式還是有一定優(yōu)勢(shì)的，比如說(shuō)同樣十個(gè)節(jié)點(diǎn)的全閃配置，相當(dāng)于60個(gè)節(jié)點(diǎn)的硬盤(pán)配置。也就是說(shuō)，從TCO的角度考慮，用全閃Hadoop的場(chǎng)景，整個(gè)成本的節(jié)省還是比較可觀的，節(jié)點(diǎn)數(shù)服務(wù)器就買少了很多。當(dāng)然，這個(gè)東西也要根據(jù)自己的負(fù)載去做一些測(cè)試才能有一些比較，這個(gè)是英特爾的比較。

新的內(nèi)存計(jì)算的應(yīng)用，對(duì)對(duì)象存儲(chǔ)這塊很友善了，之前的方式做數(shù)據(jù)的分析總是輸?shù)脚R時(shí)目錄里面去，要更名，最后輸出結(jié)果更名的操作，你會(huì)發(fā)現(xiàn)對(duì)對(duì)象很不友好。我發(fā)現(xiàn)很多新的應(yīng)用已經(jīng)沒(méi)有這些操作了，所以說(shuō)對(duì)接對(duì)象性能也還可以，因?yàn)楸容^符合對(duì)象的操作思路。

現(xiàn)在業(yè)界看到Hadoop也出了很多的遷移的工具，原先有原生的遷移工具，還有一些第三方的遷移工具可做數(shù)據(jù)的在線遷移，用戶部署Hadoop，肯定也需要做一個(gè)遷移的東西，所以說(shuō)遷移這塊比較成熟的。

最后給幾個(gè)我自己的小結(jié)。

現(xiàn)在比較熱的東西確實(shí)不是Hadoop了，比較熱的東西是AI這些東西，所以說(shuō)未來(lái)很長(zhǎng)一段時(shí)間內(nèi)Hadoop不會(huì)是一個(gè)熱點(diǎn)，但是底層基礎(chǔ)還在，比如說(shuō)這些軟件和Hadoop HDFS還是兼容的。

我們認(rèn)為Hadoop本身作為一個(gè)很有效的軟件堆棧，這個(gè)生態(tài)還是可以的，大量的數(shù)據(jù)存在HDFS上面，Hadoop還在發(fā)展，現(xiàn)在很多用戶部署了Hadoop，數(shù)據(jù)已經(jīng)存在上面了，如果有一些支持HDFS的共享存儲(chǔ)的解決方案，你就可能比較方便幫助用戶激活現(xiàn)在的數(shù)據(jù)，用現(xiàn)有的數(shù)據(jù)發(fā)揮更大的價(jià)值。

雖然現(xiàn)在有很多的標(biāo)準(zhǔn)的方法可以對(duì)接Hadoop HDFS，但是從我感覺(jué)來(lái)看標(biāo)準(zhǔn)的東西對(duì)接一般來(lái)說(shuō)性能稍弱一些，如果是要性能的話要做一些專用的接口，充分發(fā)揮你這些存儲(chǔ)的特點(diǎn)，甚至把這些分析卸載存儲(chǔ)里面來(lái)。

我們認(rèn)為未來(lái)很多用戶會(huì)對(duì)對(duì)象存儲(chǔ)感興趣。

前面講了對(duì)象存儲(chǔ)本身就沒(méi)有文件臃腫層次的關(guān)系，他的擴(kuò)展性非常好，而且受互聯(lián)網(wǎng)影響，大家很清楚對(duì)象存儲(chǔ)肯定是未來(lái)的方向，只是有些用戶應(yīng)用沒(méi)有改造完，所以還需要有文件接口幫用戶先把老應(yīng)用對(duì)接起來(lái)，在慢慢進(jìn)行S3改造。對(duì)象存儲(chǔ)最好有一些專用HDFS客戶端，把這些新的分析應(yīng)用也能接進(jìn)來(lái)。

如果現(xiàn)有用戶考慮共享對(duì)象存儲(chǔ)，前面有很多遷移的工具，可以幫助用戶把這個(gè)工具遷移到對(duì)象里面來(lái)。

現(xiàn)在看到了S3A也會(huì)成熟，用戶選擇可以很多，你可以用標(biāo)準(zhǔn)S3A對(duì)接Hadoop，性能做一些妥協(xié)，可以作為分層存儲(chǔ)使用。

總結(jié)一下，數(shù)據(jù)湖是未來(lái)方向。最好的辦法是建一個(gè)數(shù)據(jù)湖的底座，通過(guò)對(duì)象存儲(chǔ)把數(shù)據(jù)先保存起來(lái)，以后有機(jī)會(huì)再分析。這種分析的對(duì)接，現(xiàn)在方案也是很多，生態(tài)也會(huì)越來(lái)越完善。今天的分享就到這里，謝謝大家。

主持人：謝謝西瓜哥，我們今天的會(huì)議就到此結(jié)束了。

分享到

西瓜哥

xiesc

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽