這樣的架構(gòu)存在三大問題:

一是它把數(shù)據(jù)根據(jù)時(shí)間的屬性走向兩條處理邏輯,應(yīng)用程序的處理邏輯會被寫兩遍;

二是這樣的架構(gòu)要得到批處理的正確結(jié)果才可以做聚合處理,對實(shí)時(shí)處理平臺而言帶來的是無法忍受的延遲;

三是原始數(shù)據(jù)在不同的開源項(xiàng)目當(dāng)中被拷貝了多份,如在Kafka中會有3拷貝,到了Spark Steaming還會有3拷貝,在整個系統(tǒng)和里存在6份甚至是9份拷貝的現(xiàn)象都很普遍。但其帶來容量的需求對客戶來說是一場噩夢,尤其是AI引入之后數(shù)據(jù)的增速是爆發(fā)式的。關(guān)鍵的是,Message bus并不是一個存儲系統(tǒng),在Kafka中的數(shù)據(jù)并不能保證被長期存儲。而對大數(shù)據(jù)處理平臺來說,最重要的是先得把數(shù)據(jù)存下來才談得上發(fā)掘出更多的商業(yè)價(jià)值。

另外,Hadoop只能針對歷史數(shù)據(jù)做批處理,Spark和Kafka只能對Pub/Sub系統(tǒng)進(jìn)行梳理??梢哉f,傳統(tǒng)大數(shù)據(jù)平臺并不完美。

可以說,傳統(tǒng)單一的計(jì)算平臺已經(jīng)無法應(yīng)對如此復(fù)雜、多樣、海量的數(shù)據(jù)采集、處理的挑戰(zhàn)。

海量、低時(shí)延、非結(jié)構(gòu)化的數(shù)據(jù)特點(diǎn)將進(jìn)一步促進(jìn)數(shù)據(jù)處理和分析技術(shù)的進(jìn)步,推動流式處理技術(shù)的發(fā)展。

那么,應(yīng)對5G和物聯(lián)網(wǎng)時(shí)代的下一代大數(shù)據(jù)處理平臺,需要具備哪些能力?

5G時(shí)代呼喚新的數(shù)據(jù)處理平臺

2019年12月初的戴爾科技集團(tuán)上海研發(fā)中心之旅活動中,戴爾科技集團(tuán)Dell EMC軟件工程總監(jiān)滕昱首先分析了大數(shù)據(jù)處理領(lǐng)域近期的三大趨勢。

戴爾科技集團(tuán)Dell EMC軟件工程總監(jiān)滕昱

一是在Amazon S3A推出之后,憑借其高可用容量和可擴(kuò)充性等特點(diǎn)逐漸形成對Hadoop分布式文件系統(tǒng)(HDFS)的取代之勢,流式大數(shù)據(jù)處理平臺存儲端工作負(fù)載顯著增加;加上Hadoop可以直接運(yùn)行于S3A上,突破了綁定于HDFS上的限制??梢哉f,2020年將會是從HDFS轉(zhuǎn)向流存儲的元年。

二是在容器編排戰(zhàn)爭中,Kubernetes贏得了勝利,意味著未來的軟件平臺都將以Kubernetes為基礎(chǔ),在各種各樣公有云和私有云中自由地進(jìn)行工作負(fù)載的遷移變得更加容易。

三是在計(jì)算方面,除了要求準(zhǔn)確結(jié)果,還需要滿足更多實(shí)時(shí)計(jì)算的需求。一個經(jīng)典的用例就是銀行實(shí)時(shí)監(jiān)控的需求,除了能對線上數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)控處理,還要同時(shí)能調(diào)用歷史數(shù)據(jù)。類似的場景還有IoT和5G,特別是車聯(lián)網(wǎng)的連接等越來越多的領(lǐng)域。

為了滿足層出不窮的實(shí)時(shí)應(yīng)用場景,同時(shí)降低大數(shù)據(jù)應(yīng)用平臺的投入,戴爾科技集團(tuán)決定推出一個 “All in one”的新的大數(shù)據(jù)處理平臺,即Dell EMC流數(shù)據(jù)處理平臺(Dell EMC Streaming Data Platform,簡稱“DESDP”)。

起底Dell EMC流數(shù)據(jù)處理平臺

Dell EMC流數(shù)據(jù)處理平臺是戴爾科技集團(tuán)從零開始構(gòu)建的一套實(shí)時(shí)流式數(shù)據(jù)分析與存儲解決方案,旨在為編寫可靠的流式應(yīng)用程序提供基礎(chǔ)。

借助于該平臺,客戶除了通過諸如S3一類的接口傳輸數(shù)據(jù),還可以通過Dell EMC即將提供的Streaming接口去注入數(shù)據(jù),計(jì)算端不再需要了解數(shù)據(jù)的來源及傳輸過程,僅需使用SQL或者通用的搜索語法,即可從數(shù)據(jù)中實(shí)時(shí)獲得商業(yè)價(jià)值。

Dell EMC Streaming接口與眾不同的最大特點(diǎn),是它能接入流數(shù)據(jù)。

流數(shù)據(jù)具有四個特點(diǎn),一是數(shù)據(jù)實(shí)時(shí)到達(dá),二是數(shù)據(jù)到達(dá)次序獨(dú)立,不受應(yīng)用系統(tǒng)所控制,三是數(shù)據(jù)規(guī)模宏大且不能預(yù)知其最大值,四是數(shù)據(jù)一經(jīng)處理,除非特意保存,否則不能被再次取出處理,或者再次提取數(shù)據(jù)代價(jià)昂貴。

從存儲端而言,流數(shù)據(jù)要求在大并發(fā)下實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)低延遲的讀和寫,同時(shí)對歷史數(shù)據(jù)要能高吞吐量的讀,這樣的特性才是一個合格的流存儲接口。

因此,一個成熟的流數(shù)據(jù)處理平臺,首要的就是能具有同時(shí)存儲和處理實(shí)時(shí)數(shù)據(jù)的能力,開發(fā)者也無需根據(jù)數(shù)據(jù)的時(shí)間屬性開發(fā)兩套不同的商業(yè)邏輯,其次,對于企業(yè)而言,只要做好存儲和計(jì)算動態(tài)的擴(kuò)容和縮容,應(yīng)用程序無需根據(jù)工作負(fù)載大小進(jìn)行感知,第三,平臺當(dāng)中的數(shù)據(jù)一定會被處理而且僅被處理一次,保證大數(shù)據(jù)處理平臺企業(yè)級應(yīng)用的價(jià)值。

1Dell EMC流數(shù)據(jù)處理平臺架構(gòu)剖析

分析Dell EMC新的流數(shù)據(jù)處理平臺架構(gòu),中間部分是計(jì)算端和流處理端,其上是分為左右兩部分的流數(shù)據(jù)平臺。

Dell EMC Streaming Data Platform架構(gòu)

左邊是Dell EMC開發(fā)并開源的流式數(shù)據(jù)存儲引擎Pravega,它作為該平臺的基礎(chǔ)組件實(shí)現(xiàn)流存儲的抽象來滿足計(jì)算平臺達(dá)到實(shí)時(shí)和歷史數(shù)據(jù)抽象統(tǒng)一的要求。

數(shù)據(jù)注入到一定程度后就會放置到持久化存儲中,或者是Isilon 或者是ECS,也可以是今年將推出的全新的對象存儲架構(gòu)。歷史數(shù)據(jù)存儲在Tier2的Isilon和ECS上,之后對數(shù)據(jù)處理引擎也進(jìn)行了統(tǒng)一處理。

這種兩層的架構(gòu)解決了存儲端去進(jìn)行實(shí)時(shí)和歷史數(shù)據(jù)的抽象統(tǒng)一。

2Isilon——百分百本地化研發(fā)生產(chǎn)的存儲產(chǎn)品

在這里必須給Isilon打個廣告。

上一篇文章曾說過,戴爾科技集團(tuán)中國研發(fā)集團(tuán)有兩大引以為自豪的產(chǎn)品,一個是VxRail,另一個就是Isilon,而且是百分百本地化研發(fā)生產(chǎn)的產(chǎn)品。

談到Isilon的應(yīng)用場景,戴爾科技集團(tuán)大中華區(qū)企業(yè)技術(shù)戰(zhàn)略總監(jiān)許良謀表示,解決數(shù)據(jù)孤島就是Isilon一個典型的擅長,因?yàn)樗<{百川,支持各種協(xié)議。另外,Isilon還可當(dāng)作數(shù)據(jù)的承載,用這樣的方式去解耦,甚至還可以在VMware上做Hadoop,幫助客戶降低成本。這在制造業(yè)的優(yōu)勢尤其明顯。除此之外,Isilon在媒體、生物科技以及基因測序等領(lǐng)域的需求都非常旺盛。

戴爾科技集團(tuán)全球資深副總裁、大中華區(qū)企業(yè)解決方案總經(jīng)理曹志平

戴爾科技集團(tuán)全球資深副總裁、大中華區(qū)企業(yè)解決方案總經(jīng)理曹志平補(bǔ)充說,風(fēng)靡2018年的電影《哪吒》也是在Isilon平臺上完成的三維動畫渲染;每一次展會上戴爾科技集團(tuán)Isilon支持播放的自動駕駛的輔助設(shè)計(jì)系統(tǒng)效果最好,因而受到很多的汽車廠商的青睞,Isilon行業(yè)的應(yīng)用是非常普遍的。

戴爾科技集團(tuán)中國研發(fā)集團(tuán)上海研發(fā)中心總經(jīng)理陳春曦很風(fēng)趣:作為一名高科技研發(fā)工作者,他自我感覺很高大上,但在他母親眼里他一直就是一個“修電腦“的。《哪吒》上市后,他告訴母親說影片采用的就是他參與研究的成果,令母親對他從此刮目相看,自己在家里的地位也提高了不少。

戴爾科技集團(tuán)中國研發(fā)集團(tuán)上海研發(fā)中心總經(jīng)理陳春曦

“所以要感謝《哪吒》!” 陳春曦開心地說。

回到Dell EMC新的流數(shù)據(jù)處理平臺架構(gòu),在該圖右邊的計(jì)算平臺方面,Dell EMC與開源社區(qū)合作,創(chuàng)建和管理Flink集群并集成了Flink的企業(yè)特性,以現(xiàn)代流行的開源方式提供運(yùn)營能力——將內(nèi)部的Metrics(指標(biāo))開源給成熟的硬件供應(yīng)商,同時(shí)大量簡化開發(fā)框架。畢竟流處理和實(shí)時(shí)處理對應(yīng)用程序開發(fā)者來說也是一個新的挑戰(zhàn)。

除了2019年新支持的Flink,Dell EMC今年還將支持Search,把它們的功能帶入流處理世界。

Dell EMC Streaming 平臺應(yīng)用場景之一

最終,只要寫Flink SQL或Search語義,平臺就可以從這些數(shù)據(jù)中抓取商業(yè)邏輯。這是企業(yè)級下一代數(shù)據(jù)處理平臺最重要特點(diǎn),也就是前面提到的,客戶只需通過對象存儲接口、文件接口或新的Streaming接口注入數(shù)據(jù),在分析端,完全不需要了解下層數(shù)據(jù)是款如何被存儲和計(jì)算一類的各種復(fù)雜環(huán)節(jié)。

一切以客戶為中心

Dell EMC流數(shù)據(jù)處理平臺并不只針對流數(shù)據(jù)處理,它可以處理實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù),目的是取代以Hadoop和Spark、Kafka為代表的現(xiàn)有大數(shù)據(jù)處理平臺。Dell EMC新的流數(shù)據(jù)處理平臺是一個揚(yáng)長避短,或者說是取長補(bǔ)短后達(dá)成一個統(tǒng)一的架構(gòu)。

基于新的架構(gòu),Dell EMC在數(shù)據(jù)注入端和存儲端做到歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)的統(tǒng)一,而且因?yàn)殚_源,高度的安全得以保證,最終智能地降低了用戶在DevOps上的開銷。

所有這一切創(chuàng)建的Dell EMC流數(shù)據(jù)處理平臺,終極目標(biāo)就是為了降低客戶擁抱新平臺的投入,同時(shí)提供關(guān)鍵的安全隔離、穩(wěn)定和容易支持的特性,幫助客戶加速數(shù)字化轉(zhuǎn)型。

戴爾科技集團(tuán)Dell EMC軟件工程總監(jiān)滕昱

采訪的最后,滕昱表示,“現(xiàn)有技術(shù)無法滿足現(xiàn)有用例的需求,就是技術(shù)進(jìn)步的動力。Dell EMC真的是從客戶那里收集這些要求去設(shè)計(jì)各種新的架構(gòu)的。”

分享到

xiesc

相關(guān)推薦