通過上圖可以看到Hadoop應(yīng)用通過S3A客戶端上傳數(shù)據(jù)時,需要調(diào)用S3 SDK把請求封裝成HTTP然后發(fā)送給XEOS的S3網(wǎng)關(guān),通過S3網(wǎng)關(guān)將數(shù)據(jù)寫入存儲集群,從而達到數(shù)據(jù)上傳的目的。下載文件也是一樣的道理。

S3A雖然可以實現(xiàn)基本的計算和存儲分離,但基本架構(gòu)和協(xié)議兼容性上還是存在一些問題:

由于基于標準的S3 SDK實現(xiàn),無法利用各個存儲系統(tǒng)之間的特性差異進行針對性優(yōu)化

S3A因為通過S3 SDK來實現(xiàn),所以并不支持標準Hadoop文件系統(tǒng)的append、flush等操作

S3A將文件接收到本機硬盤后,再并發(fā)的分片上傳到對象存儲,對于本地磁盤IO有較大開銷,同時如果出現(xiàn)斷電、壞盤等異常,會造成已寫入到本地未回傳的數(shù)據(jù)無法訪問

元數(shù)據(jù)加速方

由于對象存儲元key-value元數(shù)據(jù)機制的限制,在hadoop場景中當有大量元數(shù)據(jù)相關(guān)訪問或者操作時,元數(shù)據(jù)服務(wù)可能成為hadoop應(yīng)用性能的瓶頸,因此業(yè)界出現(xiàn)了在對象存儲系統(tǒng)外部維護專用的元數(shù)據(jù)服務(wù)的方案,如Alluxio等方案,他們通過獨立的元數(shù)據(jù)服務(wù)來向hadoop提供高性能的元數(shù)據(jù)訪問,同時通過內(nèi)部機制與對象存儲實現(xiàn)元數(shù)據(jù)的最終一致性。

該類型方案能為元數(shù)據(jù)性能帶來較大的提升,但同時需要引入獨立的元數(shù)據(jù)服務(wù),同時存在著以下幾類挑戰(zhàn):

獨立元數(shù)據(jù)與對象存儲實際數(shù)據(jù)的一致性管理

獨立元數(shù)據(jù)引入的資源開銷,如CPU、SSD等

獨立元數(shù)據(jù)后與對象存儲數(shù)據(jù)的互通方案

XSKY 星辰天合基于對象存儲的大數(shù)據(jù)方案——XHFS

方案介紹

XHFS借鑒了S3A的實現(xiàn)方案,在計算端集成了XHFS模塊,XHFS實現(xiàn)了Hadoop FileSystem的list、delete、rename、mkdir等接口,以及InputStream和OutputStream的XEOS對象讀寫功能。

·強一致模型

不同于部分對象存儲產(chǎn)品無法提供數(shù)據(jù)的強一致語義,如并發(fā)寫入時無法保證一定能讀到最新的數(shù)據(jù),所以需要應(yīng)用層利用外部機制進行強一致保障,如引入S3Guard等方案增加復雜度和成本,而XEOS原生提供強一致語義,無需引入復雜的業(yè)務(wù)邏輯進行強一致保障。

·高效重命名

重命名通常對于對象存儲是開銷較大的動作,但大數(shù)據(jù)場景利用目錄重命名來進行CAS(Compare And Swap,即比較并交換)的操作比較常見,CAS操作即將計算過程數(shù)據(jù)寫入臨時目錄,在任務(wù)結(jié)束時進行目錄的總體重命名,這就對使用對象存儲作為大數(shù)據(jù)底座的方式帶來了比較大的挑戰(zhàn)。

XEOS通過存儲后端優(yōu)化,可以實現(xiàn)快速的對象重命名和目錄重命名,XHFS利用XEOS內(nèi)部接口能夠向應(yīng)用提供高效的文件重命名和目錄重命名功能。

·高性能寫入

XHFS將OutputStream改造為對象追加寫的方式,能夠提供更高性能的數(shù)據(jù)寫入方式,同時能大幅降低寫入過程中斷電等異常造成的數(shù)據(jù)寫入失敗的數(shù)據(jù)量。

·hflush、hsync支持

基于XEOS的特性,XHFS可以兼容hflush、hsync等對寫入一致性要求嚴格的語義。

方案優(yōu)勢

·海量存儲,數(shù)據(jù)入湖

全局視角的多存儲平臺管理,單桶千億對象規(guī)格,分布式存儲架構(gòu)無限橫向擴展,無需數(shù)據(jù)重平衡的整存儲池擴容、整存儲平臺擴容、整站點擴容,大規(guī)格EC策略以及數(shù)據(jù)分層保證數(shù)據(jù)長期、低成本的存放。

XEOS可以提供S3、NFS、HDFS的數(shù)據(jù)訪問互通,可直接將XEOS直接作為數(shù)據(jù)源進行大數(shù)據(jù)分析,無需將數(shù)據(jù)加載到HDFS后進行分析,從而可以降低成本,提高生產(chǎn)效率。

·數(shù)據(jù)流動,無縫互通

通過XHFS可將XEOS作為數(shù)據(jù)存儲與流轉(zhuǎn)中心,根據(jù)業(yè)務(wù)數(shù)據(jù)的特點通過生命周期管理、數(shù)據(jù)復制讓數(shù)據(jù)按需流動,滿足不同組件的性能和成本要求。結(jié)合XHFS與HDFS協(xié)議互通的特性,打破應(yīng)用間數(shù)據(jù)壁壘,助力數(shù)據(jù)價值挖掘。

·擁抱混合云架構(gòu)

無縫對接公有云,通過生命周期的流動、鏡像、歸檔,輕松上云;通過回源的重定向、代理、鏡像、CDN、重建,輕松下云。多種模式按需使用,發(fā)揮公有云的成本優(yōu)勢,進一步降低TCO。

摘要:基于數(shù)據(jù)湖存儲的對象大數(shù)據(jù)XHFS方案,靈活適配S3A大數(shù)據(jù)生態(tài),全生命周期管理,無縫上下云。

適用場景

·HDFS與XHFS共存模式

根據(jù)數(shù)據(jù)熱度的差異選擇不同的存儲方案,將溫熱數(shù)據(jù)放置在HDFS上滿足高性能要求,較冷的數(shù)據(jù)通過XHFS存放到XEOS滿足低成本的長期保存,通過ViewFS提供統(tǒng)一的訪問入口,對應(yīng)用屏蔽存儲形態(tài)差異。從而實現(xiàn)計算資源的緊密整合,獲得高性能、低成本的大數(shù)據(jù)服務(wù),提升企業(yè)數(shù)據(jù)價值。

·海量冷數(shù)據(jù)存儲和分析

對象存儲天然具有高可擴展性和低成本的優(yōu)勢,是作為數(shù)據(jù)湖存儲的不二選擇。通過XHFS將海量的HDFS數(shù)據(jù)存入對象存儲,不但能獲得更低的存儲成本,同時可以實現(xiàn)冷數(shù)據(jù)的就地分析和管理,大幅降低企業(yè)的數(shù)據(jù)管理復雜度。

成功案例

上海金山區(qū)政府政務(wù)大數(shù)據(jù)應(yīng)用平臺

該項目主要包含數(shù)據(jù)采集系統(tǒng)、大數(shù)據(jù)平臺和大數(shù)據(jù)可視化展示三個部分,通過平臺建設(shè)有效利用政務(wù)信息數(shù)據(jù)資源,提升服務(wù)質(zhì)量、降低服務(wù)成本、增強決策科學性,為簡化審批流程、提高審批和服務(wù)效能創(chuàng)造良好基礎(chǔ)。實現(xiàn)了業(yè)務(wù)類型數(shù)據(jù)資源的采集、稽查及處理,通過數(shù)據(jù)質(zhì)量報告對業(yè)務(wù)和技術(shù)規(guī)范性做檢驗指導;實現(xiàn)政務(wù)服務(wù)基本情況和靚點工作的成果應(yīng)用展現(xiàn);完成了政務(wù)服務(wù)、放管服改革成效與雙創(chuàng)環(huán)境建設(shè)等方面的指標設(shè)計,展現(xiàn)政務(wù)服務(wù)過程的整體圖景。

同城雙活部署架構(gòu)

本項目利用XEDP同時交付塊存儲和對象存儲(即XEOS),一個機房一套存儲,同時采用同城雙活的災(zāi)備部署架構(gòu),利用XSKY SDS的延展集群功能,實現(xiàn)兩個機房的實時數(shù)據(jù)同步和災(zāi)備,通過在存儲層實現(xiàn)數(shù)據(jù)存儲和訪問的雙活,大幅簡化應(yīng)用雙活部署難度,實現(xiàn)快速的雙活部署

業(yè)務(wù)邏輯架構(gòu)

將XEDP/XEOS作為海量存儲的數(shù)據(jù)湖底座,得益于XHFS的兼容性實現(xiàn)了大數(shù)據(jù)相關(guān)組件無縫遷移和訪問。方案中XHFS與HDFS共存,將關(guān)系型熱數(shù)據(jù)寫入HBase,保留小規(guī)模HDFS集群以獲取更高的本地性能;而對于海量的非結(jié)構(gòu)化數(shù)據(jù),通過Sqoop將數(shù)據(jù)源直接導入XHFS,并由XHFS支撐Hive讀寫和分析請求,以獲取長期海量低成本存儲的收益?;赬HFS的數(shù)據(jù)湖,不但能接入大數(shù)據(jù)存儲,同時能很好的作為web應(yīng)用平臺等數(shù)據(jù)的存儲目標,實現(xiàn)多協(xié)議互通訪問,達到數(shù)據(jù)湖存儲的目的。

方案優(yōu)勢

XEDP同時交付多種存儲方式,一個機房一套存儲,滿足各類業(yè)務(wù)需求

快速、便捷實現(xiàn)雙活災(zāi)備機制

數(shù)據(jù)統(tǒng)一入湖,數(shù)據(jù)互通,各組件數(shù)據(jù)協(xié)同生產(chǎn)消費

充分發(fā)揮HDFS和對象各自優(yōu)勢,達到最佳TCO?。

分享到

xiesc

相關(guān)推薦