如上圖,我們看到UDS海量存儲(chǔ)架構(gòu)的特點(diǎn)為——去中心、全分布和自組織。整個(gè)系統(tǒng)由接入節(jié)點(diǎn)(網(wǎng)關(guān))、單盤存儲(chǔ)節(jié)點(diǎn)和以太網(wǎng)交換機(jī)組成,數(shù)據(jù)流進(jìn)入U(xiǎn)DS時(shí)首先被接入節(jié)點(diǎn)負(fù)載均衡,使用擦除編碼(Erasure code)對(duì)數(shù)據(jù)進(jìn)行分片,然后在分布式SoD(自組織硬盤)群中按照一定的規(guī)則保存在其中3個(gè)節(jié)點(diǎn)上,即每份數(shù)據(jù)存放3份。

這一點(diǎn)是不是有點(diǎn)像HDFS(Hadoop分布式文件系統(tǒng))?當(dāng)然它們的原理和適用場(chǎng)景都不同,只是對(duì)象存儲(chǔ)設(shè)備大多是保存數(shù)據(jù)的2~3個(gè)副本來(lái)實(shí)現(xiàn)冗余保護(hù)。華為宣稱UDS存儲(chǔ)數(shù)據(jù)的可持久性:?jiǎn)螖?shù)據(jù)中心為99.9999%,而在三數(shù)據(jù)中心的情況下可達(dá)99.999999999%。

談到擦除編碼,筆者聯(lián)想到在IDF2012系列報(bào)道中的一篇——《云存儲(chǔ):AmpliStor擦除碼+對(duì)象、SAS SAN性價(jià)比》中介紹過(guò)的大規(guī)模對(duì)象存儲(chǔ),目前這家公司已經(jīng)成為Intel和昆騰的合作伙伴。擦除編碼的主要特點(diǎn)是在遇到硬盤故障時(shí)比傳統(tǒng)RAID大大縮短重建時(shí)間同時(shí)提高可靠性,而華為UDS應(yīng)該還可以利用多個(gè)副本并發(fā)讀取來(lái)提高性能。

UDS對(duì)象存儲(chǔ)還有一個(gè)特性——“無(wú)狀態(tài)的接入節(jié)點(diǎn)”,據(jù)了解這一單元可以無(wú)縫地在系統(tǒng)中增加或者減少。我們記得AmpliStor對(duì)象存儲(chǔ)的控制節(jié)點(diǎn)(相當(dāng)于接入節(jié)點(diǎn))使用了一顆Intel Xeon E3處理器,而在存儲(chǔ)節(jié)點(diǎn)上只需要Atom即可。比較有趣的是,華為UDS每個(gè)數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)是由一塊硬盤和一個(gè)ARM處理器組成的。

華為UDS海量存儲(chǔ)機(jī)柜示意圖

上圖與AmpliStor的硬件外觀頗有形似之處。UDS的接入節(jié)點(diǎn)使用了華為的Intel x86 CPU服務(wù)器,下面我們看看存儲(chǔ)節(jié)點(diǎn)。

每臺(tái)2U高度的存儲(chǔ)節(jié)點(diǎn)機(jī)箱包含上、下2個(gè)刀片,每個(gè)1U刀片里有8塊硬盤,它們分別對(duì)應(yīng)8個(gè)ARM芯片。也就是說(shuō)一個(gè)刀片實(shí)際上就是前面說(shuō)的8個(gè)SoD。刀片對(duì)外通過(guò)萬(wàn)兆以太網(wǎng)交換機(jī)與接入節(jié)點(diǎn)相連,內(nèi)部估計(jì)也有個(gè)交換單元將帶寬分配到自組織硬盤。

對(duì)于大規(guī)模分布式的對(duì)象存儲(chǔ),性能要求往往不是首要的,除了可靠性就是成本。根據(jù)上圖,磁盤在今天是最低成本的存儲(chǔ)(包括購(gòu)置、使用和維護(hù)),因?yàn)榇艓н€需要磁帶機(jī)、帶庫(kù)等相對(duì)昂貴的自動(dòng)化設(shè)備。使用消費(fèi)級(jí)還是企業(yè)級(jí)硬盤可以由用戶來(lái)選擇。企業(yè)級(jí)(7200rpm近線)硬盤大約以(消費(fèi)級(jí))200%的成本提供133%的性能(數(shù)字僅供參考),經(jīng)過(guò)Google和CMU的評(píng)估它們的可靠性都能勝任。

我們可以使用簡(jiǎn)單的“手機(jī)”級(jí)別處理器嗎?每個(gè)ARM芯片只負(fù)責(zé)一塊硬盤的數(shù)據(jù)接口以及元數(shù)據(jù)處理,所以性能應(yīng)該不成問(wèn)題,這種情況下內(nèi)存和閃存(ROM)也就分布在每個(gè)SoD節(jié)點(diǎn)上了。

還有嚴(yán)格的1:1可靠性——由于每個(gè)硬盤獨(dú)享ARM CPU和網(wǎng)絡(luò)接口資源,那么只有單盤存儲(chǔ)節(jié)點(diǎn)一種失效模式——有效避免了在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)內(nèi)部故障的復(fù)雜性。

提到對(duì)象存儲(chǔ)的用途,以該領(lǐng)域的事實(shí)優(yōu)勢(shì)廠商EMC為例,早期推出的Centera產(chǎn)品家族針對(duì)數(shù)據(jù)歸檔,而Atmos則用于云存儲(chǔ)。華為UDS的對(duì)象存儲(chǔ)支持Amazon S3接口、賽門鐵克NBU和CommVault Simpana備份接口,據(jù)了解目前NFS/CIFS文件訪問(wèn)協(xié)議還需要另外添加網(wǎng)關(guān),未來(lái)計(jì)劃集成到UDS產(chǎn)品中。

滿足CERN功耗要求,ARM綜合成本暫勝Atom

如上圖,華為UDS海量存儲(chǔ)從20節(jié)點(diǎn)的原形開(kāi)始,到2010年底實(shí)現(xiàn)192節(jié)點(diǎn)的原形產(chǎn)品,今年一月交付給歐洲核子研究組織CERN 384節(jié)點(diǎn)的系統(tǒng),并于7月通過(guò)了OpenLAB的性能測(cè)試。在本次云計(jì)算大會(huì)上該產(chǎn)品正式發(fā)布。

CERN以前使用了大量的磁帶,因?yàn)榇艓Р幌翊疟P旋轉(zhuǎn)介質(zhì)——在沒(méi)有數(shù)據(jù)讀寫時(shí)是不耗電的。華為IT存儲(chǔ)產(chǎn)品線總裁范瑞琦先生表示,瑞士發(fā)電的成本較高,該組織還曾表示想把數(shù)據(jù)中心遷移到電費(fèi)相對(duì)低廉的東歐。而功耗和成本正是UDS使用ARM而不是Intel Atom等處理器的原因,據(jù)了解華為此前在這一系列的產(chǎn)品中使用過(guò)Atom。

對(duì)于360這家公司,筆者在這里也不想對(duì)發(fā)表任何看法。只是在去年的HCC大會(huì)上,他們獲悉華為基于ARM芯片的云存儲(chǔ)解決方案,更低功耗、更高部署密度,以及數(shù)據(jù)可靠性基礎(chǔ)之上更少的數(shù)據(jù)冗余——擦除編碼。如此說(shuō)來(lái),UDS也能像Amplistor那樣選擇實(shí)現(xiàn)較高的硬盤利用率而不是三副本?

今年9月將在奇虎360上海IDC部署第一套試驗(yàn)系統(tǒng)。我覺(jué)得在華為UDS產(chǎn)品的背后,硬件選擇和設(shè)計(jì)顯出了一定的實(shí)力,軟件和系統(tǒng)原理看上去盡管不算太復(fù)雜,但要做到相對(duì)完善也不算容易。我們等待著更多國(guó)內(nèi)外用戶的使用反饋,畢竟產(chǎn)品不斷地賣出去才是硬道理。

加深合作:元數(shù)據(jù)處理、硬盤接口變成以太網(wǎng)?

筆者在昨天的報(bào)道中使用了“與硬盤廠商合作:按碟片失效不只是XIO專有”這樣的小標(biāo)題,但當(dāng)范瑞琦在采訪中談到未來(lái)可能會(huì)和硬盤廠商合作,將磁盤自身的接口變成以太網(wǎng)時(shí),還是大大出乎了我的預(yù)料。當(dāng)您看到這里,如此做的原因應(yīng)該不難解釋了——提高集成度,將UDS的(Hash/糾刪碼)ARM元數(shù)據(jù)處理單元和以太網(wǎng)接口放到硬盤的電路板上,進(jìn)一步提高空間利用率、減少故障點(diǎn)和成本。

記得我們?cè)凇都o(jì)錄中國(guó)——企業(yè)存儲(chǔ)的自主之路》一文中曾經(jīng)談到:“采購(gòu)量越大的“甲方”對(duì)于上游供應(yīng)商的控制能力也越強(qiáng),這個(gè)不僅體現(xiàn)在議價(jià)方面… 希捷(占有一半以上的企業(yè)級(jí)硬盤市場(chǎng))等出貨給大OEM客戶與分銷渠道/采購(gòu)量較小廠商的硬盤品質(zhì)也有等級(jí)之分”。以華為今天的硬盤采購(gòu)量無(wú)法與惠普等廠商相比,那他們提出定制化合作的理由是什么呢?我覺(jué)得應(yīng)該是技術(shù)和需求兩方面的因素,首先是真的可以做到聯(lián)合開(kāi)發(fā),其次既然客戶有這樣的需要,OEM廠商又有利可圖,怎么就不行呢?

分享到

wangguang

相關(guān)推薦