圖1云存儲(chǔ)架構(gòu)圖
(2)帶寬是否線形增長(zhǎng)
使用云存儲(chǔ)的客戶,很多是考慮未來(lái)帶寬的增長(zhǎng),因此云存儲(chǔ)產(chǎn)品設(shè)計(jì)的好壞會(huì)產(chǎn)生很大的差異,有些十幾個(gè)節(jié)點(diǎn)便達(dá)到飽和,這樣對(duì)未來(lái)帶寬的擴(kuò)容就有不利的影響,這一點(diǎn)要事先弄清楚,否則等到發(fā)現(xiàn)不符合需求時(shí),已經(jīng)買(mǎi)了幾百TB,后悔就來(lái)不及了。
(3)管理是否容易。
2云存儲(chǔ)關(guān)鍵技術(shù)
云存儲(chǔ)必須具備九大要素:①性能;②安全性;③自動(dòng)ILM存儲(chǔ);④存儲(chǔ)訪問(wèn)模式;⑤可用性;⑥主數(shù)據(jù)保護(hù);⑦次級(jí)數(shù)據(jù)保護(hù);⑧存儲(chǔ)的靈活;⑨存儲(chǔ)報(bào)表。
云計(jì)算的發(fā)展離不開(kāi)虛擬化、并行計(jì)算、分布式計(jì)算等核心技術(shù)的發(fā)展成熟。下面對(duì)其介紹如下:
(1)集群技術(shù)、網(wǎng)格技術(shù)和分布式文件系統(tǒng)
云存儲(chǔ)系統(tǒng)是一個(gè)多存儲(chǔ)設(shè)備、多應(yīng)用、多服務(wù)協(xié)同工作的集合體,任何一個(gè)單點(diǎn)的存儲(chǔ)系統(tǒng)都不是云存儲(chǔ)。
既然是由多個(gè)存儲(chǔ)設(shè)備構(gòu)成的,不同存儲(chǔ)設(shè)備之間就需要通過(guò)集群技術(shù)、分布式文件系統(tǒng)和網(wǎng)格計(jì)算等技術(shù),實(shí)現(xiàn)多個(gè)存儲(chǔ)設(shè)備之間的協(xié)同工作,使多個(gè)的存 儲(chǔ)設(shè)備可以對(duì)外提供同一種服務(wù),并提供更大更強(qiáng)更好的數(shù)據(jù)訪問(wèn)性能。如果沒(méi)有這些技術(shù)的存在,云存儲(chǔ)就不可能真正實(shí)現(xiàn),所謂的云存儲(chǔ)只能是一個(gè)一個(gè)的獨(dú)立 系統(tǒng),不能形成云狀結(jié)構(gòu)。
(2)CDN內(nèi)容分發(fā)、P2P技術(shù)、數(shù)據(jù)壓縮技術(shù)、重復(fù)數(shù)據(jù)刪除技術(shù)、數(shù)據(jù)加密技術(shù)
CDN內(nèi)容分發(fā)系統(tǒng)、數(shù)據(jù)加密技術(shù)保證云存儲(chǔ)中的數(shù)據(jù)不會(huì)被未授權(quán)的用戶所訪問(wèn),同時(shí),通過(guò)各種數(shù)據(jù)備份和容災(zāi)技術(shù)保證云存儲(chǔ)中的數(shù)據(jù)不會(huì)丟失,保證云存儲(chǔ)自身的安全和穩(wěn)定。如果云存儲(chǔ)中的數(shù)據(jù)安全得不到保證,也沒(méi)有人敢用云存儲(chǔ)了。
(3)存儲(chǔ)虛擬化技術(shù)、存儲(chǔ)網(wǎng)絡(luò)化管理技術(shù)
云存儲(chǔ)中的存儲(chǔ)設(shè)備數(shù)量龐大且分布多在不同地域,如何實(shí)現(xiàn)不同廠商、不同型號(hào)甚至于不同類(lèi)型(例如FC存儲(chǔ)和IP存儲(chǔ))的多臺(tái)設(shè)備之間的邏輯卷管 理、存儲(chǔ)虛擬化管理和多鏈路冗余管理將會(huì)是一個(gè)巨大的難題,這個(gè)問(wèn)題得不到解決,存儲(chǔ)設(shè)備就會(huì)是整個(gè)云存儲(chǔ)系統(tǒng)的性能瓶頸,結(jié)構(gòu)上也無(wú)法形成一個(gè)整體,而 且還會(huì)帶來(lái)后期容量和性能擴(kuò)展難等問(wèn)題。
3部署Hadoop
從歷史上看,數(shù)據(jù)分析軟件面對(duì)當(dāng)今的海量數(shù)據(jù)已顯得力不從心,這種局面正在悄然轉(zhuǎn)變。新的海量數(shù)據(jù)分析引擎已經(jīng)出現(xiàn)。例如Apache的Hadoop,實(shí)踐證明,Hadoop在數(shù)據(jù)處理方面是做得最好的且是開(kāi)源的平臺(tái)之一。
云存儲(chǔ)中心是由大量服務(wù)器構(gòu)成Hadoop的數(shù)據(jù)節(jié)點(diǎn)((DataNodes),負(fù)責(zé)保存文件的內(nèi)容,實(shí)現(xiàn)文件的分布式存儲(chǔ)、負(fù)載平衡以及文件的容錯(cuò)控制。
下面將利用Hadoop作為實(shí)驗(yàn)平臺(tái),一步一步演示如何部署一個(gè)三個(gè)節(jié)點(diǎn)的集群,并測(cè)試一下MapRe-dace分布式處理的強(qiáng)大功能,在Hadoop分布式文件系統(tǒng)(HDFS)中存人兩個(gè)文件,并采用MapReduce計(jì)算出兩個(gè)namelist文件中各個(gè)名字出現(xiàn)的次數(shù),程序架構(gòu)設(shè)計(jì)如圖2所示。
圖2 3個(gè)節(jié)點(diǎn)的Hadoop集群
其中NameNode主節(jié)點(diǎn)和DataNode從節(jié)點(diǎn)的分布情況如下:
表1
(1)啟動(dòng)Hadoop集群
只需要在NameNode主節(jié)點(diǎn)上執(zhí)行start-all.sh命令即可,同時(shí)Master節(jié)點(diǎn)可以通過(guò)ssh登錄到各,lave節(jié)點(diǎn)去啟動(dòng)其他相關(guān)進(jìn)程。
(2) MapRudce測(cè)試
在NameNode和DataNode兩個(gè)結(jié)點(diǎn)都運(yùn)行正常的時(shí)候,也就是Hadoop部署成功了之后,我們?cè)贜ameNode主節(jié)點(diǎn)上準(zhǔn)備兩個(gè)名單文件。名單文件的內(nèi)容如下:
4運(yùn)行實(shí)驗(yàn)及結(jié)果
5結(jié)語(yǔ)
結(jié)果跟我們預(yù)期的一樣,這樣在以Hadoop為平臺(tái)進(jìn)行了對(duì)HDFS的文件存儲(chǔ),并且統(tǒng)計(jì)了文件中數(shù)據(jù)的數(shù)量,然后顯示出來(lái)。