全球網(wǎng)絡(luò)存儲(chǔ)工業(yè)協(xié)會(huì)中國(guó)技術(shù)中心首席技術(shù)顧問(wèn)侯海波
大數(shù)據(jù)的迷霧籠罩著當(dāng)前整個(gè)業(yè)界,IT基礎(chǔ)架構(gòu)受到的沖擊首當(dāng)其沖,數(shù)據(jù)的處理、分析和利用,首先是以數(shù)據(jù)存儲(chǔ)為基礎(chǔ)的。IBM的智慧存儲(chǔ)戰(zhàn)略,貫穿著化解大數(shù)據(jù)危機(jī)的思想。但I(xiàn)BM的目光不僅僅放在IT業(yè)內(nèi),而是希望所有的企業(yè)、組織,能夠認(rèn)識(shí)大數(shù)據(jù)并利用技術(shù)手段從中獲得“智慧”。
受IBM公司的委托,侯海波在發(fā)布會(huì)上向包括商業(yè)媒體在內(nèi)的在場(chǎng)人員講解了《存儲(chǔ)那些事》。他表示,應(yīng)對(duì)當(dāng)前的存儲(chǔ)挑戰(zhàn),需要采用高性?xún)r(jià)比的介質(zhì)和優(yōu)秀的架構(gòu),輔以分級(jí)存儲(chǔ)、存儲(chǔ)虛擬化、精簡(jiǎn)存儲(chǔ)和重復(fù)數(shù)據(jù)刪除等重要的技術(shù)手段。
存儲(chǔ)解決三件事情
從PC普及到互聯(lián)網(wǎng)建設(shè)高潮,再到如今社交媒體和移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展,我們已經(jīng)置身一個(gè)海量信息的時(shí)代。侯海波說(shuō),信息技術(shù)跨入一個(gè)新的以信息技 術(shù)處理、存儲(chǔ)為核心的時(shí)代,這就是信息的存儲(chǔ)。可以看出,存儲(chǔ)幾乎是我們的一個(gè)IT架構(gòu)重心。調(diào)研表明,在IT架構(gòu)里面,一半的預(yù)算幾乎都放在了存儲(chǔ)上 面,而過(guò)去的重心是計(jì)算和傳輸。
存儲(chǔ)技術(shù)主要是解決這三件事情:第一,要把信息存好,不管多大的數(shù)據(jù),你得存下來(lái);第二,要用好,在我任何時(shí)候需要數(shù)據(jù)的時(shí)候能夠很快地找出來(lái);第三,管好,數(shù)據(jù)一定要管好,一定不能丟,如果丟了,法律可能會(huì)找你的麻煩。
侯海波指出,存儲(chǔ)需要很好的載體。以石刻、竹簡(jiǎn)、紙張記事,那是存儲(chǔ)的昨天,紙張的發(fā)明讓人類(lèi)文明跨出了大大的一步。然而,當(dāng)前的存儲(chǔ)技術(shù)發(fā)展到今天面臨很大的壓力。
存儲(chǔ)三大壓力
第一個(gè)壓力是數(shù)據(jù)量實(shí)在太多。在2011年有一個(gè)專(zhuān)門(mén)的研究機(jī)構(gòu)研究表明:到2007年底的時(shí)候存儲(chǔ)的信息是295EB(1EB=1000PB 100萬(wàn)TB 10億GB 1萬(wàn)億MB,一張照片大概也就是幾個(gè)MB),到現(xiàn)在可能翻了十倍都不止了。要把這些數(shù)據(jù)全部刻成CD,大概是4040億張,如果全部疊起來(lái),可以從地球到月球。
第二個(gè)問(wèn)題它是爆炸性的增長(zhǎng),有專(zhuān)家給了一個(gè)“經(jīng)驗(yàn)定律”,是每隔十八個(gè)月翻一番,平均每年產(chǎn)生多少新的信息呢?好像是 2000000000000000000000字節(jié)。這些數(shù)據(jù)包括通話(huà)記錄、銀行業(yè)務(wù)記錄、網(wǎng)購(gòu)交易記錄和微博信息等,Ebay每天產(chǎn)生的數(shù)據(jù)量是 50TB,F(xiàn)acebook在沒(méi)有中國(guó)這么大的市場(chǎng)情況下,每天新增的照片量是1PB。爆炸性增長(zhǎng)帶來(lái)的壓力,就是海量的基礎(chǔ)上還要去海量,數(shù)據(jù)一多,找起來(lái)就比較麻煩,你在一個(gè)柜子去找東西和滿(mǎn)房間找東西花的時(shí)間是不一樣的。
第三個(gè)壓力,這個(gè)數(shù)據(jù)非常重要。重要到你不提供它,你會(huì)損失很大,而且會(huì)影響到你企業(yè)的生存。我們知道9·11事件發(fā)生之后,世貿(mào)大廈三分之二的企 業(yè)都沒(méi)有重新開(kāi)張,不是因?yàn)槿藛T的損失和資產(chǎn)損失,而是數(shù)據(jù)的丟失,不能丟的一定不能丟,要丟的話(huà)可能法律會(huì)找你的麻煩。另一方面,如果你的數(shù)據(jù)沒(méi)有丟 好,這也給你自己造成麻煩。前幾年有一位陳老師,他可能有一些圖片數(shù)據(jù)涉及隱私,給自己找了麻煩,他沒(méi)有存儲(chǔ)知識(shí),所以從那以后很多知名人士寧愿砸了也不 愿意去維修,可見(jiàn)懂點(diǎn)存儲(chǔ)知識(shí)是多么的重要。
應(yīng)對(duì)之道
今天的應(yīng)對(duì)之道,首先我們看一下數(shù)據(jù)存在什么地方,當(dāng)然大家可能想到光媒介,有磁帶,但是主流的還是磁盤(pán),1956年的時(shí)候IBM發(fā)明了第一塊磁盤(pán),當(dāng)時(shí)大概是24寸,100多公斤,數(shù)據(jù)量是5MB,今天隨便一塊磁盤(pán)上到2TB、3TB,也就是說(shuō)我們的容量已經(jīng)擴(kuò)展了100萬(wàn)倍。但是,不管磁盤(pán)多大,在企業(yè)應(yīng)用里面還是不夠的,我們知道電信的磁盤(pán)是幾百塊、上千塊才能存得下,怎么把這些磁盤(pán)組織起來(lái),存儲(chǔ)更大的容量,這里我們就用到一個(gè)技術(shù),一個(gè)是外部存儲(chǔ),把磁盤(pán)組織起來(lái)放到一個(gè)柜子里,這叫磁盤(pán)陣列,不光放進(jìn)去就可以了,還有一個(gè)RAID的技術(shù),把這些磁盤(pán)組織起來(lái),通過(guò)一系列的方式使得我們得到更大的容量來(lái)使用,同時(shí)性能還提高。舉個(gè)例子,一個(gè)人假如說(shuō)只能記100個(gè)單詞,如果要記 1000個(gè)單詞可以組織10個(gè)人,每人記100個(gè),組成一個(gè)團(tuán)隊(duì)之后存儲(chǔ)容量就擴(kuò)大了。如果我要是記100個(gè)單詞,第一個(gè)人記,其他人閑著,可能我還是需要100分鐘的時(shí)間。如果100個(gè)單詞來(lái)了之后,把它分成10組,每一個(gè)人記10個(gè),大家同時(shí)記,那么我們10分鐘就可以把數(shù)據(jù)記下來(lái),這就是說(shuō)RAID 技術(shù)讓我們可以利用廉價(jià)的磁盤(pán)組成一個(gè)大容量的磁盤(pán),當(dāng)然,它的可靠性也會(huì)增加。
介質(zhì)還不能完全解決問(wèn)題,我們還需要一個(gè)好的架構(gòu)。早期的存儲(chǔ),我們是直接把磁盤(pán)放到服務(wù)器這樣的主機(jī)里面,主機(jī)和磁盤(pán)是密不可分的,在這種情況下,如果我要增加存儲(chǔ),我需要首先增加主機(jī)。后來(lái),我們把磁盤(pán)擴(kuò)展到機(jī)箱的外面,組成一個(gè)柜子,也就是磁盤(pán)陣列,剛開(kāi)始只能通過(guò)一種協(xié)議,也就是我說(shuō)的NAS這樣的連接聯(lián)到一臺(tái)主機(jī),雖然解決了容量的問(wèn)題,但是共享的問(wèn)題、每一臺(tái)應(yīng)用的數(shù)據(jù)保護(hù)問(wèn)題可能需要分別對(duì)待,這是分別進(jìn)行存儲(chǔ),后來(lái)我們產(chǎn)生了更大容量的企業(yè)化存儲(chǔ),大到可以把企業(yè)所有的數(shù)據(jù)都存在里面,而且有更好的一些通道協(xié)議把它聯(lián)到很多的主機(jī)上面,可以把所有的應(yīng)用主機(jī)聯(lián)到一起來(lái),實(shí)現(xiàn)了企業(yè)數(shù)據(jù)的統(tǒng)一存儲(chǔ)。在統(tǒng)一的情況下就可以對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的管理,比如說(shuō)備份就很方便了,這個(gè)協(xié)議最早也是IBM做的。這樣一個(gè)架構(gòu)還不是最方便的,最方便的是網(wǎng)絡(luò)存儲(chǔ),好比大家拿著筆記本電腦,插上網(wǎng)線(xiàn)就可以調(diào)用數(shù)據(jù)了,拔了網(wǎng)線(xiàn)就可以回家了。我們的設(shè)想是把所有的主機(jī)都列到網(wǎng)絡(luò)中來(lái),把所有的存儲(chǔ)都列到網(wǎng)絡(luò)中來(lái),大家通過(guò)網(wǎng)絡(luò)的方式去擴(kuò)展,新增加了一個(gè)業(yè)務(wù)部門(mén),新增加一個(gè)主機(jī)就可以了,明天新買(mǎi)一個(gè)盤(pán)陣,直接接到交換機(jī)上就可以了。
剛才講到了內(nèi)部陣列存儲(chǔ)和外部陣列存儲(chǔ),這個(gè)架構(gòu)還在用。這是NAS結(jié)構(gòu),這種方式在應(yīng)對(duì)訪問(wèn)某個(gè)文件時(shí)是非常方便的,但是最典型的還是我們構(gòu)建存儲(chǔ)區(qū)域網(wǎng),這樣的話(huà),我們就像訪問(wèn)本地的磁盤(pán)一樣,雖然你在寫(xiě)數(shù)據(jù)時(shí)會(huì)寫(xiě)到磁盤(pán)陣列里面去。
我們?cè)賮?lái)看看這些技術(shù),一個(gè)是分級(jí)存儲(chǔ)。既要保證性能,我需要把數(shù)據(jù)放在高性能的介質(zhì)上,為了保存大量的數(shù)據(jù),我需要用廉價(jià)的存儲(chǔ)磁盤(pán)來(lái)支持,每一種介質(zhì)都要用。一個(gè)數(shù)據(jù)隔一段時(shí)間不用了,可以自動(dòng)移到二級(jí)存儲(chǔ)上,再不用放到三級(jí)存儲(chǔ)上,需要的時(shí)候調(diào)用到一級(jí)存儲(chǔ)上,這個(gè)過(guò)程是完全自動(dòng)的。
存儲(chǔ)虛擬化。如果我有很多個(gè)磁盤(pán)陣列,第一個(gè)可能已經(jīng)快用完了,第二個(gè)可能還有很多的空白,在這種情況下,如果我有一個(gè)軟件,通過(guò)虛擬化管理,把它組成一個(gè)大的存儲(chǔ)池,愛(ài)怎么用就怎么用,具體寫(xiě)到哪個(gè)磁盤(pán)上就由我來(lái)控制。
第三個(gè)是精簡(jiǎn)存儲(chǔ)。大概是這么一個(gè)效果:如果你有一塊硬盤(pán)是1G,每一個(gè)分區(qū)給多大的空間比較好呢?這是比較糾結(jié)的問(wèn)題,用了精簡(jiǎn)存儲(chǔ),你可以給每個(gè)分區(qū)分到最大,哪個(gè)用得多就用哪個(gè),直到最后物理空間用完了再去擴(kuò)展新的磁盤(pán),這是它的示意圖。
最后,我們從源頭上來(lái)看,怎么樣通過(guò)除掉重復(fù)數(shù)據(jù)。當(dāng)一個(gè)文件來(lái)的時(shí)候,我首先對(duì)文件進(jìn)行處理,切成小塊,在已經(jīng)存儲(chǔ)的文件里面去找,如果這塊數(shù)據(jù) 已經(jīng)存儲(chǔ)了,我就不會(huì)再存了。但是我做一個(gè)記錄,在你任何時(shí)候需要這個(gè)數(shù)據(jù),我可以隨時(shí)給你組裝出來(lái),這樣的話(huà)減輕了存儲(chǔ)容量,對(duì)每個(gè)數(shù)據(jù)的訪問(wèn)也不會(huì)有 影響。
存儲(chǔ)的明天
明天有大個(gè)特征:一個(gè)是大數(shù)據(jù),它大到了一定的程度,需要我們存儲(chǔ)技術(shù)用特殊的方式或者技術(shù)來(lái)對(duì)待它,大容量需要我們大架構(gòu),而且是分布式的技術(shù),需要高的性能,需要更架構(gòu)、大運(yùn)維。
第二個(gè)是云存儲(chǔ),有了云存儲(chǔ)之后,我不需要像過(guò)去那樣規(guī)劃、購(gòu)買(mǎi)、部署,也不需要長(zhǎng)時(shí)間運(yùn)維,我只說(shuō)我需要容量。提供商需要做的事情,用我們剛才提到的虛擬化架構(gòu)來(lái)管理,進(jìn)行動(dòng)態(tài)的擴(kuò)展,可以想像這是一種比較好的模式,這就使IT資源像水和電一樣的公共資源。