王震認(rèn)為,現(xiàn)在的人們對重復(fù)數(shù)據(jù)刪除技術(shù)的渴望給了SEPATON以極大的市場機(jī)會
僅從重復(fù)數(shù)據(jù)刪除對比壓縮的情況來看,王震表示,首先,從實際的測試來看,二者的時間區(qū)別并不長,并非人們所想那樣重復(fù)數(shù)據(jù)刪除會需要遠(yuǎn)遠(yuǎn)超過壓縮的時間(這與SEPATON的技術(shù)實現(xiàn)方式有很大關(guān)系),其次,從數(shù)據(jù)上來講,有別于壓縮,應(yīng)用系統(tǒng)數(shù)據(jù)有多種,影音、數(shù)據(jù)庫、文件、圖片,有些已經(jīng)做了壓縮,有些還沒有——“如果單純用再壓縮的方式去處理數(shù)據(jù)的話,對于很多數(shù)據(jù)的效果是很有限的,傳輸需要的帶寬要求依舊很高。”
王震表示,重復(fù)數(shù)據(jù)刪除是基于數(shù)據(jù)的識別,摘要的提取的數(shù)據(jù)鑒別過程——在傳輸過程開始后,二者的區(qū)別就會顯現(xiàn),傳輸時間上的節(jié)省,讓重復(fù)數(shù)據(jù)刪除的過程并非落后于壓縮。
實際上,這并不是SEPATON的DeltaRemote數(shù)據(jù)傳輸技術(shù)的全部——這需要詳細(xì)的了解SEPATON的內(nèi)容已知架構(gòu),而非簡單的將其重復(fù)數(shù)據(jù)刪除技術(shù)在理念層面進(jìn)行比較,且由于SEPATON的重復(fù)數(shù)據(jù)刪除技術(shù)是整合在其遠(yuǎn)程數(shù)據(jù)傳輸中的,因此,分步驟、分階段的工作流程,就成為了解SEPATON的DeltaRemote遠(yuǎn)程復(fù)制為何能夠通過重復(fù)數(shù)據(jù)技術(shù)加速的必須前提。
內(nèi)容感知:SEPATON的重復(fù)數(shù)據(jù)刪除過程
在談起有關(guān)重復(fù)數(shù)據(jù)刪除和壓縮比較的話題時,王震說了這樣一段話:“Sepaton進(jìn)行一種差分運算,因為數(shù)據(jù)必然存在重復(fù),(因此)會有很高的精簡比,(當(dāng)然)有特定的適用范圍,備份是一個(重要的)應(yīng)用領(lǐng)域,而壓縮是對數(shù)據(jù)實體進(jìn)行擠壓,重復(fù)數(shù)據(jù)刪除是數(shù)據(jù)實體的鑒別,需要的時間會比壓縮長,但Sepaton會去規(guī)避。”
這也就是王震為何表示:“從實際的測試來看,二者的時間區(qū)別并不長,并非人們所想那樣重復(fù)數(shù)據(jù)刪除會需要遠(yuǎn)遠(yuǎn)超過壓縮的時間。”的重要原因。
首先,我們要初步的了解一下SEPATON的DeltaRemote的遠(yuǎn)程復(fù)制、備份的數(shù)據(jù)傳輸?shù)牟襟E——據(jù)王震介紹,SEPATON將這一過程統(tǒng)籌在內(nèi)容識別及傳輸整合的流程之下,分為了五個步驟:第一步是完成本地的備份,無論是通過備份軟件還是硬件備份;第二步是在副本和副本之間的比對,也就是新的備份和老的備份之間,進(jìn)行分析,提取Metadata(元數(shù)據(jù)),形成了數(shù)據(jù)副本的摘要信息;第三步是數(shù)據(jù)重組,根據(jù)抽取的信息摘要進(jìn)行設(shè)定指針,在對應(yīng)數(shù)據(jù)之間,利用指針關(guān)系對應(yīng)連向最新的數(shù)據(jù)——也就是老數(shù)據(jù)指向最新的,第四做完整性檢查,看看數(shù)據(jù)是否有丟失和損壞;第五步將老數(shù)據(jù)中重復(fù)的部分刪除掉。
但SEPATON并不是在本地就把這五個部分做完再把數(shù)據(jù)傳向異地,據(jù)王震介紹,“而是在第二個部分,再抽取信息摘要——Metadata之后,在進(jìn)行數(shù)據(jù)指針定向之前,將這部分抽取的Metadata、唯一的數(shù)據(jù)以及數(shù)據(jù)來源的介紹,以磁帶的形式傳送到異地,在異地從第三步至第五步繼續(xù)完成重復(fù)數(shù)據(jù)刪除過程。”——顯然,相對于在本地完成重復(fù)數(shù)據(jù)刪除,只是多了一個傳送的時間,但由于Metadata的數(shù)據(jù)非常小,而唯一的數(shù)據(jù)如果(在備份,尤其是全備份中,這種“如果”情況的發(fā)生其實是必然的)很少的話,那么這個傳送時間其實并無多大的影響。
這就是SEPATON的重復(fù)數(shù)據(jù)刪除過程,最終的目的地自然是SEPATON一直引以為豪的VTL,而在介紹了這樣的一個過程之后,如果你覺得下面的內(nèi)容已經(jīng)沒有什么新意的話,那么你就大錯特錯了,因為下面,我們將一同來探討其內(nèi)容感知的“五步法”之后的聰明智慧——在開動腦筋之前,我們先來將見證SEPATON獨特的堅持重復(fù)數(shù)據(jù)刪除理念。
先談?wù)劽嫦虿呗缘膫浞菖c“VTL的不同角色”
在談及這兩個話題前,有必要提一下王震對重復(fù)數(shù)據(jù)刪除的三點看法,以對下面的話題有一個鋪墊,王震認(rèn)為,重復(fù)數(shù)據(jù)刪除技術(shù)只能用于備份,如果脫離備份,重復(fù)數(shù)據(jù)刪除很難實現(xiàn),在線存儲系統(tǒng)的刪除比小會不好;其次,重復(fù)數(shù)據(jù)刪除是對冗余數(shù)據(jù)的刪除,是數(shù)據(jù)實體的鑒別,而不是簡單的壓縮,或者說是數(shù)據(jù)擠壓,第三,生成的數(shù)據(jù)和原來的數(shù)據(jù)相比,完全是結(jié)構(gòu),基于指針和摘要,定向的結(jié)合體。
因此,王震表示,備份、重復(fù)數(shù)據(jù)刪除策略上SEPATON是不同的,而SEPATON更進(jìn)一步,在重復(fù)數(shù)據(jù)刪除技術(shù)中為用戶提供了更多的選擇——開與不開的區(qū)別就在于用戶的選擇權(quán)利,“開啟的同時對特定的應(yīng)用不用重復(fù)數(shù)據(jù)刪除。”
“其它供應(yīng)商是對VTL的數(shù)據(jù),SEPATON是針對某一個策略、某個應(yīng)用、某個數(shù)據(jù)類型。”這也就意味著,在一個群集的VTL中,我們將有大量的靈活的選擇——一個群集中的幾個做(重復(fù)數(shù)據(jù)刪除),一臺主機(jī)上為某個策略做,而某個策略不去做,甚至可以在這個策略上做之外,再復(fù)制一個策略不去做,當(dāng)然,這也是上面我們所提到的DeltaRemote的一項創(chuàng)新功能:“把不做的分離開,把做的進(jìn)行重復(fù)數(shù)據(jù)刪除,制定兩個備份、傳輸?shù)牟呗浴?rdquo;
實現(xiàn)的過程卻也并不困難:與備份軟件腳本做結(jié)合,插入一些參數(shù);或是在圖形化界面里面,根據(jù)某一個策略下的某一個數(shù)據(jù)實體,為每一個數(shù)據(jù)集定制。
除此以外,對于一個構(gòu)建在網(wǎng)格群集架構(gòu)基礎(chǔ)上進(jìn)行重復(fù)數(shù)據(jù)刪除的SEPATON VTL來說,王震表示SEPATON甚至提供了讓VTL引擎節(jié)點完成“角色扮演”的不同選擇:基于網(wǎng)格,全域的SEPATON VTL架構(gòu),允許重復(fù)數(shù)據(jù)刪除可以均衡的完成,有的節(jié)點專門負(fù)責(zé)計算、有的節(jié)點專門進(jìn)行備份和恢復(fù)——用王震的話說就是,可以將重復(fù)數(shù)據(jù)刪除集中、特指、分散在各個節(jié)點上。
不同的VTL引擎節(jié)點從此有了不同的角色:備份節(jié)點、計算節(jié)點或是混合節(jié)點——就像一個角色扮演游戲。
好了,現(xiàn)在,思考的時間已經(jīng)夠長了,我們可以去考慮SEPATON的重復(fù)數(shù)據(jù)刪除到底好在哪里了——抑或是沒有什么思考的結(jié)果?讓我們拭目以待。
思考:SEPATON的聰明之處
首先,讓我們再來看看王震說的兩段話:
第一段是這樣說的:“內(nèi)容感知是了解數(shù)據(jù)的內(nèi)容是什么情況,不是針對一次的備份數(shù)據(jù)的內(nèi)部的對比,而是在兩次完整的備份數(shù)據(jù)集之間識別內(nèi)容,備份軟件備份出來的是Image文件,如果發(fā)現(xiàn)兩次備份的數(shù)據(jù)有同樣來源、主機(jī)、策略下的數(shù)據(jù),那就可以刪除一個,留有一個知識庫,對壓縮文件和加密文件會有一個不錯的刪除比。”
而第二段的內(nèi)容如下所列:“以100GB數(shù)據(jù)為例子,內(nèi)容感知的初次備份一定需要100GB存儲第一次不做的數(shù)據(jù),然后有100GB保存第二次的數(shù)據(jù),至少需要200GB的存儲空間。刪除前一次100GB備份內(nèi)重復(fù)的數(shù)據(jù),保存最新的數(shù)據(jù)。因此,沒有數(shù)據(jù)重組,恢復(fù)速度很快,性能不受到影響。”
現(xiàn)在,我們來解釋一下這些內(nèi)容。
從內(nèi)容感知的五步來看,我們可以更加通俗易懂的來解釋:在對數(shù)據(jù)進(jìn)行標(biāo)記,提取出必要的、標(biāo)示唯一性的信息之后,將這些需要的信息,包括Metadata、唯一數(shù)據(jù)和數(shù)據(jù)介紹,傳輸?shù)疆惖氐脑O(shè)備上去,而此前,異地的設(shè)備上已經(jīng)有了一個此前的備份,通過將原有數(shù)據(jù)與新傳輸?shù)臄?shù)據(jù)整合,還原了一份最新的備份數(shù)據(jù)——這將是一份真實完整的、保存在異地系統(tǒng)中的,本地業(yè)務(wù)系統(tǒng)的數(shù)據(jù)備份,而在此之前存在的那一份,則刪除掉重復(fù)的數(shù)據(jù),變成獨特數(shù)據(jù)和數(shù)據(jù)介紹的零散組合。之后,當(dāng)下一份被傳送數(shù)據(jù)保存到異地VTL系統(tǒng)內(nèi),會使用前一份被還原的、完整保存的備份數(shù)據(jù)重復(fù)這個操作過程,此時,又會有一份還原后的真實數(shù)據(jù)被完整保存。
這絕對是一個聰明的做法,這將保證,在SEPATON的異地備份端,永遠(yuǎn)能夠擁有一個可以恢復(fù)系統(tǒng)到最新狀態(tài)的最新備份,如果系統(tǒng)出現(xiàn)問題,無需重新恢復(fù)數(shù)據(jù)的等待時間和對備份系統(tǒng)的負(fù)載的要求(眾所周知,重復(fù)數(shù)據(jù)刪除后的數(shù)據(jù)如果需要恢復(fù),至少需要等同于刪除時間的重構(gòu)時間)。
而從對系統(tǒng)的容量要求來看,這同樣具有有利的地方:雖然在備份初期的第一次備份上,SEPATON的方法,由于要保存一個絕對最新的備份副本,且這個副本完全不進(jìn)行重復(fù)數(shù)據(jù)刪除,因此,其需要的初始容量會超過其他的系統(tǒng),但是在此之后,我們能夠發(fā)現(xiàn),由于其一直在系統(tǒng)中保存一個最新備份和過去的所有特殊、唯一數(shù)據(jù),并用這些所有的信息進(jìn)行重復(fù)數(shù)據(jù)刪除,而不是只是在每次的備份文件內(nèi)部進(jìn)行重復(fù)數(shù)據(jù)刪除,其容量的需求會在一定的時期之后,逐步開始低于那些僅僅在單次數(shù)據(jù)集內(nèi)部進(jìn)行數(shù)據(jù)重復(fù)刪除的一般方法,從而獲得相較于其它重復(fù)數(shù)據(jù)刪除技術(shù)在存儲容量需求方面更好的,且是長期的經(jīng)濟(jì)性。
這兩點,就是SEPATON聰明的地方——更快速的恢復(fù),更經(jīng)濟(jì)的數(shù)據(jù)存儲曲線。
在技術(shù)角度,SEPATON的技術(shù)實現(xiàn)顯得十分特殊,而這也是在目前重復(fù)數(shù)據(jù)刪除技術(shù)市場中,SEPATON能夠一直有一席之地的原因,而如果市場持續(xù)的轉(zhuǎn)向技術(shù)敏感的話,將顯著有利于SEPATON技術(shù)的發(fā)展,這將是必然的過程。