然而,當備份到VTL或其他基于磁盤的備份目標已經(jīng)大大改善了我們滿足甚至超出備份和恢復目標能力的同時,我們還面臨著ESG稱之為“容量膨脹”的問題。將此現(xiàn)象歸咎于不斷增加的數(shù)據(jù)量、要求將更多數(shù)據(jù)在線保留更長時間的法規(guī)或企業(yè)管理規(guī)定、更具挑戰(zhàn)性的SLA或縮小的備份窗口,都是不重要的。事實是,我們所備份的數(shù)據(jù)越來越多,卻沒有找到很有效的方式??直至重復數(shù)據(jù)刪除技術(shù)的出現(xiàn)。
走進重復數(shù)據(jù)刪除
ESG認為,重復數(shù)據(jù)刪除技術(shù)是這十年來出現(xiàn)的最重要的數(shù)據(jù)保護技術(shù)之一。原因是因為重復數(shù)據(jù)刪除技術(shù)為數(shù)據(jù)保護領(lǐng)域帶來革命性突破,使磁盤備份、遠程備份和復制效率更高。實際上,ESG預測,由于重復數(shù)據(jù)刪除技術(shù)能夠提升方案價值,將帶動對包含VTL在內(nèi)的基于磁盤備份方案的市場關(guān)注度及部署。
ESG 調(diào)查發(fā)現(xiàn),成本問題一直是阻礙部署基于磁盤備份方案的首要因素。而重復數(shù)據(jù)刪除技術(shù)降低了后端磁盤容量需求,從而降低了相關(guān)磁盤成本(參見圖2)。
隨著許多新技術(shù)的出現(xiàn),市場上對重復數(shù)據(jù)刪除技術(shù)的理解有些混淆。事實上,最近的一份ESG調(diào)查2表明,不同規(guī)模的公司機構(gòu)和行業(yè)對重復數(shù)據(jù)刪除有著濃厚的興趣和相當?shù)牧私?。ESG認為在采用曲線上,早期對重復數(shù)據(jù)刪除的濃厚興趣表明在市場上對其概念的混淆(什么構(gòu)成了重復數(shù)據(jù)刪除)或者表明重復數(shù)據(jù)刪除具有強大的吸引力,將其與出現(xiàn)的其他技術(shù)區(qū)別開來,使其打破典型技術(shù)采用曲線規(guī)則。重復數(shù)據(jù)刪除技術(shù)是顯而易見的,不依賴于應(yīng)變量而被廣泛采用。ESG同時預測重復數(shù)據(jù)刪除技術(shù)將在明年及后年被廣泛采用。
在后面內(nèi)容中,我們將全面講述重復數(shù)據(jù)刪除技術(shù),并回答以下問題:
• 什么是重復數(shù)據(jù)刪除?在數(shù)據(jù)保護計劃中處于何位?
• 重復數(shù)據(jù)刪除和其他備份方法或技術(shù)有那些不同?
• 重復數(shù)據(jù)刪除有哪些優(yōu)勢?
• 怎樣執(zhí)行重復數(shù)據(jù)刪除?
最后,我們將講述昆騰DXi系列磁盤備份和復制設(shè)備,昆騰的重復數(shù)據(jù)刪除方式以及其可能為您的數(shù)據(jù)保護環(huán)境所帶來的好處。
定義重復數(shù)據(jù)刪除
先看一個簡單的定義。ESG將重復數(shù)據(jù)刪除定義為刪除或擦去冗余文件、字節(jié)或數(shù)據(jù)塊的流程,確保只有“獨有”的數(shù)據(jù)存儲在磁盤上。重復數(shù)據(jù)刪除也是ESG所謂的容量優(yōu)化保護技術(shù)(COP)的一個例證。COP技術(shù)用于減少數(shù)據(jù)保護相關(guān)的容量需求。
重復數(shù)據(jù)刪除擁有許多潛在優(yōu)勢,最獨到的一點則是,重復數(shù)據(jù)刪除通過有效減少后端容量需求,正面解決了“容量膨脹”問題。圖3給出了相關(guān)圖釋說明。
在此圖中,重復數(shù)據(jù)用多個相同顏色的盒子來表示。然而重復數(shù)據(jù)刪除粒度或效率(能夠檢測多少重復數(shù)據(jù))會根據(jù)應(yīng)用或數(shù)據(jù)類型而變,底線是相同顏色方塊(參見上面圖釋)有效減少。
重復數(shù)據(jù)刪除處理的粒度越多,容量減少的越大??傮w來看,文件級的重復數(shù)據(jù)刪除雖然有效,但其檢測的重復數(shù)據(jù)要少于塊級或字節(jié)級的重復數(shù)據(jù)刪除;同樣,塊級重復數(shù)據(jù)刪除在檢測數(shù)據(jù)重復上比字節(jié)級的重復數(shù)據(jù)刪除通常更有效。
下面例子說明在粒度上的差別:某終端用戶制作了1MB的PowerPoint演示文檔,然后以郵件附件形式發(fā)給內(nèi)部20個人審閱。在傳統(tǒng)備份環(huán)境下(沒有重復數(shù)據(jù)刪除),雖然文件沒有任何變化,但每個附件都會在每晚完全備份過程中被全部備份,耗費不必要的磁盤容量(20×1MB)。即使是小公司,考慮到磁盤物理容量、功率和冷卻等情況,此冗余成本也頗為可觀。
然而,文件級重復數(shù)據(jù)刪除只保存一份PowerPoint文檔備份,所有其他附件(如重復的拷貝)都被“指針”替代,從而釋放磁盤空間容量,并在客戶需要的情況下延長保留時長。
更多粒度的重復刪除方法,塊級和字節(jié)級重復數(shù)據(jù)刪除技術(shù)將此流程推進一步。這些方法查看構(gòu)成新1MB文件的每個片段,與重復數(shù)據(jù)刪除系統(tǒng)先前遇到的元素相比較,在新文件中用指針替代重復元素,而不用重新存儲。(不同廠商在處理流程上有所不同。在有些情況下,產(chǎn)品的性能可能受到不同的比較元素方式、在磁盤上執(zhí)行寫入和管理的影響)
除了重復數(shù)據(jù)刪除流程粒度之外,還有其他因素也會影響重復數(shù)據(jù)刪除比率。例如,生成的數(shù)據(jù)類型(有些數(shù)據(jù)本身即更易于復制)、數(shù)據(jù)變化頻率等都影響重復數(shù)據(jù)刪除比率。ESG實驗室測試過幾種重復數(shù)據(jù)刪除技術(shù),并認為不考慮重復數(shù)據(jù)刪除流程粒度,10-20倍的容量縮減是現(xiàn)實的。
還有一點值得注意,重復數(shù)據(jù)刪除是一種特性或技術(shù),而非獨立的產(chǎn)品,首先應(yīng)用于數(shù)據(jù)保護和保留領(lǐng)域。然而ESG預測,隨著時間推移,重復數(shù)據(jù)刪除還將應(yīng)用于其他存儲領(lǐng)域。
將重復數(shù)據(jù)刪除技術(shù)應(yīng)用到傳統(tǒng)備份
將重復數(shù)據(jù)刪除應(yīng)用到傳統(tǒng)備份方式中(完整備份、增量備份、差異備份)有著深遠的積極意義,能夠有效減少需要備份的數(shù)據(jù)量,如圖4所示。
讓我們更進一步了解下面的備份方法:完全備份、增量備份、差異備份以及EGS所指的重復數(shù)據(jù)刪除備份。
• 完全備份:通常規(guī)律進行(如每天、每周,等),包括公司數(shù)據(jù)的全部備份或映像。完整備份不區(qū)別“變化”的數(shù)據(jù)或“獨有”數(shù)據(jù),隨每次備份復制全部數(shù)據(jù)。然而,完全備份的數(shù)據(jù)恢復通常比其他備份方法更簡捷,用時少。
• 增量備份:與完全備份不同,增量備份僅復制上一次完全或增量備份后發(fā)生變化的文件。增量備份的主要優(yōu)勢是減少了每天備份文件的數(shù)量(與完全備份相比),允許更短的備份窗口。然而,在恢復數(shù)據(jù)過程中,由于需要恢復上一次完全備份和所有后續(xù)增量映像或副本,因此用時明顯較長。
• 差異備份:備份上一次“完全”備份后被修改的“全部”數(shù)據(jù)。差異備份與增量備份的不同之處在于,增量備份只針對上一次完全備份或增量備份后被修改的數(shù)據(jù)。發(fā)生變化的文件在下一次完全備份前,每天都將執(zhí)行備份。很顯然,差異備份的劣勢在于,隨著文件的改變,備份量在一周內(nèi)不斷增加,直至下一次的每周完全備份。然而,在恢復方面,差異備份只需恢復完全備份和最近差異備份的映像,從而獲得比增量備份更快的恢復時間(視恢復時間的不同而不同)。
• 重復數(shù)據(jù)刪除備份:通過將重復數(shù)據(jù)刪除技術(shù)應(yīng)用到三種傳統(tǒng)備份方法中,用戶可有效減少需要備份的非獨有數(shù)據(jù)量。完全備份、增量備份和差異備份不會執(zhí)行“獨有性”掃描。實際的重復數(shù)據(jù)刪除率取決于多個變量(如上述),但一般會在10-20倍之間。
重復數(shù)據(jù)刪除優(yōu)勢
對用戶來說,重復數(shù)據(jù)刪除技術(shù)擁有多項重要和直接的優(yōu)勢。首先,它可以有效減少備份容量需求,從而從多方面實現(xiàn)成本節(jié)約。它釋放了備份數(shù)據(jù)的容量,實現(xiàn)更長的數(shù)據(jù)保留,改善RTO和可靠性,使基于WAN的遠程備份和復制更高效。具體來說:
• 減少備份容量需求帶來成本節(jié)約。各個公司機構(gòu)的實際容量縮減幅度各不相同,取決于需要備份的數(shù)據(jù)類型、數(shù)據(jù)變化率和備份頻率等因素。ESG實驗室研究發(fā)現(xiàn),容量縮減幅度一般保持在10-20倍。在這個幅度中實現(xiàn)的磁盤容量需求減縮將為用戶帶來強有力的成本節(jié)約,包括:更小的磁盤、更低的能耗和冷卻成本。在1TB磁盤上存儲20TB的備份數(shù)據(jù)能力更大大節(jié)省了磁盤成本。在當前數(shù)據(jù)保護環(huán)境下,對能耗和冷卻成本的考量日漸重要,因此,在更少的磁盤上存儲更多的備份數(shù)據(jù)(例如在1TB磁盤上存儲20TB備份數(shù)據(jù))將大幅降低能耗和冷卻需求。
• “釋放”容量意味著以更少的介質(zhì)管理,完成更多的備份數(shù)據(jù),獲取更長的數(shù)據(jù)保留時間。重復數(shù)據(jù)刪除可以減少用于備份的物理磁盤量,重獲的磁盤容量可應(yīng)用于:1)在磁盤上備份其他數(shù)據(jù);2) 延長磁盤上已備份數(shù)據(jù)的保留期。底線:重復數(shù)據(jù)刪除技術(shù)使磁盤被用作備份更多數(shù)據(jù);而更重要的是,磁盤上的數(shù)據(jù)可以保留更長的時間。這將為用戶帶來巨大利益。設(shè)想一下,你可以不依靠磁帶,就順利恢復3-6個月(甚至更長時間)以前的數(shù)據(jù)。如果沒有重復數(shù)據(jù)刪除技術(shù),這樣做花費會很大;而利用重復數(shù)據(jù)刪除技術(shù),這樣做將不僅可行,而且經(jīng)濟高效。磁帶將被用來進行數(shù)據(jù)的長期歸檔,以便應(yīng)對罕見的災(zāi)難數(shù)據(jù)恢復所需。
• 重復數(shù)據(jù)刪除改善恢復時間目標(RTO)和可靠性。用戶備份到磁盤的數(shù)據(jù)越多,就越能滿足RTO需求,進而滿足數(shù)據(jù)保護服務(wù)等級協(xié)定(SLA)。重復數(shù)據(jù)刪除技術(shù)使客戶在磁盤上備份更多的數(shù)據(jù),保留更長的時間,從而提高RTO。實際上,磁盤數(shù)據(jù)恢復的速度遠高于磁帶。至于可靠性,數(shù)據(jù)在磁盤上能夠保存更長的時間,因此用戶很少再依賴磁帶進行數(shù)據(jù)恢復。
• 支持并擴展基于WAN的備份數(shù)據(jù)遠程復制選項。重復數(shù)據(jù)刪除技術(shù)優(yōu)勢在于其能夠減少備份數(shù)據(jù)量。由于通過WAN的物理數(shù)據(jù)量減少(參見圖5),重復數(shù)據(jù)刪除技術(shù)為各大企業(yè)減少了了進入基于WAN的遠程復制“成本”或“帶寬”,使一些公司可以首次實現(xiàn)基于WAN的遠程復制;而另一些公司則可以為其遠程數(shù)據(jù)(包括先前未受保護的遠程數(shù)據(jù))部署更寬的數(shù)據(jù)保護網(wǎng)絡(luò)。
執(zhí)行重復數(shù)據(jù)刪除
執(zhí)行重復數(shù)據(jù)刪除的方式有多種??即可通過軟件,也可利用硬件設(shè)備。就重復數(shù)據(jù)刪除流程的源頭??即重復數(shù)據(jù)刪除所真正執(zhí)行的地點??來說,則是通過在線或離線執(zhí)行:
• 在線:重復數(shù)據(jù)刪除在主機端通過備份應(yīng)用或數(shù)據(jù)路徑中的某一設(shè)備完成。
• 離線,或事后處理流程:備份工作完成后,通過系統(tǒng)或備份路徑外的設(shè)備完成重復數(shù)據(jù)刪除。
兩種方法對于消除重復數(shù)據(jù)都非常有效,ESG實驗室測試更證實其將帶來巨大效益。但是任何一項技術(shù)都會有所犧牲,對重復數(shù)據(jù)刪除技術(shù)而言,則是性能和容量。在數(shù)據(jù)路徑內(nèi)執(zhí)行重復數(shù)據(jù)刪除會影響性能;而離線執(zhí)行該流程還將影響容量,因為容量最初是分配給備份流程的(在重復刪除過程結(jié)束后才釋放容量)。
. 判斷最適合你環(huán)境的方案需要進行全面的容量/性能平衡分析。如果性能是關(guān)鍵性要素,那么最好采取離線方式;但如果期望在整個過程中獲取最佳磁盤容量節(jié)省,那么在線方式可能更好。當然,在線和離線只是評估重復數(shù)據(jù)刪除技術(shù)要考量的因素之一。如前所述,技術(shù)也會隨著重復刪除執(zhí)行的程度或粒度等級而有所區(qū)別。當評估現(xiàn)有技術(shù)時,上述所有方面都是重要的考量因素。
注意到每種方法在性能、容量、成本方面的利弊很重要。ESG認為,重復數(shù)據(jù)刪除的優(yōu)勢??特別是潛在的磁盤成本節(jié)約??具備足夠的重要性,保證了該項技術(shù)在業(yè)界的廣泛采用。
結(jié)論
由于不斷增加的數(shù)據(jù)量和更具挑戰(zhàn)的商業(yè)SLA協(xié)議,用戶所面對的問題日益嚴峻:一方面,他們需要更長期地在磁盤中在線保留更多備份數(shù)據(jù)以滿足恢復目標;另一方面,他們也需要控制數(shù)據(jù)保護相關(guān)預算。如果沒有重復數(shù)據(jù)刪除這樣的技術(shù)(該技術(shù)使基于磁盤的數(shù)據(jù)保護更高效),企業(yè)會發(fā)現(xiàn),為了最小化系統(tǒng)宕機造成的負面業(yè)務(wù)影響(例如應(yīng)用程序宕機、用戶不滿、數(shù)據(jù)丟失、直接收入損失,等),他們將面臨不斷增加的存儲容量和/或WAN帶寬相關(guān)成本的問題;也有可能面臨風險,并限制實際備份到基于磁盤系統(tǒng)(如VTL)中的數(shù)據(jù)。
重復數(shù)據(jù)刪除有效地改善了基于磁盤數(shù)據(jù)保護的成本效益,使效率等級高于沒有此項技術(shù)的情形,消除了困擾當今數(shù)據(jù)中心的問題。現(xiàn)在,公司可以可靠、快速地恢復數(shù)據(jù)、備份遠程辦公室數(shù)據(jù),并最小化磁帶備份。正因為此,重復數(shù)據(jù)刪除技術(shù)才稱得上是業(yè)界非常重要的技術(shù)。