在數(shù)據(jù)收集階段,軟件通過比較進(jìn)入的備份數(shù)據(jù)和先前的備份縮小需要進(jìn)行分析數(shù)據(jù)的范圍,使用“內(nèi)容已知”數(shù)據(jù)庫辨別它們之間可能的重復(fù)和相似數(shù)據(jù)。例如,如果名為同一個客戶端中的 “
ootdocumentsabc.txt”文件在備份中存在兩次,軟件自動決定采取何種動作。如果進(jìn)入的數(shù)據(jù)是已存在數(shù)據(jù)的修改版本,該數(shù)據(jù)就進(jìn)入下一階段(數(shù)據(jù)識別、數(shù)據(jù)比較)的處理流程以確定數(shù)據(jù)發(fā)生的具體變化;如果進(jìn)入的數(shù)據(jù)和已存在數(shù)據(jù)完全相同,那么進(jìn)入下一階段對數(shù)據(jù)副本進(jìn)行校驗。另外的數(shù)據(jù)收集操作包括:標(biāo)志保存在不同位置(例如,不同的客戶端、目錄等)的相同對象副本。軟件還為數(shù)據(jù)收集階段發(fā)現(xiàn)的冗余數(shù)據(jù)對創(chuàng)建一工作列表,該表格用于數(shù)據(jù)識別和比較階段進(jìn)行進(jìn)一步分析。


    數(shù)據(jù)識別/數(shù)據(jù)比較


    在數(shù)據(jù)識別/數(shù)據(jù)比較階段,軟件以字節(jié)為單位分析數(shù)據(jù)收集階段標(biāo)志出的相似數(shù)據(jù)對象。如果數(shù)據(jù)收集階段創(chuàng)建的工作表表明需要進(jìn)行數(shù)據(jù)識別,那么軟件就會用 delta 差分算法確定備份組中的哪些數(shù)據(jù)是唯一的、哪些數(shù)據(jù)是重復(fù)的。


    該算法可以有效地以字節(jié)為單位映射發(fā)生變化的數(shù)據(jù),并且對數(shù)據(jù)對象內(nèi)的偏移或者位置改變不敏感,所以,即使相關(guān)的對象之間發(fā)生明顯的結(jié)構(gòu)改變,該算法仍可以定位冗余的數(shù)據(jù)。


    如果數(shù)據(jù)收集階段從元數(shù)據(jù)級別認(rèn)定備份組中的數(shù)據(jù)和前一個備份相同,那么在數(shù)據(jù)識別階段將以字節(jié)為單位對數(shù)據(jù)進(jìn)行比較。在該步驟中,軟件調(diào)用數(shù)據(jù)比較器識別出數(shù)據(jù)發(fā)生變化的文件。


    數(shù)據(jù)重組


    數(shù)據(jù)識別/數(shù)據(jù)比較的結(jié)果被傳遞給數(shù)據(jù)重組過程,在該過程中數(shù)據(jù)被重新組裝,放入臨時的“保留磁帶”中,新數(shù)據(jù)被保存,前一階段被標(biāo)出的重復(fù)數(shù)據(jù)被已存數(shù)據(jù)的指針替代。對備份軟件而言,保留磁帶和真正的磁帶完全相同,只是存儲在新磁帶中的數(shù)據(jù)要遠(yuǎn)少于真正的磁帶上存儲的數(shù)據(jù)。從備份軟件看來,數(shù)據(jù)是連續(xù)的并且也沒有刪除副本,軟件可以根據(jù)嵌入在文件系統(tǒng)中的指針讀取重復(fù)數(shù)據(jù)的唯一一份副本。該過程的最終結(jié)果是產(chǎn)生一份經(jīng)過重復(fù)數(shù)據(jù)刪除的備份組視圖。


    可選的完整性檢查


    在實際刪除所有的重復(fù)數(shù)據(jù)前,軟件執(zhí)行一次可選的檢查,以保證數(shù)據(jù)100%的完整性。在本階段中,軟件通過將“保留磁帶”(代表經(jīng)過重復(fù)數(shù)據(jù)刪除的數(shù)據(jù))和原始數(shù)據(jù)進(jìn)行比較驗證其結(jié)構(gòu)和整個數(shù)據(jù)內(nèi)容。


    空間回收


    在空間回收階段,軟件從文件系統(tǒng)中刪除冗余的數(shù)據(jù),釋放先前被占用的磁盤空間以備他用。保留磁帶和原始的、沒有經(jīng)過重復(fù)數(shù)據(jù)刪除的磁帶交換位置(比如條碼、槽位以及屬性等),然后軟件智能的釋放重復(fù)的區(qū)塊并將它們放回空閑空間池。經(jīng)過這樣的處理以后,所有其他需要存儲空間的數(shù)據(jù)處理過程都可以重用先前被重復(fù)數(shù)據(jù)占用的空間。

分享到

多易

相關(guān)推薦