1、主存儲性能敏感。主存儲是積極的,如因執(zhí)行重復(fù)數(shù)據(jù)刪除而影響了生產(chǎn)環(huán)境的性能表現(xiàn),是不能接受的。重復(fù)數(shù)據(jù)刪除技術(shù)必須是高效快速的,它不能影響性能,或者它必須這樣做出來的波段上的文件不會立即活躍。
理想狀態(tài)是:在近線存儲產(chǎn)生數(shù)據(jù)備份時進(jìn)行重復(fù)數(shù)據(jù)刪除,消除了任何可能的性能影響。這種技術(shù)重復(fù)數(shù)據(jù)刪除和壓縮水平不同,所提供的效率也不同–重復(fù)刪除的水平越高,數(shù)據(jù)讀回時對性能的影響越大。如果能有一個足夠快的內(nèi)置系統(tǒng)–既能減少數(shù)據(jù),又不不影響性能–是很好,但這種技術(shù)現(xiàn)在還不存在。
2、主存儲是獨(dú)一無二的??s減主存儲的另外一個挑戰(zhàn)是,數(shù)據(jù)是獨(dú)一無二的。這和備份的情況完全不同。備份,特別是每天或每周一次的全備份,有較多數(shù)據(jù)冗余。而生產(chǎn)數(shù)據(jù),盡管可能會有一些重復(fù)–比如同一個數(shù)據(jù)庫的"額外"副本,但大多數(shù)情況下,數(shù)據(jù)冗余并不像備份或歸檔那么多。
隨著基于磁盤的歸檔和磁盤備份變得更加普遍,主存儲的冗余數(shù)據(jù)更少了。過去,保存數(shù)據(jù)庫或文件的額外副本的價值是 "以防萬一"?,F(xiàn)在這些副本,可以很容易地發(fā)送到磁盤歸檔或磁盤備份設(shè)備當(dāng)中。(這是一件好事! )
注意:當(dāng)前用戶期望看到的存儲效率提升20倍或更多,在主存儲就不要想了。一個更現(xiàn)實(shí)的目標(biāo)可能是3倍,最多5倍。
3、主存儲已經(jīng)壓縮過。此外,大部分的主存儲的數(shù)據(jù)已經(jīng)是預(yù)壓縮格式。文件,如圖片,媒體文件,和特定行業(yè)的數(shù)據(jù)集,是已經(jīng)預(yù)先壓縮過的。即使最新版本的流行的office應(yīng)用也是預(yù)先壓縮的。這些預(yù)壓縮文件,往往代表了企業(yè)增長最快的最大的數(shù)據(jù)集。
為應(yīng)對生產(chǎn)數(shù)據(jù)的"獨(dú)特性"和"預(yù)壓縮",一個成功的主存儲精簡技術(shù)需要"挖的更深" 。內(nèi)置的數(shù)據(jù)精簡在備份和存檔有明顯的優(yōu)勢,但生產(chǎn)存儲中,帶外管理會更有效。
在沒有數(shù)據(jù)精簡時間壓力時,可以花時間研究復(fù)雜的復(fù)合文檔,并從數(shù)以百萬計的文件中找出相似的一個文檔。這種方式可以花時間了解具體的格式–如J PG格式是如何存儲的,如何嵌入到另一個文件的(例如,P o werPoint簡報);數(shù)據(jù)精簡如何對原始數(shù)據(jù)及其嵌入狀態(tài)進(jìn)行最佳優(yōu)化的。
4、主存儲越來越便宜。重復(fù)數(shù)據(jù)刪除的最后一項(xiàng)挑戰(zhàn),就是不斷降低的磁盤價格。最后終結(jié)HSM 和ILM的可能會是主存儲數(shù)據(jù)精簡的落實(shí)。隨著頂級存儲制造商開始生產(chǎn)1T的SATA硬盤,購買大容量的存儲空間越來越容易。
從精簡主存儲獲益
首先,精簡主存儲的價值體現(xiàn),一個前提就是:正在處理中的數(shù)據(jù)量一定要大,可能得大于20 T ,才能看到一個不錯的投資回報率。舉例來說,將50T減少到10T ,比從10T減少到2T更有吸引力。
第二,不僅僅是物理存儲成本,其他因素也都必須要考慮到。通過提高存儲效率,能源和空間效率將會減少。許多數(shù)據(jù)中心最大的挑戰(zhàn)就是空間和能源問題。
此外,特別是一個帶外解決方案,如果可以選擇帶外讀數(shù)據(jù),對備份存儲和網(wǎng)絡(luò)帶寬利用率可能都有顯著的積極影響。
存儲系統(tǒng)大量應(yīng)用壓縮或是繼續(xù)進(jìn)行數(shù)據(jù)優(yōu)化應(yīng)在備份窗口以及備份存儲系統(tǒng)上確定一個可測量的縮減。數(shù)據(jù)還可以發(fā)送到基于磁盤的可以消除重復(fù)發(fā)生的壓縮數(shù)據(jù)(多個每周完整備份)的重復(fù)數(shù)據(jù)刪除技術(shù)上。以這種方式進(jìn)行數(shù)據(jù)壓縮使數(shù)據(jù)變得更加便攜,更有利于在在WAN發(fā)送。
理論上講,如果你可以作出一個500 GB的外接式磁盤存儲2 Tbytes的價值數(shù)據(jù),這對于那些需要從一個工廠到另一個發(fā)送大項(xiàng)目的公司來說是很理想的選擇。最終,出于同樣的原因,這個數(shù)據(jù)能夠迅速的恢復(fù),在整個網(wǎng)絡(luò)中,壓縮數(shù)據(jù)將消耗較少的帶寬。
此外,要執(zhí)行這項(xiàng)操作的技術(shù)不能由單一的數(shù)量或僅限于一個單一的陣列控制器加以限制。它將在多個廠商的多個陣列控制中起到杠桿作用,以便來增加多余競賽的機(jī)會。
實(shí)施辦法
鑒于我們已逐項(xiàng)列舉的因素,下面讓我們看看主存儲數(shù)據(jù)減少的各種可能的方法。
主要存儲供應(yīng)商將要嘗試以存儲系統(tǒng)為基礎(chǔ)實(shí)施辦法,如背景數(shù)據(jù)檢索。此外,產(chǎn)品還可能具有內(nèi)置實(shí)時數(shù)據(jù)縮減的功能。一些這樣的方法將在比較數(shù)據(jù)的卷級別上被限制。由于有一個有限的樣本集作為校對標(biāo)準(zhǔn),這限制可以發(fā)現(xiàn)的數(shù)據(jù)冗余,可以發(fā)現(xiàn)以來,有一個有限的樣本集的比較對(當(dāng)進(jìn)行重復(fù)數(shù)據(jù)刪除時,數(shù)據(jù)集越廣泛,存儲效率越高的可能性越大,這種能夠重復(fù)數(shù)據(jù)刪除的方法是由NetApp在今年年初時宣布的。)
與那些較大的存儲供應(yīng)商不同,獨(dú)立供應(yīng)商將嘗試這種內(nèi)嵌壓縮方法。這種做法的挑戰(zhàn)性將是一個重點(diǎn)。如果這種壓縮產(chǎn)品涉及到每個磁盤I / O處理,并企圖壓縮一切,那么將會產(chǎn)生潛在問題。此外,如果一個系統(tǒng)是內(nèi)嵌的工作方式,它未必能看出預(yù)壓縮的數(shù)據(jù),并能找到進(jìn)一步優(yōu)化它的方法。如果一個系統(tǒng)忽略了預(yù)壓縮數(shù)據(jù),它可能忽略最大并且增長最快的數(shù)據(jù)部分。初創(chuàng)公司storwize就采用了這種做法。
混合模式優(yōu)化也將由第三方帶入市場。應(yīng)用混合模式系統(tǒng),一個禁止入內(nèi)的 "系統(tǒng)通道"將為縮減確定合適的數(shù)據(jù)。這樣將為每個數(shù)據(jù)確定具體的數(shù)據(jù)類型和適合的數(shù)據(jù)縮減水平。這種方法同樣能夠跨越多個卷和存儲系統(tǒng)來搜集數(shù)據(jù),即使是由不同的制造商制造的存儲系統(tǒng)。而且混合模式系統(tǒng)將能夠根據(jù)訪問模式提供不同程度的數(shù)據(jù)縮減,舊檔案的工作效率將會提高。
混合模式系統(tǒng)也將給內(nèi)部讀者帶來好處,當(dāng)一個文件需要訪問時,如果這個文件來自刪除的數(shù)據(jù)集中,那么讀者將能馬上獲得所要的文件。
混合模式架構(gòu)也能夠?qū)嚎s數(shù)據(jù)移動到同一存儲系統(tǒng)或不同系統(tǒng)的預(yù)備卷上。這種能力允許了用于優(yōu)化近生產(chǎn)數(shù)據(jù)存儲效率的工具的應(yīng)用,這種工具將把杠桿作為主要動儀數(shù)據(jù)歸檔到一個較便宜的層上。這樣就產(chǎn)生了一個高度優(yōu)化的數(shù)據(jù)管理策略,這個策略不僅把數(shù)據(jù)移到較便宜磁盤層上,而且還減少了數(shù)據(jù)存儲,優(yōu)化了這個層。
如果將數(shù)據(jù)50 Tbytes從光纖通道磁盤移至的SATA磁盤的50 Tbytes上很吸引人,那么將50 Tbytes從FC驅(qū)動器移至SATA儲存的10 Tbytes上則是不可避免的。初創(chuàng)公司Ocarina在這種方法的應(yīng)用上提供了一個很好的例子。
結(jié)論
數(shù)據(jù)重復(fù)刪除提供的有意義的投資回報率,它需要跨多個存儲系統(tǒng)平臺進(jìn)行配置,在不打擾周邊環(huán)境的前提下處理生產(chǎn)數(shù)據(jù)集的具體細(xì)小差別。目前,隨著技術(shù)的作用日益凸現(xiàn),混合模式優(yōu)化方法正在向其目標(biāo)不斷靠近。