方案特點
1.零業(yè)務中斷:數據并行讀寫冗余盤陣,Raid組故障、盤陣故障探測、切換完全由藍鯨集群文件系統(tǒng)BWFS的盤陣冗余模塊依靠BWmirror技術來控制和實現(xiàn),保證客戶端應用程序數據讀寫在盤陣整體故障的情況下仍能持續(xù)進行,從而保障用戶業(yè)務不因盤陣整體故障出現(xiàn)任何中斷,最大可能保證業(yè)務連續(xù)性。
2.零數據丟失:有別于文件復制方案存儲存在數據同步周期,BWFS的盤陣冗余功能能夠保證寫入冗余盤陣的數據實時同步,在一個盤陣出現(xiàn)整體故障后,其冗余盤陣中仍然保存有完整的數據鏡像,所以數據沒有任何丟失,最大可能保證數據安全性。
3.對應用程序完全透明:盤陣冗余功能在BWFS內部實現(xiàn),所以可以做到對外接口仍然使用標準的文件系統(tǒng)接口,應用程序仍然像訪問普通的NFS、CIFS一樣來訪問配置成盤陣冗余的BWFS,不需要做任何修改,最大可能保證應用兼容性。
4.兼容第三方存儲設備:BWFS盤陣冗余功能可以支持所有標準的FC SAN和IP SAN設備,功能的實現(xiàn)不依賴于具體的盤陣品牌和型號,最大可能節(jié)約方案成本。
應對盤陣整體故障現(xiàn)有方案的不足
目前應對盤陣整體故障的問題,主要采用的方案是主備系統(tǒng)進行文件復制,即采用備用的光纖盤陣搭建一套備份文件系統(tǒng),通過備份服務器將文件定期從主文件系統(tǒng)復制到備份文件系統(tǒng)中。當主盤陣出現(xiàn)故障主文件系統(tǒng)不能訪問時,客戶端掛載起備份文件系統(tǒng),應用程序切換到備份文件系統(tǒng)繼續(xù)工作。這種基于文件復制的方案,解決了盤陣整體故障后數據徹底丟失不能訪問的問題,但從應用容災的角度看主要存在以下幾方面的嚴重問題:
1)業(yè)務中斷:文件復制方案中,盤陣故障導致的讀寫出錯,以及后續(xù)的文件系統(tǒng)切換工作對應用不透明。在主盤陣出現(xiàn)故障不能訪問后,主文件系統(tǒng)會對正在進行讀寫的前端應用程序返回IO Error,從而導致這些程序報錯退出,文件讀寫和相關業(yè)務必然中斷,造成整體事故。
2)數據丟失:文件復制方案,因為有復制周期的存在,所以出現(xiàn)主盤陣故障后,從上次復制完后新編輯、添加、修改文件都未被復制到備份盤陣中,導致切換到備份盤陣后數據丟失。由于丟失的都是新近修改的文件,所以這很大程度上意味著會丟失最緊要的工作成果。
3)業(yè)務恢復時間長:主要是由于文件復制方案的業(yè)務恢復過程復雜和數據不一致這兩方面的因素導致。對于文件復制方案,業(yè)務恢復過程是:第一步:確認盤陣整體故障;第二步:修改客戶機上應用程序的數據磁盤設置,從主文件系統(tǒng)盤符切換到備份文件系統(tǒng)盤符,然后重新運行程序。這個步驟中,很可能需要重啟客戶機。對于大型文件存儲網絡,有幾十甚至上百臺客戶端,這種修改過程非常耗時。第三步:確認因為切換盤陣/文件系統(tǒng)丟失的數據造成的影響。最近一個復制周期內的所有工作都會丟失,至少需要花費同樣的工作量才能恢復到業(yè)務中斷時刻的狀態(tài)。而且由于文件復制方案不能嚴格保證主備系統(tǒng)的數據一致性,所以可能會出現(xiàn)一些文件徹底損壞這種更嚴重的狀況。通常,對于一個大型文件共享存儲網絡,文件復制方案在盤陣故障發(fā)生后,最好的情況也需要數小時才能恢復到故障發(fā)生時的狀態(tài)。
總之,傳統(tǒng)的文件復制方案難以滿足廣電等行業(yè)高標準盤陣容災的要求,是一個“有甚于無”的方案。中科藍鯨文件級盤陣實時容災存儲方案的出現(xiàn),徹底解決了這一問題。
文件級盤陣實時容災方案與其他方案對比的優(yōu)勢
1.與傳統(tǒng)基于文件復制的方案相比:
a)對應用完全透明,客戶端只有單一盤符,故障發(fā)生后不需要顯示在客戶端切換盤符;
b)盤陣無縫切換,不需人工干預,業(yè)務沒有中斷;
c)盤陣間數據實時同步,沒有文件復制窗口,沒有任何數據丟失;
2.與基于應用復制的方案相比:
a)基于應用的復制需要應用自己實現(xiàn),難度大,成本高;
b)基于應用的復制方案沒有辦法修改文件系統(tǒng),難以處理諸如緩存一致性的問題;
3.與基于盤陣的復制方案相比:
a)盤陣復制是在設備底層服務,需要配置高端盤陣,并且盤陣型號必須一致,成本非常高;
b)在文件系統(tǒng)下層,所以在切換之前備用盤陣都不能使用,也無法確認文件是否一致;
中科藍鯨將在今年的BIRTV展上現(xiàn)場展示本文所述的文件級盤陣實時容災存儲方案。
也歡迎各位屆時光臨國際展覽中心6號館6038指導與交流。