存儲空間:
急速增長的數(shù)據(jù)量給災(zāi)備系統(tǒng)帶來的最直觀的問題是不足,需要購買更多的存儲介質(zhì)(磁帶或磁盤)。
配套設(shè)施:
除了購買介質(zhì)本身的支出外,設(shè)備部署空間、降溫、電能消耗等等附帶需求也隨之迅速增長。
處理性能:
與存儲介質(zhì)不同,系統(tǒng)的處理能力(如CPU、I/O總線等)一般較難擴(kuò)展,通常只能通過硬件整體升級完成,如果不能通過技術(shù)手段有效平抑?jǐn)?shù)據(jù)量增長對系統(tǒng)處理能力的壓力,系統(tǒng)可靠性將面臨頻繁硬件升級的嚴(yán)峻挑戰(zhàn)。
網(wǎng)絡(luò)傳輸:
災(zāi)備系統(tǒng)通常都需要異地部署。數(shù)據(jù)量的增加要求遠(yuǎn)程數(shù)據(jù)傳輸具有更高的帶寬;由于傳輸帶寬的限制,傳輸時間的延長可能會降低系統(tǒng)運(yùn)行效率,甚至無法及時完成異地數(shù)據(jù)傳輸,造成災(zāi)備系統(tǒng)不能發(fā)揮功效。
實際的容災(zāi)系統(tǒng)設(shè)計過程中,我們重點關(guān)注的是RTO和RPO兩個指標(biāo)。
RTO全稱為:Recovery Time Objective,即:恢復(fù)時間目標(biāo)。RTO表示了從災(zāi)難發(fā)生直到業(yè)務(wù)流程再次運(yùn)行(即被恢復(fù))的時間。RTO有兩個組成部分,明確災(zāi)難發(fā)生后指示恢復(fù)流程開始的決策時間(Decision Time)和進(jìn)行災(zāi)難恢復(fù)流程的實施時間(Deployment Time)。一般來說,恢復(fù)時間(RTO)越短,那么災(zāi)難恢復(fù)方案的成本就越高,但是由于災(zāi)難造成的業(yè)務(wù)損失就越??;反之,恢復(fù)時間(RTO)越長,災(zāi)難恢復(fù)方案的成本較低,但是由于災(zāi)難造成的業(yè)務(wù)損失就較大;
RPO全稱為:Recovery Point Objective,即:恢復(fù)點目標(biāo)。 RPO是災(zāi)難發(fā)生后業(yè)務(wù)能夠容忍的數(shù)據(jù)丟失量,或者說災(zāi)難發(fā)生造成的數(shù)據(jù)丟失量。一般來說, RPO越高(即,丟失的數(shù)據(jù)越少),容災(zāi)的成本越高,但是由于災(zāi)難造成的業(yè)務(wù)損失就越小;反之,RPO越低(即,丟失的數(shù)據(jù)較多),容災(zāi)的成本越低,但災(zāi)難造成的業(yè)務(wù)損失也越大.
災(zāi)備系統(tǒng)的各種因素都會影響到RTO和RPO指標(biāo)的實現(xiàn),但是,最終制約RTO和RPO目標(biāo)實現(xiàn)的將會是各種因素中最弱的因素,即:災(zāi)備系統(tǒng)的性能可以用木桶模型來解釋。
從存儲空間、配套設(shè)施、處理性能、網(wǎng)絡(luò)傳輸四個方面來分析,可以得到如下結(jié)果:
雖然企業(yè)對存儲空間的需求越來越大,但是隨著IOBS、RAIDS技術(shù)的發(fā)展,磁盤陣列的存儲容量和數(shù)據(jù)安全性都得到了很明顯的提高,基本可以滿足大多數(shù)企業(yè)的需求;
配套設(shè)置會影響災(zāi)備系統(tǒng)的運(yùn)營成本,但是并不直接影響RTO和RPO指標(biāo)的實現(xiàn);
目前,高性能的CPU,處理能力很強(qiáng),處理性能也比較容易滿足。
但是網(wǎng)絡(luò)傳輸由于帶寬、價格、丟包、時延等問題,往往成為災(zāi)備系統(tǒng)中的短板,并直接對RTO和RPO目標(biāo)的實現(xiàn)產(chǎn)生重要影響。接下來我們著重分析網(wǎng)絡(luò)傳輸這個災(zāi)備系統(tǒng)存在的瓶頸問題。
由于災(zāi)備系統(tǒng)通常需要異地部署,在不同的數(shù)據(jù)中心,需要采用廣域網(wǎng)進(jìn)行連接。通常廣域網(wǎng)的連接,主要有專線接入和VPN兩種方式,但是兩種方式,在傳輸過程中,都存在一些需要優(yōu)化的問題:
1.數(shù)據(jù)帶寬有限,但是傳輸數(shù)據(jù)量較大
由于專線的租賃價格比較貴,往往從主數(shù)據(jù)中心的到災(zāi)備中心的專線只有僅僅10Mbps,但是每日需傳輸?shù)臑?zāi)備數(shù)據(jù)量大,經(jīng)常以百G來計,數(shù)據(jù)無法在指定時間內(nèi)完成傳輸。并且,隨著業(yè)務(wù)的不斷增多,數(shù)據(jù)滯后也越來越多,數(shù)據(jù)的丟失風(fēng)險也不斷攀升,RPO難保證……
在大多數(shù)情況,有限的帶寬和較大的傳輸數(shù)據(jù)量的矛盾在災(zāi)備系統(tǒng)建設(shè)中,經(jīng)常容易出現(xiàn)。
2.公網(wǎng)環(huán)境復(fù)雜,丟包延時嚴(yán)重
公網(wǎng)環(huán)境比較復(fù)雜,不可控因素更多,尤其是異地部署的災(zāi)備系統(tǒng),廣域網(wǎng)傳輸,中間節(jié)點較多,丟包和延時情況難免,同時由于我國過存在多個運(yùn)營商,在跨運(yùn)營商傳輸?shù)那闆r下,丟包和延時情況更為嚴(yán)重。
網(wǎng)絡(luò)環(huán)境對傳輸影響是非常巨大的,一條2Mb/s帶寬的ADSL線路,在不同延時情況下的數(shù)據(jù)吞吐情況如下圖所示:
可見,當(dāng)延時達(dá)到200ms左右,實際的吞吐量只能達(dá)到帶寬所允許的最高數(shù)據(jù)吞吐量的10%左右。另外的100Mb/s帶寬的線路上面進(jìn)行相同的測試,得到的結(jié)果顯示在網(wǎng)絡(luò)延時大于200ms以后,100Mb/s帶寬線路的數(shù)據(jù)吞吐量和2Mb/s的線路幾乎下降到同樣的水平,所以說在網(wǎng)絡(luò)延時較大的時候,網(wǎng)絡(luò)帶寬不論大小,傳輸能力都會大大降低。
3.傳輸機(jī)制需要優(yōu)化:
廣域網(wǎng)中使用最廣泛的傳輸協(xié)議就是TCP(Transfer Control Protocol)協(xié)議,TCP協(xié)議傳輸數(shù)據(jù)的時候,一端到另一端所正在傳輸?shù)臄?shù)據(jù)量受數(shù)據(jù)報窗口的大小限制,當(dāng)該窗口滿了以后,發(fā)送方就無法發(fā)送更多的數(shù)據(jù),直到接受方確認(rèn)已經(jīng)接收了窗口中的部分?jǐn)?shù)據(jù)。在部分對數(shù)據(jù)傳輸要求非常高的企業(yè),主數(shù)據(jù)中心和災(zāi)備中心之間通過1Gbps的專線互聯(lián),延時只有25ms,網(wǎng)絡(luò)帶寬足質(zhì)量好,但是災(zāi)備系統(tǒng)在運(yùn)作時,速度極限只能跑到尷尬的180Mbps,徒有大帶寬卻白白浪費(fèi),RTO不達(dá)標(biāo)……
所以,廣域網(wǎng)中最廣泛使用的TCP協(xié)議也需要優(yōu)化。
作為國內(nèi)規(guī)模最大、創(chuàng)新能力最強(qiáng)的應(yīng)用層網(wǎng)絡(luò)設(shè)備供應(yīng)商,深信服經(jīng)過十幾年的技術(shù)積累和對先進(jìn)網(wǎng)絡(luò)的深刻研究和認(rèn)知之后,并結(jié)合客戶災(zāi)備系統(tǒng)遇到的主要問題,率先在國內(nèi)提出了災(zāi)備優(yōu)化方案,針對廣域網(wǎng)傳輸存在的問題,深信服提出了相對應(yīng)的解決方案。
高效的流緩存壓縮和數(shù)據(jù)消減技術(shù)解決數(shù)據(jù)量大與窄帶寬之間的矛盾。
深信服WOC容災(zāi)網(wǎng)絡(luò)優(yōu)化方案采高細(xì)粒度冗余數(shù)據(jù)消除技術(shù)解決,無損數(shù)據(jù)削減的方式,減少網(wǎng)絡(luò)中需要傳輸容災(zāi)數(shù)據(jù)總量,在有限的帶寬內(nèi)實現(xiàn)高效的傳輸,從而提升災(zāi)備速率。數(shù)據(jù)削減采用的技術(shù)為基于碼流特征的數(shù)據(jù)優(yōu)化技術(shù),以及無損數(shù)據(jù)流壓縮技術(shù),實現(xiàn)bit級重復(fù)數(shù)據(jù)刪除,災(zāi)備需傳輸流量可達(dá)到60%-90%的削減。
某檢驗檢疫局,主數(shù)據(jù)中心在省會城市A,并在地市局B建立災(zāi)備中心,A到B之間只有4Mbps的專線互聯(lián),每日災(zāi)備數(shù)據(jù)需要從晚上完成到A到B的傳輸。但由于數(shù)據(jù)量大,往往在規(guī)定的備份時間窗口之內(nèi)無法完成傳輸,需要到第二天中午才把災(zāi)備數(shù)據(jù)傳輸完。而災(zāi)備數(shù)據(jù)和業(yè)務(wù)鏈路為共用專線,導(dǎo)致第二天上網(wǎng)B局人員訪問業(yè)務(wù)系統(tǒng)速度非常慢。通過深信服WOC容災(zāi)網(wǎng)絡(luò)優(yōu)化方案對災(zāi)備傳輸進(jìn)行優(yōu)化,原有需要傳輸整晚甚至到第二天中午才傳完的數(shù)據(jù),部署后兩三個小時既已完成災(zāi)備數(shù)據(jù)的傳輸,加快了災(zāi)備效率,降低數(shù)據(jù)災(zāi)難風(fēng)險。
優(yōu)化網(wǎng)絡(luò)的質(zhì)量,解決丟包延時等問題對網(wǎng)絡(luò)傳輸?shù)挠绊憽?/span>
在丟包存在、延時較高的情況下,網(wǎng)絡(luò)實際吞吐性能將大打折扣;同時,災(zāi)備需傳輸?shù)臄?shù)據(jù)量大,也是耗時長、RTO不達(dá)標(biāo)的一個原因。針對這個問題,深信服WOC容災(zāi)網(wǎng)絡(luò)優(yōu)化提出鏈路質(zhì)量優(yōu)化+無損數(shù)據(jù)削減的方案解決。針對公網(wǎng)線路,尤其跨運(yùn)營商線路中的丟包延時問題,通過鏈路質(zhì)量優(yōu)化功能,采用改進(jìn)性的HTP算法優(yōu)化TCP協(xié)議,在丟包延時環(huán)境下大大提升網(wǎng)絡(luò)的吞吐性能;并通過基于碼流特征的數(shù)據(jù)優(yōu)化技術(shù),以及無損數(shù)據(jù)流壓縮技術(shù),大大消除災(zāi)備需傳輸?shù)臄?shù)據(jù)量,提升帶寬吞吐、削減傳輸數(shù)據(jù)量,從而實現(xiàn)災(zāi)備網(wǎng)絡(luò)的加速。
某媒體集團(tuán),主數(shù)據(jù)中心在北京,災(zāi)備中心在廣州,出口分別電信和聯(lián)通的公網(wǎng)線路,主要傳輸?shù)臄?shù)據(jù)類型為音視頻數(shù)據(jù)。由于受到跨運(yùn)營商的影響,原有NetApp災(zāi)備系統(tǒng)受到網(wǎng)絡(luò)影響比較嚴(yán)重,傳輸速度平均為6Mbps,峰值只有10Mbps。通過深信服WOC容災(zāi)網(wǎng)絡(luò)優(yōu)化方案的部署,解決網(wǎng)絡(luò)質(zhì)量問題,傳輸速度從6Mbps一下提高到了50Mbps,網(wǎng)絡(luò)性能得到顯著的提高。
優(yōu)化TCP傳輸機(jī)制,提高TCP連接的吞吐量,有效利用帶寬。
在一對災(zāi)備系統(tǒng)之間,往往是通過單TCP連接或是僅幾條TCP連接相連,而TCP本身因為受到傳輸窗口等協(xié)議本身的限制,速度存在上限值。傳統(tǒng)的TCP協(xié)議傳輸窗口為64KB,在網(wǎng)絡(luò)延時為20ms時,單條TCP連接吞吐僅為25Mbps。雖然許多災(zāi)備系統(tǒng)基于Unix開發(fā),對TCP協(xié)議進(jìn)行了一部分優(yōu)化,但相對于1Gbps這樣的大帶寬,吞吐還是出于160Mbps-200Mbps這樣的低位,無法完全利用帶寬保障RTO。
針對TCP本身的低效性,深信服WOC災(zāi)備優(yōu)化方案通過TCP協(xié)議優(yōu)化+無損冗余數(shù)據(jù)削減功能,可大大提升整個網(wǎng)絡(luò)的吞吐。在某金融機(jī)構(gòu)實際測試中,對于一對災(zāi)備設(shè)備之間的廣域網(wǎng)傳輸,性能從160Mbps大幅提升至600Mbps,并可擴(kuò)展提升至2.5Gbps,滿足大帶寬災(zāi)備需求。