實踐結果是數(shù)據(jù)中心的距離在50-75公里范圍內(nèi)可以進行可靠的VM遷移。
遺憾的是,這個距離對于較嚴重的災難恢復計劃而言還不夠(如颶風,地震或是區(qū)域性的電信故障)。因此企業(yè)要平衡應用應對災難恢復要求的彈性。
延時還會影響存儲復制,特別是在同步復制中,數(shù)據(jù)塊寫入必須在兩個站點間在5-10毫秒內(nèi)復制完,這要取決于恢復點的目標恢復時間。
對于同步操作而言,延時的影響比較小,因為寫入確認可以在不影響存儲源的情況下被接收到,而且請求/響應順序沒有通過寫入確認來限制。但是如果你計劃進行亞秒故障轉(zhuǎn)移,通常需要進行同步存儲來確保數(shù)據(jù)不被丟失。
另一個導致延時的不顯著因素是運營商往往使用隧道協(xié)議,如MPLS,ATM或SONET。MPLS網(wǎng)絡的問題在于運營商不能保障網(wǎng)絡中兩站點之間的路徑。運營商網(wǎng)絡可能在一個城市的多個節(jié)點跳動,這樣以太網(wǎng)絡幀在轉(zhuǎn)發(fā)時會增加處理延時。
最后一個導致延時的要素是帶寬。網(wǎng)速快當然延時就短;例如,1G接口的延時為5.7毫秒,但是10G接口的延時僅為0.57毫秒。簡而言之,改善延時問題的簡單方法就是使用高帶寬網(wǎng)絡。
QoS挑戰(zhàn)
應用在兩個數(shù)據(jù)中心之間的有效性也會影響QoS設置的限制。以太網(wǎng)有五個可用的QoS類可以對數(shù)據(jù)流進行分類管理,這樣便能限制第二層數(shù)據(jù)中心互聯(lián)可以處理的服務量。
同時,在DCI上你還有兩股不同類型的數(shù)據(jù)來維持應用的有效性:突發(fā)性,高帶寬應用和低延時,持續(xù)爆發(fā)的監(jiān)控遷移數(shù)據(jù)流。因此,你必須設計好QoS設置使其滿足兩種數(shù)據(jù)的需求。
注意,不論有多少帶寬可用,都可能出現(xiàn)瞬時數(shù)據(jù)爆發(fā)占用所有帶寬,從而使你的QoS設置失效。這種情況可能出現(xiàn)在數(shù)據(jù)路徑的任何一處,即便是以微秒來計算的數(shù)據(jù)爆發(fā)都嚴重影響整體傳輸性能。網(wǎng)絡阻滯可能導致各種數(shù)據(jù)回流,致使問題復雜化。
TrafficTrombone
創(chuàng)建DCI過程中以太網(wǎng)面臨的另一種挑戰(zhàn)是“TrafficTrombone(網(wǎng)絡內(nèi)部的信息往返流動)”(圖3)。以在線商務為例:它有面向公眾的Web/應用服務器,該服務器可連接至內(nèi)部數(shù)據(jù)庫服務器。假設,有一個VLAN已被擴展到第二個數(shù)據(jù)中心。
如果該Web服務器在兩個數(shù)據(jù)中心間徘徊,它會保留相同的IP地址,所有數(shù)據(jù)都必須穿過DCI鏈接。如圖3所示,里面包括了出入外部用戶端的數(shù)據(jù)以及出入數(shù)據(jù)庫的數(shù)據(jù)。
另需增加的帶寬嚴重限制了該方案的可擴展性而且還增加了帶寬的成本。供應商正推出DNS負載平衡之類的傳輸系統(tǒng),因為這樣的系統(tǒng)可以隨時將數(shù)據(jù)流發(fā)送到新地址,不過它們的實用性還不足。例如,如果你的數(shù)據(jù)庫沒有用類似Web服務器這樣的監(jiān)管平臺進行虛擬化,你如何能對推動數(shù)據(jù)庫服務器及其相關應用和Web服務器機制進行管理呢?
阻止循環(huán)
以太網(wǎng)為DCI的創(chuàng)建帶來了另一個技術性障礙。以太網(wǎng)創(chuàng)建于30年前,是一種本地網(wǎng)絡協(xié)議,所以當時沒有考慮到跨機器擴展。就設計而言,以太網(wǎng)是一種多路存取技術,所以可通過網(wǎng)絡上的所有端點接收以太網(wǎng)廣播和多點傳播幀。
因此,當主機發(fā)送以太網(wǎng)廣播或多點播幀時,這個幀必須通過所有以太網(wǎng)進行轉(zhuǎn)發(fā),包括DCI。當廣播幀循環(huán)回到以太網(wǎng)網(wǎng)絡時,它就會被所有交換機轉(zhuǎn)發(fā),即便它此前已被廣播。這就制造了一種快速消耗所有網(wǎng)絡帶寬的條件,而結果便是導致網(wǎng)絡癱瘓。
數(shù)年前開發(fā)的生成樹協(xié)議就是為了阻止這種循環(huán),而且它現(xiàn)在仍在沿用,盡管RapidSpanningTreeProtocol(RSTP)已經(jīng)在可靠性和速度方面有所超越。
問題是SpanningTree不能在長距離傳輸中效果不好。當網(wǎng)絡延時超過250毫秒時,RSTP就不再能阻止循環(huán)。
結論便是SpanningTree不能在創(chuàng)建DCI時有效阻止循環(huán)。試一下你就會發(fā)現(xiàn)它易受單向數(shù)據(jù)流的影響,而其他操作都會出現(xiàn)故障。雖然存在單向鏈路檢測協(xié)議(UDLD)這樣的補丁,但是運營商的服務很有可能會攔截UDLD或是其他減少STP限制的功能。
供應商開發(fā)出了很多技術復雜的方案用于解決循環(huán)問題。三種最常見的方案就是VPLS,MLAG/PortChannel和OTV。
MPLS的變體
被廣泛用于網(wǎng)路電路管理的MPLS協(xié)議已經(jīng)擴展為添加Layer2的方法,包括VPLS,Layer2Pseudowires和MPLS以太網(wǎng)。
VPLS是多協(xié)議標記交換的一種形式,可以在使用MPLS的網(wǎng)絡中進行提供透明化的LAN服務。它最顯著的性能是運營商可以輕易將這個服務部署到現(xiàn)有網(wǎng)絡上,因此可用較少的精力和成本銷售新服務。
VPLS比較普遍,因為許多人都會向運營商尋求解決方案。根據(jù)2010年InformationWeek對334位IT專業(yè)人士進行的調(diào)查發(fā)現(xiàn)有30%的企業(yè)已經(jīng)部署了VPLS,另外有4%的企業(yè)打算在未來12個月里進行部署。
WAN服務的使用
雖然這對于運營商來說是件好事,但是如果你想通過創(chuàng)建DCI來提高應用的可用性,那么VPLS的作用是有限的,因為基礎MPLS網(wǎng)絡仍然不穩(wěn)定,且延時會超過5毫秒。如前所述,延時對VM遷移或其他集群具有極壞的影響。
一個運營商的MPLS網(wǎng)絡容易受到這些問題的影響,因為當網(wǎng)絡被改變,擴展的時候,它會隨時間發(fā)生變化。MPLS也讓運營商訂購超量帶寬。雖然每個運營商的的訂購水平不同,但是客戶對帶寬可用性或性能并不確定。這些條件都為客戶網(wǎng)絡帶來了不確定性,而且用來監(jiān)控Layer2性能的工具也極少。
簡而言之,雖然VPLS是一種可承受網(wǎng)絡延時與不穩(wěn)定的方案,但是它不適合你想在DCI上運行的重要應用。
Layer2Pseudowires(L2PW),是對其他與MPLS相關技術(L2TP,,VPWS,L2TPv3等)的統(tǒng)稱,這些技術都是Layer2點對點連接。許多運營商都提供L2PW服務是因為便于他們在現(xiàn)有網(wǎng)絡上進行部署。
對于所有VPLS和L2PW服務而言,客戶必須部署自己的阻止循環(huán)方案,因為沒有哪項服務可以阻止客戶網(wǎng)絡中的循環(huán),只能在運營商的網(wǎng)絡中進行阻止??蛻舯仨毚_保端對端網(wǎng)絡中循環(huán)的安全。
新WAN方案的部署情況
EoMPLS在常被運營商使用。許多客戶使用EoMPLS在現(xiàn)有企業(yè)或私有MPLS網(wǎng)絡上創(chuàng)建自己的L2DIC,特別是使用DWDM/暗光纖的時候。
但是VPLS只適用于EoMPLS:缺少確定性,路徑服務不穩(wěn)定和服務性能的可視性較差。建議將其作為備用方案或是當你確信運營商提供的服務可以達到協(xié)定水平而且你可以對此進行監(jiān)督時才使用。
超越MPLS
當談到應用可用性的要求時,雖然MPLS及其擴展存在問題,但企業(yè)可能想找到它的替代物,包括MultichassisLinkAggregation和OverlayTransportVirtualization。
MultichassisLinkAggregation是用兩個端到端L2服務連接兩個數(shù)據(jù)中心的最常見方案,大多數(shù)網(wǎng)絡供應商都具備MLAG功能,包括Avaya,思科,Dell/Force10,惠普和Juniper。
MLAG是指把兩個或兩個以上以太網(wǎng)交換裝置連成一個單獨的操作裝置的過程。其基本概念是兩個兩個交換機架都有單獨的控制面板,因此可以使用鏈接或聚合實現(xiàn)兩個以太網(wǎng)的連接。
可使用LinkAggregationControlProtocol把機架之間的以太網(wǎng)連接整合成邏輯水平的單獨連接。MLAG最適合短距離網(wǎng)路電路或是DWDM,在這樣的網(wǎng)路電路中可以訪問暗光纖,而且可以同時進行本地L2VLAN和L3路由服務。
思科熱衷于針對非常見問題研發(fā)出解決方案,然后以專屬性能的方式提供給客戶。OverlayTransportVirtualization(OTV)也不例外。OTV將以太網(wǎng)幀包裝到IP數(shù)據(jù)包中,因此可以較低的運營商成本在數(shù)據(jù)中心之間使用任意Layer3傳輸。
OTV為企業(yè)提供了一種很好的方式對使用現(xiàn)有L3MPLS服務的Layer2DCI進行管理,控制和查看。雖然其部署和維護都簡便但是卻需要小心設計才能確保運營商的服務能處理OTV數(shù)據(jù)。
但是OTV的優(yōu)勢是可以抵消許可證和硬件成本。OTV僅限于思科Nexus7000交換機和ASR9000路由。其性能取決于運營商的基礎服務滿足你服務目標的程度。
暗光纖和光波
客戶的另一個選擇是在使用暗光纖的數(shù)據(jù)中心之間部署自己的電纜。雖然這辦法可能因為政府規(guī)定而難以實施,但是它卻具穩(wěn)定性而且不復雜。
如果你可以訪問自己的暗光纖,MLAG就是用于L2服務的最佳選擇。
如果暗光纖不在考慮之列,你可以搜尋DenseWavelengthDivisionMultiplexing來購買不受MPLS網(wǎng)絡問題限制的以太網(wǎng)服務。DWDM將網(wǎng)路電路多元化為鐳射波長,然后在網(wǎng)絡上復制其物理信號。你的數(shù)據(jù)沒有被轉(zhuǎn)發(fā),橋接或封裝。你的帶寬可以得到保障,而且可以完全掌控QoS,流量等。
無效WAN服務
不過DWDM和暗光纖的資金成本意味著必須有高回報才可行,因此許多客戶選擇同時運行Layer3和Layer2服務。因為DWDM/暗光纖服務是端到端的可靠帶寬而且不會與其他服務共享,你可以控制系統(tǒng)中的所有要素,而且可決定QoS,流量控制和性能。
從技術層面來講,暗光纖/DWDM是實現(xiàn)可靠和可預測網(wǎng)絡傳輸?shù)淖顚嵱眠x擇。L2鏈接控制可通過LLDP/UDLD來創(chuàng)建,而使用EoMPLS與MPLS的L3服務也可用來進行數(shù)據(jù)隔離以滿足網(wǎng)絡安全需求。一旦你完全控制住網(wǎng)路電路,就可使用MPLS為數(shù)據(jù)中心里多個層級提供安全保障/隔離。
從商業(yè)角度來講,用于暗光纖/DWDM服務的SLA是通過確定性建立聯(lián)系。其結果是小型緊湊的MPLS網(wǎng)絡且具有一個MLAG方案的最佳性能。
注意此前我們提到運營商的MPLS服務不是非常有力的選擇,因為用戶缺少控制且對操作缺乏可視性。當你可以自己控制帶寬時——可能是使用暗光纖/DMDW——MPLS成為了數(shù)據(jù)中心相互連接的實用工具。
正確連接
了解自己的局限性
或許使用Layer2DCI應參考的建議是:規(guī)模小,結構簡單,了解自己的局限性。如果你資金雄厚,可以選擇暗光纖或DWDM進行關鍵任務安裝,因為有了服務的所有權與控制權就會有產(chǎn)出。
如果光纖或DWDM對你而言太貴了,可以尋求端到端EoMPLS服務或OTV。
注意對于很多企業(yè)而言,L2DCI都需要執(zhí)行配套的培訓和調(diào)查研究,因為企業(yè)的網(wǎng)絡設計師可能不熟悉MPLS,MLAG和DWDM。
還要注意Layer2DCI可支持少量VLAN。但是如果要擴展到10到20個VLAN,那么規(guī)劃與對硬件供應商和運營商的調(diào)查就需要更多資金。誤差與錯誤可能摧毀數(shù)據(jù)中心的網(wǎng)絡,因此不推薦使用大量VLAN。
盡管DCI的使用存在極大挑戰(zhàn),但是可從操作能力,恢復能力和應用可用性方面對其進行平衡。
花點時間研究和了解相關事宜,特別是運營商服務的可靠性問題上年要進行了解。在通往項目成功與長期可靠性的道路上,你得有個好的開始。