圖1 交換架構(gòu)一般模型
數(shù)據(jù)中心作為面向應(yīng)用的綜合業(yè)務(wù)平臺(tái)和未來(lái)云計(jì)算的核心基礎(chǔ)架構(gòu),對(duì)網(wǎng)絡(luò)設(shè)備的交換架構(gòu)提出了更全面、更苛刻的要求,主要包括:支持統(tǒng)一交換架構(gòu),大容量及高擴(kuò)展性,轉(zhuǎn)發(fā)性能,業(yè)務(wù)調(diào)度和精細(xì)化QoS,彈性。
1、 支持統(tǒng)一交換架構(gòu)(Unified Switch Fabric)
數(shù)據(jù)中心目前存在相對(duì)獨(dú)立的三張網(wǎng):數(shù)據(jù)網(wǎng)(Data)、存儲(chǔ)網(wǎng)(SAN)和高性能計(jì)算網(wǎng)(HPC)。為了便于未來(lái)的業(yè)務(wù)整合和服務(wù)提供、簡(jiǎn)化管理、降低建設(shè)成本和運(yùn)營(yíng)維護(hù)成本,三網(wǎng)將逐步走向融合。要求網(wǎng)絡(luò)設(shè)備的交換架構(gòu)能方便地?cái)U(kuò)展和支持FCoE、FC等接口及其轉(zhuǎn)發(fā),從而與存儲(chǔ)網(wǎng)絡(luò)無(wú)縫融合;支持CEE(Convergence Enhanced Ethernet)增強(qiáng)型以太網(wǎng)等新型接口,使以太網(wǎng)從傳統(tǒng)的“盡力而為(Best-effort)”變成更為成熟的“無(wú)損網(wǎng)絡(luò)(Lossless)”。
2、 大容量及高擴(kuò)展性(Capacity & Scalability)
超寬帶時(shí)代正在來(lái)臨,以Youtube、iTunes、Facebook、GoogleEarth、網(wǎng)真系統(tǒng)、移動(dòng)視頻等為代表的視頻流、音頻流、社交網(wǎng)絡(luò)、P2P、多媒體等業(yè)務(wù)正以約70%的年增長(zhǎng)速度發(fā)展,對(duì)未來(lái)網(wǎng)絡(luò)提出了近乎無(wú)止境的帶寬需求。要求交換機(jī)具有大容量和優(yōu)異的可擴(kuò)展性,即隨著業(yè)務(wù)拓展而逐步擴(kuò)展端口數(shù)、端口速率,從而提高端口容量。擴(kuò)展性還包括能根據(jù)業(yè)務(wù)需要擴(kuò)展新的端口類型,支持網(wǎng)絡(luò)資源虛擬化,支持集群系統(tǒng)等。
作為衡量系統(tǒng)交換能力和未來(lái)可擴(kuò)展能力關(guān)鍵指標(biāo),交換機(jī)的交換容量相當(dāng)于汽車的排量指標(biāo)。新一代機(jī)架式數(shù)據(jù)中心交換機(jī)交換容量在1~10Tbps級(jí)別,集群系統(tǒng)更高達(dá)幾十Tbps。端口容量則指產(chǎn)品當(dāng)前版本所能提供的最大網(wǎng)絡(luò)端口容量,由網(wǎng)絡(luò)端口速率乘以相應(yīng)的線速端口數(shù)得出,表征了產(chǎn)品當(dāng)前實(shí)際所能支持的線速轉(zhuǎn)發(fā)能力。同樣交換容量的產(chǎn)品,在不同版本和階段,可能有不同的端口容量;同樣交換容量的產(chǎn)品,由于交換架構(gòu)總開(kāi)銷不同,所能支持的端口容量也會(huì)不同。
端口速率:新一代架構(gòu)要求除支持千兆、萬(wàn)兆以太網(wǎng)端口之外,還要求每槽位能平滑支持一到多個(gè)40Gbps和100Gbps端口,這是帶寬發(fā)展過(guò)程中一個(gè)質(zhì)的飛躍。
3、 轉(zhuǎn)發(fā)性能
線速轉(zhuǎn)發(fā)性能:通常是指64字節(jié)小包的線速轉(zhuǎn)發(fā)能力,表征了系統(tǒng)處理報(bào)文頭的能力,在相同的端口流量下,64字節(jié)小包要求系統(tǒng)在單位時(shí)間內(nèi)處理更多的報(bào)文數(shù)。轉(zhuǎn)發(fā)性能還要關(guān)注線速一致性,即大包小包都能線速,都不丟包;Pair模式、Full Mesh模式都能線速轉(zhuǎn)發(fā)。
轉(zhuǎn)發(fā)時(shí)延及時(shí)延抖動(dòng):目前存儲(chǔ)轉(zhuǎn)發(fā)技術(shù)的端口到端口時(shí)延在幾微秒到幾十微秒,可滿足絕大多數(shù)應(yīng)用場(chǎng)合。Cut-through轉(zhuǎn)發(fā)時(shí)延可達(dá)到1微秒以下,主要用于少數(shù)對(duì)時(shí)延非常敏感的緊耦合高性能計(jì)算。時(shí)延抖動(dòng)則指時(shí)延的一致性、時(shí)延可預(yù)測(cè)性,VoIP、視頻等實(shí)時(shí)業(yè)務(wù)通常要求低時(shí)延和時(shí)延一致性。
4、 業(yè)務(wù)調(diào)度和精細(xì)化QoS
近年來(lái)帶寬需求的年增長(zhǎng)達(dá)到50~70%,而帶寬供給年增長(zhǎng)通常在30%。資源總是有限的,不可能給所有用戶、所有業(yè)務(wù)提供足夠的帶寬,從而導(dǎo)致實(shí)際的網(wǎng)絡(luò)是一個(gè)存在擁塞的網(wǎng)絡(luò)。網(wǎng)絡(luò)設(shè)備需要提供更完善和精細(xì)的QoS支持,即根據(jù)不同用戶不同業(yè)務(wù)的SLA要求,提供相應(yīng)有保證或可預(yù)測(cè)的帶寬、丟包率、突發(fā)緩存能力、時(shí)延、時(shí)延抖動(dòng)等指標(biāo)承諾。
業(yè)務(wù)調(diào)度和隊(duì)列(Scheduling & Queuing):沒(méi)有業(yè)務(wù)調(diào)度的交換架構(gòu)就像沒(méi)有紅綠燈的十字路口,容易發(fā)生碰撞和事故,談不上QoS。粗放式調(diào)度就像每個(gè)方向有一個(gè)車道,有單一圓形紅綠燈的十字路口,比沒(méi)有紅綠燈有大幅改善,但容易阻塞。而精細(xì)化調(diào)度則好比每個(gè)方向有三個(gè)車道(左轉(zhuǎn)、直行、右轉(zhuǎn)),紅綠燈由三個(gè)對(duì)應(yīng)的方向指示箭頭組成(左轉(zhuǎn)、直行、右轉(zhuǎn)箭頭),這種調(diào)度顯然效率更高、更加有序了。
在交換機(jī)里,車道就好比隊(duì)列,紅綠燈就好比調(diào)度器。隊(duì)列越多,就可以對(duì)流量進(jìn)行更精細(xì)化的管理和調(diào)度,使到不同出口、不同優(yōu)先級(jí)的業(yè)務(wù)轉(zhuǎn)發(fā)互不影響,消除頭阻塞。隊(duì)列越多,調(diào)度器也越復(fù)雜,設(shè)計(jì)復(fù)雜度也高,有的設(shè)備還支持層次化調(diào)度(H-QoS)。所能支持隊(duì)列數(shù)目也是網(wǎng)絡(luò)設(shè)備的關(guān)鍵指標(biāo)之一,一般設(shè)備支持十幾、幾十到幾百條隊(duì)列不等,少數(shù)高端產(chǎn)品可以支持1K、十幾K或幾十K。
流分類和緩存(Classification & Buffering):與業(yè)務(wù)調(diào)度緊密相關(guān)的就是流分類和緩存。流分類是對(duì)不同用戶和業(yè)務(wù)進(jìn)行識(shí)別然后映射到不同的優(yōu)先級(jí)和隊(duì)列。而沒(méi)有緩存或緩存太小,再好的調(diào)度也形同虛設(shè)或大打折扣。隨著應(yīng)用越來(lái)越復(fù)雜,流量突發(fā)越來(lái)越大,越來(lái)越頻繁(比如搜索業(yè)務(wù)),足夠大的緩存對(duì)新一代數(shù)據(jù)中心至關(guān)重要。
5、 交換架構(gòu)的彈性(Resiliency)
彈性是指部件出現(xiàn)故障、或人為操作失誤時(shí),能夠自動(dòng)檢測(cè)到,并對(duì)故障進(jìn)行隔離,從而讓系統(tǒng)功能性能不受損失或盡可能少受損失(Graceful Degradation)。包括冗余性(Redundancy)和容錯(cuò)性(Fault Tolerance)。采用與主控板物理上獨(dú)立的N+1交換網(wǎng)板,即轉(zhuǎn)發(fā)平面和控制平面物理上分離有利于進(jìn)一步提高系統(tǒng)的彈性。
二、 傳統(tǒng)的基于CIOQ的Crossbar交換架構(gòu)
基于CIOQ的Crossbar交換架構(gòu)在上世紀(jì)90年代出現(xiàn)。如圖2所示,該架構(gòu)包含一到多個(gè)并行工作的無(wú)緩存Crossbar芯片,每個(gè)Crossbar芯片通過(guò)交換網(wǎng)端口FP(Fabric Port)連接到所有輸入端口對(duì)應(yīng)的FA端口和所有輸出端口對(duì)應(yīng)的交FA端口;業(yè)務(wù)調(diào)度通常采用集中仲裁器,連到所有的輸入輸出FA芯片和Crossbar芯片;出口FA定時(shí)或?qū)崟r(shí)地向仲裁器報(bào)告出口擁塞情況。一次典型的交換過(guò)程包含三個(gè)步驟:(1)輸入端口發(fā)送業(yè)務(wù)前,入口FA先要向仲裁器請(qǐng)求發(fā)送(Request to transmit);(2)仲裁器根據(jù)輸出端口隊(duì)列擁塞情況,給入口FA發(fā)送允許發(fā)送(Request granted);(3)業(yè)務(wù)通過(guò)交換網(wǎng)轉(zhuǎn)發(fā)到輸出端口。
在入口方向,緩存采用VoQ(Virtual output Queuing:虛擬輸出隊(duì)列)方式給到不同目的輸出端口、不同優(yōu)先級(jí)的業(yè)務(wù)流分配相應(yīng)的隊(duì)列,對(duì)入口流量進(jìn)行緩沖。在出口方向,也有一個(gè)緩存,用以吸收交換網(wǎng)過(guò)來(lái)的突發(fā)流量。因此稱之為CIOQ(Combined Input Output Queuing:組合輸入輸出隊(duì)列)。
圖2 基于CIOQ的Crossbar交換架構(gòu)
由于是集中調(diào)度,所以仲裁器的調(diào)度算法復(fù)雜度很高,性能擴(kuò)展性較差,系統(tǒng)容量大時(shí)調(diào)度器容易形成瓶頸,難以做到精確調(diào)度。
由于是粗放型調(diào)度,所以在出口方向需要放一個(gè)比較大的緩存,并做進(jìn)一步調(diào)度,以支持粒度更細(xì)的系統(tǒng)級(jí)QoS。為了充分利用出口緩存,需要提高系統(tǒng)加速比,加速比通常達(dá)到1.6~2,提高加速比意味著系統(tǒng)能支持的有效端口容量下降(加速比是指交換網(wǎng)端口速率與實(shí)際的網(wǎng)絡(luò)端口速率的比值)。
有些產(chǎn)品交換架構(gòu)在幾何拓?fù)渖蠈⒍鄠€(gè)Crossbar連成與下文描述的CLOS架構(gòu)相類似的形式,并采用靜態(tài)路由方式,即業(yè)務(wù)流進(jìn)入交換網(wǎng)前,根據(jù)源端口指定或基于Hash算法選擇一條路徑。所以,屬于同一條流的所有報(bào)文將選擇同一條路徑進(jìn)入交換網(wǎng)。顯然,當(dāng)系統(tǒng)中業(yè)務(wù)流較為單一時(shí),被Hash算法選中的路徑容易形成阻塞,而其它路徑則較為空閑。類似道理,業(yè)務(wù)流從第二級(jí)交換到第三級(jí)時(shí),也容易形成阻塞。這種架構(gòu)不是嚴(yán)格意義上的無(wú)阻塞CLOS交換架構(gòu),其交換性能與基于CIOQ的Crossbar相當(dāng)。
基于CIOQ的Crossbar同時(shí)滿足了較大容量交換和較好的業(yè)務(wù)調(diào)度的需求,是一種比較完善的交換架構(gòu),交換容量可以從幾百G到幾T,通常支持10G接口但無(wú)法支持40G和100G接口。由于交換容量不是很大,交換網(wǎng)通常集成在主控板上,采用1+1主備或負(fù)荷分擔(dān)工作方式。目前市場(chǎng)上基于10G平臺(tái)的機(jī)架式高端交換機(jī)設(shè)備通常采用該架構(gòu),典型的比如H3C S9500,Cisco C6500。
三、 新一代基于動(dòng)態(tài)路由的CLOS交換架構(gòu)
CLOS交換架構(gòu)由貝爾實(shí)驗(yàn)室Charles Clos博士在1953年的《無(wú)阻塞交換網(wǎng)絡(luò)研究》論文中首次提出,后被廣泛應(yīng)用于TDM網(wǎng)絡(luò),為紀(jì)念這一重大成果,便以他的名字CLOS命名這一架構(gòu)。近二十年來(lái)包交換網(wǎng)絡(luò)的高速發(fā)展,迫切需要超大容量和具備優(yōu)異可擴(kuò)展性的交換架構(gòu),CLOS這個(gè)古老而新穎的技術(shù)再一次煥發(fā)出旺盛的生命力。
CLOS交換架構(gòu)是一個(gè)多級(jí)架構(gòu);在每一級(jí),每個(gè)交換單元都和下一級(jí)的所有交換單元相連接。一個(gè)典型的CLOS交換三級(jí)架構(gòu)由(k,n)兩個(gè)參數(shù)定義,如圖3所示,參數(shù)k是中間級(jí)交換單元的數(shù)量,n表示的是第一級(jí)(第三級(jí))交換單元的數(shù)量。第一級(jí)和第三級(jí)由n個(gè)k×k的交換單元組成,中間級(jí)由k個(gè)n×n的交換單元組成。整個(gè)構(gòu)成了k×n的交換網(wǎng)絡(luò),即該網(wǎng)絡(luò)有k×n個(gè)輸入和輸出端口。
對(duì)于需要更高容量的交換網(wǎng),中間級(jí)也可以是一個(gè)3級(jí)的CLOS網(wǎng)絡(luò)(即CLOS網(wǎng)絡(luò)可以遞歸構(gòu)建),比如4個(gè)第一(三)級(jí)n×n芯片加上2個(gè)n×n的第二級(jí)芯片可構(gòu)成一個(gè)2n×2n的交換網(wǎng)。由于CLOS網(wǎng)絡(luò)的遞歸特性,它理論上具有無(wú)與倫比的可擴(kuò)展性,支持交換機(jī)端口數(shù)量、端口速率、系統(tǒng)容量的平滑擴(kuò)展。
CLOS交換架構(gòu)可以做到嚴(yán)格的無(wú)阻塞(Non-blocking)、可重構(gòu)(Re-arrangeable)、可擴(kuò)展(Scalable)。
圖3 CLOS交換架構(gòu)
CLOS架構(gòu)定義了一種幾何拓?fù)浣Y(jié)構(gòu),在早期TDM及語(yǔ)音應(yīng)用中,其可重構(gòu)特性通常由軟件計(jì)算和配置完成。對(duì)于高速包交換系統(tǒng),大量業(yè)務(wù)流的目的端口在頻繁而快速地變化(如ns級(jí)),通過(guò)軟件來(lái)對(duì)轉(zhuǎn)發(fā)路徑進(jìn)行選擇和重配置變得不現(xiàn)實(shí)。因此,需要采用近些年專門(mén)針對(duì)用于包交換系統(tǒng)的CLOS架構(gòu)而設(shè)計(jì)的動(dòng)態(tài)路由方式。
動(dòng)態(tài)路由關(guān)鍵點(diǎn)在于能負(fù)荷分擔(dān)地均衡利用所有可達(dá)路徑。對(duì)于第一級(jí),每個(gè)業(yè)務(wù)流可通過(guò)Round-robin或隨機(jī)方式均勻發(fā)送到k條連到第二級(jí)的路徑上(通?;谛旁陌l(fā)送);到達(dá)第二級(jí)的業(yè)務(wù)流將基于信元自路由技術(shù)(Cell-based Self-routing),根據(jù)交換網(wǎng)路由選擇相應(yīng)路徑交換到第三級(jí)目的端口。第三級(jí)收到所有來(lái)自第二級(jí)的信元時(shí),把信元重組成報(bào)文,并保證報(bào)文順序正確。動(dòng)態(tài)路由方式由此實(shí)現(xiàn)了嚴(yán)格的無(wú)阻塞交換,并有利于減小加速比從而提高有效端口容量。
動(dòng)態(tài)路由方式有一個(gè)突出優(yōu)點(diǎn),即平滑支持更高速率的網(wǎng)絡(luò)端口,比如40GE/100GE。這是因?yàn)樗梢猿浞掷盟锌捎寐窂叫纬梢粋€(gè)大的數(shù)據(jù)流通道,比如24條3.125Gbps通道可以支持100GE數(shù)據(jù)流。相反,靜態(tài)路由方式則受限于單條路徑的帶寬,比如基于XAUI接口的Crossbar交換,網(wǎng)絡(luò)端口速率最高只能達(dá)到10Gbps,無(wú)法支持40GE和100GE。
基于動(dòng)態(tài)路由的CLOS架構(gòu),再結(jié)合合適的業(yè)務(wù)調(diào)度機(jī)制,就可以支持完善的QoS。采用CLOS交換架構(gòu)的典型設(shè)備有:H3C S12500統(tǒng)一交換架構(gòu)核心交換機(jī),Juniper T1600核心路由器。在2009年2月初,Juniper剛剛發(fā)布了TX-Matrix Plus,通過(guò)多框互聯(lián)技術(shù)支持把16臺(tái)T1600構(gòu)建成一個(gè)25Tbps的無(wú)阻塞交換系統(tǒng),顯示了CLOS架構(gòu)卓越的可擴(kuò)展性。2004年,Cisco發(fā)布了其路由器旗艦產(chǎn)品CRS-1,采用了三級(jí)動(dòng)態(tài)自路由的Benes交換架構(gòu),支持72個(gè)機(jī)架的互聯(lián),達(dá)到46T/92T的系統(tǒng)容量。Benes交換實(shí)質(zhì)上是CLOS交換架構(gòu)的一個(gè)特例。
由于CLOS交換系統(tǒng)容量很大,物理實(shí)現(xiàn)上,通常采用N+1個(gè)獨(dú)立的交換網(wǎng)槽位,與主控板控制平面徹底分離,一方面提高了系統(tǒng)容量可擴(kuò)展性,另一方面極大程度上提高了轉(zhuǎn)發(fā)平面的可靠性,避免了控制平面出現(xiàn)故障或進(jìn)行倒換時(shí)對(duì)轉(zhuǎn)發(fā)平面的影響。
六、結(jié)束語(yǔ)
對(duì)于高端機(jī)架式交換機(jī)和路由器,以基于CIOQ的Crossbar交換架構(gòu)和CLOS交換架構(gòu)為主。其中基于動(dòng)態(tài)路由的CLOS交換架構(gòu)結(jié)合信元自路由技術(shù)、分布式調(diào)度技術(shù)是目前面向新一代數(shù)據(jù)中心和云計(jì)算等多業(yè)務(wù)復(fù)雜應(yīng)用、適用于大容量核心交換機(jī)和核心路由器的最先進(jìn)、最完善、最理想的一種交換架構(gòu)。