圖1 交換架構(gòu)演進

CLOS交換架構(gòu)是一個多級架構(gòu),在每一級,每個交換單元都和下一級的所有交換單元相連接。一個典型的CLOS交換三級架構(gòu)由(k,n)兩個參數(shù)定義,參數(shù)k是中間級交換單元的數(shù)量,n表示的是第一級(第三級)交換單元的數(shù)量。第一級和第三級由n個k×k的交換單元組成,中間級由k個n×n的交換單元組成,整個構(gòu)成了k×n的交換網(wǎng)絡(luò),即該網(wǎng)絡(luò)有k×n個輸入和輸出端口。對于需要更高容量的交換網(wǎng),中間級也可以是一個3級的CLOS網(wǎng)絡(luò)(即CLOS網(wǎng)絡(luò)可以遞歸構(gòu)建),理論上可以無限可擴展。

CLOS采用動態(tài)路由為信元選擇交換路徑。對于第一級,每個業(yè)務(wù)流(基于信元)可通過Round-robin方式均勻發(fā)送到k條連到第二級的路徑上;到達第二級的信元將基于信元自路由技術(shù)(Cell-based Self-routing),根據(jù)交換網(wǎng)路由選擇相應(yīng)路徑交換到第三級目的端口。第三級收到所有來自第二級的信元時,把信元重組成報文,并保證報文順序正確。這種基于動態(tài)路由的信元交換,是完全無阻塞交換。

由于CLOS在交換容量的遞歸擴展、交換信元的動態(tài)選路方面的優(yōu)勢,除了H3C CR16000,其它業(yè)界最高端的路由器均采用這種交換架構(gòu),例如:Juniper T1600/TX-Matrix Plus、Cisco CRS。

二、 CR16000交換架構(gòu)


圖2 CR16000交換架構(gòu)

如圖2所示,CR16000單框采用的是多級CLOS架構(gòu)中的第一級交換,由一級交換網(wǎng)Fabric和交換網(wǎng)適配器FAP組成,后續(xù)可以通過遞歸擴展交換網(wǎng)至三級,支持集群功能;CR16000采用獨立的網(wǎng)板設(shè)計,和主控板物理分離,保證交換和路由完全物理分離,互不影響,提高系統(tǒng)可靠性。一臺CR16000有多個交換網(wǎng)板,每個交換網(wǎng)板有1~2個交換網(wǎng)片F(xiàn)abric,通過多個交換網(wǎng)片F(xiàn)abric負荷分擔(dān)支持40G/100G高速端口交換,其主要功能包括:控制信元交換、數(shù)據(jù)信元交換和路由處理;在每個業(yè)務(wù)板設(shè)計了交換網(wǎng)適配器FAP(Fabric Adapter Processor),F(xiàn)AP在交換網(wǎng)和業(yè)務(wù)處理芯片(ASIC/NP)之間擔(dān)當(dāng)轉(zhuǎn)換器的角色,其主要功能包括:VoQ和Buffer、報文和信元之間的切分和組裝、交換調(diào)度等。

1. Fabric和FAP之間的連接關(guān)系

每個交換網(wǎng)片采用72對SerDes和FAP互連,每個FAP采用18對SerDes和交換網(wǎng)Fabric互連。采用CLOS交換架構(gòu)為高密度10G端口、40G/100G高速端口提供了充足的交換能力。

下面以CR16018為例來說明CR16000系列路由器的交換網(wǎng)連接關(guān)系。


圖3 CR16018交換網(wǎng)連接關(guān)系

1) CR16018支持9塊交換網(wǎng)板,每個交換網(wǎng)板部署2個交換網(wǎng)片F(xiàn)abric;

2) 支持18個業(yè)務(wù)槽位,每個槽位有4個交換網(wǎng)適配器FAP,整系統(tǒng)共有72個交換網(wǎng)適配器FAP;

3) 每個交換網(wǎng)片F(xiàn)abric和每個交換網(wǎng)適配器FAP采用一對SerDes線互連。

4) 如圖3所示,每個交換網(wǎng)片采用72對SerDes和FAP互連,每個FAP采用18對SerDes和交換網(wǎng)Fabric互連。

每個業(yè)務(wù)槽位的交換容量:每個業(yè)務(wù)槽位有4個FAP,每個FAP有18對SerDes和18塊交換網(wǎng)片互連,按照8B/10B編碼,交換容量為4×18×2×6.25×0.8=720G bps。

每個網(wǎng)片的交換容量:每個網(wǎng)片有72對SerDes和業(yè)務(wù)板的FAP互連,SerDes帶寬6.25Gbps,按照8B/10B編碼,72×2×6.25×0.8 = 720G。

每個網(wǎng)板的交換容量:每個網(wǎng)板含有2個網(wǎng)片,交換容量為720×2=1.44T。

CR16018系統(tǒng)交換容量:1.44T×9 = 12.96Tbps。

由此可知,CR16000采用CLOS交換架構(gòu)為高密10G端口、40G/100G高速端口提供了充足的交換能力。

2. 交換網(wǎng)Fabric

由于FAP和Fabric之間的交換路徑是通過可達控制信元自動學(xué)習(xí)的,并且交換網(wǎng)交換的是定長信元,我們這種交換體系為“基于信元的動態(tài)路由交換”。基于信元的動態(tài)路由交換實現(xiàn)了嚴(yán)格的無阻塞交換,充分利用所有可達路徑負荷分擔(dān)形成一個大的數(shù)據(jù)流通道,平滑支持高速率網(wǎng)絡(luò)端口。


圖4 交換網(wǎng)Fabric

如圖4所示,CR16000的交換網(wǎng)片F(xiàn)abric是一個96×96的交換矩陣,包括Control Cells Switch、Data Cells Switch和Routing Processor,分別對應(yīng)控制信元交換、數(shù)據(jù)信元交換和路由處理三個主要部分。

CR16000的交換網(wǎng)是基于信元交換的,由源端FAP將分組報文映射成為40字節(jié)的定長信元,然后在Fabric交換網(wǎng)上傳送,目的FAP再把這些信元組裝成原來的分組報文。采用小的定長信元交換有其內(nèi)在的優(yōu)點,信元小意味著通過交換網(wǎng)到達目的節(jié)點時間間隔特別短,轉(zhuǎn)發(fā)延遲小,相比長幀的轉(zhuǎn)發(fā)時延減小30至100倍,能夠構(gòu)成高性能、多節(jié)點組成的交換網(wǎng)絡(luò)。

CR16000交換網(wǎng)的信元可分為控制信元、數(shù)據(jù)信元兩種。

控制信元包括發(fā)送隊列狀態(tài)信息(Flow-status)信元、發(fā)送報文出隊列許可(Credit)信元和可達控制(Reachability control)信元,這些信元是有FAP和Fabric自身產(chǎn)生的。其中,發(fā)送隊列狀態(tài)信息(Flow-status)信元和發(fā)送報文出隊列許可(Credit)信元是用于交換網(wǎng)單播報文的調(diào)度控制,在下文會進一步描述??蛇_控制(Reachability control)信元是在FAP和Fabric之間相互通告連通狀態(tài),形成連通表,信元在FAP和Fabric上按照連通表進行交換。

數(shù)據(jù)信元是由FAP把業(yè)務(wù)板上需要交換的報文切分成40字節(jié)的定長信元,在FAP和Fabric之間交換。

由于FAP和Fabric之間的交換路徑是通過可達控制信元自動學(xué)習(xí)的,并且交換網(wǎng)交換的是定長信元,我們這種交換體系為“基于信元的動態(tài)路由交換”。

基于信元的動態(tài)路由交換的關(guān)鍵點在于能利用所有可達路徑進行負荷分擔(dān)。在入方向FAP,信元通過Round-robin方式均勻發(fā)送到N條連到Fabric的可達路徑上;到達Fabric的信元基于信元自路由技術(shù)(Cell-based Self-routing),根據(jù)交換網(wǎng)路由選擇相應(yīng)路徑交換到出方向FAP;出方向FAP收到所有來自Fabric的信元時,把信元重組成報文,并保證順序正確。

基于信元的動態(tài)路由交換實現(xiàn)了嚴(yán)格的無阻塞交換,充分利用所有可達路徑負荷分擔(dān)形成一個大的數(shù)據(jù)流通道,平滑支持高速率網(wǎng)絡(luò)端口,如40GE/100GE。

3. 交換網(wǎng)適配器FAP

從整個系統(tǒng)來看,每個FAP都具備業(yè)務(wù)調(diào)度能力,實際上是一種全分布式業(yè)務(wù)調(diào)度,我們稱之為“分布式Credit調(diào)度機制”。分布式Credit調(diào)度機制的優(yōu)勢包括:調(diào)度效率高、業(yè)務(wù)調(diào)度精準(zhǔn)、擁塞流量分布式緩存等。


圖5 交換網(wǎng)適配器FAP

如圖5所示,交換網(wǎng)適配器FAP部署在各個業(yè)務(wù)板上,在交換網(wǎng)和業(yè)務(wù)處理芯片PP之間擔(dān)當(dāng)轉(zhuǎn)換器的角色,其主要部件包括:VoQ和Buffer、Fabric Inerface和調(diào)度器SCH(Scheduler)。

在業(yè)務(wù)流入方向,F(xiàn)AP從業(yè)務(wù)處理芯片PP接收到報文,根據(jù)目的端口、業(yè)務(wù)屬性以及優(yōu)先級把業(yè)務(wù)流映射到不同的VoQ隊列當(dāng)中,實現(xiàn)業(yè)務(wù)的精細化區(qū)分。FAP為整系統(tǒng)的每個出接口都分配了8個VoQ隊列,并支持512M buffer用于緩存報文。同時,入方向FAP定時向出方向FAP中的調(diào)度器SCH通告VoQ發(fā)送隊列的屬性及空滿狀態(tài),即發(fā)送隊列狀態(tài)信息(Flow-status)信元。

在業(yè)務(wù)流出方向,調(diào)度器SCH根據(jù)出端口可用帶寬、擁塞情況、對應(yīng)VoQ的業(yè)務(wù)屬性、優(yōu)先級和隊列空滿狀態(tài)等屬性,對所有流向該出口的業(yè)務(wù)流發(fā)送不同帶寬許可的Credit。入方向FAP中的每個VoQ隊列則根據(jù)從調(diào)度器SCH收到的Credit給交換網(wǎng)發(fā)送相應(yīng)數(shù)量的報文。

每個調(diào)度器SCH只負責(zé)對流向本出口的業(yè)務(wù)進行調(diào)度,從整個系統(tǒng)來看,每個FAP都具備業(yè)務(wù)調(diào)度能力,實際上是一種全分布式業(yè)務(wù)調(diào)度,我們稱之為“分布式Credit調(diào)度機制”。

分布式Credit調(diào)度機制有很多優(yōu)勢,包括:調(diào)度效率高、業(yè)務(wù)調(diào)度精準(zhǔn)、擁塞流量分布式緩存等。

– 調(diào)度效率高

每個FAP都有一個調(diào)度器SCH,并只負責(zé)對流向本出口的業(yè)務(wù)進行調(diào)度。以CR16018為例,整機共有72個FAP,即有72個調(diào)度器SCH;調(diào)度器SCH之間沒有主從關(guān)系,是完全分布式的并行工作,即CR16018是一個由72個調(diào)度器SCH組成的并行工作體系。

– 業(yè)務(wù)調(diào)度精準(zhǔn)

Credit調(diào)度機制實質(zhì)是一種令牌調(diào)度機制。調(diào)度器SCH根據(jù)出端口的帶寬、擁塞情況等計算出可用帶寬,根據(jù)入方向FAP通告的發(fā)送隊列狀態(tài)信息(Flow-status)并采用整形器(Shaper)算法制定相應(yīng)的帶寬分配策略,最終對每個VoQ生成令牌Credit,VoQ在接收到Credit后發(fā)送相應(yīng)數(shù)量的信元。所謂的精準(zhǔn)調(diào)度包括兩個方面的含義:

其一,傳統(tǒng)的路由器調(diào)度是出接口板緩存和出接口板調(diào)度,而CR16000設(shè)計的是入接口板緩存和出接口板調(diào)度,如果有報文被計算出做丟棄處理,也是在入接口板就被丟棄了,而不會被調(diào)度到出接口板做處理,交換網(wǎng)帶寬利用精準(zhǔn)。

其二,每個調(diào)度器SCH對應(yīng)一個整形器(Shaper),支持雙漏桶算法(Dual Leaky Bucket),提供對各業(yè)務(wù)流及業(yè)務(wù)流聚合(Aggregate)的流量整形功能(Shaping)。


圖6 雙漏桶算法

入方向VoQ在出方向調(diào)度器SCH中對應(yīng)的是Flow,VoQ和Flow是一一對應(yīng)關(guān)系。調(diào)度器SCH把具有相同屬性的Flow放入相同的隊列,進行FQ/WFQ一級調(diào)度,再根據(jù)前一級的調(diào)度結(jié)果進行SP調(diào)度,靈活地對各種調(diào)度器模塊進行組合和編排,以支持個性化的復(fù)雜調(diào)度策略。此外,還支持針對關(guān)鍵業(yè)務(wù)的帶寬預(yù)留功能,支持WRED/Tail Drop擁塞管理策略。

– 擁塞流量分布式緩存

傳統(tǒng)路由器的報文在調(diào)度發(fā)送之前是緩存在出接口板中的,擁塞緩存的能力取決于出接口板的緩存大小。CR16000交換網(wǎng)采用Credit調(diào)度機制,報文發(fā)送之前,報文緩存在入接口板,調(diào)度在出接口板,調(diào)度器SCH根據(jù)出端口可用帶寬和擁塞情況制定相應(yīng)調(diào)度策略,一旦發(fā)生擁塞,調(diào)度器SCH就不會發(fā)送Credit,報文繼續(xù)被緩存在入接口板。


圖7 分布式緩存

如圖7所示,在N個入接口向1個出接口發(fā)生報文的情況下,擁塞流量分布緩存在N個入接口板,報文緩存能力實際上是被放大N倍。隨著云業(yè)務(wù)的應(yīng)用發(fā)展,流量突發(fā)越來越大,越來越頻繁,如:搜索業(yè)務(wù),分布式緩存無疑是當(dāng)前解決突發(fā)擁塞的最佳方案之一。

4. 交換網(wǎng)組播

通過交換網(wǎng)組播技術(shù)避免交換網(wǎng)資源的浪費,提升組播業(yè)務(wù)性能,達到線速復(fù)制能力。

傳統(tǒng)路由器在組播功能上最重大的缺陷之一就是交換網(wǎng)不支持組播,組播報文在交換網(wǎng)上廣播轉(zhuǎn)發(fā),這種處理方式導(dǎo)致的嚴(yán)重后果是組播流量越大,交換網(wǎng)的廣播流量就越大,帶寬資源浪費就越嚴(yán)重。


圖8 交換網(wǎng)組播

如圖8所示,CR16000交換網(wǎng)針對上述問題做了重大的技術(shù)改進,即在交換網(wǎng)上增加組播表項存儲空間,并同步學(xué)習(xí)由主控板下發(fā)的組播表項。交換網(wǎng)上的組播表項和業(yè)務(wù)板上的組播表項有一定的區(qū)別,業(yè)務(wù)板上的組播表項為:源IP + 組播IP + 出接口列表,交換網(wǎng)板上的組播表項為:源IP + 組播IP + 出FAP列表,即:交換網(wǎng)板上的組播表項的下一跳為FAP而不是出接口。CR16000交換網(wǎng)組播技術(shù)可以避免交換網(wǎng)資源的浪費,提升組播業(yè)務(wù)性能,達到線速復(fù)制能力。

三、 結(jié)束語

H3C CR16000采用的CLOS交換架構(gòu)是業(yè)界最優(yōu)秀的交換架構(gòu)之一,其特點包括:遞歸擴展、高交換帶寬、無阻塞性、基于信元的動態(tài)路由交換、分布式Credit調(diào)度機制、擁塞流量分布式緩存、交換網(wǎng)支持組播等,這些特點決定了CR16000的良好擴展性、高可靠性和高性能優(yōu)勢。

分享到

yangkun

相關(guān)推薦