圖1 交換架構(gòu)演進(jìn)

CLOS交換架構(gòu)是一個(gè)多級(jí)架構(gòu),在每一級(jí),每個(gè)交換單元都和下一級(jí)的所有交換單元相連接。一個(gè)典型的CLOS交換三級(jí)架構(gòu)由(k,n)兩個(gè)參數(shù)定義,參數(shù)k是中間級(jí)交換單元的數(shù)量,n表示的是第一級(jí)(第三級(jí))交換單元的數(shù)量。第一級(jí)和第三級(jí)由n個(gè)k×k的交換單元組成,中間級(jí)由k個(gè)n×n的交換單元組成,整個(gè)構(gòu)成了k×n的交換網(wǎng)絡(luò),即該網(wǎng)絡(luò)有k×n個(gè)輸入和輸出端口。對(duì)于需要更高容量的交換網(wǎng),中間級(jí)也可以是一個(gè)3級(jí)的CLOS網(wǎng)絡(luò)(即CLOS網(wǎng)絡(luò)可以遞歸構(gòu)建),理論上可以無(wú)限可擴(kuò)展。

CLOS采用動(dòng)態(tài)路由為信元選擇交換路徑。對(duì)于第一級(jí),每個(gè)業(yè)務(wù)流(基于信元)可通過(guò)Round-robin方式均勻發(fā)送到k條連到第二級(jí)的路徑上;到達(dá)第二級(jí)的信元將基于信元自路由技術(shù)(Cell-based Self-routing),根據(jù)交換網(wǎng)路由選擇相應(yīng)路徑交換到第三級(jí)目的端口。第三級(jí)收到所有來(lái)自第二級(jí)的信元時(shí),把信元重組成報(bào)文,并保證報(bào)文順序正確。這種基于動(dòng)態(tài)路由的信元交換,是完全無(wú)阻塞交換。

由于CLOS在交換容量的遞歸擴(kuò)展、交換信元的動(dòng)態(tài)選路方面的優(yōu)勢(shì),除了H3C CR16000,其它業(yè)界最高端的路由器均采用這種交換架構(gòu),例如:Juniper T1600/TX-Matrix Plus、Cisco CRS。

二、 CR16000交換架構(gòu)

圖2 CR16000交換架構(gòu)

如圖2所示,CR16000單框采用的是多級(jí)CLOS架構(gòu)中的第一級(jí)交換,由一級(jí)交換網(wǎng)Fabric和交換網(wǎng)適配器FAP組成,后續(xù)可以通過(guò)遞歸擴(kuò)展交換網(wǎng)至三級(jí),支持集群功能;CR16000采用獨(dú)立的網(wǎng)板設(shè)計(jì),和主控板物理分離,保證交換和路由完全物理分離,互不影響,提高系統(tǒng)可靠性。一臺(tái)CR16000有多個(gè)交換網(wǎng)板,每個(gè)交換網(wǎng)板有1~2個(gè)交換網(wǎng)片F(xiàn)abric,通過(guò)多個(gè)交換網(wǎng)片F(xiàn)abric負(fù)荷分擔(dān)支持40G/100G高速端口交換,其主要功能包括:控制信元交換、數(shù)據(jù)信元交換和路由處理;在每個(gè)業(yè)務(wù)板設(shè)計(jì)了交換網(wǎng)適配器FAP(Fabric Adapter Processor),F(xiàn)AP在交換網(wǎng)和業(yè)務(wù)處理芯片(ASIC/NP)之間擔(dān)當(dāng)轉(zhuǎn)換器的角色,其主要功能包括:VoQ和Buffer、報(bào)文和信元之間的切分和組裝、交換調(diào)度等。

1. Fabric和FAP之間的連接關(guān)系

每個(gè)交換網(wǎng)片采用72對(duì)SerDes和FAP互連,每個(gè)FAP采用18對(duì)SerDes和交換網(wǎng)Fabric互連。采用CLOS交換架構(gòu)為高密度10G端口、40G/100G高速端口提供了充足的交換能力。

下面以CR16018為例來(lái)說(shuō)明CR16000系列路由器的交換網(wǎng)連接關(guān)系。

圖3 CR16018交換網(wǎng)連接關(guān)系

1) CR16018支持9塊交換網(wǎng)板,每個(gè)交換網(wǎng)板部署2個(gè)交換網(wǎng)片F(xiàn)abric;

2) 支持18個(gè)業(yè)務(wù)槽位,每個(gè)槽位有4個(gè)交換網(wǎng)適配器FAP,整系統(tǒng)共有72個(gè)交換網(wǎng)適配器FAP;

3) 每個(gè)交換網(wǎng)片F(xiàn)abric和每個(gè)交換網(wǎng)適配器FAP采用一對(duì)SerDes線互連。

4) 如圖3所示,每個(gè)交換網(wǎng)片采用72對(duì)SerDes和FAP互連,每個(gè)FAP采用18對(duì)SerDes和交換網(wǎng)Fabric互連。

每個(gè)業(yè)務(wù)槽位的交換容量:每個(gè)業(yè)務(wù)槽位有4個(gè)FAP,每個(gè)FAP有18對(duì)SerDes和18塊交換網(wǎng)片互連,按照8B/10B編碼,交換容量為4×18×2×6.25×0.8=720G bps。

每個(gè)網(wǎng)片的交換容量:每個(gè)網(wǎng)片有72對(duì)SerDes和業(yè)務(wù)板的FAP互連,SerDes帶寬6.25Gbps,按照8B/10B編碼,72×2×6.25×0.8 = 720G。

每個(gè)網(wǎng)板的交換容量:每個(gè)網(wǎng)板含有2個(gè)網(wǎng)片,交換容量為720×2=1.44T。

CR16018系統(tǒng)交換容量:1.44T×9 = 12.96Tbps。

由此可知,CR16000采用CLOS交換架構(gòu)為高密10G端口、40G/100G高速端口提供了充足的交換能力。

2. 交換網(wǎng)Fabric

由于FAP和Fabric之間的交換路徑是通過(guò)可達(dá)控制信元自動(dòng)學(xué)習(xí)的,并且交換網(wǎng)交換的是定長(zhǎng)信元,我們這種交換體系為“基于信元的動(dòng)態(tài)路由交換”。基于信元的動(dòng)態(tài)路由交換實(shí)現(xiàn)了嚴(yán)格的無(wú)阻塞交換,充分利用所有可達(dá)路徑負(fù)荷分擔(dān)形成一個(gè)大的數(shù)據(jù)流通道,平滑支持高速率網(wǎng)絡(luò)端口。

圖4 交換網(wǎng)Fabric

如圖4所示,CR16000的交換網(wǎng)片F(xiàn)abric是一個(gè)96×96的交換矩陣,包括Control Cells Switch、Data Cells Switch和Routing Processor,分別對(duì)應(yīng)控制信元交換、數(shù)據(jù)信元交換和路由處理三個(gè)主要部分。

CR16000的交換網(wǎng)是基于信元交換的,由源端FAP將分組報(bào)文映射成為40字節(jié)的定長(zhǎng)信元,然后在Fabric交換網(wǎng)上傳送,目的FAP再把這些信元組裝成原來(lái)的分組報(bào)文。采用小的定長(zhǎng)信元交換有其內(nèi)在的優(yōu)點(diǎn),信元小意味著通過(guò)交換網(wǎng)到達(dá)目的節(jié)點(diǎn)時(shí)間間隔特別短,轉(zhuǎn)發(fā)延遲小,相比長(zhǎng)幀的轉(zhuǎn)發(fā)時(shí)延減小30至100倍,能夠構(gòu)成高性能、多節(jié)點(diǎn)組成的交換網(wǎng)絡(luò)。

CR16000交換網(wǎng)的信元可分為控制信元、數(shù)據(jù)信元兩種。

控制信元包括發(fā)送隊(duì)列狀態(tài)信息(Flow-status)信元、發(fā)送報(bào)文出隊(duì)列許可(Credit)信元和可達(dá)控制(Reachability control)信元,這些信元是有FAP和Fabric自身產(chǎn)生的。其中,發(fā)送隊(duì)列狀態(tài)信息(Flow-status)信元和發(fā)送報(bào)文出隊(duì)列許可(Credit)信元是用于交換網(wǎng)單播報(bào)文的調(diào)度控制,在下文會(huì)進(jìn)一步描述??蛇_(dá)控制(Reachability control)信元是在FAP和Fabric之間相互通告連通狀態(tài),形成連通表,信元在FAP和Fabric上按照連通表進(jìn)行交換。

數(shù)據(jù)信元是由FAP把業(yè)務(wù)板上需要交換的報(bào)文切分成40字節(jié)的定長(zhǎng)信元,在FAP和Fabric之間交換。

由于FAP和Fabric之間的交換路徑是通過(guò)可達(dá)控制信元自動(dòng)學(xué)習(xí)的,并且交換網(wǎng)交換的是定長(zhǎng)信元,我們這種交換體系為“基于信元的動(dòng)態(tài)路由交換”。

基于信元的動(dòng)態(tài)路由交換的關(guān)鍵點(diǎn)在于能利用所有可達(dá)路徑進(jìn)行負(fù)荷分擔(dān)。在入方向FAP,信元通過(guò)Round-robin方式均勻發(fā)送到N條連到Fabric的可達(dá)路徑上;到達(dá)Fabric的信元基于信元自路由技術(shù)(Cell-based Self-routing),根據(jù)交換網(wǎng)路由選擇相應(yīng)路徑交換到出方向FAP;出方向FAP收到所有來(lái)自Fabric的信元時(shí),把信元重組成報(bào)文,并保證順序正確。

基于信元的動(dòng)態(tài)路由交換實(shí)現(xiàn)了嚴(yán)格的無(wú)阻塞交換,充分利用所有可達(dá)路徑負(fù)荷分擔(dān)形成一個(gè)大的數(shù)據(jù)流通道,平滑支持高速率網(wǎng)絡(luò)端口,如40GE/100GE。

3. 交換網(wǎng)適配器FAP

從整個(gè)系統(tǒng)來(lái)看,每個(gè)FAP都具備業(yè)務(wù)調(diào)度能力,實(shí)際上是一種全分布式業(yè)務(wù)調(diào)度,我們稱之為“分布式Credit調(diào)度機(jī)制”。分布式Credit調(diào)度機(jī)制的優(yōu)勢(shì)包括:調(diào)度效率高、業(yè)務(wù)調(diào)度精準(zhǔn)、擁塞流量分布式緩存等。

圖5 交換網(wǎng)適配器FAP

如圖5所示,交換網(wǎng)適配器FAP部署在各個(gè)業(yè)務(wù)板上,在交換網(wǎng)和業(yè)務(wù)處理芯片PP之間擔(dān)當(dāng)轉(zhuǎn)換器的角色,其主要部件包括:VoQ和Buffer、Fabric Inerface和調(diào)度器SCH(Scheduler)。

在業(yè)務(wù)流入方向,F(xiàn)AP從業(yè)務(wù)處理芯片PP接收到報(bào)文,根據(jù)目的端口、業(yè)務(wù)屬性以及優(yōu)先級(jí)把業(yè)務(wù)流映射到不同的VoQ隊(duì)列當(dāng)中,實(shí)現(xiàn)業(yè)務(wù)的精細(xì)化區(qū)分。FAP為整系統(tǒng)的每個(gè)出接口都分配了8個(gè)VoQ隊(duì)列,并支持512M buffer用于緩存報(bào)文。同時(shí),入方向FAP定時(shí)向出方向FAP中的調(diào)度器SCH通告VoQ發(fā)送隊(duì)列的屬性及空滿狀態(tài),即發(fā)送隊(duì)列狀態(tài)信息(Flow-status)信元。

在業(yè)務(wù)流出方向,調(diào)度器SCH根據(jù)出端口可用帶寬、擁塞情況、對(duì)應(yīng)VoQ的業(yè)務(wù)屬性、優(yōu)先級(jí)和隊(duì)列空滿狀態(tài)等屬性,對(duì)所有流向該出口的業(yè)務(wù)流發(fā)送不同帶寬許可的Credit。入方向FAP中的每個(gè)VoQ隊(duì)列則根據(jù)從調(diào)度器SCH收到的Credit給交換網(wǎng)發(fā)送相應(yīng)數(shù)量的報(bào)文。

每個(gè)調(diào)度器SCH只負(fù)責(zé)對(duì)流向本出口的業(yè)務(wù)進(jìn)行調(diào)度,從整個(gè)系統(tǒng)來(lái)看,每個(gè)FAP都具備業(yè)務(wù)調(diào)度能力,實(shí)際上是一種全分布式業(yè)務(wù)調(diào)度,我們稱之為“分布式Credit調(diào)度機(jī)制”。

分布式Credit調(diào)度機(jī)制有很多優(yōu)勢(shì),包括:調(diào)度效率高、業(yè)務(wù)調(diào)度精準(zhǔn)、擁塞流量分布式緩存等。

調(diào)度效率高

每個(gè)FAP都有一個(gè)調(diào)度器SCH,并只負(fù)責(zé)對(duì)流向本出口的業(yè)務(wù)進(jìn)行調(diào)度。以CR16018為例,整機(jī)共有72個(gè)FAP,即有72個(gè)調(diào)度器SCH;調(diào)度器SCH之間沒(méi)有主從關(guān)系,是完全分布式的并行工作,即CR16018是一個(gè)由72個(gè)調(diào)度器SCH組成的并行工作體系。

業(yè)務(wù)調(diào)度精準(zhǔn)

Credit調(diào)度機(jī)制實(shí)質(zhì)是一種令牌調(diào)度機(jī)制。調(diào)度器SCH根據(jù)出端口的帶寬、擁塞情況等計(jì)算出可用帶寬,根據(jù)入方向FAP通告的發(fā)送隊(duì)列狀態(tài)信息(Flow-status)并采用整形器(Shaper)算法制定相應(yīng)的帶寬分配策略,最終對(duì)每個(gè)VoQ生成令牌Credit,VoQ在接收到Credit后發(fā)送相應(yīng)數(shù)量的信元。所謂的精準(zhǔn)調(diào)度包括兩個(gè)方面的含義:

其一,傳統(tǒng)的路由器調(diào)度是出接口板緩存和出接口板調(diào)度,而CR16000設(shè)計(jì)的是入接口板緩存和出接口板調(diào)度,如果有報(bào)文被計(jì)算出做丟棄處理,也是在入接口板就被丟棄了,而不會(huì)被調(diào)度到出接口板做處理,交換網(wǎng)帶寬利用精準(zhǔn)。

其二,每個(gè)調(diào)度器SCH對(duì)應(yīng)一個(gè)整形器(Shaper),支持雙漏桶算法(Dual Leaky Bucket),提供對(duì)各業(yè)務(wù)流及業(yè)務(wù)流聚合(Aggregate)的流量整形功能(Shaping)。

圖6 雙漏桶算法

入方向VoQ在出方向調(diào)度器SCH中對(duì)應(yīng)的是Flow,VoQ和Flow是一一對(duì)應(yīng)關(guān)系。調(diào)度器SCH把具有相同屬性的Flow放入相同的隊(duì)列,進(jìn)行FQ/WFQ一級(jí)調(diào)度,再根據(jù)前一級(jí)的調(diào)度結(jié)果進(jìn)行SP調(diào)度,靈活地對(duì)各種調(diào)度器模塊進(jìn)行組合和編排,以支持個(gè)性化的復(fù)雜調(diào)度策略。此外,還支持針對(duì)關(guān)鍵業(yè)務(wù)的帶寬預(yù)留功能,支持WRED/Tail Drop擁塞管理策略。

擁塞流量分布式緩存

傳統(tǒng)路由器的報(bào)文在調(diào)度發(fā)送之前是緩存在出接口板中的,擁塞緩存的能力取決于出接口板的緩存大小。CR16000交換網(wǎng)采用Credit調(diào)度機(jī)制,報(bào)文發(fā)送之前,報(bào)文緩存在入接口板,調(diào)度在出接口板,調(diào)度器SCH根據(jù)出端口可用帶寬和擁塞情況制定相應(yīng)調(diào)度策略,一旦發(fā)生擁塞,調(diào)度器SCH就不會(huì)發(fā)送Credit,報(bào)文繼續(xù)被緩存在入接口板。

圖7 分布式緩存

如圖7所示,在N個(gè)入接口向1個(gè)出接口發(fā)生報(bào)文的情況下,擁塞流量分布緩存在N個(gè)入接口板,報(bào)文緩存能力實(shí)際上是被放大N倍。隨著云業(yè)務(wù)的應(yīng)用發(fā)展,流量突發(fā)越來(lái)越大,越來(lái)越頻繁,如:搜索業(yè)務(wù),分布式緩存無(wú)疑是當(dāng)前解決突發(fā)擁塞的最佳方案之一。

4. 交換網(wǎng)組播

通過(guò)交換網(wǎng)組播技術(shù)避免交換網(wǎng)資源的浪費(fèi),提升組播業(yè)務(wù)性能,達(dá)到線速?gòu)?fù)制能力。

傳統(tǒng)路由器在組播功能上最重大的缺陷之一就是交換網(wǎng)不支持組播,組播報(bào)文在交換網(wǎng)上廣播轉(zhuǎn)發(fā),這種處理方式導(dǎo)致的嚴(yán)重后果是組播流量越大,交換網(wǎng)的廣播流量就越大,帶寬資源浪費(fèi)就越嚴(yán)重。

圖8 交換網(wǎng)組播

如圖8所示,CR16000交換網(wǎng)針對(duì)上述問(wèn)題做了重大的技術(shù)改進(jìn),即在交換網(wǎng)上增加組播表項(xiàng)存儲(chǔ)空間,并同步學(xué)習(xí)由主控板下發(fā)的組播表項(xiàng)。交換網(wǎng)上的組播表項(xiàng)和業(yè)務(wù)板上的組播表項(xiàng)有一定的區(qū)別,業(yè)務(wù)板上的組播表項(xiàng)為:源IP + 組播IP + 出接口列表,交換網(wǎng)板上的組播表項(xiàng)為:源IP + 組播IP + 出FAP列表,即:交換網(wǎng)板上的組播表項(xiàng)的下一跳為FAP而不是出接口。CR16000交換網(wǎng)組播技術(shù)可以避免交換網(wǎng)資源的浪費(fèi),提升組播業(yè)務(wù)性能,達(dá)到線速?gòu)?fù)制能力。

三、 結(jié)束語(yǔ)

H3C CR16000采用的CLOS交換架構(gòu)是業(yè)界最優(yōu)秀的交換架構(gòu)之一,其特點(diǎn)包括:遞歸擴(kuò)展、高交換帶寬、無(wú)阻塞性、基于信元的動(dòng)態(tài)路由交換、分布式Credit調(diào)度機(jī)制、擁塞流量分布式緩存、交換網(wǎng)支持組播等,這些特點(diǎn)決定了CR16000的良好擴(kuò)展性、高可靠性和高性能優(yōu)勢(shì)。

分享到

youjia

相關(guān)推薦