圖1 數(shù)據(jù)中心網(wǎng)絡(luò)流量模型的演進(jìn)

為什么會(huì)有這么大的轉(zhuǎn)變?

對(duì)于早期的數(shù)據(jù)中心,其業(yè)務(wù)主要是數(shù)據(jù)中心外部對(duì)數(shù)據(jù)中心的訪問(wèn),因此流量以南北向?yàn)橹?。基于業(yè)務(wù)特征,以及出口帶寬的限制,網(wǎng)絡(luò)的設(shè)計(jì)一般是按照一定的比例,逐級(jí)收斂的,即:數(shù)據(jù)中心網(wǎng)絡(luò)接入側(cè)的帶寬,是網(wǎng)絡(luò)匯聚區(qū)/核心區(qū)帶寬的數(shù)倍。常見(jiàn)的帶寬收斂比為:1:3~1:20。

而隨著云計(jì)算的到來(lái),越來(lái)越豐富的業(yè)務(wù)對(duì)數(shù)據(jù)中心的流量模型產(chǎn)生了巨大的沖擊。如搜索、并行計(jì)算等大數(shù)據(jù)業(yè)務(wù),需要大量的服務(wù)器組成集群、協(xié)同完成工作,這導(dǎo)致服務(wù)器之間的流量變得非常大。

另外,云計(jì)算時(shí)代復(fù)雜多變的需求,也帶來(lái)了流量的不確定性,我們無(wú)法再準(zhǔn)確預(yù)測(cè)服務(wù)器的流量,無(wú)法再通過(guò)設(shè)計(jì)來(lái)規(guī)劃網(wǎng)絡(luò)的帶寬。同時(shí),虛擬化所帶來(lái)的虛擬機(jī)動(dòng)態(tài)遷移能力,又進(jìn)一步導(dǎo)致網(wǎng)絡(luò)流量模型愈趨復(fù)雜、東西向流量愈趨增大。

隨著數(shù)據(jù)中心流量模型的改變,傳統(tǒng)的收斂網(wǎng)絡(luò)將不再滿足數(shù)據(jù)中心的業(yè)務(wù)需求。我們需要在數(shù)據(jù)中心內(nèi)部署無(wú)阻塞的網(wǎng)絡(luò),即:數(shù)據(jù)中心內(nèi)部,任意服務(wù)器之間可以線速交互流量。

2 胖樹(shù)架構(gòu),讓數(shù)據(jù)中心網(wǎng)絡(luò)不再擁塞

當(dāng)前,業(yè)界普遍認(rèn)可的實(shí)現(xiàn)無(wú)阻塞網(wǎng)絡(luò)的技術(shù)是:胖樹(shù)架構(gòu)(Fat-Tree,由Charles E. Leiserson于上個(gè)世紀(jì)八十年代提出)。其基本理念是:使用大量低性能的交換機(jī),構(gòu)建出大規(guī)模的無(wú)阻塞網(wǎng)絡(luò)。

2.1 胖樹(shù)架構(gòu)下,網(wǎng)絡(luò)帶寬不收斂

傳統(tǒng)的樹(shù)形網(wǎng)絡(luò)拓?fù)渲校瑤捠侵饘邮諗康?,?shù)根處的網(wǎng)絡(luò)帶寬要遠(yuǎn)小于各個(gè)葉子處所有帶寬的總和。

而胖樹(shù)網(wǎng)絡(luò)則更像是真實(shí)的樹(shù),越到樹(shù)根,枝干越粗,即:從葉子到樹(shù)根,網(wǎng)絡(luò)帶寬不收斂。這是胖樹(shù)架構(gòu)能夠支撐無(wú)阻塞網(wǎng)絡(luò)的基礎(chǔ)。

云計(jì)算時(shí)代,無(wú)阻塞交換

圖2 胖樹(shù)網(wǎng)絡(luò)和傳統(tǒng)網(wǎng)絡(luò)的邏輯拓?fù)浔容^

如上圖所示,為了實(shí)現(xiàn)網(wǎng)絡(luò)帶寬的無(wú)收斂,胖樹(shù)網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)(根節(jié)點(diǎn)除外)都需要保證上行帶寬和下行帶寬相等,并且每個(gè)節(jié)點(diǎn)都要提供對(duì)接入帶寬的線速轉(zhuǎn)發(fā)的能力。

下圖是一個(gè)2元4層胖樹(shù)的物理結(jié)構(gòu)示例(2元:每個(gè)葉子交換機(jī)接入2臺(tái)終端;4層:網(wǎng)絡(luò)中的交換機(jī)分為4層)。其使用的所有物理交換機(jī)都是完全相同的。

云計(jì)算時(shí)代,無(wú)阻塞交換

圖3 胖樹(shù)架構(gòu)的物理拓?fù)鋵?shí)例

從圖中可以看到,每個(gè)葉子節(jié)點(diǎn)就是一臺(tái)物理交換機(jī),接入2臺(tái)終端;上面一層的內(nèi)部節(jié)點(diǎn),則是每個(gè)邏輯節(jié)點(diǎn)由2臺(tái)物理交換機(jī)組成;再往上面一層則每個(gè)邏輯節(jié)點(diǎn)由4臺(tái)物理交換機(jī)組成;根節(jié)點(diǎn)一共有8臺(tái)物理交換機(jī)。

這樣,任意一個(gè)邏輯節(jié)點(diǎn),下行帶寬和上行帶寬是完全一致的。這保證了整個(gè)網(wǎng)絡(luò)帶寬是無(wú)收斂的。

同時(shí)我們還可以看到,對(duì)于根節(jié)點(diǎn),有一半的帶寬并沒(méi)有被用于下行接入。這是胖樹(shù)架構(gòu)為了支持彈性擴(kuò)展,而為根節(jié)點(diǎn)預(yù)留的上行帶寬。通過(guò)把胖樹(shù)向根部繼續(xù)延伸,即可實(shí)現(xiàn)網(wǎng)絡(luò)規(guī)模的彈性擴(kuò)展。

2.2 適應(yīng)數(shù)據(jù)中心應(yīng)用,胖樹(shù)需要量體裁衣

在胖樹(shù)架構(gòu)中,為了實(shí)現(xiàn)彈性的擴(kuò)展,樹(shù)根節(jié)點(diǎn)預(yù)留了和下行接入能力相同的上行帶寬。而在數(shù)據(jù)中心實(shí)際的建設(shè)中,整個(gè)網(wǎng)絡(luò)的規(guī)模是可以提前預(yù)知和規(guī)劃好的(比如:受機(jī)房空間的限制,不可能無(wú)限擴(kuò)容),因此樹(shù)根處一般不需要預(yù)留如此大規(guī)模的上行帶寬。

云計(jì)算時(shí)代,無(wú)阻塞交換

圖4 減少胖樹(shù)網(wǎng)絡(luò)的層數(shù)

如上圖所示,如果樹(shù)根只負(fù)責(zé)網(wǎng)絡(luò)內(nèi)的無(wú)阻塞交換,則我們可以把樹(shù)根原本用于上行的帶寬也接入到下行的胖樹(shù)中。這樣,我們可以減少一個(gè)胖樹(shù)網(wǎng)絡(luò)層次和大量的物理交換機(jī),即可獲得相同的無(wú)阻塞的交換能力。

胖樹(shù)架構(gòu)的理論模型中,整個(gè)網(wǎng)絡(luò)都采用相同性能的物理交換機(jī)。而實(shí)際的數(shù)據(jù)中心網(wǎng)絡(luò)中,接入交換機(jī)由于只負(fù)責(zé)少量的服務(wù)器的接入,在轉(zhuǎn)發(fā)能力要求上,要比匯聚交換機(jī)和核心交換機(jī)低很多。因此,我們通常在TOR的位置使用盒式交換機(jī),而在匯聚區(qū)、核心區(qū)使用高性能框式交換機(jī),在滿足網(wǎng)絡(luò)需求的同時(shí),還可以達(dá)到增強(qiáng)網(wǎng)絡(luò)性能、簡(jiǎn)化網(wǎng)絡(luò)部署的目的。

云計(jì)算時(shí)代,無(wú)阻塞交換

圖5 樹(shù)根使用高性能交換機(jī)

如上圖所示的胖樹(shù)組網(wǎng),我們也可以通過(guò)在樹(shù)根處使用高性能的框式交換機(jī),減少網(wǎng)絡(luò)中的交換機(jī)數(shù)量,進(jìn)而降低部署和維護(hù)復(fù)雜度、簡(jiǎn)化布線。

從胖樹(shù)架構(gòu)的拓?fù)渲锌梢钥吹?,胖?shù)網(wǎng)絡(luò)中是存在環(huán)路的。為了實(shí)現(xiàn)無(wú)阻塞的交換,我們不能使用STP這種“阻斷鏈路”的方式破環(huán),而是要充分利用所有的鏈路資源。當(dāng)前比較成熟的技術(shù),除了傳統(tǒng)的路由協(xié)議(運(yùn)行在三層IP網(wǎng)絡(luò)中)之外,還有TRILL協(xié)議(運(yùn)行在二層ETH網(wǎng)絡(luò)中)。

3 華為精品交換機(jī),打造極致無(wú)阻塞網(wǎng)絡(luò)

華為新一代數(shù)據(jù)中心交換機(jī)產(chǎn)品:CE12800、CE6800、CE5800,全面支持TRILL標(biāo)準(zhǔn)協(xié)議和傳統(tǒng)的路由協(xié)議,產(chǎn)品涵蓋框式、盒式,接入能力覆蓋GE、10GE、40GE、100GE,充分滿足數(shù)據(jù)中心的無(wú)阻塞的需求。

云計(jì)算時(shí)代,無(wú)阻塞交換

圖6 華為新一代數(shù)據(jù)中心交換機(jī)

1、CE12800框式交換機(jī),單槽位支持24*40GE、96*10GE全線速的線卡,充分滿足胖樹(shù)架構(gòu)的高轉(zhuǎn)發(fā)性能的需求。

2、CE6800、CE5800上行支持單端口40GE,有效減少胖樹(shù)網(wǎng)絡(luò)的布線復(fù)雜度;下行支持GE/10GE的接入能力,充分滿足各種接入需求

3、全系列CE交換機(jī)支持TRILL標(biāo)準(zhǔn)協(xié)議,CE12800的ECMP能力更高達(dá)32路,使組建的二層ETH胖樹(shù)網(wǎng)絡(luò)能夠提供高達(dá)720T的雙向轉(zhuǎn)發(fā)性能,提供了更高的彈性擴(kuò)展能力。

云計(jì)算時(shí)代,無(wú)阻塞交換

圖7 CE12800構(gòu)建大容量無(wú)阻塞胖樹(shù)網(wǎng)絡(luò)

上圖是使用CE12812交換機(jī)構(gòu)建的大容量無(wú)阻塞胖樹(shù)網(wǎng)絡(luò)。配合TRILL協(xié)議,可實(shí)現(xiàn)超大規(guī)模的二層ETH網(wǎng)絡(luò)的部署:

1、對(duì)外提供4608個(gè)40GE線速接口,或者18432個(gè)10GE線速接口。

2、網(wǎng)絡(luò)內(nèi)部使用40GE互聯(lián),節(jié)省布線、簡(jiǎn)化物理拓?fù)洹?/p>

為了減少網(wǎng)絡(luò)延遲,數(shù)據(jù)中心的網(wǎng)絡(luò)部署正趨于扁平化,即直接使用Core交換機(jī)和TOR交換機(jī)組成扁平的數(shù)據(jù)中心網(wǎng)絡(luò)。此時(shí)我們可以在Core和TOR之間部署胖樹(shù),組成無(wú)阻塞的二層ETH網(wǎng)絡(luò)。

云計(jì)算時(shí)代,無(wú)阻塞交換

圖8 CE系列交換機(jī)構(gòu)建扁平化胖樹(shù)網(wǎng)絡(luò)

上圖是扁平化胖樹(shù)的一個(gè)實(shí)例,我們使用CE12800和CE6800(或CE12800和CE5800)來(lái)構(gòu)建高性能無(wú)阻塞胖樹(shù)網(wǎng)絡(luò)。配合TRILL協(xié)議,向外提供了高密度的10GE/GE服務(wù)器接入能力。

除此之外,配合CE12800上面TRILL高達(dá)32路的ECMP能力,以及TOR交換機(jī)的堆疊能力,我們還能夠使用CE系列交換機(jī)組建出更大規(guī)模的扁平化胖樹(shù)網(wǎng)絡(luò),充分滿足大型、超大型數(shù)據(jù)中心網(wǎng)絡(luò)的部署需求。

結(jié)束語(yǔ)

云計(jì)算為數(shù)據(jù)中心網(wǎng)絡(luò)帶來(lái)了新的挑戰(zhàn),無(wú)阻塞已然成為數(shù)據(jù)中心網(wǎng)絡(luò)的必然選擇。華為公司新一代數(shù)據(jù)中心交換機(jī),以其豐富的業(yè)務(wù)功能、超強(qiáng)的轉(zhuǎn)發(fā)性能,充分滿足了云計(jì)算數(shù)據(jù)中心的無(wú)阻塞網(wǎng)絡(luò)的部署需求。

分享到

zhangwenxi

相關(guān)推薦