隨著全球AI話題持續(xù)升溫,旺盛的市場需求進(jìn)一步加速算力生態(tài)不斷豐富,構(gòu)建多元異構(gòu)算力體系將是必由之路。算力效能的提升除了依靠更強(qiáng)大的處理器來增加單個設(shè)備或節(jié)點的計算能力外,更需要進(jìn)行橫向技術(shù)整合,使算力和聯(lián)接高效協(xié)同,開放的智算網(wǎng)絡(luò)將是打通異構(gòu)算力、拉通生態(tài)的重要介質(zhì)。智算網(wǎng)絡(luò)的建設(shè)不僅是硬件設(shè)備的堆砌,面對百花齊放的算力生態(tài),如何讓網(wǎng)絡(luò)具備開放標(biāo)準(zhǔn)與長期演進(jìn)的能力,實現(xiàn)網(wǎng)絡(luò)與異構(gòu)算力的協(xié)同調(diào)度,解決大規(guī)模智算網(wǎng)絡(luò)的快速部署、故障定位和精細(xì)化運維管理,是產(chǎn)業(yè)界普遍思考的問題。

為了最大化發(fā)揮算力資源潛能,新華三提出“算力×聯(lián)接”的理念,倡導(dǎo)通過開放標(biāo)準(zhǔn)的聯(lián)接技術(shù)與多元算力體系做最佳調(diào)配,攜手產(chǎn)業(yè)鏈伙伴共同構(gòu)建創(chuàng)新、包容的生態(tài)圈,并圍繞全場景組網(wǎng)能力、網(wǎng)絡(luò)性能持續(xù)提升、異構(gòu)算網(wǎng)協(xié)同與運維管理三大方向不斷探索。本次獲獎的算力集群核心交換機(jī)(H3C S12500 AI)正是新華三在大規(guī)模智算組網(wǎng)架構(gòu)方面的創(chuàng)新成果。

H3C S12500 AI是一款能夠真正解決網(wǎng)絡(luò)零擁塞的分布式架構(gòu)產(chǎn)品,將傳統(tǒng)框式設(shè)備的控制引擎、交換網(wǎng)板、業(yè)務(wù)板卡分別獨立為盒式設(shè)備,通過高速光模塊互聯(lián)。DDC架構(gòu)設(shè)計擁有三大創(chuàng)新優(yōu)勢:

●保留信元交換的底層機(jī)制,實現(xiàn)100%無阻塞能力,并且擺脫了框式設(shè)備的端口限制,最大可以支持32K GPU集群組網(wǎng),同時規(guī)避了單框功耗過大的部署風(fēng)險;

●擁有獨立的高性能控制平面,可以實現(xiàn)網(wǎng)元失效后us級別的收斂,以及網(wǎng)元上線的快速即插即用,可靠性和靈活度領(lǐng)先業(yè)界;

●基于信元交換,任何協(xié)議的流量在進(jìn)入DDC架構(gòu)時都可被切成等分大小的信元,在內(nèi)部多條鏈路上負(fù)載,完全解決了Hash極化問題,實現(xiàn)100%的負(fù)載分擔(dān)。在流量發(fā)出時,信元又將會被重組為原始數(shù)據(jù)。信元交換無視數(shù)據(jù)協(xié)議,不會產(chǎn)生亂序,對GPU和網(wǎng)卡天然解耦。

除了創(chuàng)新的DDC產(chǎn)品外,新華三還擁有200G/400G/800G全系列高性能交換機(jī)產(chǎn)品,并在51.2T的交換平臺上充分融合了CPO/LPO技術(shù),以豐富的產(chǎn)業(yè)布局支持用戶靈活組網(wǎng)的需求。同時,新華三還推出了《智算網(wǎng)絡(luò)異構(gòu)連通專項測試》標(biāo)準(zhǔn),為推動國內(nèi)智算生態(tài)相互協(xié)作提供了強(qiáng)力支撐。

智算網(wǎng)絡(luò)性能同樣也是決定算力效能的關(guān)鍵。無損以太網(wǎng)(RoCE)在成本、未來演進(jìn)和生態(tài)豐富度上具備天然優(yōu)勢,當(dāng)RoCE發(fā)展到智算網(wǎng)絡(luò)時代,面對不同智算場景,以網(wǎng)絡(luò)調(diào)優(yōu)的方式解決Hash極化問題,降低網(wǎng)絡(luò)擁堵風(fēng)險,成為智算網(wǎng)絡(luò)構(gòu)建無損能力的關(guān)鍵。新華三針對異構(gòu)算力場景提供FGLB路徑調(diào)優(yōu)算法,能夠基于全局視角決策流量的轉(zhuǎn)發(fā)路徑,實現(xiàn)全網(wǎng)所有鏈路始終工作在均衡的負(fù)載水平之下,根據(jù)現(xiàn)網(wǎng)狀態(tài)迅速調(diào)整路徑的分配,避免擁塞發(fā)生。

除了設(shè)備自身的負(fù)載技術(shù),新華三也將關(guān)注點放在了網(wǎng)絡(luò)與算力間的融合調(diào)優(yōu),推出算力路徑導(dǎo)航解決方案?;谝惶譛CCL(統(tǒng)一集合通信庫)與不同的CCL對接,理解算力分配的動作和流量需求,將其轉(zhuǎn)化成最優(yōu)的網(wǎng)絡(luò)配置下發(fā)到設(shè)備上,并根據(jù)網(wǎng)絡(luò)當(dāng)前的負(fù)載狀況調(diào)整其算力流量的樣本特征,以更好的使用網(wǎng)絡(luò)資源。通過這種雙向協(xié)同,幫助用戶使用一套網(wǎng)絡(luò)為多元異構(gòu)算力提供統(tǒng)一的流量調(diào)度。

對于智算網(wǎng)絡(luò)而言,如何降低網(wǎng)絡(luò)故障對業(yè)務(wù)訓(xùn)練的影響、降低部署和運維復(fù)雜度是業(yè)界普遍關(guān)注的難點。新華三也在不斷優(yōu)化鏈路冗余技術(shù),推出專用于智算網(wǎng)絡(luò)的可靠性技術(shù)—DPSH數(shù)據(jù)平面自愈功能,實現(xiàn)us級的鏈路切換,極大減少了故障對業(yè)務(wù)的影響。在運維方面,新華三始終堅持標(biāo)準(zhǔn)化路線,采用網(wǎng)絡(luò)標(biāo)準(zhǔn)協(xié)議,實現(xiàn)基于一套控制器對接上層云平臺與下層納管的網(wǎng)絡(luò)設(shè)備。同時還為智算網(wǎng)絡(luò)研發(fā)了多種自動化運維功能,幫助用戶實現(xiàn)算力快速上線、平滑變更,以及算力流量的精細(xì)可視化。

面向未來,在算力爆發(fā)的時代,新華三集團(tuán)將始終秉承開放共贏的理念,持續(xù)探索智算網(wǎng)絡(luò)技術(shù)創(chuàng)新和應(yīng)用,攜手合作伙伴共同推動中國智算生態(tài)的健康發(fā)展。

分享到

xiesc

相關(guān)推薦