1 – 靜態(tài)路由與動(dòng)態(tài)路由的 mpiGraph 性能結(jié)果比較,展現(xiàn)出 InfiniBand 動(dòng)態(tài)路由的優(yōu)勢(shì) Summit 超級(jí)計(jì)算機(jī)上的測(cè)量結(jié)果顯示,它有效地消除了點(diǎn)對(duì)點(diǎn)擁塞,實(shí)現(xiàn)了 96% 的網(wǎng)絡(luò)利用率(來源“The Design, Deployment, and Evaluation of the CORAL Pre-Exascale Systems,Sudharshan S. Vazhkudai、Arthur S. Bland、Al Geist , el al

多對(duì)一通信擁塞問題可通過擁塞管理或擁塞控制機(jī)制加以解決。擁塞控制的關(guān)鍵在于,依靠網(wǎng)絡(luò)交換機(jī)發(fā)現(xiàn)多對(duì)一場(chǎng)景并迅速向發(fā)送端發(fā)出網(wǎng)絡(luò)擁塞通知。發(fā)送端接到擁塞通知后,適當(dāng)減少發(fā)向接收端的數(shù)據(jù)量,以確保接收端能成功處理所有數(shù)據(jù)。這樣可以防止網(wǎng)絡(luò)被數(shù)據(jù)淹沒,交換機(jī)緩沖區(qū)保持為空,從而避免了多對(duì)一擁塞場(chǎng)景。顯然,擁塞通知越及時(shí)從交換機(jī)發(fā)出和到達(dá)發(fā)送端,擁塞控制成效越顯著。

早在 2010 年,我有幸與挪威 Simula 實(shí)驗(yàn)室團(tuán)隊(duì)合作展示 InfiniBand 擁塞控制機(jī)制。我們搭建了一個(gè)小型實(shí)驗(yàn)環(huán)境,其中包含七臺(tái)服務(wù)器和兩臺(tái)交換機(jī),通過 DDR 20Gb/s InfiniBand 鏈路將各服務(wù)器連接到交換機(jī)(其中三臺(tái)服務(wù)器連接到一臺(tái)交換機(jī),其余四臺(tái)服務(wù)器連接到另一臺(tái)交換機(jī)),再通過一條 QDR 40Gb/s InfiniBand 鏈路連接兩臺(tái)交換機(jī)。我們構(gòu)造了一個(gè)多對(duì)一網(wǎng)絡(luò)擁塞場(chǎng)景,和犧牲流(Victim Flows)(犧牲流是指其數(shù)據(jù)流不屬于多對(duì)一通信組,但因擁塞導(dǎo)致性能受損)。結(jié)果證明了 InfiniBand 擁塞控制不僅可以消除網(wǎng)絡(luò)擁塞,還能防止產(chǎn)生犧牲流。

2 – 采用 InfiniBand 擁塞控制與不采用 InfiniBand 擁塞控制的網(wǎng)絡(luò)性能證明 InfiniBand 擁塞控制在消除多對(duì)一擁塞和犧牲流方面的成效(來源文章:first experiences with congestion control in InfiniBand hardware ”,2010 年)

毋庸置疑,自 2010 年以來,InfiniBand 硬件擁塞控制機(jī)制又進(jìn)行了多次改進(jìn)和增強(qiáng)。例如,最新 HDR 200Gb/s InfiniBand 交換機(jī)和網(wǎng)卡的 面向更有效和高效擁塞控制的快速發(fā)現(xiàn)和通信機(jī)制。

最近,我們注意到一種名為GPCNeT (Global Performance and Congestion Network Test – 全局性能和擁塞網(wǎng)絡(luò)測(cè)試)的新型網(wǎng)絡(luò)測(cè)試基準(zhǔn)。GPCNeT 基準(zhǔn)測(cè)試是一項(xiàng) MPI 級(jí)測(cè)試,旨在衡量后臺(tái)流量對(duì)于 Random Ring 延遲和帶寬以及小數(shù)據(jù) MPI Allreduce 操作的影響。這引起我們的思考:為什么創(chuàng)建此類基準(zhǔn)測(cè)試突然變得如此重要?為什么沒在十年前做這件事?主要原因在于直到最近那些私有網(wǎng)絡(luò)才剛開始支持擁塞控制,還把它作為一個(gè)技術(shù)創(chuàng)新來進(jìn)行介紹。

簡(jiǎn)單而言,GPCNeT 基準(zhǔn)測(cè)試可測(cè)量三種 MPI 操作,分別在兩種場(chǎng)景下進(jìn)行每種操作測(cè)試:第一種場(chǎng)景,部分集群節(jié)點(diǎn)運(yùn)行任一種MPI操作測(cè)試,其余節(jié)點(diǎn)閑置;第二種場(chǎng)景,相同節(jié)點(diǎn)運(yùn)行同一種 MPI 操作測(cè)試不變,在其余節(jié)點(diǎn)上注入背景網(wǎng)絡(luò)流量,構(gòu)造多對(duì)一通信操作和網(wǎng)絡(luò)擁塞。最后對(duì)每項(xiàng)測(cè)試在兩種場(chǎng)景的結(jié)果進(jìn)行比較,得出 GPCNeT 基準(zhǔn)測(cè)試評(píng)分。

實(shí)際上,GPCNeT 基準(zhǔn)測(cè)試衡量的是有載相對(duì)性能,而不是絕對(duì)網(wǎng)絡(luò)性能。因此,GPCNeT 無法用來比較一種網(wǎng)絡(luò)相對(duì)另外一種網(wǎng)絡(luò)的快慢。舉例來說,如果在一個(gè)網(wǎng)絡(luò)上測(cè)試GPCNeT看到無擁塞時(shí) MPI Allreduce 延遲 是2us(微秒)、有擁塞時(shí)延遲是 3us,而另外一個(gè)網(wǎng)絡(luò)上測(cè)試GPCNeT看到無擁塞時(shí)延遲 是100 us、有擁塞時(shí)延遲 是110us,根據(jù)GPCNeT得分,會(huì)得出錯(cuò)誤的結(jié)論,認(rèn)為第二個(gè)網(wǎng)絡(luò)更好(但是眾所周知,延遲越小,網(wǎng)絡(luò)性能越好)。這就是GPCNeT 基準(zhǔn)打分機(jī)制的問題:它掩蓋了真實(shí)的網(wǎng)絡(luò)延遲性能。

此外,這個(gè)基準(zhǔn)測(cè)試將 8 字節(jié) 的數(shù)據(jù)視為MPI Allreduce的重要測(cè)試數(shù)據(jù),而背景擁塞流量則基于大消息。并不是說 8 字節(jié) MPI Allreduce 性能不重要,而是大消息的聚合和歸約對(duì)應(yīng)用程序性能的影響更大 – 例如深度學(xué)習(xí)場(chǎng)景。深度學(xué)習(xí)已經(jīng)成為很多 HPC 應(yīng)用的重要組成部分,可用于提高 HPC 模擬的精確度。當(dāng)然,應(yīng)用程序中還會(huì)用到 8 字節(jié)數(shù)據(jù)交換,但大消息(從幾百字節(jié)到幾千字節(jié)乃至數(shù)百萬字節(jié)大小)使用程度更高,且對(duì)應(yīng)用程序性能的影響也更顯著。

基于上述種種事實(shí)(還可以列出更多其他理由),我們可以得出結(jié)論:GPCNeT 是一個(gè)非常牽強(qiáng)的基準(zhǔn)測(cè)試,其作用極為有限,無法用它的結(jié)果來比較現(xiàn)實(shí)網(wǎng)絡(luò)性能。

最后,如果我們想看一下 HDR 200Gb/s InfiniBand 在 GPCNeT 基準(zhǔn)測(cè)試中的表現(xiàn)究竟如何,測(cè)試結(jié)果再次印證了 HDR InfiniBand 的世界頂尖性能,幾乎沒有抖動(dòng)!事實(shí)證明,InfiniBand 擁塞控制機(jī)制完美解決了 GPCNeT 基準(zhǔn)測(cè)試營(yíng)造的擁塞問題,GPCNeT 擁塞因子得分幾乎為1 – 而1是GPUNeT擁塞因子理論最好成績(jī)。

3 – 啟用擁塞控制與不啟用擁塞控制的 HDR 200Gb/s InfiniBand GPCNeT 基準(zhǔn)測(cè)試結(jié)果。在啟用擁塞控制的情況下,InfiniBand 呈現(xiàn)出世界領(lǐng)先的性能結(jié)果。

當(dāng)評(píng)估高性能計(jì)算系統(tǒng)或互連產(chǎn)品時(shí),業(yè)界有很多更有效的基準(zhǔn)測(cè)試可選。如果能夠?qū)⒂脩魧?shí)際應(yīng)用作為基準(zhǔn)進(jìn)行測(cè)試,顯然更有利于確定系統(tǒng)或網(wǎng)絡(luò)的性能與功能。GPCNeT 基準(zhǔn)測(cè)試的缺點(diǎn)遠(yuǎn)超過優(yōu)點(diǎn),是否應(yīng)該稱其為GPCNoT 呢?

分享到

崔歡歡

相關(guān)推薦