中字幕视频在线永久在线,最近中文字幕大全在线电影视频

圖 1 – 靜態(tài)路由與動態(tài)路由的 mpiGraph 性能結果比較，展現(xiàn)出 InfiniBand 動態(tài)路由的優(yōu)勢，在 Summit 超級計算機上的測量結果顯示，它有效地消除了點對點擁塞，實現(xiàn)了 96% 的網(wǎng)絡利用率(來源：“The Design, Deployment, and Evaluation of the CORAL Pre-Exascale Systems”，Sudharshan S. Vazhkudai、Arthur S. Bland、Al Geist , el al）

多對一通信擁塞問題可通過擁塞管理或擁塞控制機制加以解決。擁塞控制的關鍵在于，依靠網(wǎng)絡交換機發(fā)現(xiàn)多對一場景并迅速向發(fā)送端發(fā)出網(wǎng)絡擁塞通知。發(fā)送端接到擁塞通知后，適當減少發(fā)向接收端的數(shù)據(jù)量，以確保接收端能成功處理所有數(shù)據(jù)。這樣可以防止網(wǎng)絡被數(shù)據(jù)淹沒，交換機緩沖區(qū)保持為空，從而避免了多對一擁塞場景。顯然，擁塞通知越及時從交換機發(fā)出和到達發(fā)送端，擁塞控制成效越顯著。

早在 2010 年，我有幸與挪威 Simula 實驗室團隊合作展示 InfiniBand 擁塞控制機制。我們搭建了一個小型實驗環(huán)境，其中包含七臺服務器和兩臺交換機，通過 DDR 20Gb/s InfiniBand 鏈路將各服務器連接到交換機（其中三臺服務器連接到一臺交換機，其余四臺服務器連接到另一臺交換機），再通過一條 QDR 40Gb/s InfiniBand 鏈路連接兩臺交換機。我們構造了一個多對一網(wǎng)絡擁塞場景，和犧牲流（Victim Flows）（犧牲流是指其數(shù)據(jù)流不屬于多對一通信組，但因擁塞導致性能受損）。結果證明了 InfiniBand 擁塞控制不僅可以消除網(wǎng)絡擁塞，還能防止產(chǎn)生犧牲流。

圖 2 – 采用 InfiniBand 擁塞控制與不采用 InfiniBand 擁塞控制的網(wǎng)絡性能 – 證明 InfiniBand 擁塞控制在消除多對一擁塞和犧牲流方面的成效（來源文章：“first experiences with congestion control in InfiniBand hardware ”，2010 年）

毋庸置疑，自 2010 年以來，InfiniBand 硬件擁塞控制機制又進行了多次改進和增強。例如，最新 HDR 200Gb/s InfiniBand 交換機和網(wǎng)卡的面向更有效和高效擁塞控制的快速發(fā)現(xiàn)和通信機制。

最近，我們注意到一種名為GPCNeT （Global Performance and Congestion Network Test – 全局性能和擁塞網(wǎng)絡測試）的新型網(wǎng)絡測試基準。GPCNeT 基準測試是一項 MPI 級測試，旨在衡量后臺流量對于 Random Ring 延遲和帶寬以及小數(shù)據(jù) MPI Allreduce 操作的影響。這引起我們的思考：為什么創(chuàng)建此類基準測試突然變得如此重要？為什么沒在十年前做這件事？主要原因在于直到最近那些私有網(wǎng)絡才剛開始支持擁塞控制，還把它作為一個技術創(chuàng)新來進行介紹。

簡單而言，GPCNeT 基準測試可測量三種 MPI 操作，分別在兩種場景下進行每種操作測試：第一種場景，部分集群節(jié)點運行任一種MPI操作測試，其余節(jié)點閑置；第二種場景，相同節(jié)點運行同一種 MPI 操作測試不變，在其余節(jié)點上注入背景網(wǎng)絡流量，構造多對一通信操作和網(wǎng)絡擁塞。最后對每項測試在兩種場景的結果進行比較，得出 GPCNeT 基準測試評分。

實際上，GPCNeT 基準測試衡量的是有載相對性能，而不是絕對網(wǎng)絡性能。因此，GPCNeT 無法用來比較一種網(wǎng)絡相對另外一種網(wǎng)絡的快慢。舉例來說，如果在一個網(wǎng)絡上測試GPCNeT看到無擁塞時 MPI Allreduce 延遲是2us（微秒）、有擁塞時延遲是 3us，而另外一個網(wǎng)絡上測試GPCNeT看到無擁塞時延遲是100 us、有擁塞時延遲是110us，根據(jù)GPCNeT得分，會得出錯誤的結論，認為第二個網(wǎng)絡更好（但是眾所周知，延遲越小，網(wǎng)絡性能越好）。這就是GPCNeT 基準打分機制的問題：它掩蓋了真實的網(wǎng)絡延遲性能。

此外，這個基準測試將 8 字節(jié) 的數(shù)據(jù)視為MPI Allreduce的重要測試數(shù)據(jù)，而背景擁塞流量則基于大消息。并不是說 8 字節(jié) MPI Allreduce 性能不重要，而是大消息的聚合和歸約對應用程序性能的影響更大 – 例如深度學習場景。深度學習已經(jīng)成為很多 HPC 應用的重要組成部分，可用于提高 HPC 模擬的精確度。當然，應用程序中還會用到 8 字節(jié)數(shù)據(jù)交換，但大消息（從幾百字節(jié)到幾千字節(jié)乃至數(shù)百萬字節(jié)大小）使用程度更高，且對應用程序性能的影響也更顯著。

基于上述種種事實（還可以列出更多其他理由），我們可以得出結論：GPCNeT 是一個非常牽強的基準測試，其作用極為有限，無法用它的結果來比較現(xiàn)實網(wǎng)絡性能。

最后，如果我們想看一下 HDR 200Gb/s InfiniBand 在 GPCNeT 基準測試中的表現(xiàn)究竟如何，測試結果再次印證了 HDR InfiniBand 的世界頂尖性能，幾乎沒有抖動！事實證明，InfiniBand 擁塞控制機制完美解決了 GPCNeT 基準測試營造的擁塞問題，GPCNeT 擁塞因子得分幾乎為1 – 而1是GPUNeT擁塞因子理論最好成績。

圖 3 – 啟用擁塞控制與不啟用擁塞控制的 HDR 200Gb/s InfiniBand 的 GPCNeT 基準測試結果。在啟用擁塞控制的情況下，InfiniBand 呈現(xiàn)出世界領先的性能結果。

當評估高性能計算系統(tǒng)或互連產(chǎn)品時，業(yè)界有很多更有效的基準測試可選。如果能夠?qū)⒂脩魧嶋H應用作為基準進行測試，顯然更有利于確定系統(tǒng)或網(wǎng)絡的性能與功能。GPCNeT 基準測試的缺點遠超過優(yōu)點，是否應該稱其為GPCNoT 呢？

分享到

崔歡歡

相關推薦

近期文章

熱門標簽