圖1–吞吐率(MB/秒)與數(shù)據(jù)包大小(數(shù)據(jù)塊大小)的Netpipe樣圖
此樣圖取自使用3個不同MPI庫的GigE網(wǎng)絡(luò)。從此圖中,您可以測量帶寬(圖中最高值的一半)和N/2(首次實現(xiàn)最高帶寬時的數(shù)據(jù)包大?。▎挝唬鹤止?jié)))。
第二個截圖如下:
圖2–吞吐率與時間的Netpipe樣圖
從上圖中,您可以確定延遲時間,即處理2字節(jié)大小的數(shù)據(jù)包(或極小數(shù)據(jù)包)的時間。
通常,對于示范配置而言,測量互連的最有效方式是計算延遲、最高帶寬和N/2。這意味著在兩個節(jié)點之間配置一臺運行MPI的交換機(jī)。之所以稱其為最有效是因為其中包含HPCC系統(tǒng)的組成元素–操作系統(tǒng)節(jié)點、網(wǎng)卡(NIC)、線纜、交換機(jī)和軟件(MPI)。
幾名研究人員聚在一起,測試了帶有TCP卸載引擎(TOE)的Chelsio 10GigE NIC(T11)。他們(不使用交換機(jī))對網(wǎng)卡進(jìn)行了背靠背測試,同時還使用12端口富士通交換機(jī)對網(wǎng)卡進(jìn)行了測試。他們的測試涉及各個方面,但與HPC最相關(guān)的卻可能是MPI評估。他們在測試中使用了LAM和1500字節(jié)的MTU。他們實現(xiàn)了以下性能:
– 延遲=10.2微秒(內(nèi)置插槽為8.2微秒)
– 帶寬= 6.9 Gbps(862.5 MB/秒)
– N/2=100,000+字節(jié)(數(shù)據(jù)來自本文中的圖7)
不幸的是,本次研究結(jié)果是我能找到的關(guān)于純粹TCP 10GigE解決方案的唯一公布的完整結(jié)果。這些結(jié)果有些過時(2005年),但目前沒有比這個更完整的結(jié)果了。不過,互聯(lián)網(wǎng)上仍然還有與此相關(guān)的其它零散的性能數(shù)據(jù)。例如,Mellanox擁有一個可以在本地運行TCP的ConnectX HCA版本。您可以在此站點上找到一些性能信息,尤其是下列信息:
– MTU=1500時帶寬=9.5 Gbps(1187.5 MB/秒)
– MTU=9000時帶寬=9.9 Gbps(1237.5 MB/秒)
延遲和N/2結(jié)果均沒有列出。此外,上述測試使用了TCP而不是MPI完成。
10GigE–觀察結(jié)果
我認(rèn)為比較10GigE與IB的性能是值得的。與這一站點一樣,Mellanox也擁有一些性能數(shù)據(jù),從這些數(shù)據(jù)中我們會發(fā)現(xiàn)DDR IB具有以下性能:
– 延遲=低于1微秒
– 帶寬=3000 MB/秒(使用PCI-e Gen 1的InfiniBand DDR)、3800 MB/秒(使用PCI-e Gen2的InfiniBand DDR)和6600MB/秒(使用PCIe Gen2的InfiniBand QDR)。這些都是雙向BW數(shù)據(jù)。
– N/2=480字節(jié)
如果我們將上述結(jié)果與10GigE進(jìn)行比較,會發(fā)現(xiàn)此時DDR和QDR IB比10GigE的性能更出色。最近我們也看到QDR(四倍數(shù)據(jù)速率)IB的出現(xiàn)會提高帶寬,但不太可能會對初次部署的延遲或N/2造成重要影響。然而,這些都是微基準(zhǔn)測試,雖然能夠預(yù)測性能,但卻不能取代針對應(yīng)用的正式測試。
我同意不討論變化不定的價格,但在通常情況下,對于適當(dāng)大小的集群(超過32個節(jié)點),10GigE的每端口成本目前遠(yuǎn)高于IB。
10GigE會融入HPC嗎?
本部分的標(biāo)題有些挑釁意味,因為我認(rèn)為答案是肯定的。但至于"何時"以及"在多大程度上"融入HPC則仍然是個問題。目前,在普通的微基準(zhǔn)測試中,10GigE并不具備與IB相同的性能水平。此外,其性能也不可能大幅度提高,它仍然存在大約8-10微秒的延遲,帶寬大約為1,100-1,200 MB/秒。不過,10GigE確實存在改進(jìn)N/2的空間,而且極有可能實現(xiàn)(這一點我只是希望有人能夠公布一些更新的數(shù)據(jù))。
此外,使用TCP還會帶來一些問題,如不能擁有無損失的網(wǎng)絡(luò)或在引入生成樹時帶來更多延遲等。DCE在這些方面倒是可以提供一臂之力,但在它成為一項標(biāo)準(zhǔn)之前,它都不會對HPC產(chǎn)生多大效用。
那么,我有什么建議呢?理想的情況是,您應(yīng)該在各種網(wǎng)絡(luò)上測量應(yīng)用,以衡量性能,尤其是觀察隨著HPC系統(tǒng)越來越大而不是越來越小時應(yīng)用的擴(kuò)展情況(即人們每年會在更多內(nèi)核上運行計算機(jī))。但此時面向10GigE的微基準(zhǔn)測試結(jié)果并不是最佳水平,也不會達(dá)到Infiniband的性能水平。目前,10GigE的高昂成本阻礙了其在HPC環(huán)境中的廣泛應(yīng)用。
我等待了至少4年希望看到10Gige的價格下降。我仍然在等待,但不幸的是年紀(jì)越來越大。與此同時,InfiniBand已經(jīng)變成了HPC中的主要網(wǎng)絡(luò)。其性能得到了大幅提升,價格也已經(jīng)下降至大約一個節(jié)點250美元,適用于更小型的系統(tǒng)。在我看來,10GigE如果想成為通用HPC網(wǎng)絡(luò),還有很長的路要走。