近日,Mellanox市場副總裁Gilad Shainer向媒體首次公布了其產(chǎn)品路線圖,不僅僅將于2017年推出200Gb/s的產(chǎn)品,還透露計劃于2019年推出400Gb/s的下一代新品。Gilad Shainer業(yè)沒有忘記吐槽老對手Intel Omni-Path,當然,這些吐槽建立在各種數(shù)據(jù)之上。

高性能計算的演變:Co-Design的產(chǎn)生

所謂Co-Design,在此處就是網(wǎng)絡、存儲、軟件等系統(tǒng)及設備的協(xié)同設計,其目標,是通過一種Mellanox稱之為Sharp的技術,卸載CPU的部分操作,實現(xiàn)數(shù)據(jù)傳輸過程中的計算,從而加速計算進程。

要講清楚Sharp,就有必要從高性能計算開始。

20年來,高性能計算的發(fā)展已經(jīng)經(jīng)過了多次迭代。從最開始的SMP小型機,到集群式系統(tǒng),以及CPU從單核到多核的轉(zhuǎn)變,大幅提升了高性能計算的性能。

雖然多核可以滿足同時計算,但是它并沒有辦法把一個應用程序運行的時間縮短。因為CPU的主頻是固定的,這種方式發(fā)展應用程序并不能一直地向上擴展。

高性能計算的演變

也就是說,之前的計算環(huán)境都是以CPU為核心的,但是CPU為核心的計算環(huán)境很容易達到性能的瓶頸。因為現(xiàn)在有越來越多的數(shù)據(jù),而且數(shù)據(jù)的處理要求更快、更實時。但是傳統(tǒng)的方式是CPU需要等待數(shù)據(jù)過來才能處理,這就是計算的瓶頸所在。

所以Co-Design的理念應運而生,就是硬件、軟件與系統(tǒng)來合作開發(fā)面對未來的高性能計算需求,解決性能的瓶頸問題。在Co-Design環(huán)境下,CPU只是計算單元之一,存儲、網(wǎng)絡,在整個計算里面起到的角色越來越重要。

Co-Design原理

基于Co-Design,可以實現(xiàn)數(shù)據(jù)在網(wǎng)絡中的計算,也就是數(shù)據(jù)在移動過程中就已經(jīng)計算完畢了,所以CPU要做的事情已經(jīng)大幅地下降,這就可以整體地縮減完成一個數(shù)據(jù)分析或者是計算的時間。

Gilad Shainer說:“通過在網(wǎng)絡當中完成計算,每一個交換機都是協(xié)處理器,都能做計算。當數(shù)據(jù)在傳輸?shù)倪^程中,我們已經(jīng)完成了很多需要計算的工作。這是加速效率的一個最有效的途徑。

從網(wǎng)絡延遲的發(fā)展看Co-Design的必要性

Gilad Shainer還用實際計算中網(wǎng)絡延遲的發(fā)展來說明Co-Design的必要性。

10年前,一個網(wǎng)絡中硬件的延遲可能是10微秒,用在通訊中,加上軟件之后,總的通訊延遲是100微秒,也就是說,加載了軟件后,網(wǎng)絡的負荷加重了。

今天,經(jīng)過CPU不斷地提速,網(wǎng)絡的延遲已經(jīng)從100微秒下降到10微秒。其中,硬件從10微秒下降到0.1微秒。

但是,硬件還能否像以前一樣從10微秒下降成0.1微秒?“這是100倍的提升,是不可能的,因為硬件已經(jīng)達到了一個極限。”Gilad Shainer說。

今天,全世界最快的硬件是90納秒,也就是小于100個納秒,將來Mellanox可能會做到50納秒、80納秒、70納秒,但是70、80對90來說只是提高了10到20納秒,很客觀地來講,這對應用程序是可以忽略不計的。

打破應用延遲壁壘

硬件通訊延遲的提升,應用程序卻看不到效果。但是應用在軟件層帶來的通訊負荷相反卻很大,它還有10微秒,如果下降成1微秒,還有10倍的差距,而且它跟納秒級還有很大的一個量級的差距。

所以,除了再進一步地提升硬件的性能之外,在軟件,在整個通訊層上要去考慮如何做協(xié)同的設計,讓整個通訊層的時間能夠大幅下降,不能僅僅關注于在網(wǎng)絡的本身。

“我們必須要打開自己的思路,讓整個通訊的架構有一個轉(zhuǎn)變。這就是Co-design,在數(shù)據(jù)移動當中完成該完成的計算工作,來降低整個通訊的時間?!盙ilad Shainer認為,“現(xiàn)在的情況是Mellanox正在朝這個方向走,很快就會達到這個程度?!?/p>

集成Sharp技術的Switch-IB 2交換機

賣了半天關子,Gilad Shainer表示,這種網(wǎng)絡完成計算的工作,Mellanox暫且稱之為“Sharp”,Sharp已經(jīng)在2015年6月發(fā)布的全球首款智能交換機Switch-IB 2中得到應用。

Switch-IB 2具有全世界最快的延遲的速度,只有90納秒,支持動態(tài)路由等等。除此之外,智能交換機的意義是將原來在高性能計算里用得最多的靠CPU來完成的MPI的操作,轉(zhuǎn)移交換機里完成。從而大幅地提升MPI應用程序的性能。

“這是Co-design非常重要的一步,也是第一步,把集群的通訊移到交換機里去完成。這項技術我們起名叫Sharp?!?/p>

Sharp不僅僅能用于高性能計算,還可以應用于深度學習、大數(shù)據(jù)分析,所有涉及到密集數(shù)據(jù)傳輸?shù)膽枚伎梢越栌玫絊harp技術,當數(shù)據(jù)匯集在交換機的時候,交換機就會完成一些計算。

約一年后的5月17日,Mellanox與京東簽署全面合作框架協(xié)議,雙方共同建立“JD-Mellanox聯(lián)合創(chuàng)新實驗室”,將在技術創(chuàng)新、用戶體驗和企業(yè)級產(chǎn)品電商平臺三個方面展開合作,共同布局人工智能領域,開展底層技術合作,并針對高速互連產(chǎn)品展開聯(lián)合研發(fā)。

Gilad Shainer認為,通過聯(lián)合實驗室,能為更多的應用帶來Sharp的體驗與應用機會。而Mellanox亞太區(qū)市場開發(fā)總監(jiān)劉通則透露,這也將是Switch-IB 2在國內(nèi)進行推廣的一種主要方法。

產(chǎn)品路線:從100G到200G到400G

當然,集成Sharp的,不僅僅只有Switch-IB 2,還有Mellanox的另外三款100G產(chǎn)品。

一是ConnectX-4網(wǎng)卡,可以實現(xiàn)100G每秒,同時它的延遲是全世界最低的,0.7微秒,消息傳輸1.5億每秒。這款網(wǎng)卡支持速度也是最多的,從萬兆一直到100G,25、40、50全部都支持。

二是以太網(wǎng)設備Spectrum系列交換機,是以太網(wǎng)交換機領域里邊最快的一款設備,從萬兆一直到100G以太網(wǎng)。

第三是LinkX,是Mellanox的網(wǎng)線家族,其中包括了很多光模塊、銅線、光纜,里面有硅光技術。這些是成就高性能網(wǎng)絡的一個重要組成部分。

100G產(chǎn)品線

Gilad Shainer終于談到了其未來產(chǎn)品,他鄭重地說:“這是首次公布產(chǎn)品計劃。”

Mellanox端到端的200G的產(chǎn)品將會在2017年上半年問世,包括完整的網(wǎng)卡、交換機、網(wǎng)線。這些產(chǎn)品不僅僅是提供200G,還會有更大的交換容量,也就意味著更多的端口數(shù);還會支持更多的通訊卸載。

再兩年之后,2019年,Mellanox會有下一代的產(chǎn)品,帶寬會翻倍也就是400G。“今天的Sharp只是卸載了一些集群式的通訊,將來的交換機會有更多的卸載功能,做更多的CPU現(xiàn)在完成的事情?!?/p>

高性能計算的案例

深度學習案例
吐槽Omni-Path:換湯不換藥

講完了Mellanox的技術與產(chǎn)品路線,作為市場副總裁,Gilad Shainer開始對Intel的100G產(chǎn)品Omni-Path大吐口水。當然,作為媒體,樂意看到這種友商之間的比較,因為這對用戶市場是有益的。

Omni-Path于2015年11月由Intel推出,已成為強化型SSF的核心組件,有媒體稱,Omni-Path是“InfiniBand殺手”。從市場角度,InfiniBand也好,以太網(wǎng)也罷,再加上Omni-Path,應該是各有各的精彩罷了。

2012年,Intel收購QLogic公司的InfiniBand部門,而InfiniBand部門的前身是PathScale公司,其產(chǎn)品名稱叫InfiniPath,是20G的InfiniBand網(wǎng)絡,基于Onload技術,完全用CPU處理;PathScale被QLogic收購后,網(wǎng)絡產(chǎn)品的名字從InfiniPath更新成TrueScale。

Mellanox的優(yōu)勢建立在InfiniBand之上,當Omni-Path殺上門來,無疑,Mellanox不可能按兵不動。

Gilad Shainer吐槽說,Omni-Path采用的是TrueScale,一項沒有做改進的技術,只是把物理層的速度從40G提到了100G,核心沒有任何變化,當然,再一次修改了名稱。

而Mellanox實現(xiàn)網(wǎng)絡是用的Offload的技術,也就是協(xié)議的卸載技術;英特爾是用CPU在處理網(wǎng)絡通訊,也就是Onload,“所以兩個的理念是不一樣的?!?/p>

Mellanox會繼續(xù)走協(xié)處理器這個概念,把網(wǎng)絡做成一個協(xié)處理器,做成一個智能的處理單元去來加速網(wǎng)絡速度。相反英特爾做Omni-Path會讓自己的網(wǎng)絡完全依賴于CPU,這是一個不同的路線。

Offload與Onload

Gilad Shainer展示了Offload與Onload的區(qū)別。

1.Offload所有網(wǎng)絡方面的運算處理都是用網(wǎng)絡芯片來完成,數(shù)據(jù)在移動當中就可以做計算,所以對芯片的要求很復雜??赡懿粫芸斓卦O計出來一款智能的網(wǎng)絡,能夠做卸載的網(wǎng)絡,它需要很多很多年的技術積累,而且芯片要做得非常復雜。而且一旦芯片設計出了一點點問題,就要重新做流片,而重新做流片的代價非常非常大,所以Mellanox的芯片設計得復雜、成本高,但是處理能力強大,因為Mellanox的芯片本身做的是計算,這也使得數(shù)據(jù)通訊更加高效。

2.Onload技術也就是英特爾的Omni-Path的技術體系里面,是崇尚CPU為核心的理念。這種理念如果從網(wǎng)絡設計來講它比較簡單,因為它實現(xiàn)的功能都是用CPU實現(xiàn)的,只是編軟件,所以相對來說,芯片的成本很低,因為它不用設計非常復雜的硬件邏輯在它的芯片里面,這是它的一個優(yōu)勢。

3.Onload的缺陷是網(wǎng)絡會吃掉它的CPU資源,因為它的所有操作都需要CPU去完成。不管是早先的InfiniPath,還是后來的TrueScale,到現(xiàn)在的Omni-Path——它這三代的名稱,但是用的技術是一模一樣的——用CPU去處理網(wǎng)絡。這是無法滿足現(xiàn)在大數(shù)據(jù)、高性能計算中通訊密集型的需求的,也是應用沒有辦法在Onload的架構下面去擴展的一個原因。

4.舉個例子,LS-DYNA的應用,該軟件是在汽車制造領域里邊做碰撞分析的主流軟件。一個是比較小的實測案例,一個是比較大的測試數(shù)據(jù)的案例。在這兩個測試的環(huán)境下,InfiniBand領先Omni-Path從48%到63%。

LS-DYNA

如上圖,左邊數(shù)據(jù)級比較小的時候InfiniBand的優(yōu)勢會更大,因為當數(shù)據(jù)集小的時候,計算需要的部分就會小于傳輸?shù)拿芗?。越小的?shù)據(jù)集它的數(shù)據(jù)傳輸?shù)南⒃叫?,它傳輸?shù)拿芗仍礁?,所以在這種數(shù)據(jù)集的情況下,當進行密集數(shù)據(jù)傳輸?shù)臅r候,會有更大的CPU資源耗費在網(wǎng)絡傳輸上邊,使得它的可擴展性很快就會下降下來。用英特爾的網(wǎng)絡,12個節(jié)點比10個節(jié)點還要慢。但是Mellanox還在持續(xù)地增長。

5.當你買了便宜貨以后最終你會付出得更多。我們的設備是必須要付錢的,因為我們的芯片開發(fā)成本更高。比如你買了100萬的設備再加上15萬美金Mellanox的網(wǎng)絡,總的成本是115萬美金,但是因為我們不耗費任何的CPU,所以100萬購買了計算資源,最后還能得到100萬的計算能力,只是你花了115萬,因為15萬是我們的網(wǎng)絡設備。

ROI

花了100萬只能用到70萬,跟花80萬就能用到70萬,差別是很大的。“我們不能去單獨考慮每一個計算單元的價格,我們要把它放成一個整體系統(tǒng)的投資回報率去考慮?!盙ilad Shainer說。

吐槽完了,Gilad Shainer最后總結說,InfiniBand網(wǎng)絡還是現(xiàn)在能夠提供給應用最好性能的一種網(wǎng)絡,使用戶的投資回報率,或者說使CPU能夠成為真正有效的一個計算資源。而且InfiniBand不僅僅是簡單的網(wǎng)絡轉(zhuǎn)發(fā)功能,已經(jīng)變成了協(xié)處理器的角色,成為了更加智能的一個單元。

 

 

分享到

zhoub

相關推薦