Mellanox的主要產(chǎn)品系列包括擁有數(shù)據(jù)處理智能的智能網(wǎng)卡(Smart NIC),片上系統(tǒng)(由普通的網(wǎng)卡芯片,Mellanox網(wǎng)卡芯片加上ARM CPU,內(nèi)存構(gòu)成),適配器,交換機(jī)以及線纜和收發(fā)器。
數(shù)據(jù)中心的變革——從以CPU為中心到以數(shù)據(jù)為中心
劉通表示,因?yàn)閭鹘y(tǒng)的數(shù)據(jù)中心架構(gòu)正在從以CPU為核心的數(shù)據(jù)中心向以數(shù)據(jù)為核心的數(shù)據(jù)中心架構(gòu)轉(zhuǎn)移。所以網(wǎng)絡(luò)需要去賦能,去承擔(dān)更重要的責(zé)任。
以CPU為核心的數(shù)據(jù)中心是有一個(gè)計(jì)算節(jié)點(diǎn)1,要等到所有節(jié)點(diǎn)把數(shù)據(jù)傳輸給它,分析才能得出結(jié)果。其中反復(fù)的數(shù)據(jù)傳輸環(huán)節(jié)都會(huì)造成典型的應(yīng)用通訊延遲,約30到40微秒。從前的數(shù)據(jù)中心任務(wù)單一,數(shù)據(jù)處理量少,我們姑且相信以CPU為核心可以滿足業(yè)務(wù)需求。
但現(xiàn)在,我們所面臨的是高速增長的業(yè)務(wù)類型和數(shù)據(jù)量,再以傳統(tǒng)的CPU為核心,效率會(huì)極大地受限。而能夠打破常規(guī)數(shù)據(jù)中心架構(gòu),以數(shù)據(jù)為核心,通過網(wǎng)絡(luò)移動(dòng)數(shù)據(jù),分析數(shù)據(jù)產(chǎn)生價(jià)值,這也是Mellanox獲得眾多云計(jì)算,大數(shù)據(jù)公司青睞的原因。
Mellanox還提出了一個(gè)稱為網(wǎng)絡(luò)內(nèi)計(jì)算(In-Network computing)的概念凸顯網(wǎng)絡(luò)的重要性,就是數(shù)據(jù)在網(wǎng)絡(luò)過程中完成相應(yīng)的傳統(tǒng)意義上由CPU來完成的計(jì)算操作。如此節(jié)點(diǎn)數(shù)據(jù)沒有必要全部傳到計(jì)算節(jié)點(diǎn)A,而是直接在網(wǎng)絡(luò)中完成計(jì)算,從而使得通訊應(yīng)用延遲時(shí)間縮短至3-4微秒。
Mellanox正式推出Spectrum-2交換機(jī)解決方案
為了不斷提升網(wǎng)絡(luò)的處理能力,Mellanox也在努力尋求技術(shù)上的突破,為此還收購了一些小型芯片公司,ARM CPU公司以便實(shí)現(xiàn)智能交換機(jī)提供技術(shù)基因。而Mellanox最新的一個(gè)技術(shù)情況就是Spectrum-2的發(fā)布,這也是此次媒體見面會(huì)的一場“重頭戲”。
Spectrum-2號(hào)稱全球最具擴(kuò)展性的200G和400G開放式以太網(wǎng)交換機(jī)解決方案。其亮點(diǎn)主要包括開放性,高性能,靈活性與可編程性。Spectrum-2并不提供所有的軟件,用戶可以選擇自有的網(wǎng)絡(luò)管理軟件,或使用第三方的開放管理軟件,甚至是開源的管理軟件,或者是自研的管理軟件。但它能夠提供自適應(yīng)路由和負(fù)載均衡、同時(shí)保證零丟包率和無條件端口性能。
它的靈活性在于,擁有可運(yùn)行200G、400G以太網(wǎng)的端口以后,可以靈活地將一個(gè)400G端口配成16個(gè)25G端口,將一個(gè)200G端口配成8個(gè)25G端口。而可編程性是Mellanox交換機(jī)產(chǎn)品的另一個(gè)亮點(diǎn)。如此用戶可以使用Mellanox的交換機(jī)芯片去定制化,開發(fā)更多的功能,定制他們所需要的一些傳輸協(xié)議方式。
研究機(jī)構(gòu)IHS Markit數(shù)據(jù)中心研究實(shí)踐部,研究總監(jiān)和顧問Cliff Grossner博士表示,使用外部云服務(wù)的企業(yè),以及通過人工智能(AI)技術(shù)和機(jī)器學(xué)習(xí)(Ml)、以數(shù)據(jù)驅(qū)動(dòng)的計(jì)算應(yīng)用是數(shù)據(jù)中心200GE和400GE網(wǎng)絡(luò)誕生的核心驅(qū)動(dòng)力。除了對(duì)速度的追求,云服務(wù)提供商的數(shù)據(jù)中心還需要可編程的網(wǎng)絡(luò)作為支撐,從而可在交換機(jī)硬件不變的條件下引入新的網(wǎng)絡(luò)協(xié)議。
Mellanox創(chuàng)新網(wǎng)絡(luò)助力人工智能與機(jī)器學(xué)習(xí)平臺(tái)
今天的人工智能和深度學(xué)習(xí)走入了一個(gè)更前端的應(yīng)用場景,我們需要更強(qiáng)大的深度學(xué)習(xí)平臺(tái),以更快的速度完成訓(xùn)練,完成智能大腦的培訓(xùn),來滿足實(shí)際業(yè)務(wù)的需求。因此我們從最開始只考慮算法、考慮功能的階段,到今天深度學(xué)習(xí)平臺(tái)極為關(guān)注系統(tǒng)的效率。
而Mellanox的技術(shù)可以加速深度學(xué)習(xí),因?yàn)榻裉斓纳疃葘W(xué)習(xí)平臺(tái)絕大多數(shù)都在使用智能網(wǎng)絡(luò)傳輸協(xié)議RDMA,包括TensorFlow、Paddle、Caffe。深度學(xué)習(xí)平臺(tái)不能依賴于TCP,因?yàn)門CP傳輸數(shù)據(jù)的方式是低效的,所以需要用RDMA去傳輸存儲(chǔ),無論是現(xiàn)在的分布式存儲(chǔ)環(huán)境,還是未來將大規(guī)模流行的NVMe over Fabric, NVMe的存儲(chǔ)環(huán)境,RDMA都是最好的一種解決方案,RDMA是NVMe over Fabric默認(rèn)的網(wǎng)絡(luò)傳輸方式。
目前包括Mellanox對(duì)人工智能領(lǐng)域的耕耘已經(jīng)收獲頗豐,包括Facebook的人工智能平臺(tái),是基于Mellanox的高速以太網(wǎng)。Mellanox高速網(wǎng)絡(luò)能夠?yàn)镻ayPal實(shí)時(shí)的欺詐分析提供支撐,NVIDIA(英偉達(dá))高速機(jī)器學(xué)習(xí)一體機(jī),都是基于Mellanox的網(wǎng)絡(luò)。Flickr、雅虎、百度也在用Mellanox來做人工智能,以及京東、騰訊等等。
最后,劉通還表示,我們希望CPU盡量都去處理計(jì)算,而不是完成網(wǎng)絡(luò)的傳輸,讓CPU的資源盡量最大化地去面對(duì)更多的應(yīng)用,而不是用于完全的數(shù)據(jù)傳輸。