為了產(chǎn)生有用的業(yè)務(wù)價(jià)值,需要處理大量數(shù)據(jù)集,然而如今,任何單獨(dú)的處理單元都無法做到這點(diǎn)。相反,我們需要的是優(yōu)化整個(gè)棧中的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和應(yīng)用程序等所有元素,使它們能夠協(xié)同工作以建立一個(gè)數(shù)據(jù)中心級(jí)的計(jì)算機(jī),用整個(gè)集群來提供服務(wù)。這需要數(shù)據(jù)為機(jī)器編程,而不是由人為機(jī)器來編程。正如由數(shù)百萬只螞蟻的經(jīng)驗(yàn)匯聚而成的大量數(shù)據(jù)將會(huì)激活和產(chǎn)生智能,并能建設(shè)性的進(jìn)行項(xiàng)目開發(fā);機(jī)器學(xué)習(xí)也是從海量物聯(lián)網(wǎng)數(shù)據(jù)中挖掘出其意義和相關(guān)性,并創(chuàng)造出新的、高效的應(yīng)用程序。
從群體到云
這是關(guān)于云的介紹,云的出現(xiàn)改變了計(jì)算的交付形式,云正在將計(jì)算從服務(wù)器轉(zhuǎn)向服務(wù)。如果你家里有電,這意味著你插上了插座,獲得了電力,就像打開水龍頭接通水管一樣。如果你家里有一臺(tái)電腦,傳統(tǒng)意義上這意味著你有一個(gè)充滿計(jì)算能力的箱子,你要負(fù)責(zé)讓箱子里的一切都能正常運(yùn)行。但云計(jì)算讓我們更接近于取電的方式,在這種模式下,計(jì)算機(jī)不再固定于辦公桌上,而更像是一個(gè)插座,你可以通過它獲取服務(wù)。我們需要跳出計(jì)算機(jī)的思維定勢(shì),才能理解這種變化的含義。
如果你對(duì)通信的想象僅限于用信鴿來傳遞信息,那么你的創(chuàng)造力可能會(huì)局限在一個(gè)維度上,尋找飛的更快的信鴿。但如今的視頻會(huì)議帶來的不僅僅是快速的溝通,它還可以使在不同位置的人同時(shí)看到和聽到,甚至可以實(shí)現(xiàn)不同語言之間的機(jī)器翻譯。因此,要在性能上實(shí)現(xiàn)真正的巨大突破,你需要跳出固有思維。
我們與 Oracle 合作的關(guān)于Oracle集群數(shù)據(jù)庫系統(tǒng)的改造就是一個(gè)不錯(cuò)的例子。他們最初使用傳統(tǒng)網(wǎng)絡(luò)技術(shù),但無論如何優(yōu)化他們的系統(tǒng),通信軟件開銷總是瓶頸,性能改進(jìn)非常有限。然后,在采用了具有 RDMA(遠(yuǎn)程直接內(nèi)存訪問)功能的更加智能的網(wǎng)絡(luò)后,他們終于取得了突破。使用這項(xiàng)技術(shù)可以消除網(wǎng)絡(luò)開銷,并使訪問遠(yuǎn)程資源的成本與訪問本地資源的成本相似,Oracle 利用這項(xiàng)技術(shù)大大提升了系統(tǒng)資源的效率。經(jīng)過重新設(shè)計(jì)的 Oracle 系統(tǒng),網(wǎng)絡(luò)帶寬從 10 Gb/s 提高到 了40 Gb/s,實(shí)現(xiàn)了 4 倍的提升;通過采用 RDMA 技術(shù)消除了傳統(tǒng)的網(wǎng)絡(luò)軟件開銷,他們得到的不僅是這 4 倍的速度提升,而是 50 倍的性能改進(jìn)。這和更好、更高效的智能網(wǎng)絡(luò)是分不開的。
智能網(wǎng)絡(luò)
智能網(wǎng)絡(luò)不僅僅是通過線纜移動(dòng)數(shù)據(jù)的速度有多快,而是在網(wǎng)絡(luò)的任何地方都變得越來越智能。秘訣就是在數(shù)據(jù)移動(dòng)過程中對(duì)其進(jìn)行處理。蟻群中的每只螞蟻都會(huì)接收自身感知到的數(shù)據(jù),以及通過嗅覺感知到來自其他螞蟻的數(shù)據(jù);螞蟻?zhàn)约簳?huì)處理這些數(shù)據(jù),并通過氣味將自己的信號(hào)發(fā)送出去,這些信號(hào)在網(wǎng)絡(luò)中不斷級(jí)聯(lián),逐漸在蟻群被賦予了意義和普適性。同樣,在我們最先進(jìn)的網(wǎng)絡(luò)產(chǎn)品中,每個(gè)交換機(jī)內(nèi)都有計(jì)算單元,因此我們?cè)跀?shù)據(jù)移動(dòng)過程中進(jìn)行數(shù)據(jù)聚合。
如今,這項(xiàng)技術(shù)正在被用于 HPC 和機(jī)器學(xué)習(xí)。當(dāng)我們對(duì)神經(jīng)網(wǎng)絡(luò)模型的多個(gè)實(shí)例中的數(shù)據(jù)集進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),在單獨(dú)的訓(xùn)練后,訓(xùn)練結(jié)果需要被整合,這通常需要花費(fèi)與訓(xùn)練本身同樣多的時(shí)間,分布式執(zhí)行該過程可將“參數(shù)服務(wù)器”的處理速度加快 10 倍,從而將訓(xùn)練的時(shí)間從數(shù)天縮短到數(shù)小時(shí),或從數(shù)周縮短到數(shù)天。我們稱其為 SHARP — 可擴(kuò)展分層聚合和歸約協(xié)議。其它網(wǎng)絡(luò)只會(huì)在計(jì)算單元之間移動(dòng)數(shù)據(jù),SHARP 卻可以在數(shù)據(jù)通過網(wǎng)絡(luò)時(shí)對(duì)其進(jìn)行處理和計(jì)算,有效地將網(wǎng)絡(luò)本身變成了一個(gè)功能強(qiáng)大的協(xié)處理器,從而顯著提高應(yīng)用性能。
對(duì)于存儲(chǔ)網(wǎng)絡(luò),我們提供 SNAP — 基于軟件定義的網(wǎng)絡(luò)加速處理。我們的 Bluefield 智能網(wǎng)卡虛擬化技術(shù)可以將云中的資源模擬為的本地設(shè)備,而不再是需要在主機(jī)上更改 API 的網(wǎng)絡(luò)設(shè)備。SNAP 支持各種基于傳統(tǒng)操作系統(tǒng)的機(jī)器,它能夠神奇地將各種東西轉(zhuǎn)變成本地設(shè)備。因此,采用我們的智能網(wǎng)卡,可以調(diào)用網(wǎng)絡(luò)中的不同機(jī)器的資源,將它們作為本地存儲(chǔ)設(shè)備來使用,或本機(jī)上的本地存儲(chǔ)服務(wù)來使用。我們正在與主要云廠商進(jìn)行試點(diǎn)合作,并計(jì)劃在一年后投入生產(chǎn)(見圖 2)。
再舉一個(gè)有效利用資源的例子:網(wǎng)絡(luò)功能虛擬化(NFV)是一種強(qiáng)大的技術(shù),可以通過將各種進(jìn)程整合到裸金屬服務(wù)器上以減少到處都是盒子,但這會(huì)使負(fù)載都集中到服務(wù)器,從應(yīng)用的角度來看,這會(huì)降低數(shù)據(jù)中心的效率,因?yàn)樗鼤?huì)消耗大量的計(jì)算資源。要解決這個(gè)問題,你可以將大部分的網(wǎng)絡(luò)虛擬化操作卸載到智能網(wǎng)卡上 — SmartNIC。
這樣安全嗎?
但這能在不犧牲安全性的前提下實(shí)現(xiàn)嗎?傳統(tǒng)的數(shù)據(jù)中心主要在使用M&M 安全模型,這個(gè)模型的特色是外強(qiáng)內(nèi)弱,主要在數(shù)據(jù)中心邊緣進(jìn)行保護(hù)。在云應(yīng)用中,我們?cè)试S在運(yùn)行我們的安全策略的同一臺(tái)機(jī)器上運(yùn)行不受我們控制的應(yīng)用程序。一旦惡意軟件在我們的計(jì)算服務(wù)器上運(yùn)行,它可能會(huì)接管我們的安全策略,從而接管數(shù)據(jù)中心。就這樣,整個(gè)數(shù)據(jù)中心被我們?cè)S可的在機(jī)器上運(yùn)行的程序接管了。
為了保護(hù)我們的數(shù)據(jù)中心,我們必須確保攻擊者和受害者不在同一臺(tái)計(jì)算機(jī)上,我們需要改變安全模型,將外強(qiáng)內(nèi)弱改為外強(qiáng)內(nèi)也強(qiáng),數(shù)據(jù)中心的每臺(tái)機(jī)器都必須受到保護(hù)。
BlueField的SNAP 技術(shù)允許將安全策略運(yùn)行在BlueField 卡自己的操作系統(tǒng)上,將其應(yīng)用程序服務(wù)器分離出來。借助 BlueField,我們可以將基礎(chǔ)架構(gòu)計(jì)算和應(yīng)用程序計(jì)算分層隔離。此外,我們還可以完全獨(dú)立地升級(jí)計(jì)算服務(wù)器和基礎(chǔ)架構(gòu)服務(wù)器 ,互不影響。這樣更安全,也更高效。
結(jié)論
我們?cè)诋?dāng)下以及未來將面臨的情況是:大量的非結(jié)構(gòu)化數(shù)據(jù)要求機(jī)器學(xué)習(xí)的能力越老越強(qiáng),將會(huì)產(chǎn)生超出我們想象的新應(yīng)用程序。
估值達(dá) 4 萬億美元的盈利商機(jī)正等著我們攫取。而跳出計(jì)算機(jī)的思維定勢(shì)將是我們面臨的挑戰(zhàn)。
文章轉(zhuǎn)自Mellanox CTO Michael Kagan