在2018杭州云棲大會(huì)19號(hào)下午的主論壇上,阿里巴巴集團(tuán)副總裁周明從數(shù)據(jù)中心、網(wǎng)絡(luò),計(jì)算存儲(chǔ)、以及運(yùn)營角度,分享了公司基礎(chǔ)設(shè)施在萬物互聯(lián)時(shí)代下的應(yīng)對(duì)。
從技術(shù)上,阿里巴巴基礎(chǔ)設(shè)施通過從業(yè)務(wù)到軟件到算法到硬件到芯片的一體化設(shè)計(jì),獲取了極致的性能,通過規(guī)模化獲得極致的性價(jià)比,并運(yùn)用智能化的手段,來提高基礎(chǔ)設(shè)施運(yùn)營水平,讓科技得以普惠,每個(gè)人都能平等的享受。
面向企業(yè)提供全球覆蓋能力,全球互聯(lián)網(wǎng)行業(yè)最大規(guī)模液冷集群
在全球,阿里巴巴基礎(chǔ)設(shè)施提供了18個(gè)區(qū)域49個(gè)可用區(qū),數(shù)量高達(dá)200個(gè)以上的數(shù)據(jù)中心。在網(wǎng)絡(luò)方面,全球的骨干網(wǎng)不但連接全球的數(shù)據(jù)中心,還接入上百個(gè)海外POP點(diǎn),連接全球1500多家運(yùn)營商。
作為能耗大戶的數(shù)據(jù)中心,也需要在環(huán)保、節(jié)能方面持續(xù)不斷地努力。
“從當(dāng)年湖底抽水進(jìn)行自然的冷卻,到北方通過自然風(fēng)來進(jìn)行冷卻,到今天我們有浸沒式的液冷,都讓我們的節(jié)能能力不斷提高,PUE不斷降低?!?/p>
但隨著萬物互聯(lián)、萬物智能的今天,必然有非常多的大數(shù)據(jù),大數(shù)據(jù)背后就意味著大的計(jì)算。在摩爾定律受到極大挑戰(zhàn)的今天,它意味著對(duì)計(jì)算力功耗的要求,尤其是高密度計(jì)算功耗的要求越來越多。
阿里巴巴聯(lián)合全球幾十家合作伙伴,從芯片到主板到服務(wù)器整機(jī),從光模塊到箱體以及運(yùn)營管理,形成商用規(guī)模的液冷集群,集群數(shù)量高達(dá)幾千臺(tái),是全球互聯(lián)網(wǎng)行業(yè)最大的液冷集群,它完美的解決了高密度高功耗下的計(jì)算環(huán)境問題。
網(wǎng)絡(luò)持續(xù)演進(jìn),世界首個(gè)大規(guī)模100G RDMA網(wǎng)絡(luò)集群
通過自研交換機(jī)、OS以及光模塊等,成功規(guī)模部署雙25G、雙100G到服務(wù)器的網(wǎng)絡(luò),同時(shí)也在研發(fā)400G的網(wǎng)絡(luò)。
在網(wǎng)絡(luò)低延時(shí)方面,通過對(duì)RDMA協(xié)議的支持,對(duì)運(yùn)維管理的研發(fā),以及對(duì)流量控制運(yùn)算算法的研發(fā),成功部署了規(guī)?;牡脱訒r(shí)的網(wǎng)絡(luò)。根據(jù)已知的公開信息,已經(jīng)實(shí)現(xiàn)世界首個(gè)大規(guī)模100G RDMA集群。
高帶寬、低延時(shí)的意義和價(jià)值遠(yuǎn)遠(yuǎn)超過網(wǎng)絡(luò)帶寬的本身:
舉例來講,對(duì)于一個(gè)企業(yè)的業(yè)務(wù)研發(fā)人員,他在研發(fā)過程中不再需要關(guān)心帶寬問題,他要做的只要關(guān)心他的業(yè)務(wù)研發(fā)就可以了。
因?yàn)閿?shù)據(jù)庫具有非常多的數(shù)據(jù),如果業(yè)務(wù)增長一旦需要擴(kuò)容、遷移,要消耗極大的時(shí)間,所以非常不方便。但是當(dāng)有規(guī)模的低延時(shí)的網(wǎng)絡(luò)以后,那就意味著可以實(shí)現(xiàn)存儲(chǔ)和計(jì)算的分離。
全球首批規(guī)模商用SSD,自研業(yè)界首個(gè)全鏈路軟硬件一體化存儲(chǔ)系統(tǒng)
通過自研SSD存儲(chǔ),對(duì)SSD控制芯片進(jìn)行定制,支持alibaba open channel 協(xié)議,這使得延遲降低10倍,寫放大降低5倍。同時(shí),這也是全球首批規(guī)模商用的支持open channel 的SSD。
除了SSD硬件,還自研了FusionEngine 本地存儲(chǔ)引擎,打造了軟硬件結(jié)合的底層統(tǒng)一存儲(chǔ)平臺(tái),加上低延時(shí)RDMA網(wǎng)絡(luò),構(gòu)筑了從底層芯片到部件、到存儲(chǔ)引擎,到規(guī)?;脱訒r(shí)網(wǎng)絡(luò)的一體化技術(shù)競爭力。這使得IO能力提升50%以上,延時(shí)也有數(shù)量級(jí)的降低,上層的分布式產(chǎn)品如ESSD 性能提升5倍以上。
“我們認(rèn)為單一的技術(shù)可以帶來局部的突破,但如果你要想獲得極致的有競爭力的性能和技術(shù)紅利,必須得通過從業(yè)務(wù)到軟件到算法、到硬件到芯片的一體化設(shè)計(jì)。”
在計(jì)算領(lǐng)域,除了定制CPU、自研AI芯片AliNPU,阿里巴巴也在FPGA領(lǐng)域也有全棧的研發(fā)和應(yīng)用。不僅效率提升超過30倍,還實(shí)現(xiàn)了3倍性價(jià)比的提升。
另外,F(xiàn)PGA因?yàn)橘Y源有限等原因,并不適合CNNInference,通過一體化的設(shè)計(jì),尤其是針對(duì)性的算法,整個(gè)延時(shí)降低170多倍。
“這意味著現(xiàn)實(shí)生活中有非常多的極低延時(shí)應(yīng)用的場景,具備非常重要的意義,這是一種能力。這些效率和我們的性能,尤其是低延時(shí),在阿里巴巴業(yè)務(wù)場景里面已經(jīng)得到了實(shí)際規(guī)?;膽?yīng)用?!?/p>