2016年起我們就開始了客戶落地。當(dāng)時,客戶的訴求很直接,就是要看到虛擬網(wǎng)絡(luò)中的流量,其中存在的挑戰(zhàn)包括避免對生產(chǎn)環(huán)境的侵?jǐn)_、保障性能的同時限制采集系統(tǒng)對資源的使用、能實現(xiàn)策略跟隨以及支持隧道分發(fā)??蛻舻沫h(huán)境與現(xiàn)在還是有些區(qū)別,資源池類型主要是ESXi、XEN以及KVM,理念上也是關(guān)注全包。DeepFlow?方案的重點就是采集與分發(fā),為客戶解決虛擬機間的東西向流量采集難題以及流量引出。需要做到避免侵?jǐn)_數(shù)據(jù)面,在有限的資源使用下保障性能,在虛擬機發(fā)生遷移后,確保采集分發(fā)策略的統(tǒng)一及跟隨。通過隧道封裝,保時保序地將數(shù)據(jù)包分發(fā)至各類分析工具處。在這個階段,DeepFlow?實現(xiàn)了面向各類資源池的網(wǎng)絡(luò)流量“采集處理抽象層”,統(tǒng)一提供采集、多維過濾、去重、壓縮、截短等預(yù)處理功能。抽象層中的各類型采集器本身也是一套分布式系統(tǒng),為后期面向大規(guī)模多類型的云環(huán)境監(jiān)控中高性能數(shù)據(jù)處理提供基礎(chǔ)保障。

DeepFlow云網(wǎng)分析:解決分布在各地的資源池網(wǎng)絡(luò)監(jiān)控缺失

在中期階段,客戶業(yè)務(wù)逐步上云,云建設(shè)的規(guī)模更大,同時開始關(guān)注容器網(wǎng)絡(luò)以及業(yè)務(wù)保障。這時客戶更多地關(guān)注多區(qū)域多資源池以及underlay和overlay的統(tǒng)一管理、對于多云異構(gòu)環(huán)境有統(tǒng)一網(wǎng)絡(luò)全景圖的需求、對虛擬網(wǎng)絡(luò)的故障診斷需求也浮出水面??蛻衾砟钌弦膊辉僬J(rèn)為云環(huán)境的網(wǎng)絡(luò)保障可單純地通過存儲、分析全包來解決。此時面臨的多點多地管理,Overlay網(wǎng)絡(luò)中的Trouble shooting等問題也很突出。DeepFlow?方案著重面向客戶大規(guī)?;旌显凭W(wǎng)絡(luò)的整體監(jiān)控,包括多數(shù)據(jù)中心、多分支機構(gòu)、私有云和公有云的整體網(wǎng)絡(luò)全景圖,解決專線鏈路負(fù)載、公有云網(wǎng)絡(luò)性能、私有云故障排查等系列問題。在此階段,DeepFlow?控制器集群不僅具備了管理10萬采集點規(guī)模的能力,而且廣泛地與云平臺、CMDB對接,使網(wǎng)絡(luò)IP、流量與VPC、虛擬機、POD、服務(wù)、平臺事件等關(guān)聯(lián),繪制一整張網(wǎng)絡(luò)知識圖譜。

DeepFlow分布式業(yè)務(wù)的可觀測性:解決云原生應(yīng)用保障及容器平臺的網(wǎng)絡(luò)監(jiān)控

在目前階段,云杉看到客戶處容器環(huán)境發(fā)展迅猛,云建設(shè)思路更清晰,也更有規(guī)劃。同時也在體系化地考慮監(jiān)控保障側(cè)的建設(shè),將應(yīng)用、網(wǎng)絡(luò)及基礎(chǔ)設(shè)施的Metric、Log、Tracing統(tǒng)一地加以規(guī)劃整合。此時客戶需求更多地面向業(yè)務(wù)側(cè)、更注重隨云擴展的架構(gòu)實現(xiàn)、以及在此基礎(chǔ)上提供高性能數(shù)據(jù)服務(wù)的能力。比較典型的一個方案就是支撐微服務(wù)平臺的監(jiān)控中心建設(shè),通過DeepFlow?各功能展現(xiàn)服務(wù)依賴關(guān)系、訪問指標(biāo)、網(wǎng)絡(luò)性能等,基于網(wǎng)絡(luò)流日志獲取業(yè)務(wù)Trace ID、容器Labels等鍵值,關(guān)聯(lián)Log平臺和Tracing框架,完善分布式應(yīng)用系統(tǒng)的可觀測性。

容器、虛擬機、宿主機的結(jié)合,也是常見的全棧場景,產(chǎn)品通過“全景圖”不同維度的查詢展示來描述各層面的關(guān)系。圖中的“點”可以是數(shù)據(jù)中心、可用區(qū),可以是虛擬機、容器POD,可以是VPC、網(wǎng)段、IP,也可以是Service、資源組等。“點”與“點”之間的連線可以設(shè)置為流量、調(diào)用關(guān)系的吞吐、延時、TCP連接狀態(tài)等指標(biāo)。當(dāng)看到兩個容器POD的連接延時超過閾值時,客戶面臨的是一個復(fù)雜的全棧環(huán)境,涉及到POD、Bridge、vSwitch,再到東西向的Gateway,中間已進(jìn)行過多次地址轉(zhuǎn)換。DeepFlow?清晰地將每一步的指標(biāo)呈現(xiàn)出來,快速高效地定位問題點。這就是云杉為客戶提供的全棧跟蹤能力。

DeepFlow全?;旌显票O(jiān)控

經(jīng)過這些年的積累演進(jìn),云杉DeepFlow?產(chǎn)品實現(xiàn)了隨云擴展的網(wǎng)絡(luò)監(jiān)控架構(gòu)。面向物理網(wǎng)絡(luò)、虛擬化以及容器等多類型的監(jiān)控對象,通過“采集處理抽象層”,首先確??蛻羝交貜奈锢憝h(huán)境向虛擬環(huán)境的監(jiān)控擴展;第二,得益于采集器的優(yōu)勢,針對資源池類型、品牌、規(guī)模以及后續(xù)發(fā)展都可以實現(xiàn)橫向擴展,統(tǒng)一具備流量采集及處理能力;第三,采集與分析解耦,通過分發(fā)功能實現(xiàn)“一次采集、多處分析”擴展分析工具的能力,涵蓋客戶多種專業(yè)分析場景;第四,DeepFlow?高性能分布式時序數(shù)據(jù)節(jié)點橫向擴展保障Metric、流日志以及PCAP等數(shù)據(jù)的存儲與處理;最后,通過API、隊列等方式為安全、業(yè)務(wù)等其他數(shù)據(jù)平臺提供網(wǎng)絡(luò)數(shù)據(jù)服務(wù)。

對于以上方案的實踐,涉及到各個行業(yè)的領(lǐng)先客戶群,DeepFlow?的演進(jìn)離不開客戶的信任、幫助以及支持。在實踐過程中,云杉網(wǎng)絡(luò)也深入地與云、容器平臺進(jìn)行合作與探討,真切感受到技術(shù)人對于云原生的熱愛與追求,并在此基礎(chǔ)上團隊之間的惺惺相惜。云杉將不斷進(jìn)步、保持先進(jìn),讓更多的客戶在云架構(gòu)保障側(cè)安心。

分享到

songjy

相關(guān)推薦