博睿數(shù)據(jù)產(chǎn)品部高級(jí)總監(jiān)孫麗

云原生的定義很復(fù)雜,但用過(guò)云的人都懂,它指的是可以只管應(yīng)用而不用管理底層基礎(chǔ)設(shè)施的架構(gòu),不用費(fèi)心思管別的,只關(guān)心應(yīng)用的業(yè)務(wù)邏輯即可,具有這類特征的技術(shù)架構(gòu)都是云原生。

經(jīng)常與云原生一起出沒(méi)的是容器技術(shù),容器可以幫助人們構(gòu)建云原生技術(shù)架構(gòu)。容器技術(shù)的理想是屏蔽底層的復(fù)雜性,它可以加速開(kāi)發(fā)者的開(kāi)發(fā)部署和迭代速度,但卻為運(yùn)維帶來(lái)了“可觀測(cè)性”方面的難題。

“可觀測(cè)性”會(huì)導(dǎo)致看不到問(wèn)題所在,看不到問(wèn)題也就無(wú)從解決問(wèn)題,最終表現(xiàn)為排除故障很難。

云原生的興起推動(dòng)了微服務(wù)和分布式技術(shù)的發(fā)展,這些技術(shù)正常工作時(shí)一切都好,但當(dāng)故障發(fā)生時(shí),需要在錯(cuò)綜復(fù)雜的調(diào)用關(guān)系中捋出問(wèn)題所在。同時(shí),由于容器化技術(shù)的環(huán)境動(dòng)態(tài)性很強(qiáng),運(yùn)維排障時(shí)的環(huán)境經(jīng)常已經(jīng)發(fā)生了變化。

傳統(tǒng)監(jiān)控的可觀測(cè)性問(wèn)題

在孫麗看來(lái),傳統(tǒng)監(jiān)控技術(shù)很難幫用戶構(gòu)建一套高效的排障體系,當(dāng)前工具式的監(jiān)控體系已經(jīng)無(wú)法滿足企業(yè)的運(yùn)維需求,看不到或者看不清問(wèn)題就無(wú)法解決問(wèn)題。

結(jié)合Gartner相關(guān)報(bào)告的觀點(diǎn),孫麗分享了目前IT監(jiān)控存在的五方面問(wèn)題。

1、孤島式監(jiān)控。由于缺少規(guī)劃,企業(yè)中經(jīng)常存在各種監(jiān)控平臺(tái),有的是重復(fù)的,有的是相互獨(dú)立的,總之都無(wú)法組成一個(gè)有機(jī)的監(jiān)控系統(tǒng)。由于可觀測(cè)性比較差,當(dāng)系統(tǒng)發(fā)生問(wèn)題時(shí),就很難找出原因。

2、IT建設(shè)與業(yè)務(wù)目標(biāo)脫節(jié)。IT建設(shè)和運(yùn)維關(guān)注的是如何提供資源,而業(yè)務(wù)人員關(guān)注的是業(yè)務(wù)發(fā)展和用戶體驗(yàn),兩者的目標(biāo)是不一致的,當(dāng)IT人員看不到用戶體驗(yàn)的影響,IT部門(mén)就會(huì)與業(yè)務(wù)部門(mén)脫節(jié)。

3、智能運(yùn)維不成熟。Gartner的報(bào)告中能看到,雖然智能運(yùn)維說(shuō)了很多,但實(shí)際落的效果非常差。孫麗認(rèn)為,高質(zhì)量的可觀測(cè)數(shù)據(jù)加上較強(qiáng)的AI能力引擎才能讓智能運(yùn)維走向成熟。

4、新技術(shù)監(jiān)控可見(jiàn)性不足。Gartner的報(bào)告提到,當(dāng)前的監(jiān)控手段在面對(duì)云原生、微服務(wù)、物聯(lián)網(wǎng)等新技術(shù)時(shí)存在一些可觀測(cè)性的問(wèn)題,因?yàn)樵瓉?lái)的底層資源層面的信息已經(jīng)不可見(jiàn)了。

5、敏捷性不足。運(yùn)維追求的是系統(tǒng)的穩(wěn)定運(yùn)行,應(yīng)用研發(fā)人員追求的是更快上線新業(yè)務(wù)。當(dāng)缺少自動(dòng)化能力時(shí),敏捷性會(huì)明顯不足,兩者難免會(huì)產(chǎn)生許多矛盾。

許多運(yùn)維監(jiān)控的專業(yè)廠商也都在關(guān)注這些問(wèn)題,但大部分廠商的服務(wù)都存在一些局限性。孫麗將其總結(jié)為1.0時(shí)代的廠商和2.0時(shí)代的廠商。

在孫麗看來(lái),市場(chǎng)上大概80%的廠商都屬于1.0時(shí)代,這類廠商一般只有監(jiān)控體系的一個(gè)或幾個(gè)產(chǎn)品,沒(méi)有組成有機(jī)的運(yùn)維監(jiān)控體系,經(jīng)常以單產(chǎn)品或者沒(méi)有關(guān)聯(lián)的產(chǎn)品去提供服務(wù),這類產(chǎn)品提供的可觀測(cè)性是片面的。

2.0時(shí)代的廠商有相對(duì)完善的產(chǎn)品監(jiān)控體系,覆蓋了從用戶、到網(wǎng)絡(luò)、到應(yīng)用、到基礎(chǔ)設(shè)施的不同層級(jí),但由于缺少產(chǎn)品的有機(jī)整合,導(dǎo)致無(wú)法站在在運(yùn)維的全局視角去組織數(shù)據(jù),會(huì)缺少有機(jī)融合的能力。

1.0和2.0時(shí)代的核心問(wèn)題就是可觀測(cè)性問(wèn)題,也就是能否快速發(fā)現(xiàn)問(wèn)題的問(wèn)題。

博睿數(shù)據(jù)以O(shè)NE平臺(tái)三大特性提升可觀測(cè)性

博睿數(shù)據(jù)原本是2.0時(shí)代的典型代表,隨著一體化智能可觀測(cè)ONE平臺(tái)的發(fā)布,博睿數(shù)據(jù)已經(jīng)邁向了3.0時(shí)代,強(qiáng)調(diào)運(yùn)維監(jiān)控?cái)?shù)智融合能力。

所謂數(shù)智融合,先要具備全局的數(shù)據(jù)采集能力,二是要以運(yùn)維視角重塑產(chǎn)品,三是要對(duì)這些被采集的數(shù)據(jù)進(jìn)行有機(jī)的關(guān)聯(lián)和融合,四是基于這些數(shù)據(jù)做深入挖掘。

一體化智能可觀測(cè)ONE平臺(tái)用三大特性詮釋了什么叫數(shù)智融合,詮釋了如何提升可觀測(cè)性。

第一點(diǎn)就是統(tǒng)一,通過(guò)一個(gè)平臺(tái)去滿足所有運(yùn)維監(jiān)控需求,不需要再去重復(fù)建設(shè)或購(gòu)買(mǎi)不同廠商產(chǎn)品來(lái)自行組裝,只需要一套ONE平臺(tái)即可實(shí)現(xiàn)任意能力的開(kāi)箱即用。

想要實(shí)現(xiàn)這種統(tǒng)一,需要監(jiān)控能力覆蓋APP、WEB、PC、小程序等多種終端,可采集來(lái)自用戶端到網(wǎng)絡(luò)、到云端、中間件、基礎(chǔ)設(shè)施、設(shè)備、場(chǎng)景等等多個(gè)方面的數(shù)據(jù),滿足企業(yè)在數(shù)字體驗(yàn)、業(yè)務(wù)、網(wǎng)絡(luò)性能、應(yīng)用性能、安全等等所有方面的監(jiān)控需求。

第二點(diǎn)就是關(guān)聯(lián)性,相互不關(guān)聯(lián)的數(shù)據(jù)對(duì)于提升可觀測(cè)性沒(méi)什么幫助。博睿數(shù)據(jù)ONE平臺(tái)在對(duì)Log、Trace、Metric數(shù)據(jù)做關(guān)聯(lián)的基礎(chǔ)上,還加入各種實(shí)體、事件以及元數(shù)據(jù)的關(guān)聯(lián),實(shí)現(xiàn)了更好的可觀測(cè)性。

具體做法上,ONE平臺(tái)對(duì)企業(yè)的數(shù)字化系統(tǒng)做了1:1的復(fù)刻,構(gòu)建了數(shù)字系統(tǒng)各種實(shí)體的數(shù)字孿生,真實(shí)系統(tǒng)發(fā)生的一舉一動(dòng)都會(huì)得到映射,從而大幅提升可觀測(cè)性。同時(shí),ONE平臺(tái)還會(huì)基于這些數(shù)據(jù)來(lái)進(jìn)行圖計(jì)算,從而更好地做根因定位。

第三點(diǎn)就是智能見(jiàn)解。ONE平臺(tái)可以像一個(gè)專業(yè)顧問(wèn)一樣告訴用戶發(fā)生了什么問(wèn)題,導(dǎo)致問(wèn)題的原因是什么,從而緩解追查問(wèn)題慢,解決問(wèn)題慢的情況,幫助運(yùn)維人員節(jié)省時(shí)間,讓專業(yè)人員把精力放在其它業(yè)務(wù)領(lǐng)域。

ONE平臺(tái)內(nèi)置了博睿數(shù)據(jù)自研的Swift AI中臺(tái),該平臺(tái)目前在事件關(guān)聯(lián)、異常檢測(cè)預(yù)測(cè)、智能告警、智能根因分析等等方面落地,博睿數(shù)據(jù)重視基于場(chǎng)景的、基于專業(yè)的知識(shí)庫(kù)的AI,認(rèn)為只有這樣才能實(shí)現(xiàn)真正的智能運(yùn)維。

從統(tǒng)一、關(guān)聯(lián)性和智能見(jiàn)解,博睿數(shù)據(jù)完成了從看得更多到看的更透徹的整個(gè)過(guò)程,最終提升可觀測(cè)性。

提升金融行業(yè)云原生架構(gòu)可觀測(cè)性

博睿數(shù)據(jù)資深技術(shù)總監(jiān)常旭介紹了提升金融行業(yè)云原生架構(gòu)可觀測(cè)性的實(shí)踐案例。
某銀行在嘗試容器化的過(guò)程中,對(duì)原來(lái)的單體應(yīng)用進(jìn)行了容器化改造,這對(duì)于運(yùn)維工作帶來(lái)了不小變化。

博睿數(shù)據(jù)資深技術(shù)總監(jiān)常旭

單體應(yīng)用時(shí)代,所有應(yīng)用都運(yùn)行在固定的幾臺(tái)物理服務(wù)器上,如果有問(wèn)題就直接去這幾臺(tái)服務(wù)器上找,而現(xiàn)在的容器化應(yīng)用將業(yè)務(wù)應(yīng)用打散到了多臺(tái)云節(jié)點(diǎn)里,運(yùn)維方式也發(fā)生了很大變化。

比如,要解決手機(jī)銀行App響應(yīng)慢的問(wèn)題,首先要考慮手機(jī)端性能數(shù)據(jù),但比如查詢、轉(zhuǎn)帳等大部分業(yè)務(wù)都需要后臺(tái)服務(wù)來(lái)完成。由于這些業(yè)務(wù)都變成了微服務(wù)的狀態(tài),運(yùn)維人員無(wú)法獲知微服務(wù)的調(diào)用關(guān)系及具體信息,想要優(yōu)化往往無(wú)從下手。

博睿數(shù)據(jù)的Smart?Agent技術(shù)能在業(yè)務(wù)被拉起的過(guò)程中自動(dòng)實(shí)現(xiàn)探針的抓取,使用該技術(shù)之后,所有探針在業(yè)務(wù)生成的過(guò)程中都會(huì)自動(dòng)加載、自動(dòng)識(shí)別、并基于預(yù)定策略自動(dòng)實(shí)現(xiàn)所有信息的采集。當(dāng)采集到數(shù)據(jù)之后,即可基于數(shù)據(jù)進(jìn)行分析、處理和縫合,最終可視化整個(gè)業(yè)務(wù)的調(diào)用鏈。

在這個(gè)案例中,當(dāng)博睿數(shù)據(jù)把可視化業(yè)務(wù)鏈的數(shù)據(jù)展示出來(lái)時(shí),部分研發(fā)人員認(rèn)為展示的數(shù)據(jù)有問(wèn)題,但隨后,在多位研發(fā)人員的反復(fù)確認(rèn)的過(guò)程中發(fā)現(xiàn)許多開(kāi)發(fā)人員對(duì)業(yè)務(wù)調(diào)用鏈過(guò)程的本身并不是非常清楚。

最后,在博睿數(shù)據(jù)的幫助下,開(kāi)發(fā)人員驚奇地看到了應(yīng)用的調(diào)用關(guān)系以及其背后的潛在風(fēng)險(xiǎn),可觀測(cè)性有了大幅提升。不僅在整個(gè)應(yīng)用性能表現(xiàn)上有大幅提升,還將排查效率提升了51.3%,這對(duì)于后續(xù)業(yè)務(wù)調(diào)優(yōu)、業(yè)務(wù)處理以及運(yùn)維管理都提供了非常大的幫助。

結(jié)束語(yǔ)

隨著云化轉(zhuǎn)型,隨著企業(yè)IT架構(gòu)構(gòu)成越來(lái)越復(fù)雜,IT架構(gòu)的“可觀測(cè)性”問(wèn)題會(huì)越來(lái)越明顯,博睿一體化智能可觀測(cè)ONE平臺(tái)在提升可觀測(cè)性方面的努力非常有意義。

分享到

zhupb

相關(guān)推薦