1、全面有效的故障模式庫

基于華為在ICT領(lǐng)域10多年的實踐積累和數(shù)百產(chǎn)品的實際應(yīng)用的沉淀,電信領(lǐng)域軟件的高要求,我們通過正向分析、事故分析、業(yè)界案例分析三個維度建立全面的故障模式庫。

2、精準高效的故障模擬

我們通過軟件模擬各種硬件故障,對應(yīng)用無侵入,而且跟應(yīng)用的實現(xiàn)語言無關(guān)。

3、端到端全自動化測評

我們實現(xiàn)了智能識別故障對象,而且全自動化運行,自動度量KPI,自動實現(xiàn)風(fēng)險評估,生成測評報告,測試工程可反復(fù)執(zhí)行。防止失敗的最佳方法就是經(jīng)常失敗。在真實環(huán)境測試,而不是模擬環(huán)境。通過我們的端到端全自動化測評,可以實現(xiàn)這個目標。

華為云混沌工程應(yīng)用場景

image.png

入門級可靠性測試:手工注入

功能:提供對Kubernetes集群、彈性云服務(wù)器的單業(yè)務(wù)實例、單故障模式的注入。

適用場景:開發(fā)人員針對確定故障的自驗證;測試人員針對可靠性問題回歸驗證等。

特點:操作簡單,故障注入/清除結(jié)果及系統(tǒng)的表現(xiàn)清晰可見。

image.png

手工注入是混沌工程的入門級功能,操作非常容易,結(jié)果直接清晰。

1、首先在服務(wù)所在的容器集群或者節(jié)點上安裝探針,一鍵安裝,秒級創(chuàng)建,速度很快;

2、然后選擇注入對象和注入的故障,還可以選擇設(shè)置告警、CPTS壓測工程,就可以完成一次故障注入;

3、再接著就是以5分鐘為維度獲取監(jiān)控數(shù)據(jù)生成測試報告;

4、最后你就可以基于報告來評估服務(wù)可靠性的質(zhì)量了。

全流程可視化操作,只用鼠標點點點就可以了;簡單易用,使用門檻低,非常方便開發(fā)者和測試人員進行基本的可靠性測試。

進階級可靠性測試:故障演練

功能:提供對單工作負載的隨機故障注入,預(yù)置了多種入門級和進階級演練場景。

適用場景:線下隨機故障注入測試;線上例行故障演練、專項演練等。

特點:模型化的場景定義、靈活的編排調(diào)度、豐富的評估報告。

image.png

故障演練主要使用場景是線上例行故障演練和專項演練。相比于手工注入,故障演練會提供多種入門級和進階級的演練場景。上圖為傳統(tǒng)的手工演練流程,與混沌工程提供的故障演練能力對比。

三、四年前我們還處于傳統(tǒng)手工演練階段,全流程的手工進行,后續(xù)逐步演變?yōu)楝F(xiàn)在混沌工程提供的全自動化故障演練能力,經(jīng)我們自己實際使用對比,現(xiàn)在的自動化演練過程比手工更準確和規(guī)范,避免人為導(dǎo)致的差錯;可靠性專項測試人員投入的時間可以減少80%,端到端效率提升10倍以上。

我們提供如下的預(yù)置模板,同時也支持自定義演練任務(wù)。

image.png

高階級可靠性測試:自動測評

功能:提供對多工作負載全量的可靠性測評。

適用場景:云服務(wù)的全量可靠性測評;不同服務(wù)、不同版本的可靠性能力對比。

特點:智能對象識別、自動用例生成、無腳本化執(zhí)行、自動KPI度量、豐富的評估報告。

自動測評最大的特點就是智能對象識別、自動用例生成、無需定制腳本的全自動化執(zhí)行、自動KPI度量生成豐富的評估報告,可以對不同服務(wù)、不同版本的可靠性能力進行對比。

自動測評服務(wù)的智能對象識別能力,保證了故障對象覆蓋的全面性,能有效避免人工測試出現(xiàn)的遺漏。自動用例生成與無腳本化執(zhí)行,大幅節(jié)省了用例設(shè)計和自動化腳本編寫的工作,同時降低了自動化可靠性測試對人員技能的要求。

系統(tǒng)預(yù)置了3種常見場景模板,同時支持用戶自定義。既可以用預(yù)置目標快速創(chuàng)建任務(wù),也可以靈活的定制任務(wù)。

image.png

測評報告

混沌工程通過結(jié)合華為云上的CCE、ECS、CPTS、AOM、APM等服務(wù),提供了一套完整的端到端的可靠性測試解決方案,解決了測什么、如何測、如何評價的問題。

image.png

在華為云上,云服務(wù)部署的載體要么是ECS的彈性云服務(wù)器,要么是CCE的容器集群,我們現(xiàn)在已經(jīng)支持對CCE容器集群和彈性云服務(wù)器ECS(linux)進行故障注入。

CPTS服務(wù)可以實現(xiàn)對應(yīng)用接口的壓測,在故障注入的同時運行,通過CPTS的報告用來評估故障對業(yè)務(wù)的影響。

AOM可以完成對容器、主機的資源監(jiān)控,以及自定義閾值告警,故障注入后相關(guān)的監(jiān)控數(shù)據(jù)和告警數(shù)據(jù)會被寫入混沌工程測試任務(wù)的報告中,然后根據(jù)可靠性質(zhì)量評估方法實現(xiàn)自動KPI度量,生成評估報告。

APM提供了調(diào)用鏈功能,在故障注入后,利用調(diào)用鏈可以快速完成問題定位分析。

可靠性質(zhì)量評估方法上,我們采用的是基于可靠性關(guān)鍵質(zhì)量屬性的KPI評估方式,如下圖。從故障模式維度測試對象維度對KPI進行分析,可以針對自己的服務(wù)特性,自主調(diào)整評估的參數(shù),然后生成測評報告。

評估屬性和方法

image.png
分享到

xiesc

相關(guān)推薦