1、全面有效的故障模式庫

基于華為在ICT領域10多年的實踐積累和數(shù)百產(chǎn)品的實際應用的沉淀,電信領域軟件的高要求,我們通過正向分析、事故分析、業(yè)界案例分析三個維度建立全面的故障模式庫。

2、精準高效的故障模擬

我們通過軟件模擬各種硬件故障,對應用無侵入,而且跟應用的實現(xiàn)語言無關。

3、端到端全自動化測評

我們實現(xiàn)了智能識別故障對象,而且全自動化運行,自動度量KPI,自動實現(xiàn)風險評估,生成測評報告,測試工程可反復執(zhí)行。防止失敗的最佳方法就是經(jīng)常失敗。在真實環(huán)境測試,而不是模擬環(huán)境。通過我們的端到端全自動化測評,可以實現(xiàn)這個目標。

華為云混沌工程應用場景

image.png

入門級可靠性測試:手工注入

功能:提供對Kubernetes集群、彈性云服務器的單業(yè)務實例、單故障模式的注入。

適用場景:開發(fā)人員針對確定故障的自驗證;測試人員針對可靠性問題回歸驗證等。

特點:操作簡單,故障注入/清除結果及系統(tǒng)的表現(xiàn)清晰可見。

image.png

手工注入是混沌工程的入門級功能,操作非常容易,結果直接清晰。

1、首先在服務所在的容器集群或者節(jié)點上安裝探針,一鍵安裝,秒級創(chuàng)建,速度很快;

2、然后選擇注入對象和注入的故障,還可以選擇設置告警、CPTS壓測工程,就可以完成一次故障注入;

3、再接著就是以5分鐘為維度獲取監(jiān)控數(shù)據(jù)生成測試報告;

4、最后你就可以基于報告來評估服務可靠性的質量了。

全流程可視化操作,只用鼠標點點點就可以了;簡單易用,使用門檻低,非常方便開發(fā)者和測試人員進行基本的可靠性測試。

進階級可靠性測試:故障演練

功能:提供對單工作負載的隨機故障注入,預置了多種入門級和進階級演練場景。

適用場景:線下隨機故障注入測試;線上例行故障演練、專項演練等。

特點:模型化的場景定義、靈活的編排調度、豐富的評估報告。

image.png

故障演練主要使用場景是線上例行故障演練和專項演練。相比于手工注入,故障演練會提供多種入門級和進階級的演練場景。上圖為傳統(tǒng)的手工演練流程,與混沌工程提供的故障演練能力對比。

三、四年前我們還處于傳統(tǒng)手工演練階段,全流程的手工進行,后續(xù)逐步演變?yōu)楝F(xiàn)在混沌工程提供的全自動化故障演練能力,經(jīng)我們自己實際使用對比,現(xiàn)在的自動化演練過程比手工更準確和規(guī)范,避免人為導致的差錯;可靠性專項測試人員投入的時間可以減少80%,端到端效率提升10倍以上。

我們提供如下的預置模板,同時也支持自定義演練任務。

image.png

高階級可靠性測試:自動測評

功能:提供對多工作負載全量的可靠性測評。

適用場景:云服務的全量可靠性測評;不同服務、不同版本的可靠性能力對比。

特點:智能對象識別、自動用例生成、無腳本化執(zhí)行、自動KPI度量、豐富的評估報告。

自動測評最大的特點就是智能對象識別、自動用例生成、無需定制腳本的全自動化執(zhí)行、自動KPI度量生成豐富的評估報告,可以對不同服務、不同版本的可靠性能力進行對比。

自動測評服務的智能對象識別能力,保證了故障對象覆蓋的全面性,能有效避免人工測試出現(xiàn)的遺漏。自動用例生成與無腳本化執(zhí)行,大幅節(jié)省了用例設計和自動化腳本編寫的工作,同時降低了自動化可靠性測試對人員技能的要求。

系統(tǒng)預置了3種常見場景模板,同時支持用戶自定義。既可以用預置目標快速創(chuàng)建任務,也可以靈活的定制任務。

image.png

測評報告

混沌工程通過結合華為云上的CCE、ECS、CPTS、AOM、APM等服務,提供了一套完整的端到端的可靠性測試解決方案,解決了測什么、如何測、如何評價的問題。

image.png

在華為云上,云服務部署的載體要么是ECS的彈性云服務器,要么是CCE的容器集群,我們現(xiàn)在已經(jīng)支持對CCE容器集群和彈性云服務器ECS(linux)進行故障注入。

CPTS服務可以實現(xiàn)對應用接口的壓測,在故障注入的同時運行,通過CPTS的報告用來評估故障對業(yè)務的影響。

AOM可以完成對容器、主機的資源監(jiān)控,以及自定義閾值告警,故障注入后相關的監(jiān)控數(shù)據(jù)和告警數(shù)據(jù)會被寫入混沌工程測試任務的報告中,然后根據(jù)可靠性質量評估方法實現(xiàn)自動KPI度量,生成評估報告。

APM提供了調用鏈功能,在故障注入后,利用調用鏈可以快速完成問題定位分析。

可靠性質量評估方法上,我們采用的是基于可靠性關鍵質量屬性的KPI評估方式,如下圖。從故障模式維度測試對象維度對KPI進行分析,可以針對自己的服務特性,自主調整評估的參數(shù),然后生成測評報告。

評估屬性和方法

image.png
分享到

xiesc

相關推薦