亞健康 3.0 算法原理
亞健康 3.0 在繼承了 2.0 版本的成功經(jīng)驗的基礎上,進一步完善了其不足之處。特別是在面對新硬件引入過程產(chǎn)生新的亞健康問題,其核心設計理念是將亞健康處理跟數(shù)據(jù) IO 路徑進行分離,從而實現(xiàn)外部檢測與全局決策的能力。亞健康 3.0 模塊負責亞健康場景的識別,但其本身運行和升級可以獨立于存儲系統(tǒng)本身。
針對于亞健康檢測的復雜性和靈活多變的需求,我們的架構(gòu)設計具備以下特點:
下面是亞健康 3.0 的軟件架構(gòu):
金融萬盤規(guī)模案例
某金融客戶在不同時間里在不同業(yè)務場景里部署了大規(guī)模 XSKY SDS 集群,期間不斷擴容新的硬件。至今,其總硬盤數(shù)已超過 10000 塊,其中很多硬盤已經(jīng)持續(xù)運行了超過 4 年時間。由于硬盤本身的老化和正常的磨損,亞健康導致的系統(tǒng)性能波動偶爾發(fā)生。
雖然可以通過升級存儲集群版本來解決這些問題,但是由于嚴格的生產(chǎn)運維要求,對存儲集群進行批量的升級動作太大,實施成本較高。因此,該客戶采用了亞健康 3.0 工具的獨立部署來解決這個問題。
在該客戶部署亞健康 3.0 工具的首個月中,成功識別出 21 塊高風險的亞健康硬盤,且沒有出現(xiàn)任何因亞健康檢測和隔離導致的集群性能問題。
在部署一個月內(nèi)發(fā)現(xiàn)的故障硬盤是 21 塊,月故障率是 0.21%,推算年化故障率為 2.5%。根據(jù)國內(nèi)外的統(tǒng)計數(shù)據(jù),HDD 的年化故障率根據(jù)使用的年限、品牌及型號的不同通常分布在 1%-5% 之間,因此 2.5% 的故障率屬于在正常范圍內(nèi)。
亞健康 3.0 工具從最初支持 SATA SSD、HDD,到后續(xù)支持信創(chuàng) CPU 節(jié)點、國產(chǎn)化操作系統(tǒng)、NVME SSD,以及針對不同規(guī)格的 RAID 卡等等,幾乎完整覆蓋了當前各種存儲介質(zhì)和不同運行環(huán)境下的情況。
總結(jié)
亞健康 3.0 提供了先進的可靠性監(jiān)測功能,引入創(chuàng)新的數(shù)學模型和統(tǒng)計框架,深入分析導致系統(tǒng)性能降級的部件級故障和周邊系統(tǒng)故障,不僅能夠?qū)崟r監(jiān)測網(wǎng)絡和硬盤的亞健康狀態(tài),還能對故障部分進行主動隔離,從而提高系統(tǒng)的健壯性。
同時為了有效解決一些在網(wǎng)存儲集群的亞健康問題,我們通過靈活的設計,將亞健康能力的升級完全獨立于存儲集群,這使得亞健康工具擁有獨立持續(xù)迭代的能力。
大規(guī)模存儲盤的潛在風險 | ? RAID 卡和 SAS 卡固件問題 ? HDD 慢盤和 SSD 性能抖動 |
痛點 | ? 業(yè)務連續(xù)性降級 ? 當硬盤進入亞健康狀態(tài)后,業(yè)務響應時延急劇增加,極端情況下業(yè)務被 hung 住 ? 運維管理困難 ? 維護操作繁瑣 ? 缺乏故障定位工具 ? 換盤操作不夠便捷 ? 導致業(yè)務受影響時間過長,運維成本高 |
產(chǎn)品 優(yōu)勢 | ? 支持獨立部署和升級,對存儲集群無影響 ? 精準判斷+主動有效隔離,系統(tǒng)能夠自愈,使得業(yè)務影響降低 98% ? 發(fā)生亞健康告警后,支持圖形化的硬盤點燈和換盤操作 |
收益 | ? 無需升級舊存儲集群就可以擁有亞健康盤治理能力,降低操作復雜度 ? 亞健康故障對于業(yè)務影響降低 98%,保障業(yè)務連續(xù)性 ? 大幅提升運維管理效率,提供硬盤亞健康的精準判斷和主動有效隔離,大幅降低故障定位及解決難度,運維效率大幅提升。 |
未來展望
除了對于硬件亞健康實現(xiàn)精準判斷和有效隔離外,我們已經(jīng)開始規(guī)劃亞健康 4.0 ,這一新版本不僅將覆蓋硬件單體部件,還將擴展到全業(yè)務場景的服務和性能亞健康的檢測和告警。
同時,我們還會對各大主流 SSD 廠商和型號的自定義 SMART 信息進行深入分析,皆在進一步提高預警能力,保證業(yè)務連續(xù)性和提高運維管理效率。