考慮到業(yè)務(wù)部門(mén)是隨機(jī)性的出現(xiàn)10分鐘左右的中斷,如果機(jī)器存在硬件故障,那么美信CreCloud云網(wǎng)管肯定也會(huì)有所體現(xiàn)。美信CreCloud云網(wǎng)管對(duì)ping值的反饋是默認(rèn)每2分鐘一次,3000ms算超時(shí),7*24小時(shí)任務(wù)制。我們查看ping的監(jiān)控點(diǎn),同時(shí)自定義發(fā)生故障的日期,可以查看到在此期間,ping的服務(wù)成功率是100%,同時(shí)相應(yīng)時(shí)間最長(zhǎng)也不超過(guò)8ms,并沒(méi)有發(fā)現(xiàn)如業(yè)務(wù)部門(mén)所說(shuō)的情況。
繼續(xù)檢查CPU利用率的情況,發(fā)現(xiàn)利用率較低,同時(shí)服務(wù)成功率也是100%。
在物理內(nèi)存方面的檢測(cè)依然沒(méi)有發(fā)現(xiàn)任何問(wèn)題。
以同樣的方法在0.61的服務(wù)器上進(jìn)行了排查,結(jié)果和上面的并無(wú)二致。因此可以判斷問(wèn)題并不在網(wǎng)絡(luò)硬件方面。
最終與業(yè)務(wù)部門(mén)共同檢查,發(fā)現(xiàn)問(wèn)題出在“應(yīng)用”上。0.176上跑的是業(yè)務(wù)部門(mén)自己寫(xiě)的一個(gè)服務(wù)。于是我們將該服務(wù)添加到美信CreCloud云網(wǎng)管的監(jiān)控點(diǎn)上繼續(xù)排查故障。最終發(fā)現(xiàn)該服務(wù)隨機(jī)性的掛死,在測(cè)試的兩個(gè)小時(shí)內(nèi),服務(wù)就掛掉了兩次。(在圖表中,實(shí)心區(qū)域是正常時(shí)間段,空心區(qū)域是服務(wù)失敗的時(shí)間段。)
在監(jiān)測(cè)數(shù)據(jù)列表中,還可以查看到發(fā)生故障狀態(tài)的具體時(shí)間,以及持續(xù)時(shí)間等詳細(xì)信息。
從業(yè)務(wù)部門(mén)提出疑惑,到我們給出專(zhuān)業(yè)的答案,整個(gè)過(guò)程不超過(guò)1個(gè)小時(shí)。領(lǐng)導(dǎo)對(duì)我們解決問(wèn)題的速度和專(zhuān)業(yè)性提出了肯定。而這個(gè)過(guò)程中,美信CreCloud云網(wǎng)管這種高效的工作機(jī)制和準(zhǔn)確簡(jiǎn)單的圖表可以說(shuō)是功不可沒(méi)。通過(guò)美信CreCloud云網(wǎng)管的圖表數(shù)據(jù),我們和業(yè)務(wù)部門(mén)找到一種更快捷也更準(zhǔn)確的溝通方式。