一、在什么情況下該使用SCOM?

雖然SCOM系統(tǒng)中心操作管理器是一個(gè)非常不錯(cuò)的工具,但是并不是在什么情況下都適合使用。如果企業(yè)的網(wǎng)絡(luò)環(huán)境比較簡(jiǎn)單,如整個(gè)網(wǎng)絡(luò)中就只有一臺(tái)域控制器或者只有十幾臺(tái)客戶端,此時(shí)使用SCOM系統(tǒng)中心操作管理器反而是大題小作,將簡(jiǎn)單的問題復(fù)雜化。在小型的網(wǎng)絡(luò)中,一般只需要使用操作系統(tǒng)自帶的日志管理器即可。

而在一些比較復(fù)雜的網(wǎng)絡(luò)環(huán)境中,使用SCOM則可以大幅度的提高管理員的工作效率。對(duì)于復(fù)雜的定義一般很難下。筆者認(rèn)為,如果域控制器中每天產(chǎn)生的日志信息達(dá)到5000條以上,此時(shí)就可以采用SCOM。因?yàn)镾COM能夠提供跟蹤每天發(fā)生的數(shù)萬條事件日志消息的能力。也就是說,對(duì)收集到的日志信息進(jìn)行處理,并根據(jù)相關(guān)的規(guī)則發(fā)出警報(bào)或者自動(dòng)響應(yīng)等的功能。SCOM基于模型的體系結(jié)構(gòu)從根本上改變了以前傳統(tǒng)的網(wǎng)絡(luò)與操作系統(tǒng)監(jiān)控方法。其通過相互依賴的組件,將整個(gè)服務(wù)器與網(wǎng)絡(luò)環(huán)境以分層的服務(wù)器組進(jìn)行立體式的監(jiān)控。故對(duì)于比較復(fù)雜的應(yīng)用環(huán)境,其仍然可以比較輕松的應(yīng)對(duì),而不會(huì)影響相關(guān)應(yīng)用的性能。

故總之SCOM的使用也需要分情況對(duì)待。一般情況下只有在比較復(fù)雜的網(wǎng)絡(luò)環(huán)境中,SCOM才能夠體現(xiàn)其價(jià)值。

二、收集相關(guān)信息。

對(duì)于日志來說,其處理主要有四個(gè)過程,分別為日志信息的收集、定義監(jiān)控規(guī)則、自動(dòng)報(bào)警機(jī)制以及相關(guān)的報(bào)表信息。其中收集相關(guān)信息是這個(gè)環(huán)節(jié)中的第一步,也是最重要的一步。巧婦難為無米之炊。如果不能夠收集到充分、必要的信息,那么即使是專家級(jí)別的專家,也會(huì)對(duì)故障束手無策。對(duì)于信息的收集,有兩個(gè)基本的要求。一是收集的信息不能夠有重大遺漏,二是信息收集時(shí)不能夠影響到服務(wù)器以及相關(guān)應(yīng)用程序的正常作業(yè)。

在SCOM中,系統(tǒng)提供了一種叫做管理包的機(jī)制。簡(jiǎn)單的說,管理包就是應(yīng)用程序特定的監(jiān)控規(guī)則由單獨(dú)文件提供,或者說就是一對(duì)一。如對(duì)于微軟旗下的數(shù)據(jù)庫、DNS服務(wù)器等等,都提供了對(duì)應(yīng)的管理包。這可以大大的提高數(shù)據(jù)收集的效率,同時(shí)也不會(huì)遺漏重要的信息。管理包會(huì)隨著應(yīng)用程序的啟動(dòng),而自動(dòng)加載正確的故障檢修和確定問題所需要的相關(guān)信息。

三、自定義事件監(jiān)控規(guī)則。

在比較復(fù)雜的應(yīng)用環(huán)境中,每天產(chǎn)生的日志信息可能就有上萬條。讓管理員每天去查看這么多的信息,顯然是不現(xiàn)實(shí)的。故收集信息必然重要,如何處理這些信息才是整個(gè)環(huán)節(jié)中的關(guān)鍵問題。對(duì)于我們管理員來說,希望服務(wù)器能夠帶有一些“智能化”的功能。簡(jiǎn)單的說,就是系統(tǒng)要能夠自定義相關(guān)的監(jiān)控規(guī)則。當(dāng)某些特定的信息出現(xiàn)時(shí),才報(bào)告給管理員。而不是讓管理員每天坐在服務(wù)器前面查看日志信息。

根據(jù)筆者的切身提前,筆者認(rèn)為SCOM以下兩個(gè)特性可以幫助管理員解決這個(gè)難題。

一是在SCOM中,可以啟用基于狀態(tài)的監(jiān)控器。也就是說,將數(shù)據(jù)包與監(jiān)控器結(jié)合使用,可以實(shí)現(xiàn)高級(jí)的基于狀態(tài)的監(jiān)控和服務(wù)的健康程度的積累。同時(shí)還可以根據(jù)兩三個(gè)不同的狀態(tài)配置提供自我調(diào)整的性能閥值。如有一臺(tái)服務(wù)器,可以將其CPU的使用情況劃分為30%、60%、80%等不同的狀態(tài)。然后根據(jù)不同的狀態(tài),設(shè)置不同的規(guī)則。

二是可以自定義事件監(jiān)控規(guī)則。雖然使用以前的系統(tǒng)默認(rèn)的事件管理器,也可以對(duì)相關(guān)的內(nèi)容進(jìn)行規(guī)則定義,但是其范圍比較小。如可能只能夠?qū)蝹€(gè)資源進(jìn)行監(jiān)控。而在SCOM中,則可以對(duì)多個(gè)資源進(jìn)行組合監(jiān)控。如可以組合內(nèi)存與CPU的使用率,對(duì)其進(jìn)行加權(quán),最后得到一個(gè)閥值。對(duì)于一些應(yīng)用服務(wù)器來說,這些加權(quán)平均以后得到的值,可能會(huì)更加切合實(shí)際,具有更好的參考價(jià)值。

正是由于如上兩個(gè)特性,才使得SCOM能夠比傳統(tǒng)的監(jiān)控事件提供更加好的服務(wù)。

四、自動(dòng)報(bào)警、通知及響應(yīng)。

規(guī)則定義完成之后,接下去要考慮的問題,就是如果相關(guān)事件觸犯了這個(gè)規(guī)則,那么該如何處理?其實(shí)規(guī)則就好像是數(shù)據(jù)庫中的觸發(fā)器。當(dāng)有某些事件觸發(fā)這個(gè)觸發(fā)器時(shí),系統(tǒng)必須有所反映。如果讓用戶自己去追蹤、核對(duì)的話,那是不現(xiàn)實(shí)的。換一句話說,就是在遇到某些觸發(fā)自定義規(guī)則的事件時(shí),系統(tǒng)要能夠自動(dòng)報(bào)警、通知以及響應(yīng)。

在SCOM中有一個(gè)組件叫做OpsMgr。這個(gè)組件可以通過啟用電子郵件報(bào)警、尋呼、短消息服務(wù)、即使消息(如果啟用了這些服務(wù))和定義的功能警報(bào)角色來提供高級(jí)的警報(bào)功能。具體的來說,在自動(dòng)警報(bào)、通知及響應(yīng)中可以實(shí)現(xiàn)如下內(nèi)容。

一是可以自定義警報(bào)的高度。如磁盤的可用空間剩下40%的時(shí)候,通過郵件方式向管理員報(bào)警;磁盤的可用空間剩下10%的時(shí)候,就需要通過尋呼或者即時(shí)消息的報(bào)警。設(shè)想一下,如果一旦某個(gè)規(guī)則被觸發(fā),不管三七二十一,系統(tǒng)就向管理員發(fā)送即時(shí)消息,那么可能管理員一天就會(huì)收到好幾百條的警告信息。而通過設(shè)置合理的警報(bào)級(jí)別,可以讓一些比較緊急的內(nèi)容通過即時(shí)消息等手段放松。而一些普通的警報(bào)功能,則可以通過郵件方式發(fā)送。

二是選擇不同的警報(bào)方式。可能不同的管理員會(huì)有不同的需求。如有的喜歡郵件通知,而有的喜歡尋呼等等。在SCOM中,管理員可以根據(jù)自己的需要進(jìn)行自由的選擇。不過在選擇的過程中,筆者建議要兼顧警報(bào)的級(jí)別或者高度。即對(duì)于一些比較緊急的事件,最好能夠通過即時(shí)消息。換句話說,就是對(duì)于緊急事件,當(dāng)系統(tǒng)發(fā)出警報(bào)信息的時(shí)候,要能夠在第一時(shí)間收到。

五、相關(guān)的報(bào)表。

每隔一段時(shí)間,服務(wù)器管理員都需要對(duì)日志信息進(jìn)行分析。如需要了解服務(wù)器在一天的哪個(gè)時(shí)段、或者在一個(gè)月的哪些天特別的繁忙,CPU使用率、數(shù)據(jù)的吞吐量等等居高不下。了解這些內(nèi)容,可以幫助管理員判斷網(wǎng)絡(luò)中是否有病毒的存在,或者為其改善服務(wù)器與網(wǎng)絡(luò)的性能提供數(shù)據(jù)的支持。

而要對(duì)這些信息進(jìn)行分析,則必須要有歷史數(shù)據(jù)作為支持。沒有半年或者一年的數(shù)據(jù),是很難發(fā)現(xiàn)有規(guī)律的內(nèi)容。故在這個(gè)過程中,報(bào)表仍然是不可或缺的內(nèi)容。在SCOM中,可以配置將相關(guān)的信息自動(dòng)發(fā)送給報(bào)表數(shù)據(jù)庫服務(wù)器進(jìn)行歸檔。然后在以后有必要的情況下,對(duì)這些歸檔的數(shù)據(jù)進(jìn)行分析,以得到管理員所需要的結(jié)果。

綜上所述,SCOM能夠與Win2008 R2進(jìn)行友好的整合。從而有利于管理員對(duì)日志信息進(jìn)行收集、分析、追蹤、管理等等。為改善服務(wù)器性能、提高服務(wù)器的穩(wěn)定性提供數(shù)據(jù)方面的支持。

分享到

hanrui

相關(guān)推薦