Walter Beddoe,Six Telekurs負(fù)責(zé)IT和后勤的副總裁,他說(shuō),“17年來(lái),我們從未出現(xiàn)過(guò)影響到客戶利益的重大宕機(jī)事件。”
汽車服務(wù)公司Carfax的運(yùn)營(yíng)經(jīng)理Jerry Gregg說(shuō),重要的是要了解,不少性能測(cè)量工具計(jì)算出的正常運(yùn)行時(shí)間只是一個(gè)近似值。“這樣的數(shù)值,充其量只能用來(lái)參考。”
Gregg觀察到,一些初步的正常運(yùn)行時(shí)間測(cè)量工具得出的數(shù)值實(shí)際上可能引起誤解,因?yàn)檫@些工具不能正確地區(qū)分如下兩種情況:周日清晨睡眠時(shí)間發(fā)生的一小時(shí)長(zhǎng)的服務(wù)器宕機(jī)和周四下午正運(yùn)行關(guān)鍵業(yè)務(wù)進(jìn)程時(shí)的10分鐘的系統(tǒng)失靈。這也是為什么應(yīng)該購(gòu)買(mǎi)那些可提供全時(shí)、基于事件分析能力的測(cè)量工具的原因。
為了讓正常運(yùn)行時(shí)間分析更有意義,Gregg決定選用可以顯示服務(wù)器崩潰對(duì)關(guān)鍵業(yè)務(wù)服務(wù)產(chǎn)生何種影響的測(cè)量工具。Gregg采用了BMC的ProactiveNet性能管理軟件,該軟件可直接將服務(wù)器宕機(jī)時(shí)間與銷售交易和其他類型的面向業(yè)務(wù)數(shù)據(jù)進(jìn)行關(guān)聯(lián)。“可以讓我們用美元而不只是用時(shí)間來(lái)量化服務(wù)器的宕機(jī)事件。”
該軟件所生成的信息可幫助他確定宕機(jī)事件是否會(huì)威脅到企業(yè)的盈虧底線,為購(gòu)買(mǎi)新服務(wù)器、更好的網(wǎng)絡(luò)設(shè)備或其他可靠性增強(qiáng)技術(shù)及服務(wù)的預(yù)算做辯護(hù)。“如果沒(méi)有這樣的信息,你就只能在無(wú)法真正了解運(yùn)營(yíng)成本的情況下進(jìn)行成本效益決策,”Gregg說(shuō)。
別讓黑客“盜取”正常運(yùn)行時(shí)間
在保障服務(wù)器正常運(yùn)行時(shí)間方面,安全也會(huì)發(fā)揮重要的作用。假如服務(wù)器遭遇惡意軟件攻擊,或者網(wǎng)絡(luò)路徑不安全,那么服務(wù)器宕機(jī)是毫不令人驚訝的。“需要從物理安全起步——也就是數(shù)據(jù)中心的建筑開(kāi)始,首先保障其物理安全,”Beddoe說(shuō)。
其次,要建立服務(wù)器的訪問(wèn)規(guī)則,并予以強(qiáng)制執(zhí)行,同時(shí),還要強(qiáng)制執(zhí)行安全程序、防病毒程序、防火墻,培訓(xùn)遵紀(jì)守法的管理員,都是非常重要的。Beddoe說(shuō),“所有這些要素在服務(wù)器安全和提升正常運(yùn)行時(shí)間方面都發(fā)揮著同樣的重要作用。”
為IT咨詢及客戶軟件開(kāi)發(fā)商Superior科技解決方案公司監(jiān)管服務(wù)器運(yùn)營(yíng)的John Luludis說(shuō),要想真正讓服務(wù)器的正常運(yùn)行時(shí)間最大化,超越基本的安全實(shí)踐是很重要的。Luludis強(qiáng)烈推崇定期的獨(dú)立安全審計(jì)。“我監(jiān)管的網(wǎng)絡(luò)必須定期進(jìn)行滲透測(cè)試,之所以要這么做就是要讓我的網(wǎng)絡(luò)盡可能的安全,而且最好從外部看也是安全的。”
保護(hù)你的數(shù)據(jù)
盡管Princeton Radiology的Howard也強(qiáng)烈信奉定期的服務(wù)器維護(hù),但是他也指出,經(jīng)理和員工再怎么努力也無(wú)法避免一定量故障的發(fā)生。要想防范因服務(wù)器失效而導(dǎo)致的任何數(shù)據(jù)損失,Howard建議制定數(shù)據(jù)保護(hù)計(jì)劃,并將其整合到企業(yè)全面的業(yè)務(wù)連續(xù)性戰(zhàn)略中去。
Princeton采用了來(lái)自Compellent科技的場(chǎng)外存儲(chǔ)解決方案,復(fù)制器所有已存儲(chǔ)的數(shù)據(jù)。“即便有一個(gè)災(zāi)難恢復(fù)數(shù)據(jù)中心,我們實(shí)際上也得在主要設(shè)施之外運(yùn)行一些服務(wù)器,所以我們需要雙向備份數(shù)據(jù)。”
Raoul Gabiam,華盛頓大學(xué)的IT運(yùn)營(yíng)兼工程設(shè)計(jì)經(jīng)理,他認(rèn)為生命周期管理是服務(wù)器正常運(yùn)行時(shí)間規(guī)劃的一個(gè)內(nèi)在組成部分。
華盛頓大學(xué)的Gabiam則仰仗內(nèi)置于網(wǎng)絡(luò)基礎(chǔ)設(shè)施中的負(fù)載均衡技術(shù)來(lái)防范服務(wù)器可能出現(xiàn)的突然宕機(jī)。“假如一臺(tái)服務(wù)器崩潰或者某個(gè)應(yīng)用不響應(yīng),那么網(wǎng)絡(luò)流量就會(huì)重定向到其他服務(wù)器,相同的服務(wù)器也能處理這一工作負(fù)載。”
和Princeton的Howard不一樣,Gabiam比較看好集群,采用了Novell的集群服務(wù)來(lái)提供附加的冗余層。如果集群中的一個(gè)節(jié)點(diǎn)失靈,或者有停機(jī)維護(hù)的需要,那么在該節(jié)點(diǎn)上運(yùn)行的集群應(yīng)用或者某個(gè)服務(wù)組件便可無(wú)縫地遷移到集群的另一個(gè)節(jié)點(diǎn)上去運(yùn)行。
這個(gè)遷移進(jìn)程可以配置成手工失效備援或者自動(dòng)失效備援。“一般而言,在硬件或軟件失效時(shí),應(yīng)該讓?xiě)?yīng)用自動(dòng)失效備援到下一個(gè)備選節(jié)點(diǎn)上去,”Gabiam說(shuō),不過(guò)管理員也可以在某個(gè)特定節(jié)點(diǎn)須執(zhí)行維護(hù)任務(wù)時(shí),手動(dòng)將應(yīng)用遷移到另一個(gè)節(jié)點(diǎn)去。