高規(guī)格的硬件,是否能確保數(shù)據(jù)中心的安全運維?根據(jù)Uptime Institute統(tǒng)計數(shù)據(jù)顯示,數(shù)據(jù)中心七成的事故都是人為因素造成的。人為因素屬于數(shù)據(jù)中心運維管理范疇。數(shù)據(jù)中心運維管理包括運維組織、運維基本制度、運維流程和運維價值提升等。而運維流程又包括事件管理、問題管理、變更管理、維護管理、故障管理、場地配置管理、設備生命周期管理、應急管理、質量管理、成本管理和安全管理等。
也許你會認為運維管理上的疏忽,也許沒什么影響。畢竟大部分數(shù)據(jù)中心配電系統(tǒng)是2N架構,通過高冗余可以使可用性達到4個9以上。然而,沒有經(jīng)過系統(tǒng)培訓的運維工程師在應急處置情況下容易犯錯,就可能導致停電宕機。宕機意味著什么?對于金融等特定行業(yè)而言,就是以秒計算的損失,時間就是金錢。
在整個數(shù)據(jù)中心生命周期中,數(shù)據(jù)中心運維管理是歷時最長的一個階段。運維管理是數(shù)據(jù)中心業(yè)務的重中之重,然而,在實際工作中卻有諸如人才、技術、需求等多重阻礙因素,極大地影響了運維管理的工作效率。
首先,數(shù)據(jù)中心市場近年來蓬勃發(fā)展,數(shù)據(jù)中心服務商對專業(yè)化人才的需求量迅速擴大,專業(yè)化人才供不應求的矛盾十分突出。一方面,行業(yè)迅速發(fā)展,新技術快速更新,而部分早期從業(yè)人員知識結構老化,缺乏業(yè)內相關專業(yè)資質認證,以至于部分人員不適應新的行業(yè)環(huán)境要求;另一方面,新增人才補給速度跟不上行業(yè)快速發(fā)展形勢。數(shù)據(jù)中心服務商如無法招聘到合適的專業(yè)化人才,勢必對其數(shù)據(jù)中心運營產(chǎn)生不利影響。
值得一提的是,北京市順義區(qū)農(nóng)商行數(shù)據(jù)中心近日發(fā)生聚集性疫情,造成數(shù)十人的感染病例,涉及多個行政區(qū),引起了社會的廣泛關注。在疫情防控的特殊時期,數(shù)據(jù)中心人員如何實現(xiàn)做好基礎設施保障工作的同時,又能夠以最少的在崗人員兼顧疫情管控的要求?
如此看來,經(jīng)驗豐富的數(shù)據(jù)中心運維團隊價值日益凸顯,以萬國數(shù)據(jù)、光環(huán)新網(wǎng)、世紀互聯(lián)、企商在線為代表的數(shù)據(jù)中心廠商因其數(shù)十載服務客戶而積淀的豐富行業(yè)經(jīng)驗,對其疫情常態(tài)化形勢下的運維工作起到了關鍵性作用。
以企商在線為例,其不僅運維團隊經(jīng)驗豐富,而且針對技術新人培養(yǎng)的優(yōu)勢在疫情中也體現(xiàn)得淋漓盡致。企商新入職員工需要接受為期三個月的標準化技能培訓,其培訓內容均由具有一線實戰(zhàn)經(jīng)驗十年以上的老員工負責整理,將其經(jīng)歷建設、驗收測試、處理大大小小的故障的切身經(jīng)驗作為培訓課程加以傳授。其中,應急預案EOP 24種,設計場景45個,標準化操作流程26類,標準化維護指導書超過20個。可以說,想要在企商的數(shù)據(jù)中心做個合格的運維人員并非易事,而零事故只是其運維工作的最低標準。
正是通過這樣的技能培訓方式,將老師傅的切身經(jīng)驗薪火相傳,大大縮短了通過經(jīng)驗培養(yǎng)運維人才的時間,并依托整體的體系化培訓進行實操、技能提升,讓新人提前獲取足夠的經(jīng)驗,培訓后經(jīng)考核方可上崗,有助于新人迅速成長為技術骨干。
其次,隨著互聯(lián)網(wǎng)發(fā)展的不斷深入和互聯(lián)網(wǎng)應用的不斷多元化,互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模呈指數(shù)級增長,對互聯(lián)網(wǎng)數(shù)據(jù)中心的需求也將呈現(xiàn)指數(shù)級的增長。為滿足當前互聯(lián)網(wǎng)基礎設施的需求,數(shù)據(jù)中心還將不斷進行擴建,數(shù)據(jù)中心規(guī)模仍將保持上升的態(tài)勢,這就對數(shù)據(jù)中心建設規(guī)模、承載業(yè)務以及存儲與計算等技術提出了更高的要求,運維管理負擔重等問題凸顯。與此同時,數(shù)據(jù)中心承載業(yè)務的業(yè)務流量高速增長,對數(shù)據(jù)中心內部網(wǎng)絡管理和性能提出了更高要求。
從數(shù)據(jù)中心運維機制來看萬國數(shù)據(jù),萬國數(shù)據(jù)基于20年管理大量大規(guī)模數(shù)據(jù)中心的經(jīng)驗積累,搭載自主研發(fā)了13年的軟件平臺,能駕馭2000-3000MW體量數(shù)據(jù)中心的指揮控制中心,萬國數(shù)據(jù)將數(shù)據(jù)中心整體架構進行了立體化的分化,構建起全球運營指揮中心、區(qū)域運營指揮中心、單座數(shù)據(jù)中心三道防線,以幫助指揮調度、秒級定位和應急機測和預測,推動數(shù)據(jù)中心進一步走向智能化。
在疫情防控的特殊時期,創(chuàng)新型技術的應用必不可少。世紀互聯(lián)利用智航運維系統(tǒng)上的能源管理模塊來檢測數(shù)據(jù)中心的功耗、PUE、碳排放、碳使用效率(CUE)等數(shù)據(jù)。該模塊內置AI控制系統(tǒng),通過歷史數(shù)據(jù),建立系統(tǒng)模型,計算最優(yōu)運行策略和設備參數(shù),以達到降低系統(tǒng)能耗的目的。世紀互聯(lián)加速部署先進的綠色低碳技術,既可提升產(chǎn)品經(jīng)濟效益,又可打出產(chǎn)品差異化,還能提升產(chǎn)品的合規(guī)性。
再以企商在線燕郊金融大數(shù)據(jù)算力中心為例,該運維平臺設計規(guī)劃60人座席提供網(wǎng)絡、負載、生產(chǎn)能力、 電力、溫度、安防監(jiān)控,實時推送,并通過IT運維管理可視化,可以對數(shù)據(jù)中心內所有網(wǎng)絡設備、應用系統(tǒng)、操作系統(tǒng)等進行安全監(jiān)測,通過3D機房可視化、安全態(tài)勢可視化、信息資產(chǎn)可視化等方式,能幫助運維全方位感知數(shù)據(jù)中心園區(qū)網(wǎng)絡安全態(tài)勢,實現(xiàn)高效的預測管理以及容量管理,提供金融級綠色高效數(shù)據(jù)中心服務。
數(shù)據(jù)中心穩(wěn)定性不僅受限于運維管理水平,也受系統(tǒng)架構、設備品牌等因素影響。因此,實力雄厚的數(shù)據(jù)運營商如今大都按照T3及以上級別規(guī)劃數(shù)據(jù)中心基礎設施系統(tǒng)架構;在設備品牌方面優(yōu)選國際一線品牌、國內一線品牌設備供應商,從設備端降低故障發(fā)生率;在測試驗證方面,則通過綜合測試驗證數(shù)據(jù)中心可用性,排除建設過程中的缺陷,減少運維過程中的隱患。
有行業(yè)專家表示,以北京為例,當前已有很多數(shù)據(jù)中心已經(jīng)進入“中老年期”。對于這一類數(shù)據(jù)中心而言,可能存在以下兩方面問題:其一,是當初的規(guī)劃設計已經(jīng)不滿足目前市場環(huán)境需求的問題。目前,市場環(huán)境所需要的數(shù)據(jù)中心,應當是單機柜供電密度相對更高、能效利用水平更好的數(shù)據(jù)中心,然而,很多中老年數(shù)據(jù)中心就輸在了起跑線上。同時,能效利用水平的較低會導致企業(yè)經(jīng)營成本的升高。其二,是設備的折舊問題。甚至有可能是因為運維管理的不足,導致設備提前折舊,而這種情況并不鮮見,運維可靠性很難得到保障。
因此,想要保障業(yè)務的高效順暢運轉,選擇擁有豐富運維經(jīng)驗的大牌數(shù)據(jù)中心廠商是必選項,與此同時,選用一家按照行業(yè)高標準傾力打造的最新數(shù)據(jù)中心亦是大有裨益。