IBM 系統(tǒng)與科技事業(yè)部大中華區(qū)總工程師 陳國豪先生為參會(huì)用戶帶來了IBM高可用性解決方案以提高業(yè)務(wù)連續(xù)性。
陳國豪:我在IBM工作主要把一些成熟的產(chǎn)品,成熟的技術(shù),IBM技術(shù)IBM產(chǎn)品跟友商技術(shù)融合在一起,所以我今天的題目是業(yè)務(wù)連續(xù)方面分享我的經(jīng)驗(yàn),和大家報(bào)告一下業(yè)績成熟的方案和技術(shù)。
我跟大家報(bào)告一下行業(yè)趨勢,我在三個(gè)方面一個(gè)是高可用性,一個(gè)災(zāi)備,和業(yè)務(wù)連續(xù)性來跟各位分享一下。停機(jī)對業(yè)務(wù)影響非常嚴(yán)重,我們影響停機(jī)和業(yè)務(wù)生產(chǎn)我們總裁都是非常生氣的,這是一個(gè)在美國的調(diào)查,大家可能有一個(gè)感覺,不同行業(yè)停機(jī)影響的應(yīng)用成本是不一樣的,但都是非常嚴(yán)重的,比如我們看一下能源業(yè),停一個(gè)小時(shí)在美國2001年的時(shí)候影響生產(chǎn)280萬美金的成本,銀行業(yè),金融服務(wù)停一小時(shí)影響生產(chǎn)成本150萬美金。整體來說整個(gè)美國每停一小時(shí)企業(yè)就會(huì)損失1百萬美金,不同行業(yè)每一個(gè)員工平均影響生產(chǎn)力200塊美金一個(gè)人,所以影響非常嚴(yán)重。
所以在過去30年,有不同領(lǐng)域有不同的方式保護(hù)我們的生產(chǎn),70年代對數(shù)據(jù)備份做一些保護(hù),到80年代擴(kuò)展到機(jī)房里面高可用性,高可靠性的保護(hù),到90年代談到災(zāi)難備份,現(xiàn)在2000年談到應(yīng)用的連續(xù),每一個(gè)階段我們需要了解不同的公司里面的應(yīng)用技術(shù),除了我們技術(shù),我們還需要明白應(yīng)用、流程和公司里面不同部門的關(guān)系,以及了解業(yè)務(wù)的策略是怎樣的。
在業(yè)界把災(zāi)備分成了七個(gè)級別,要是級別比較低,實(shí)施的成本也比較低,級別比較高我們實(shí)施的方案成本也比較高,在一般的高端企業(yè)面向第六級或第七級。我們進(jìn)行災(zāi)難恢復(fù)或數(shù)據(jù)恢復(fù)的方案,其實(shí)我們IT同仁、企業(yè)IT部門經(jīng)理看重什么因素呢?他們看重應(yīng)用的連續(xù)性,另外看重的是數(shù)據(jù)的備份,這兩個(gè)東西非常重要的,90%以上IT同仁都會(huì)看重業(yè)務(wù)連續(xù)、數(shù)據(jù)的備份。
今天全球企業(yè)級用戶做了什么?我們看到40%用戶做了數(shù)據(jù)備份,還沒有做到六級、七級的災(zāi)備,在中國有2/3企業(yè)級用戶有一個(gè)災(zāi)備中心,他做了數(shù)據(jù)級別的保護(hù)??匆幌麓笮推髽I(yè)和中小型企業(yè)的分別,有一半大型企業(yè)分別有一個(gè)數(shù)據(jù)的災(zāi)備,還有一個(gè)災(zāi)備中心,而中小型企業(yè)就沒有一個(gè)災(zāi)備中心,可能只有一個(gè)數(shù)據(jù)的保護(hù)。
這個(gè)是業(yè)界趨勢,有三方面的方案,首先是高可靠性的方案,高可靠性的方案定位就是同一個(gè)機(jī)房里面所有東西都要冗余保持高可靠性。機(jī)房里面有四個(gè)不同的模塊,最上面是邊界冗余,下來是服務(wù)器、數(shù)據(jù)服務(wù)器冗余,也有網(wǎng)絡(luò),SAN的冗余,最后是在市場上看到存儲(chǔ)方面的冗余,所以有四個(gè)不同的程序,我把在業(yè)界里面跟各位分享成熟的方案和成熟的技術(shù)在這四方面是什么?
服務(wù)器冗余不同平臺有不同的科技。周邊冗余比較簡單就是第四到第七層交換,還有負(fù)載平衡的環(huán)境。最后看到最近一兩年很多高端企業(yè)都談到存儲(chǔ)的冗余。
這是簡單的服務(wù)器冗余,在Unix平臺上,雙冗余的服務(wù)器,一個(gè)服務(wù)器死掉,我們可以把應(yīng)用擺過來,等修復(fù)好以后可以切回到原來的服務(wù)器里面,這是服務(wù)器冗余。在PC服務(wù)器上也配合做一些PC服務(wù)器需求。在過去一兩年高端企業(yè)對數(shù)據(jù)存儲(chǔ)保護(hù)看的很重的,如果服務(wù)器停機(jī)一小時(shí)之內(nèi)可以備份出來,一旦存儲(chǔ)壞了,我的經(jīng)驗(yàn)可能運(yùn)氣好兩小時(shí),運(yùn)氣不好要一兩天。所以在一些高端行業(yè),全球也開始慢慢做這樣一個(gè)方案,有雙冗余在存儲(chǔ)方面,當(dāng)然有不同的做法,左手邊是雙磁盤,右邊是存儲(chǔ)的拷貝來保護(hù)。
同一個(gè)中心就可能看到災(zāi)備的環(huán)境,災(zāi)備是非常重要的,回顧過去15年有很多災(zāi)難的事情,美國9.11,去年Hurricane Katrina(Katrina颶風(fēng))在美國,所以災(zāi)難備份對企業(yè)滿需要的,災(zāi)難備份在某個(gè)生產(chǎn)周期里面多加一個(gè)、兩個(gè)災(zāi)備中心。這兩個(gè)中心可能同城異地,去實(shí)施災(zāi)備的時(shí)候,我能允許發(fā)生災(zāi)難的允許掉多少時(shí)間的數(shù)據(jù),一秒鐘,還是完全不能掉,還是三、五分鐘可以。通過分析后之后就把剛才定位的七層,可以定位到我需要的災(zāi)備是哪一層。
要是在企業(yè)級別看到的需求,一般都是第六、第七層災(zāi)備進(jìn)行的,這里面有四個(gè)不同的技術(shù)模塊。第一個(gè)是存儲(chǔ)的拷貝,我們需要從一個(gè)中心通過存儲(chǔ)的拷貝把數(shù)據(jù)拷貝到另外一個(gè)災(zāi)備中心。當(dāng)然拷貝不一定是通過硬件來實(shí)現(xiàn)的,也可以通過軟件來實(shí)現(xiàn),通過軟件實(shí)現(xiàn)的好處是網(wǎng)絡(luò)要求比較低,當(dāng)然它的數(shù)據(jù)丟失可能比較多。有一個(gè)很重要的東西,有很多時(shí)候都沒有考慮到就是數(shù)據(jù)一致性,要求多臺的存儲(chǔ)在生產(chǎn)中心,要是沒有考慮數(shù)據(jù)一致性,災(zāi)備中心一旦發(fā)生事故,我的數(shù)據(jù)一點(diǎn)沒有丟失,如果沒有數(shù)據(jù)一致性,我的應(yīng)用可能起不來了,所以必須要進(jìn)行數(shù)據(jù)一致性的考慮,需要不同的技術(shù)來進(jìn)行這樣的部署,IBM有TPC,重要功能就是做數(shù)據(jù)一致性,IBM高端存儲(chǔ)DS8000可以做到數(shù)據(jù)一致性,所以不同平臺,不同需求有不同的技術(shù)。最后就是自動(dòng)化,我們在9.11的時(shí)候,美國很多中心、很多行業(yè)在紐約都有數(shù)據(jù)災(zāi)備中心,但是起不來,起不來的原因是當(dāng)時(shí)IT人員都找不到了,也沒有實(shí)施自動(dòng)化的流程,所以就一天、兩天過去,三天都起不來。所以9.11以后所有行業(yè)都非常重視自動(dòng)化。
數(shù)據(jù)拷貝就不多談了,只有兩個(gè)可選的東西,一個(gè)是同步,一個(gè)是異步,同步?jīng)]有數(shù)據(jù)丟失,異步是一點(diǎn)數(shù)據(jù)丟失,IBM一千公里可能丟失3到5秒的數(shù)據(jù),這看你的業(yè)務(wù)量是多少,IBM在大中華區(qū)最遠(yuǎn)的一個(gè)異步方案是200公里。通過軟件拷貝的解決方案也很多,不同廠家有不同的方案,IBM在高端存儲(chǔ),高端服務(wù)器有GDPS,通過軟件來進(jìn)行拷貝的工具,我們在中國大的軟件都是通過軟件的拷貝工具來進(jìn)行北京上海、或者上海廣州,廣州深圳的數(shù)據(jù)傳輸,支持的數(shù)據(jù)量非常多的,用軟件的好處對網(wǎng)絡(luò)的要求是比較低,比如甲骨文的軟件,有可能15分鐘的數(shù)據(jù)丟失,有可能半個(gè)小時(shí)。那東西蠻重要的,盡管沒有數(shù)據(jù)丟失我們?yōu)膫渲行暮芸赡芷鸩粊?。給大家一個(gè)案例,右手邊流程是我們測試一家國營企業(yè)的銀行,它數(shù)據(jù)非常多是全國的數(shù)據(jù),我們做了一個(gè)測試,它有很多臺服務(wù)器,有很多臺的存儲(chǔ),它的中心是1200公里的距離,自動(dòng)化工具能在100分鐘之內(nèi)把所有的服務(wù)器重啟、所有的應(yīng)用服務(wù)器啟動(dòng),所有的存儲(chǔ)恢復(fù)100分鐘之內(nèi),沒有自動(dòng)化工具最少要六個(gè)小時(shí)。所以自動(dòng)化是非常重要的一個(gè)工具,IBM有根據(jù)不同平臺的不同的解決方案,有一些是IBM自己的方案,有一些是我們和友商合作的方案。
IBM最近提供一些所謂端到端的方案,把友商的科技,把我們的服務(wù),打成一個(gè)包,這個(gè)包一般面向中小型客戶,這個(gè)包做什么?我用一個(gè)視頻來說明。 剛才談的是一個(gè)服務(wù)包,這是一個(gè)打包的端到端的整體服務(wù)解決方案,在Windows平臺,在Unix服務(wù)平臺,我們還有一個(gè)在Windows平臺能進(jìn)行災(zāi)備的方案。
最后一個(gè)方案是業(yè)務(wù)的連續(xù)性,剛才看到高可用性都是面向硬件故障的,都是面向一些災(zāi)難,硬件故障的,其實(shí)業(yè)界發(fā)生故障的時(shí)候65%不是跟硬件有關(guān)系的,有可能是人工錯(cuò)誤,或者應(yīng)用發(fā)生問題,有可能是變更管理做得不好,發(fā)生數(shù)據(jù)丟失,那樣的情形導(dǎo)致生產(chǎn)停止的。
在最近一兩年整個(gè)業(yè)界都談到業(yè)務(wù)連續(xù)性,業(yè)務(wù)連續(xù)性是怎樣一個(gè)東西?它是從整個(gè)企業(yè)考慮,不光是主機(jī)和應(yīng)用,不光是人員和流程是整體來考慮的。每個(gè)東西都有不同的模塊,在最近幾年在業(yè)務(wù)連續(xù)性方面看到四個(gè)不同的方面,一個(gè)是信息生命周期管理,另外一個(gè)是策略咨詢服務(wù),我們該做什么,不該作什么?什么東西用不同的方法保護(hù),這是IT的決策咨詢服務(wù)。第三個(gè)是IT安全與監(jiān)督,我們怎么管理一個(gè)數(shù)據(jù)中心,最后就是有很多用戶做的,不同的行業(yè)有不同的安全指標(biāo)的要求,在醫(yī)院都有HIPAA的標(biāo)準(zhǔn)需要去滿足,那些需要被盡量減少人工錯(cuò)誤,所以有一些安全的標(biāo)準(zhǔn)要滿足。在銀行有Basel II這個(gè)標(biāo)準(zhǔn),所有行業(yè)我們看到Sarbanes-Oxley Act (SOX),滿足這標(biāo)準(zhǔn)證明你管理的機(jī)制很好,所以很多需要都會(huì)找一些基準(zhǔn)服務(wù)來滿足這個(gè)行業(yè)的標(biāo)準(zhǔn)。
我談一下信息生命周期管理,IBM做的事情就是兩個(gè)目標(biāo),一個(gè)是發(fā)生意外的時(shí)候,發(fā)生手工的故障的時(shí)候,我能回到某一個(gè)時(shí)間段的數(shù)據(jù),數(shù)據(jù)的備份。另外一個(gè)主要的功能就是作為歷史數(shù)據(jù)的處理,比如我一年,或者五年的數(shù)據(jù)以前就扔掉了,現(xiàn)在SOX的標(biāo)準(zhǔn),要保留七年以上的數(shù)據(jù),這些東西不能說永遠(yuǎn)都在一個(gè)硬盤里面,那太貴了,可能需要進(jìn)行不同級別的存儲(chǔ),生產(chǎn)放在全球,歷史的放到磁帶庫。
當(dāng)然也有一些行業(yè)的服務(wù),BCP(業(yè)務(wù)連續(xù)性計(jì)劃)做的東西在這圖上看到是風(fēng)險(xiǎn)管理,業(yè)務(wù)影響的方式,什么業(yè)務(wù)需要做哪幾個(gè)層次的保護(hù),就在這樣一個(gè)風(fēng)險(xiǎn)分析出來的結(jié)果,我們應(yīng)該用哪些產(chǎn)品哪些技術(shù)。我們有一個(gè)很好的方案,很好的技術(shù),很好的流程,但是我們需要一個(gè)很好的管理,所以慢慢看數(shù)據(jù)中心管理里面不同的環(huán)節(jié),比如變更管理,恢復(fù)管理,災(zāi)備管理,整體的流程是怎么弄到一起的,這些是非常重要的。
最后總結(jié)一下我今天說的題目,要做一個(gè)很好的業(yè)務(wù)連續(xù)性方案,除了看場地,數(shù)據(jù)、網(wǎng)絡(luò)、硬件、軟件以外,在這上面還有兩層,一個(gè)要知道我們有什么樣的業(yè)務(wù)需求,我們針對這個(gè)需求有一個(gè)管理的機(jī)制,我們有組織去實(shí)現(xiàn)這個(gè)需求,我們有很好的布置,下來我們才選擇服務(wù)、網(wǎng)絡(luò)、這樣我們有一個(gè)很好的布局。我今天就談到這里,謝謝各位!