在重大災害性天氣面前,現(xiàn)代科技技術往往顯得脆弱無力。從臺風“海燕”、“羅莎”到前不久“天兔”造訪廣東,多家部署在汕頭的互聯(lián)網(wǎng)企業(yè)機房受到長時間斷電等嚴重影響。有些網(wǎng)站、社區(qū)因此受到嚴重影響,導致服務器終止一天之久,并且在電力恢復后,因服務器重啟需要時間,仍無法提供服務。
此時,同樣建設在汕頭的騰訊云機房,卻只用了20分鐘便恢復運營。
騰訊云總經(jīng)理陳磊曾指出,在遭遇重大自然災害時,云服務器的容災、抗災能力至關重要。因機房斷電導致的云服務器中斷,將會對部署在云上的應用因影響了用戶體驗,導致用戶永久性流失,這個損失,對于開發(fā)者來說是致命的。
那么,騰訊云是如何做到20分鐘排除故障的?騰訊T4技術專家吳悅表示,在容災抗災方面,騰訊云做了大量的工作,可以快速應對故障。
他告訴記者,面對自然災害時,針對可能出現(xiàn)的電力中斷風險,騰訊云會對IDC備用發(fā)電設備進行檢查,評估燃油儲備,保障電力供應。針對可能出現(xiàn)的網(wǎng)絡中斷風險,準備流量繞行方案。“騰訊云的備用發(fā)電機,會在電力出現(xiàn)故障的時候,幫助我們隨時上線,保持電力不中斷。“吳悅?cè)缡钦f。
在天兔肆虐之時,正是這些抗災預案,使騰訊云機房出現(xiàn)電力故障的時候,最大限度保障了開發(fā)者的業(yè)務。
因自然災害引發(fā)服務器中斷后,如何最大程度上保障用戶數(shù)據(jù)?這需要云計算提供智能的數(shù)據(jù)備份機制。騰訊云北京研發(fā)中心總監(jiān)鄭立峰告訴記者,根據(jù)騰訊云實際運營數(shù)據(jù),騰訊云提供的熱備、冷備機制,還有binlog流水恢復機制,可以保證開發(fā)者數(shù)據(jù)不會丟,數(shù)據(jù)安全性可達99.999%。
同時,災害導致的故障發(fā)生后,云服務器面臨的有可能是幾百倍的訪問流量,這使云計算受到更大的考驗。騰訊云的負載均衡能力,可將暴增的用戶動態(tài)地引導到不同的服務器上,防止單個服務器因壓力過大崩潰。而其分布式存儲,將數(shù)據(jù)風險盡可能地降到最低點,并可以根據(jù)訪問的量進行動態(tài)的擴展。
經(jīng)此一役,顯然容災、抗災能力,已成為衡量云計算服務質(zhì)量的不可忽視的標準。云服務商增強對自然災害、網(wǎng)絡故障等方面的預警能力,完善應對預案,是云服務商不可推卸的責任。騰訊云此次以20分鐘恢復云服務,或許已悄悄地成為云計算行業(yè),在容災能力方面的標桿。