這一連串問題都關(guān)聯(lián)到一個核心詞:穩(wěn)定性。馬勁表示,阿里云專有云和公共云同根同源,擁有和公共云一樣的穩(wěn)定性,簡單來說,專有云就是阿里云的一種部署形態(tài),相比公共云部署在機(jī)房,只是部署地點(diǎn)發(fā)生變化,整體的架構(gòu)實(shí)現(xiàn)和使用體驗(yàn)和公共云保持一致。

基于公共云架構(gòu)的專有云平臺

很多大企業(yè)希望把公共云上的能力完整部署在自己的數(shù)據(jù)中心,也就是將專有云和公共云組成混合云,既能夠很好應(yīng)對自己對數(shù)據(jù)主權(quán)的需求,同時又能夠處理好彈性的場景。

“在數(shù)據(jù)中心領(lǐng)域,我們提供了完整的專有云,就像一臺云計算機(jī)裝到客戶的數(shù)據(jù)中心,讓整體使用非常便捷?!?/p>

過去通過License模式使用專有云,在現(xiàn)場還發(fā)布了一種新的收費(fèi)模式:訂閱模式,可以讓企業(yè)選擇更加靈活,并且成本也下降了。

過去四年,阿里云已經(jīng)把專有云部署到了金融、能源、公共服務(wù)等行業(yè),提供了60多種云產(chǎn)品,最大單集群規(guī)模達(dá)到10000。

混沌工程:錘煉產(chǎn)品穩(wěn)定性

為提升系統(tǒng)穩(wěn)定性,阿里云引入了“混沌工程”理念,在仿真的生產(chǎn)環(huán)境中做千倍高頻的異常注入,對不符合預(yù)期的系統(tǒng)反饋不斷優(yōu)化,從而持續(xù)打磨穩(wěn)定性。

馬勁在現(xiàn)場解釋了混沌工程(Chaos Engineering)的原始概念:在進(jìn)行每個實(shí)驗(yàn)之前工程師會提出一個導(dǎo)致系統(tǒng)失效的假設(shè)情景,進(jìn)而設(shè)計一個實(shí)驗(yàn)去引發(fā)或模擬該情景,并以受控、自動化的方式開展實(shí)驗(yàn)。通過觀測系統(tǒng)的反饋,對不符合預(yù)期的結(jié)果進(jìn)行深入的分析并持續(xù)的改進(jìn)。

對于阿里云來說,更好的穩(wěn)定性是永恒的命題,引入混沌工程這一理念再配合上不斷的實(shí)踐則將是最好的證明該命題的方式。

百種異常現(xiàn)場隨機(jī)注入破壞系統(tǒng)

去年的杭州云棲大會上,專有云做了斷電演示,這次馬勁又帶來了云原生架構(gòu)下現(xiàn)場隨機(jī)破壞。

在場外,搭建了專有云“企業(yè)號”空間站現(xiàn)場數(shù)據(jù)中心,該數(shù)據(jù)中心由8大品牌服務(wù)器搭建,模擬了客戶真實(shí)的復(fù)雜生產(chǎn)環(huán)境,同時現(xiàn)場直播應(yīng)用便搭載在該數(shù)據(jù)中心的系統(tǒng)上,在注入異常后將直觀的通過觀察直播是否卡頓來判斷專有云系統(tǒng)是否真的穩(wěn)定。

目前,阿里云異常庫中有超過12600種異常,現(xiàn)場提供了100種隨機(jī)異常,讓觀眾隨機(jī)選擇,最終被選中的是“ECS云產(chǎn)品網(wǎng)絡(luò)傳輸包亂序比例陡增”和“SLB云產(chǎn)品網(wǎng)絡(luò)傳輸時延陡增”。

在分別注入這兩個異常場景后,直播視頻仍然保持順暢毫無卡頓。馬勁解釋,這是因?yàn)樵谌粘9ぷ髦?,已?jīng)通過注入這類異常建出了“專有云免疫系統(tǒng)”。

此外,他還演示了極端環(huán)境下的超級異?!昂诵腅CS集群局部網(wǎng)絡(luò)異常且另一臺ECS計算資源飽和”。

這個異常模擬了業(yè)務(wù)高峰期服務(wù)器已經(jīng)超高負(fù)載時的網(wǎng)絡(luò)故障,比如雙十一的時候,這類情況極易引發(fā)系統(tǒng)雪崩,一旦雪崩恢復(fù)時間超過幾小時甚至幾天。不過,現(xiàn)場在出現(xiàn)卡頓、花屏以后的十幾秒便恢復(fù)正常。而這背后主要是負(fù)載均衡的快速隔離及彈性伸縮服務(wù)智能資源分配及時發(fā)揮了作用。

“在真實(shí)業(yè)務(wù)場景中,故障難以避免,阿里云將杜絕冷漠和惰性,幫助客戶提前發(fā)現(xiàn)各種問題。”

分享到

xiesc

相關(guān)推薦