在Switch Gear(配電控制系統(tǒng))和UPS系統(tǒng)的優(yōu)化改造中,AWS通過(guò)自己寫(xiě)軟件控制系統(tǒng),刪除一些沒(méi)用的、添加部分對(duì)AWS有用的功能后,降低了系統(tǒng)復(fù)雜度,提升了系統(tǒng)的可靠性。在UPS系統(tǒng)改造中,標(biāo)準(zhǔn)使用小容量的電池,從而降低電池爆炸造成的危害,從而降低爆炸半徑。
2000年左右,那是一個(gè)還沒(méi)有AWS的時(shí)代,Amazon在美國(guó)西雅圖有一個(gè)數(shù)據(jù)中心,隨著業(yè)務(wù)規(guī)模的擴(kuò)大,亞馬遜開(kāi)始意識(shí)到海嘯和地震的潛在風(fēng)險(xiǎn),不能把所有東西都放這里,于是就想在沒(méi)有地震海嘯威脅的美國(guó)東海岸建一個(gè)數(shù)據(jù)中心。
兩個(gè)數(shù)據(jù)中心放的太近,可能遭受同一個(gè)自然災(zāi)害的侵襲,如果離得太遠(yuǎn),延遲會(huì)帶來(lái)數(shù)據(jù)同步的問(wèn)題也同樣不可接受,美國(guó)東西海岸的距離就會(huì)造成這一問(wèn)題。所以,數(shù)據(jù)中心之間需要保持一定的安全距離,而且要保證一毫秒以內(nèi)的延遲。
類(lèi)似的,AWS強(qiáng)調(diào)多AZ(Avaibable Zone)與多機(jī)房的概念不一樣,AWS每個(gè)Region有至少三個(gè)AZ,AWS認(rèn)為多個(gè)AZ相互間要有一定的距離,以此來(lái)降低外部環(huán)境同時(shí)對(duì)多個(gè)AZ造成影響,來(lái)提升服務(wù)的可用性。
從Region的角度看,AWS為了減少Region間可能造成的干擾,設(shè)計(jì)原則上是將各個(gè)Region獨(dú)立運(yùn)作,一個(gè)Region出的問(wèn)題不會(huì)傳遞到別的Region,在Region的級(jí)別提供冗余。
AWS供應(yīng)鏈保障
2020年是黑天鵝滿天飛的一年,突如其來(lái)的疫情,急劇增長(zhǎng)的在線業(yè)務(wù)量,逼著所有云廠商在加班加點(diǎn)忙著擴(kuò)容資源,AWS也不例外,就AWS的規(guī)模來(lái)猜測(cè),擴(kuò)容規(guī)模要遠(yuǎn)大于大部分云廠商。
為了保障擴(kuò)容的順利進(jìn)行,AWS在供應(yīng)鏈采購(gòu)管理上采取了多元化策略,供應(yīng)商的數(shù)量,供應(yīng)商覆蓋的國(guó)家和地區(qū)在數(shù)量上有了很大提升。如今,AWS的供應(yīng)鏈系統(tǒng)覆蓋7個(gè)國(guó)家,86家供應(yīng)商,以此來(lái)暴漲供應(yīng)鏈的穩(wěn)定。
在疫情在全球爆發(fā)的2020年,多元化管理策略確實(shí)挺有價(jià)值,疫情的不確定性給供應(yīng)鏈帶來(lái)很大挑戰(zhàn),許多國(guó)家的生產(chǎn)環(huán)節(jié)和清關(guān)效率都出了很大問(wèn)題,對(duì)此,周舸表示深有體會(huì)。
寫(xiě)在最后
在可用性方面,公有云作為公開(kāi)可見(jiàn)的服務(wù),更容易受到公眾關(guān)注,造成公有云更容易出故障的印象。
拋開(kāi)客觀感受不說(shuō),由于公有云作為一種服務(wù),而不是一個(gè)個(gè)on-premise產(chǎn)品盒子,要考慮的內(nèi)容更多一些,比如供電,比如網(wǎng)絡(luò),比如運(yùn)營(yíng)能力等,確實(shí)非常考驗(yàn)云廠商的綜合實(shí)力,需要有數(shù)不清的技術(shù)創(chuàng)新來(lái)打造更高的可用性和業(yè)務(wù)連續(xù)性。
隨著一步步迭代和發(fā)展,技術(shù)只會(huì)更成熟,運(yùn)營(yíng)經(jīng)驗(yàn)會(huì)更豐富。