天翼云對象存儲ZOS采用分布式系統(tǒng)架構(gòu)設(shè)計,具有靈活伸縮的接入層和高可靠的分布式架構(gòu),可進一步提升存儲服務可用性。
靈活伸縮的接入層
ZOS能夠支持海量的小文件訪問和存儲。高達10億+數(shù)據(jù)量的單桶存儲,是對對象存儲產(chǎn)品前端接入網(wǎng)絡(luò)高負載、高可用性的挑戰(zhàn)。天翼云ZOS通過一整套基于CStor-LVS和CStor-Nginx的架構(gòu)來滿足這一需求。
如上圖所示,ZOS通過前端接入全互聯(lián)高速網(wǎng)絡(luò),實現(xiàn)了各個節(jié)點在負載上的完美均衡。接入節(jié)點間通過keepalived的方式實現(xiàn)了LVS節(jié)點之間的高可用,在面對單節(jié)點故障的場景時,能夠迅速做出切換,保證業(yè)務的連續(xù)性,服務可靠性高達99.995%。同時,在Router、LVS和Nginx側(cè),分別實現(xiàn)了各自的一致性Hash,在前端流量持續(xù)增長的同時,能夠?qū)崿F(xiàn)用戶無感知的熱伸縮。
高可靠分布式架構(gòu)
當ZOS進行文件存儲時,會以對象的方式將每個文件切片,并通過Hash計算保證這些分片均勻離散地映射到每個存儲節(jié)點、每塊硬盤上。在存儲單元的選取上,可以根據(jù)每個硬盤所在服務器、機架、機房進行識別性選取,進而在多個物理層級上滿足服務可靠性的要求。
在底層架構(gòu)上,ZOS支持多副本和EC糾刪碼的策略,在充分保證數(shù)據(jù)準確性、安全性的同時,可以根據(jù)需要靈活選擇冗余的類型,在容量利用率、性能、可靠性上達到滿足客戶需求的平衡。
天翼云對象存儲ZOS實現(xiàn)高可用還得益于一項關(guān)鍵技術(shù):支持3AZ多活架構(gòu)。
回顧數(shù)據(jù)存儲的災備技術(shù)發(fā)展,主要分為以下幾個階段:
離線備份:技術(shù)發(fā)展的早期,人們主要通過移動硬盤、光盤進行數(shù)據(jù)離線備份(也稱為冷備份),實現(xiàn)簡單,無需進行大規(guī)模的業(yè)務部署和改造,但也存在效率低下、安全性可靠性低且恢復困難等問題。隨著行業(yè)內(nèi)數(shù)據(jù)量的激增以及磁帶庫等備份介質(zhì)的出現(xiàn),市場涌現(xiàn)了大批的備份軟件廠商,可實現(xiàn)大規(guī)模數(shù)據(jù)的自動化離線備份和恢復。
在線備份:由于離線備份需要中斷在線業(yè)務,且恢復操作實現(xiàn)復雜,備份廠商結(jié)合應用側(cè)研發(fā)出在線備份技術(shù)(也稱為熱備份)。在線備份實施時無需中斷用戶業(yè)務,結(jié)合快照能夠便捷地為用戶提供數(shù)據(jù)強一致性的備份和恢復能力。但是這種方式同樣存在數(shù)據(jù)備份和恢復周期長的問題。
兩站點雙活&復制:在備份技術(shù)發(fā)展的同時,數(shù)據(jù)存儲領(lǐng)域也出現(xiàn)了跨站點的容災技術(shù),最先出現(xiàn)的是兩站點的雙活、異步&同步復制技術(shù),具有數(shù)據(jù)在線復制備份、故障恢復時間短等優(yōu)勢。
跨站點多活:伴隨著業(yè)務可靠性要求的持續(xù)升高,多站點多活技術(shù)隨之誕生,帶來了比兩站點容災更高的可靠性能力。傳統(tǒng)技術(shù)包括兩站點構(gòu)建雙活+額外一站點復制等。
對比幾種災備技術(shù)特征可以發(fā)現(xiàn),在業(yè)務恢復難度和時長方面,由于備份涉及多次的數(shù)據(jù)拷貝和回拷,恢復難度較高且耗時較長;在資源利用率方面,利用傳統(tǒng)備份和復制技術(shù),備份數(shù)據(jù)目的端通常不直接承載現(xiàn)網(wǎng)業(yè)務,會造成部分業(yè)務資源浪費;在運維成本方面,雙活、多活技術(shù)故障場景業(yè)務感知小,切換迅速快捷,且無需人工設(shè)置備份/恢復規(guī)則,更方便客戶側(cè)運維人員操作和實施。
另外,備份和傳統(tǒng)跨站點容災技術(shù)實際上還是基于數(shù)據(jù)復制技術(shù)實現(xiàn)的,通常至少需要1:1的數(shù)據(jù)備份,借助壓縮又會帶來額外的開銷,因此整體的存儲空間利用率也不高。但在實際使用中,很多用戶出于投資成本和可靠性要求等多方面考慮,也會將備份和跨站點容災技術(shù)結(jié)合使用。
ZOS為適應云上業(yè)務的極速發(fā)展和高可用要求,在跨站點多活技術(shù)的基礎(chǔ)上,研發(fā)實現(xiàn)了3AZ(Available Zone,云上架構(gòu)下的可用區(qū),通常為一個物理站點)多活的容災架構(gòu)能力,每個AZ存儲節(jié)點融合為統(tǒng)一的存儲系統(tǒng),AZ間實現(xiàn)數(shù)據(jù)自由流動,對外提供無差別的對象存儲服務。
ZOS在3AZ多活能力上具備以下幾大技術(shù)優(yōu)勢,在保有傳統(tǒng)跨站點多活技術(shù)高可靠性的基礎(chǔ)上,為用戶提供更好的資源可用性和運維體驗。
業(yè)務無中斷:三站點多活架構(gòu),任意一個站點整體故障業(yè)務不中斷,滿足生產(chǎn)系統(tǒng)業(yè)務穩(wěn)定運行的高可靠要求。
故障無感知:站點故障后業(yè)務自動切換,上層應用無感知,體驗更優(yōu)。
恢復無干預:站點恢復后,無需人工干預自動重新上線,系統(tǒng)自動進行數(shù)據(jù)重構(gòu),應用正常平穩(wěn)運行。
資源高可用:通過跨站點分布式糾刪技術(shù),充分利用各站點存儲空間;3站點多活同時承載業(yè)務,提供更優(yōu)于雙活&復制的存儲資源利用率。
可視化運維:云上可視化監(jiān)控狀態(tài)和告警,輕松實現(xiàn)遠程運維。
目前,天翼云在華北、西安、蘇州等全國多地實現(xiàn)了3AZ部署。
隨著千行百業(yè)數(shù)字化轉(zhuǎn)型進程的不斷加速,云上業(yè)務連續(xù)性和可用性已成為企業(yè)深化信息化建設(shè)、保障業(yè)務可持續(xù)發(fā)展的重要著力點。天翼云對象存儲ZOS可為企業(yè)提供低成本、高可用、易運維的對象存儲服務,讓企業(yè)數(shù)據(jù)存儲無后顧之憂,在數(shù)字時代的博弈中穩(wěn)中求勝。