圖1 單進(jìn)程GR

主備進(jìn)程的GR。提供備份進(jìn)程的運(yùn)行,實(shí)時(shí)接收主進(jìn)程的狀態(tài),以隨時(shí)準(zhǔn)備接替主進(jìn)程運(yùn)行。當(dāng)系統(tǒng)發(fā)現(xiàn)主進(jìn)程故障后自動(dòng)重啟,但無(wú)需等待其重啟,備進(jìn)程將升級(jí)為“主”進(jìn)程,直接接替工作。當(dāng)故障進(jìn)程重啟完成后,將工作在“備”狀態(tài),以備進(jìn)程身份運(yùn)行。這種方式相對(duì)于單進(jìn)程的GR,恢復(fù)時(shí)間更短,可用性更高,但占用資源稍多,一般分布式系統(tǒng)的主控板進(jìn)程使用此方式(如圖2所示,active為“主”,standby為“備”)。

圖2 主備進(jìn)程的GR

通過(guò)支持進(jìn)程備份,使得系統(tǒng)中的各進(jìn)程可以自行進(jìn)行平滑的重啟恢復(fù),而在過(guò)去新程序從啟動(dòng)到正常工作需要一段時(shí)間,在某些情況下可能會(huì)很長(zhǎng)。在這段時(shí)間內(nèi),由于程序還不能夠正常工作,無(wú)法完成同外界設(shè)備的交互,會(huì)引起網(wǎng)絡(luò)上的振蕩,造成流量中斷。而現(xiàn)在工作在“備”狀態(tài)的程序“時(shí)刻準(zhǔn)備著”接替 “主”用程序,一旦發(fā)現(xiàn)異常,立即切換工作狀態(tài),可以大大縮短切換時(shí)間,讓外界幾乎感覺(jué)不到設(shè)備曾經(jīng)“切換過(guò)”。這不僅提高了系統(tǒng)可用性,而且不會(huì)對(duì)網(wǎng)絡(luò)上其他節(jié)點(diǎn)的協(xié)議運(yùn)行造成影響。

三、 系統(tǒng)級(jí)高可用性

系統(tǒng)級(jí)的高可靠性在網(wǎng)絡(luò)操作系統(tǒng)中是比較早產(chǎn)生的技術(shù),即同時(shí)運(yùn)行主系統(tǒng)和冗余備份系統(tǒng),當(dāng)主系統(tǒng)發(fā)生故障時(shí),自動(dòng)進(jìn)行倒換,備系統(tǒng)直接接替其工作。原來(lái)的主系統(tǒng)重啟后,重新以備系統(tǒng)身份運(yùn)行。

以前,系統(tǒng)級(jí)的倒換基本上是解決軟件故障的唯一辦法,隨著進(jìn)程級(jí)GR功能的出現(xiàn),大部分的軟件故障可以通過(guò)進(jìn)程級(jí)的GR修復(fù),無(wú)需進(jìn)行整系統(tǒng)的倒換,這樣大大減小了需要系統(tǒng)級(jí)倒換的場(chǎng)景,提高了整個(gè)系統(tǒng)的可用性。這就像醫(yī)學(xué)上新出現(xiàn)的微創(chuàng)手術(shù),有效降低了對(duì)人體的整個(gè)系統(tǒng)的損傷和影響。

另外隨著技術(shù)的發(fā)展,目前的主備系統(tǒng)與傳統(tǒng)意義上的主備系統(tǒng)也有很大區(qū)別。例如Comware上實(shí)現(xiàn)了控制平面分布式功能,將控制進(jìn)程的主進(jìn)程運(yùn)行在不同的控制單元上,當(dāng)一個(gè)主控單元發(fā)生故障時(shí),只有運(yùn)行在故障控制單元上的主進(jìn)程才會(huì)受到影響。這樣大大減小了系統(tǒng)級(jí)倒換對(duì)整個(gè)系統(tǒng)的影響范圍(如圖3所示)。

圖3 控制平面分布式

隨著虛擬化技術(shù)的發(fā)展,網(wǎng)絡(luò)操作系統(tǒng)可以支持將一個(gè)設(shè)備虛擬成多個(gè)邏輯設(shè)備使用,每個(gè)控制節(jié)點(diǎn)被虛擬成了多個(gè)虛擬控制系統(tǒng),在一個(gè)虛擬系統(tǒng)出現(xiàn)故障需要整個(gè)系統(tǒng)倒換時(shí),也不會(huì)影響其它虛擬設(shè)備的運(yùn)行,進(jìn)一步減少了系統(tǒng)級(jí)倒換對(duì)設(shè)備的影響。

四、 ISSU不中斷業(yè)務(wù)升級(jí)

ISSU(In-Service Software Upgrade)即不中斷業(yè)務(wù)升級(jí)。與出現(xiàn)故障的不可預(yù)知不同,系統(tǒng)軟件升級(jí)是一種人為因素,由于全部在操作員的控制下進(jìn)行,因此只要實(shí)現(xiàn)合理,可以做到比出現(xiàn)故障更小的系統(tǒng)沖擊。

新一代網(wǎng)絡(luò)操作系統(tǒng)實(shí)現(xiàn)了通過(guò)依次升級(jí)各板保證升級(jí)過(guò)程的平穩(wěn)、可靠進(jìn)行。通過(guò)主控板的交替升級(jí),始終保障至少一個(gè)主控系統(tǒng)對(duì)整個(gè)系統(tǒng)進(jìn)行控制。如圖4所示,首先對(duì)備板進(jìn)行升級(jí),完成后進(jìn)行主備倒換,同時(shí)完成主板及各個(gè)接口板的升級(jí),在此過(guò)程中均可以進(jìn)行回退,恢復(fù)使用原有版本。如果確定使用新的版本,最后需要進(jìn)行確認(rèn),完成整個(gè)升級(jí)過(guò)程。

圖4 ISSU過(guò)程

·補(bǔ)丁升級(jí)

補(bǔ)丁的升級(jí)是對(duì)系統(tǒng)影響最小的方式,對(duì)系統(tǒng)基本沒(méi)有影響,但補(bǔ)丁只適用于修改個(gè)別缺陷。真正的ISSU應(yīng)做到版本升級(jí)時(shí)的不中斷業(yè)務(wù)。

·增量升級(jí)

同樣受益于模塊化的設(shè)計(jì),多數(shù)情況下的升級(jí)并不需要重啟整個(gè)軟件,只需要升級(jí)受影響的模塊,在系統(tǒng)運(yùn)行過(guò)程中完成軟件升級(jí),這樣使得上面 ISSU過(guò)程中的各個(gè)步驟對(duì)系統(tǒng)沖擊更小,達(dá)到更加完美的ISSU。H3C將Comware實(shí)現(xiàn)的這種升級(jí)稱為增量升級(jí),自動(dòng)比較出升級(jí)版本與當(dāng)前版本的差異,如果差異不涉及核心部分,可以在系統(tǒng)運(yùn)行過(guò)程中直接進(jìn)行差異部分的升級(jí),否則才進(jìn)行整個(gè)軟件的重啟升級(jí)。在增量升級(jí)時(shí)即使需要升級(jí)的進(jìn)程正在運(yùn)行,也可以通過(guò)進(jìn)程級(jí)的GR完成進(jìn)程軟件升級(jí)。

另外為了方便用戶使用,還可以將整個(gè)軟件系統(tǒng)分為多個(gè)軟件包,即包含一個(gè)基礎(chǔ)軟件包和多個(gè)功能包。這樣一般的升級(jí)只需要加載功能包,使得升級(jí)更有針對(duì)性,減少了對(duì)系統(tǒng)不必要的影響

·核心部分整版本升級(jí)

當(dāng)然如果升級(jí)涉及軟件核心部分,每個(gè)單板不可避免停止整個(gè)軟件運(yùn)行開(kāi)始運(yùn)行新版本軟件的過(guò)程,如何才能保障這個(gè)過(guò)程中被升級(jí)單板的業(yè)務(wù)不中斷?這是ISSU中很關(guān)鍵又是最困難的一點(diǎn)。傳統(tǒng)的技術(shù)都是盡量將這個(gè)時(shí)間縮短,但無(wú)論縮短到什么程度,硬件轉(zhuǎn)發(fā)都要經(jīng)歷一次中斷才能完成新老版本軟件控制權(quán)的交替。以Comware為例,最新采用了一種軟重啟技術(shù),從根本上解決了這個(gè)問(wèn)題。在軟件升級(jí)過(guò)程中,硬件狀態(tài)一直保持不變,按照原有轉(zhuǎn)發(fā)表項(xiàng)進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā)。當(dāng)新版本軟件開(kāi)始運(yùn)行后,通過(guò)版本間兼容的數(shù)據(jù)恢復(fù),繼續(xù)程序的運(yùn)行,直接接管對(duì)硬件的控制。即在整個(gè)升級(jí)過(guò)程中,轉(zhuǎn)發(fā)業(yè)務(wù)一直持續(xù)沒(méi)有間斷的進(jìn)行。更進(jìn)一步,為了防止升級(jí)過(guò)程中由于控制程序短暫停止工作,造成不必要的網(wǎng)絡(luò)動(dòng)蕩,Comware還增加了控制代理功能,在整個(gè)系統(tǒng)中選擇一個(gè)沒(méi)有正在升級(jí)的單板啟動(dòng)控制代理服務(wù),對(duì)升級(jí)軟件中時(shí)間敏感的控制邏輯,臨時(shí)交由代理服務(wù)幫助處理。通過(guò)以上的軟重啟技術(shù),使得整個(gè)升級(jí)過(guò)程轉(zhuǎn)發(fā)業(yè)務(wù)不中斷,控制協(xié)議不震蕩。

五、 結(jié)束語(yǔ)

通過(guò)模塊化軟件結(jié)構(gòu)以及進(jìn)程級(jí)GR、軟重啟等新技術(shù)的引入,新一代網(wǎng)絡(luò)操作系統(tǒng)將提供更好的可靠性及ISSU能力。

分享到

zhangcun

相關(guān)推薦