雙機(jī)冗余方案或者集群方案給硬件廠商和軟件廠商都帶來的巨大商業(yè)利益,生意額瞬間翻番,因此廠商有熱情推動方案的銷售。對于用戶來說,雙機(jī)冗余或者 集群的確具有高于單機(jī)的效果,盡管有些無奈,也不得不接受這樣的方案。那么就沒有更理想的方案嗎?以Stratus為首的容錯(cuò)服務(wù)器是一個(gè)更加理想的方案。

容錯(cuò)方案的本質(zhì)是像一臺x86 服務(wù)器一樣進(jìn)行管理,它的設(shè)計(jì)目的是實(shí)現(xiàn)標(biāo)準(zhǔn)服務(wù)器無法達(dá)到的保護(hù)運(yùn)行時(shí)間,適合數(shù)據(jù)中心和遠(yuǎn)程現(xiàn)場關(guān)鍵應(yīng)程序使用。它通過一個(gè)被稱為“雙模修復(fù) (DMR) Lockstep 設(shè)計(jì)”的技術(shù),讓2臺服務(wù)器工作在相同時(shí)鐘周期下,確保計(jì)算指令同步運(yùn)行。兩個(gè)系統(tǒng)運(yùn)行結(jié)果一致,計(jì)算進(jìn)入下一步,結(jié)果不一致,返回重新計(jì)算,避免錯(cuò)誤的產(chǎn)生。其中,不僅CPU工作在雙模修復(fù)狀態(tài)下,內(nèi)存、PCI和外部I/O全部工作在這個(gè)模式下。

如果硬件損壞,有故障的模塊退出服務(wù),該模塊失去容錯(cuò),進(jìn)入單機(jī)工作狀態(tài),可靠性雖然降低,但系統(tǒng)仍然保持運(yùn)行。由于模塊支持熱插拔,更換之后,重 新投入容錯(cuò)工作狀態(tài)。對于容錯(cuò)服務(wù)器而言,當(dāng)且僅當(dāng)相同模塊同時(shí)損壞,才會導(dǎo)致系統(tǒng)的宕機(jī),這種概率是非常低的,遠(yuǎn)遠(yuǎn)低于單臺服務(wù)器的故障率。對于這種極 限情況,更有效的手段是容災(zāi),而不是在系統(tǒng)上做文章。

容錯(cuò)服務(wù)器是用戶關(guān)鍵業(yè)務(wù)應(yīng)有的理想選擇。一臺容錯(cuò)服務(wù)器的售價(jià)高于兩臺獨(dú)立的服務(wù)器。但從系統(tǒng)的角度,容錯(cuò)是一臺設(shè)備,所需要的操作系統(tǒng)、數(shù)據(jù) 庫、中間件的軟件授權(quán)是一臺,而不是兩臺。因此,在系統(tǒng)的TCO(總體擁有成本)上優(yōu)勢明顯。但對軟件商家而言,肯定不會推薦這樣的系統(tǒng)。為此,有評論指 出:雙機(jī)冗余是商家的選擇,而容錯(cuò)則是用戶的選擇。

從市場表現(xiàn)看,容錯(cuò)處于下風(fēng),這說明,用戶遠(yuǎn)沒有商家精明。這不是悲哀!這種現(xiàn)象的背后,折射出的是商家與用戶在信息技術(shù)上的不對等。另外一個(gè)原因就是Stratus等容錯(cuò)廠商,重視技術(shù),不會進(jìn)行市場推廣,而這也恰恰Stratus的特點(diǎn)。

分享到

zhaohang

相關(guān)推薦