因?yàn)?IBM 的內(nèi)存鏡像技術(shù)對(duì)內(nèi)存錯(cuò)誤的糾正是通過內(nèi)存控制器來完成的,所以不會(huì)增 加操作系統(tǒng)的工作量,也不需要操作系統(tǒng)來提供支持,完全與操作系統(tǒng)無關(guān)。另因?yàn)橹恍璨?用標(biāo)準(zhǔn)的 ECC 168 線內(nèi)存,所以也無需另外購買定制的內(nèi)存,也就無需為這種保護(hù)增加另 外的開支。

標(biāo)準(zhǔn)的 ECC 內(nèi)存雖然可以檢測(cè)出 2 位的數(shù)據(jù)錯(cuò)誤,但它只能糾正一位錯(cuò)誤。如果同時(shí)在內(nèi)存上有多位出錯(cuò),僅采用 ECC技術(shù)的整塊內(nèi)存讀取就失敗了,此時(shí)唯有使系統(tǒng)臨時(shí)掛起來,以盡量減少內(nèi)存容量的需求,直到這個(gè)節(jié)點(diǎn)被更換。如果采用內(nèi)存保護(hù)技術(shù),那么就可以立即隔離這個(gè)失效的內(nèi)存,重寫數(shù)據(jù)在空余的數(shù)據(jù)位。通過這種方法可以在每 4 對(duì) 168 線內(nèi)存中修復(fù) 4 個(gè) 4 位連續(xù)的內(nèi)存錯(cuò)誤,是前面介紹的 Chipkill 內(nèi)存技術(shù)保護(hù)能力的兩倍。 而且它還還無需添加另外的硬件、無需增加額外的費(fèi)用,獨(dú)立操作系統(tǒng)工作,也不會(huì)給系統(tǒng) 增加任何額外負(fù)擔(dān)。當(dāng)服務(wù)器下次重啟就會(huì)重新檢查內(nèi)存的狀態(tài),如果是內(nèi)存軟錯(cuò)誤(臨時(shí) 的),系統(tǒng)重啟后內(nèi)存的這些用于在線數(shù)據(jù)備份的數(shù)據(jù)位就重新釋放了,恢復(fù)空的狀態(tài)。如果是屬于硬故障,這些在線備份數(shù)據(jù)位還會(huì)繼續(xù)用來備份,直到更換為止。這種先進(jìn)技術(shù)可 以使減少停機(jī)時(shí)間, 使服務(wù)器持續(xù)保持高效的計(jì)算平臺(tái)。 這對(duì)于大型的數(shù)據(jù)庫系統(tǒng)中尤其重要。

分享到

zhaohang

相關(guān)推薦