在存儲器糾錯方面,Memory ProteXion技術(shù)比ECC技術(shù)更加有效,同時它使用的是標(biāo)準(zhǔn)的ECC 168腳內(nèi)存。它的工作方式有點類似在Windows NT的NTFS文件系統(tǒng)下的在線備份磁盤扇區(qū):當(dāng)操作系統(tǒng)在磁盤上檢測到壞的磁盤扇區(qū)時,它將在另外的扇區(qū)中寫下這些數(shù)據(jù)留做備用。可以認(rèn)為內(nèi)存保護(hù)技術(shù)就是提供在線備份數(shù)據(jù)位。在一個2路交叉存取的內(nèi)存系統(tǒng)中,每片168線ECC內(nèi)存包含72位,但其實只有70位是用于數(shù)據(jù)存取和校驗的,余下的2位是備用的,如圖3-13所示。
標(biāo)準(zhǔn)的ECC內(nèi)存雖然可以檢測出2位的數(shù)據(jù)錯誤,但它只能糾正一位錯誤。如果同時在內(nèi)存上有多位出錯,僅采用ECC技術(shù)的整塊內(nèi)存讀取就失敗了,此時唯有使系統(tǒng)臨時掛起來,以盡量減少對內(nèi)存容量的需求,直到這個節(jié)點被更換。如果采用內(nèi)存保護(hù)技術(shù),那么就可以立即隔離這個失效的內(nèi)存,在空余的數(shù)據(jù)位重寫數(shù)據(jù)。通過這種方法可以在每4對168線內(nèi)存中修復(fù)4個4位連續(xù)的內(nèi)存錯誤,是前面介紹的Chipkill內(nèi)存技術(shù)保護(hù)能力的2倍。而且它還無須添加另外的硬件,無須增加額外的費用,由于獨立于操作系統(tǒng)工作,也不會給系統(tǒng)增加任何額外負(fù)擔(dān)。當(dāng)服務(wù)器下次重啟時會重新檢查內(nèi)存的狀態(tài),如果出現(xiàn)的是內(nèi)存軟錯誤(臨時的),系統(tǒng)重啟后內(nèi)存的這些用于在線數(shù)據(jù)備份的數(shù)據(jù)位就重新釋放了,恢復(fù)空的狀態(tài)。如果是屬于硬故障,這些在線備份數(shù)據(jù)位還會繼續(xù)用來備份,直到更換為止。這種先進(jìn)技術(shù)可以減少停機(jī)時間,使服務(wù)器持續(xù)保持高效的計算平臺。這對于大型的數(shù)據(jù)庫系統(tǒng)尤其重要。