熱插拔背板

 

 

熱插拔機(jī)箱

隨著服務(wù)器應(yīng)用、技術(shù)的不斷發(fā)展,企業(yè)對(duì)服務(wù)器的性能提出了新的要求。而且由于用戶對(duì)網(wǎng)絡(luò)的依賴性比以前更強(qiáng),所以對(duì)服務(wù)器系統(tǒng)的穩(wěn)定性、安全性要求也較以前大大提高。這樣一來(lái),對(duì)服務(wù)器其它配件支持熱插拔技術(shù)的呼聲也就越來(lái)越高了,因?yàn)楝F(xiàn)在服務(wù)器系統(tǒng)主要出現(xiàn)故障的配件不再僅是硬盤系統(tǒng)了,而更多的可能是內(nèi)存、電源和風(fēng)扇等。

下面是一個(gè)典型的風(fēng)扇熱插拔圖,不過(guò)這個(gè)實(shí)現(xiàn)起來(lái)也簡(jiǎn)單的多,也基本上沒(méi)有什么技術(shù)含量。從下面的圖片可以看出,這個(gè)熱插拔技術(shù)就是在風(fēng)扇下面就多了一個(gè)和固定在機(jī)箱上面接觸的接口而已。這樣說(shuō),希望不要引起眾怒,實(shí)話實(shí)說(shuō)而已。

 

 

單個(gè)熱插拔風(fēng)扇

 

 

熱插拔風(fēng)扇

服務(wù)器中,服務(wù)器電源也是不可以小看的。許多磁盤陣列和其他架裝系統(tǒng)含有多個(gè)電源輸入,可以同時(shí)為這些設(shè)備提供電源支持。這樣,一般情況下,只要出現(xiàn)故障的電路不超過(guò)一個(gè),系統(tǒng)就能繼續(xù)正常運(yùn)行。因此,如果服務(wù)器中的所有硬件有2個(gè)或3個(gè)電源輸入,則要求至少有兩個(gè)或者三個(gè)獨(dú)立的電路支持,以確保電路設(shè)計(jì)中沒(méi)有單點(diǎn)故障。

 

 

熱插拔電源結(jié)構(gòu)示意圖

內(nèi)存?zhèn)浞?/p>

系統(tǒng)正常工作時(shí),控制模塊通過(guò)調(diào)整電流調(diào)節(jié)器/隔離器的導(dǎo)通程度,使系統(tǒng)均衡地使用每個(gè)電源模塊–每個(gè)電源模塊向系統(tǒng)提供相同的電流,這種工作模式稱為"電流共享"。當(dāng)其中某一電源模塊出現(xiàn)故障時(shí),切斷電流調(diào)節(jié)器/隔離器,使故障電源從電源系統(tǒng)中隔離出來(lái),并進(jìn)行故障報(bào)警。冗余電源系統(tǒng)中的每個(gè)供電模塊均可以熱插拔,一旦某個(gè)供電模塊損壞,就能在不停電情況下完成維修工作,而絲毫不影響系統(tǒng)的正常工作。為了滿足熱插拔的要求,冗余電源系統(tǒng)的控制模塊應(yīng)能夠限制電源模塊的電流突變,防止電源模塊插入和拔出時(shí)對(duì)負(fù)載總線形成浪涌電流。

熱插拔電源

現(xiàn)在,熱插拔技術(shù)在確保服務(wù)器系統(tǒng)可用性已顯得越來(lái)越重要了,已成為服務(wù)器的標(biāo)準(zhǔn)技術(shù)。盡管不同檔次的服務(wù)器所支持的熱插拔配件并不完全一樣,但對(duì)于像硬盤、電源和風(fēng)扇的熱插拔技術(shù)支持已成為比較常見(jiàn)的服務(wù)器配置了。不過(guò)要實(shí)現(xiàn)內(nèi)存的熱插拔,問(wèn)題就不是幾句話能扯得清楚的。上面提到的風(fēng)扇啊硬盤啊電源什么的,從原理上講,還是與PCI相關(guān)的總線技術(shù)有關(guān)。但是內(nèi)存要實(shí)現(xiàn)熱插拔,就遠(yuǎn)不止這么簡(jiǎn)單。于是那些不安分的巨頭服務(wù)器商就開(kāi)始了自己的內(nèi)存熱插拔技術(shù)的研究,相繼出臺(tái)了這樣和那樣的技術(shù),不過(guò)比起比起傳統(tǒng)的ECC技術(shù)來(lái)說(shuō),性能是提高了不少。但是很多時(shí)候是整個(gè)內(nèi)存條子損壞,那么前面的努力也就白費(fèi)了。所以是不是也需要想硬盤一樣,用條子做成內(nèi)存?zhèn)浞?、?nèi)存鏡像來(lái)支持內(nèi)存的熱插拔呢?

答案是肯定的,但道路是曲折的。

在線內(nèi)存?zhèn)浞菔且环N高級(jí)別的內(nèi)存保護(hù)技術(shù),需要注意的是必須成對(duì)安裝雙列直插式內(nèi)存模塊(Dual In-line Memory Module,DIMM)的內(nèi)存條。每個(gè)DIMM必須是同一型號(hào)的,而且容量相同,這一點(diǎn)似乎和硬盤區(qū)別不大,否則內(nèi)存系統(tǒng)的性能會(huì)受到影響。如果一共有三組內(nèi)存條組,把C組作為在線備份內(nèi)存,其內(nèi)存容量總合要是A、B兩組的容量總合之和。進(jìn)行內(nèi)存熱備時(shí),做熱備份的內(nèi)存在正常情況下是不使用的,也就是說(shuō)在系統(tǒng)里是看不到C內(nèi)存容量的。每個(gè)內(nèi)存通道中有一個(gè)DIMM不被使用,預(yù)留為備份內(nèi)存。芯片組中設(shè)置有內(nèi)存校驗(yàn)錯(cuò)誤次數(shù)的閾值, 即每單位時(shí)間發(fā)生錯(cuò)誤的次數(shù)。當(dāng)工作內(nèi)存的故障次數(shù)達(dá)到這個(gè)"容錯(cuò)閾值",系統(tǒng)開(kāi)始進(jìn)行雙重寫動(dòng)作,一個(gè)寫入主內(nèi)存,一個(gè)寫入熱備內(nèi)存,當(dāng)系統(tǒng)檢測(cè)到兩個(gè)內(nèi)存數(shù)據(jù)一致后,熱備內(nèi)存就代替主內(nèi)存工作,故障內(nèi)存被禁用,這樣就完成了熱備內(nèi)存接替故障內(nèi)存工作的任務(wù),有效避免了系統(tǒng)由于內(nèi)存故障而導(dǎo)致數(shù)據(jù)丟失或系統(tǒng)宕機(jī)。這個(gè)做熱備的內(nèi)存容量應(yīng)大于等于所在通道的最大內(nèi)存條的容量,以滿足內(nèi)存數(shù)據(jù)遷移的最大容量需求。也就是象硬盤的RAID。

內(nèi)存?zhèn)浞?/div>

另一種方式就是服務(wù)器內(nèi)存鏡像。在線備份內(nèi)存模式只能對(duì)發(fā)生單比特錯(cuò)誤的數(shù)據(jù)提供保護(hù),像鏡像內(nèi)存方式還可以用來(lái)保護(hù)發(fā)生多bit錯(cuò)誤的數(shù)據(jù)。正因?yàn)槿绱?,?nèi)存鏡像和內(nèi)存熱備份很適合于商業(yè)應(yīng)用,因?yàn)樗苏>S護(hù)之外,不需要在內(nèi)存檢修上花費(fèi)額外的時(shí)間。這種技術(shù)的出現(xiàn),是由于隨著服務(wù)器系統(tǒng)總線提高,內(nèi)存?zhèn)鬏數(shù)臄?shù)據(jù)陪增,會(huì)出現(xiàn)不知什么原因遇到了許多內(nèi)存保護(hù)和修復(fù)技術(shù)都不能完全修復(fù)的情況。諸如其熱更換熱添加、熱插拔RAID內(nèi)存,這些就相對(duì)好理解一些,不過(guò)需要注意的一點(diǎn)是,許多企業(yè)實(shí)際上實(shí)現(xiàn)的只是有限的內(nèi)存熱插拔,只能拔掉特定的內(nèi)存條,而不能隨意拔掉其他內(nèi)存條。

內(nèi)存鏡像是將內(nèi)存數(shù)據(jù)做兩個(gè)拷貝,分別放在主內(nèi)存和鏡像內(nèi)存中。系統(tǒng)工作時(shí)會(huì)向兩個(gè)內(nèi)存中同時(shí)寫入數(shù)據(jù),因此使得內(nèi)存數(shù)據(jù)有兩套完整的備份。由于采用通道間交叉鏡像的方式,所以每個(gè)通道都有一套完整的內(nèi)存數(shù)據(jù)拷貝。

內(nèi)存鏡像有效避免了由于內(nèi)存故障而導(dǎo)致數(shù)據(jù)丟失。從下圖中可看出,鏡像內(nèi)存和主內(nèi)存互成對(duì)角線分布,如果其中一個(gè)通道出現(xiàn)故障不能繼續(xù)工作,另一個(gè)通道仍然具有故障通道的內(nèi)存數(shù)據(jù),有效防止了由于內(nèi)存通道故障導(dǎo)致的數(shù)據(jù)丟失,極大提升了服務(wù)器可靠性。鏡像內(nèi)存的容量要大于等于主內(nèi)存容量,當(dāng)系統(tǒng)工作時(shí),鏡像內(nèi)存不會(huì)被系統(tǒng)識(shí)別。因此在投資方面,做內(nèi)存鏡像數(shù)據(jù)保護(hù)的投資是沒(méi)有內(nèi)存保護(hù)功能的一倍。

內(nèi)存?zhèn)浞?/div>

熱備和內(nèi)存鏡像是內(nèi)存熱插拔的必要條件,從理論上和技術(shù)上完全能夠?qū)崿F(xiàn),那么,內(nèi)存的熱插拔相信也是以后服務(wù)器的發(fā)展必然。

當(dāng)然,說(shuō)了怎么多,有的知識(shí)也是借鑒了別人的,呵呵,如果你知道了,那么,就當(dāng)是溫故知新吧。記得聊齋里面有一篇文章記載,人的大腦也是可以更換的。那么,我就想,是不是服務(wù)器的CPU在運(yùn)行的時(shí)候,也可以更換呢?還有主板上的電容?這個(gè)問(wèn)題留給聰明的你來(lái)回答……….