一個 SCSI 硬盤的平均故障間隔時間〈MTBF, Mean Time Between Failure〉,都在數(shù)萬小時以上,在正常使用情況下,要壞掉一個硬盤已經(jīng)很不容易了;在同一系統(tǒng)內(nèi),兩個磁盤驅(qū)動器同時壞掉的機(jī)率,更是微乎其微。但是,如果把磁盤驅(qū)動器放在布滿殺手的環(huán)境內(nèi),就另當(dāng)別論了。
構(gòu)建一個磁盤陣列儲存系統(tǒng),可靠度遠(yuǎn)比速度來的重要。因此,在設(shè)計磁盤陣列的時候,不但要選一個高性能的陣列控制器,更要慎重設(shè)計一個高可靠度的磁盤陣列柜。因為,寶貴的數(shù)據(jù)不是存在數(shù)組控制器里,而是存放在磁盤驅(qū)動器里;而磁盤驅(qū)動器又是放在磁盤陣列柜內(nèi)。所以,要仔細(xì)設(shè)計一個可靠的磁盤陣列柜,來當(dāng)磁盤驅(qū)動器的神盾,千萬不要設(shè)計出一個磁盤驅(qū)動器殺手!
磁盤陣列柜的設(shè)計挑戰(zhàn)
由于磁盤驅(qū)動器的技術(shù)以及傳輸接口的技術(shù)不斷的發(fā)展,磁盤陣列系統(tǒng)的設(shè)計隨時都面臨新的挑戰(zhàn),以便符合與日俱增的要求。一個優(yōu)質(zhì)的磁盤陣列柜,必須在設(shè)計階段,就要考慮到其規(guī)格必須符合更大容量、更高轉(zhuǎn)速磁盤驅(qū)動器的需求,提供:
以下我們就針對這些規(guī)格和功能,提供一些建議。
穩(wěn)定、高容量、容錯的電源供應(yīng)系統(tǒng)
如果各位仔細(xì)看看磁盤驅(qū)動器的規(guī)格書,您會發(fā)現(xiàn)磁盤驅(qū)動器馬達(dá)啟動時,需要很大的啟動電流〈約2A〉,約為平常讀寫時〈約0.66A〉的 3 倍;磁盤驅(qū)動器在 SEEK 時,需要很大的瞬間電流〈約2.1A〉,約為讀寫時〈約0.66A〉之 3 倍。因此,電源供應(yīng)系統(tǒng)必須能提供足夠、穩(wěn)定之瞬間電流,否則會造成磁盤驅(qū)動器無法啟動,甚至造成數(shù)據(jù)寫入錯誤〈此為導(dǎo)致 RAID 磁盤驅(qū)動器被 RAID 控制器判定為 Down,但磁盤驅(qū)動器送回原廠測試卻無故障之原因〉。當(dāng)磁盤驅(qū)動器轉(zhuǎn)速越來越快,SEEK 速度也越來越快時,電源供應(yīng)器必須提供足夠的容量,以因應(yīng)將來擴(kuò)充的需求。
具備容錯,熱抽換、負(fù)載分享之雙電源供應(yīng)器,是不可或缺的,更重要的是,如果電源供應(yīng)器發(fā)生故障,要能不必下螺絲就能熱抽換電源供應(yīng)〈使用螺絲起子解螺絲會造成震動及搖擺,會損害工作中之磁盤驅(qū)動器〉。
有了雙電源供應(yīng)器,更要具備兩組電源輸入,一個接到市電,一個接到 UPS。如此,無論突然斷電,或 UPS 故障,都不會造成 RAID 當(dāng)機(jī)。
好的電源供應(yīng)系統(tǒng),還須具備交流電壓與頻率自動選擇及調(diào)整,以適用不同電壓及頻率,更重要的是,要能克服電壓及頻率不穩(wěn)之狀況。在用電尖峰時段,市電電壓可能降到100伏特以下,而在非用電尖峰時段,市電電壓可能升到120伏特以上,因此電源供應(yīng)系統(tǒng)必須能夠容忍這些電壓變化,提供磁盤驅(qū)動器穩(wěn)定的電壓和電流,否則可能造成磁盤驅(qū)動器故障,甚至數(shù)據(jù)寫入錯誤。磁盤陣列柜的電源供應(yīng)系統(tǒng),最好能夠提供從85到260伏特?zé)o段自動調(diào)整,如此,無論插到哪種插座,市電品質(zhì)如何變化,都不會影響磁盤陣列的功能。
可靠、高性能、容錯的冷卻系統(tǒng)
在許多案例中,我們發(fā)現(xiàn)冷卻系統(tǒng)設(shè)計不完善的磁盤陣列柜,只能裝設(shè)7200轉(zhuǎn)的磁盤驅(qū)動器,若使用10,000 轉(zhuǎn)的磁盤驅(qū)動器,系統(tǒng)就會過熱?,F(xiàn)在,Seagate 已經(jīng)推出15,0000轉(zhuǎn)的磁盤驅(qū)動器了,如何挑選一個具備可靠、高性能、容錯之冷卻系統(tǒng)的磁盤陣列柜,就更顯得重要了。
一般磁盤陣列柜之設(shè)計,在每個磁盤驅(qū)動器載具上加裝小風(fēng)扇,整個系統(tǒng)再裝數(shù)個大風(fēng)扇,用邊吸邊吹的方式散熱,不但散熱效果不好,而且是產(chǎn)生磁盤驅(qū)動器故障的潛在因素:它帶來的危害有以下這些:
一個優(yōu)質(zhì)磁盤陣列柜之冷卻系統(tǒng)的設(shè)計,必須完全符合熱力學(xué)理論之全方位冷卻:熱傳導(dǎo)、熱對流及熱輻射之三相散熱方式,才能更有效率、可靠度更高:
由于磁盤陣列的特性,當(dāng)存取陣列中的數(shù)據(jù)時,陣列中所有的磁盤驅(qū)動器的磁頭,都幾乎在同時,往同一個方向SEEK,又幾乎同時在相同的位置煞車,其慣性動量非常之大。因此造成很大的震動問題。如果磁盤陣列柜的機(jī)械結(jié)構(gòu)不能克服這些震動問題,輕則造成Re-Seek,嚴(yán)重的話,會導(dǎo)致碟面受損,數(shù)據(jù)遺失。
一個好的磁盤陣列柜的機(jī)械結(jié)構(gòu)設(shè)計,必須克服上述震動問題:
支持SCA2接口的被動背板
前面提到,磁盤陣列系統(tǒng)最重要的是可靠度,因此所有具備主動組件〈包含電子組件和機(jī)械組件〉都必須安裝在可熱抽換的模塊上,以便發(fā)生故障時可以隨時更換。一般來說,被動組件是不會壞的,除非暴力相向。
磁盤陣列柜中,除了背板〈Backplane〉之外,其它所有模塊都可以是可熱抽換的。因此,背板上不可以有任何主動組件,以免有任一組件發(fā)生故障,必須停機(jī)更換,而且,一般來說,使用者是無法自行更換背板的。
磁盤陣列柜背板的另一個重要規(guī)格,是必須使用SCA2 接頭,以支持熱抽換〈Hot-Swap〉。我們都知道,把磁盤驅(qū)動器從系統(tǒng)中拔出或插入,會造成很大的突波訊號,可能影響正在工作的Bus,甚至損壞磁盤驅(qū)動器接口組件,因此必須要有特殊的設(shè)計,來降低并防止突波可能造成的損害。
SCA2 接頭的設(shè)計,是采用長、中、短等不同長度的接腳,將前期電源和地線、主電源、總線信號線等,依照先后順序接觸〈插入時〉或分離〈拔出時〉,如此可以將磁盤驅(qū)動器線路緩慢充電,將其電位提升以降低其與總線間之電位差,以減低突波訊號,保護(hù)電子接口組件以及避免干擾工作中的總線。
一體成型,無主動元件的磁盤載盒
在實際的案例中,我們常發(fā)現(xiàn)用戶把磁盤載盒送修,因為磁盤載盒蜂鳴器一直叫、風(fēng)扇卡住不轉(zhuǎn)了...,當(dāng)然,磁盤驅(qū)動器也可能因此而毀了〈因為風(fēng)扇不轉(zhuǎn)而造成磁盤驅(qū)動器過熱,唉,水能載舟,亦能覆舟〉。這就是磁盤載盒設(shè)計不良所造成的。
一個好的磁盤載盒設(shè)計,必須沒有使用任何可動機(jī)械或主動電子組件,亦即,不要有小風(fēng)扇,也不要任何控制線路。如此,磁盤載盒本身就是金剛不壞之身,不會造成故障,更不會成為磁盤驅(qū)動器殺手。
同時,磁盤驅(qū)動器的固定方式,也是一門學(xué)問。除了前述要將磁盤驅(qū)動器直接且緊密地固定在磁盤載盒上,以達(dá)到熱傳導(dǎo)散熱之外,磁盤驅(qū)動器最好是倒掛式固定。如果采取一般正面式固定,則磁盤驅(qū)動器所產(chǎn)生的熱,傳導(dǎo)至磁盤載盒之后,又輻射出來產(chǎn)生熱空氣,再往上升,剛好用來烤磁盤驅(qū)動器的線路板和組件〈本是同根生,相煎何太急?〉,會加速組件的老化。如果采取倒掛式固定,則傳導(dǎo)到磁盤載盒的熱,會輻射到磁盤驅(qū)動器上部空間,由對流氣流帶走,不會烘烤到磁盤驅(qū)動器線路組件。
為求達(dá)到最佳熱輻射散熱效果,磁盤驅(qū)動器載盒之表面,最好漆上黑色,因為黑色是最容易吸收熱能,也是最容易輻射出熱能的顏色。磁盤驅(qū)動器載盒的材質(zhì),必須具備高導(dǎo)熱系數(shù)的特性,如鋁合金辨識理想的材料,導(dǎo)熱系數(shù)高,加工也方便。
而如前述,磁盤驅(qū)動器載盒必須是一體成型的剛性金屬合金制造,以達(dá)到最佳震動克服性能。我們非常不建議采用組合式磁盤載盒,一般這些組合式磁盤載盒,都是由一個架子和一個盒子組成;架子上有風(fēng)扇和熱抽換控制電路,固定在機(jī)殼上,再接Cable;磁盤驅(qū)動器則裝在盒子,透過轉(zhuǎn)接接頭連到架子上。如此,不但造成前述震動問題,而且一旦架子的風(fēng)扇或電子組件故障,就必須停機(jī)更換。
陣列柜環(huán)境監(jiān)控與示警功能
磁盤陣列柜中所有主動組件或機(jī)械組件,以及內(nèi)部環(huán)境溫度,都必須能夠監(jiān)控且有適當(dāng)?shù)木竞屯▓蠊δ埽?/P>
另外,非常重要的一點是,環(huán)境監(jiān)視控制器本身也是主動組件,也可能發(fā)生故障,因此,磁盤陣列柜的環(huán)境監(jiān)控器,必須能夠支持熱抽換功能。
直接熱拔插且方便的維護(hù)操作功能
在磁盤陣列柜中,所有可能發(fā)生故障的組件,包括主動電子組件、可動機(jī)械組件,都必須能夠支持熱抽換功能。不能抽換的組件,就必須是不會故障的被動組件。
具備可熱抽換功能,大家都知道,但是,要如何才能更方便、更安全地作熱抽換,可是一門學(xué)問。一個提供方便維護(hù)、安全熱抽換的磁盤陣列柜,至少需具備以下功能:
最佳的空間利用
在機(jī)架式系統(tǒng)中,空間的利用以及散熱氣流的需求,是非常重要的因素。同樣可容納七臺磁盤驅(qū)動器,一個只要占 3U 空間的磁盤陣列柜,當(dāng)然比一個要占 6U 空間的磁盤陣列柜要來得有效率。
要能達(dá)到最佳化的空間利用,除了磁盤陣列柜的體積要小之外,散熱氣流的需求也是決定性因素。一個只應(yīng)用到單向?qū)α魃岱绞降拇疟P陣列柜,需要很大的氣流需求才能達(dá)到散熱效果,因此既使體積小,也不能在一個機(jī)架中裝設(shè)太多磁盤陣列柜,否則散熱氣流就會不夠。如果磁盤陣列柜采用高效率的三相散熱〈熱傳導(dǎo)、熱輻射、熱對流〉系統(tǒng),就只需要小量的氣流,便足以發(fā)揮散熱效果,因此可以在機(jī)架中高密度地裝置磁盤陣列柜,大大地提高空間使用效率,當(dāng)然也大大地降低了成本。這對大型企業(yè)、ISP、以及主機(jī)代管業(yè)者來說,是非常有經(jīng)濟(jì)效益的規(guī)格。
為了保護(hù)好客戶的數(shù)據(jù),要從保護(hù)客戶的磁盤驅(qū)動器開始;要保護(hù)客戶磁盤驅(qū)動器,就設(shè)計一個可靠、穩(wěn)定的磁盤陣列柜。要知道客戶的寶貴數(shù)據(jù),不是存在 CPU,也不是存在主機(jī)板,也不是存在控制卡,而是存放在磁盤驅(qū)動器里。所以,在設(shè)計磁盤陣列柜,是件很慎重的事情,千萬不要想組裝PC機(jī)一樣,能用就行.而是要很科學(xué)性的設(shè)計出磁盤驅(qū)動器的神盾。