假故障硬盤確實是個問題
wangfei 發(fā)表于:13年03月27日 22:27 [編譯] DOIT.com.cn
多年來,硬盤廠商們一直在說大多數(shù)在保修期內(nèi)返廠維修的硬盤其實都沒有問題。作為一名IT專業(yè)人士,我猜想造成這種現(xiàn)象的真正原因在于鍵盤和座椅。 LSI的洛布歐泊爾(Rob Ober)最近發(fā)表了一篇博客文章,披露了硬盤假故障現(xiàn)象背后的原因。這也讓我不禁想搞清楚為什么這個問題會一直存在下去。
歐泊爾指出,硬盤假故障這個問題不但對于購買單件硬盤的計算機業(yè)余愛好者來說是個大問題,而且對于數(shù)據(jù)中心的管理員來說也是個大問題。象你我這樣的數(shù)據(jù)中心管理員都明白,如果一塊硬盤發(fā)生故障,會造成什么樣的成本。 例如:
•系統(tǒng)性能會下降,而且經(jīng)常要持續(xù)很多天,因為需要在備用硬盤上重建RAID系統(tǒng)和大約4TB的數(shù)據(jù)。在使用scale-out存儲設(shè)備的分布式環(huán)境下,這個問題也會對網(wǎng)絡(luò)流通量造成影響,因為重建數(shù)據(jù)必須通過多個存儲結(jié)點合并在一起。
•必須派人去更換硬盤。
•因為硬盤上存儲著敏感的企業(yè)機密信息,因此它必須被保密處理或是銷毀。如果你所服務(wù)的公司不夠大,不能與存儲廠商簽訂更換硬盤的協(xié)議的話,那就意味著你必須自己承擔更換硬盤而發(fā)生的成本。
問題是,如今的硬盤是由配備了固件的內(nèi)部微控制器來運行的。就象你的個人電腦或Mac電腦一樣,軟件偶爾也會出點小錯,處理器就會停止運行。 硬盤在使用過程中會遇到很多在開發(fā)過程中并未完全調(diào)試過的指令和狀態(tài),硬盤的處理器可能會因為那些指令和狀態(tài)而停止對主機或RAID控制器發(fā)出的指令作出響應(yīng)。
主機或RAID控制器就會發(fā)出報告稱這塊硬盤出現(xiàn)故障,但是工作人員將這塊硬盤換下來之后拿到其它系統(tǒng)中測試時,它又是可以正常工作的。(我們都知道,開關(guān)電源可以解決很多計算方面的故障。) 實際上,很多研究表明遇到過這類假故障的硬盤仍然是可靠的,只要對它們進行重新設(shè)置一下,它們就會跟剛剛出廠的新硬盤一樣。
歐泊爾實際上找了一位大型數(shù)據(jù)中心的管理員與他一起進行研究,負責(zé)向他提供硬盤故障方面的統(tǒng)計數(shù)據(jù)。 雖然按照谷歌或Facebook的標準來說這個數(shù)據(jù)中心的規(guī)模并不大,但是它里面也配置了20多萬臺服務(wù)器。
他們發(fā)現(xiàn):
•30%以上的SAS硬盤故障都是假故障,這也造成了每天出現(xiàn)故障的硬盤數(shù)增加了10塊到15塊,以及每年千分之一的硬盤假故障率。
•直接與服務(wù)器主板相連的SATA硬盤的假故障率更高,幾乎達到了硬盤廠商們所說的出現(xiàn)假故障的硬盤總數(shù)的50%,每年的假故障率達到了驚人的1%。
一些廠商曾經(jīng)試著去解決這個問題。5年前,Xiotech和Atrato提出了“自我恢復(fù)”磁盤陣列的概念,即硬盤停止對指令作出響應(yīng)時先執(zhí)行修理任務(wù)而不是啟動RAID重建工作。 與希捷保持著密切合作關(guān)系的Xiotech甚至可以通過映射通路的方式讓一塊表明受損或出現(xiàn)故障的硬盤繼續(xù)運轉(zhuǎn)。當然,這個恢復(fù)過程的第一步是在硬盤上執(zhí)行硬復(fù)位。
隨著整個硬盤行業(yè)開始將重心轉(zhuǎn)向閃存硬盤,自我恢復(fù)的陣列不再吸引人了。Atrato已經(jīng)不復(fù)存在了,Xiotech現(xiàn)在也更名為X-IO,隨著它最后的一批獨立競爭對手Compellent、3PAR和Nexsan紛紛被收購而失去了頭頂?shù)墓猸h(huán)。
由于硬盤市場實際上已經(jīng)變成由希捷和西部數(shù)據(jù)壟斷的市場,我認為這兩家硬盤廠商都不可能在硬盤產(chǎn)品中加入能夠檢測假故障和重新設(shè)置硬盤的備用電路板。但是業(yè)內(nèi)其他廠商如LSI在這個領(lǐng)域還是能夠有所作為的。
SAS控制器廠商比如LSI可以開發(fā)假故障檢測和硬盤重新設(shè)置技術(shù)并將它們整合到控制器之中。當一塊硬盤停止響應(yīng)的時候,控制器在啟動RAID重建工作之前可以先檢測一下硬盤是否出現(xiàn)了假故障。 這在SATA硬盤上比較難實現(xiàn),因為它們?nèi)狈λ璧倪B接。但是控制著SATA規(guī)范的人可以在未來幾年的6-12Gbps升級中添加一個硬復(fù)位的功能。只要還沒升級,陣列廠商們就可以加上那個功能,切斷單塊硬盤的電源來強制它重新設(shè)置。
不管如何,1%的假故障率都是客戶們不愿接受的。硬盤行業(yè)應(yīng)該研究出一些切實的解決方案,而不是加快故障硬盤的重建速度。
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.