“錯誤”的硬盤驅(qū)動器故障是一個大問題
genghz 發(fā)表于:13年04月01日 12:56 [轉(zhuǎn)載] 比特網(wǎng)
磁盤驅(qū)動器供應(yīng)商告訴我們,這些年來,有超過一半因為質(zhì)保維修返廠的驅(qū)動器歸類到NPF當中——意思是未發(fā)現(xiàn)問題。作為一名IT專業(yè)人士,我認為這一現(xiàn)象的真正原因,就像困擾許多服務(wù)臺的那樣,位于“鍵盤和操作人員”之間。LSI的Rob Ober最近的一篇博客,像一道新鮮的陽光照在了“錯誤的驅(qū)動器故障”這一難題上,并使我思考為什么這類問題依舊存在。
Ober指出,錯誤的故障是一個主要問題,不僅僅是從Fry's和Newegg(新蛋)購買裸盤的那些愛好者,還有主要數(shù)據(jù)中心的運營商。數(shù)據(jù)中心運營商像你我一樣,當遇到驅(qū)動器故障就會有實質(zhì)性的成本開銷。舉個例子:
因為驅(qū)動器有敏感的企業(yè)數(shù)據(jù),它必須被保密處理或者銷毀。如果你沒有足夠大到擁有一個協(xié)議——你的存儲供應(yīng)商會按照你的要求來更換失敗的驅(qū)動器,這可能意味著你還需要為不能返還的驅(qū)動器支付成本。
問題是,如今的硬盤驅(qū)動器由帶有固件的內(nèi)部微控制器來運行。就像你的PC或者Mac,該軟件偶爾會癱瘓或者處理器凍結(jié)。驅(qū)動器遇到一系列沒有完成的在開發(fā)過程中調(diào)試的請求和狀態(tài),而它的處理器停止響應(yīng)來自主機或者RAID控制器的命令。
如果主機或者RAID控制器報告這樣的一個驅(qū)動器失敗,那么驅(qū)動器會在脫離主機和在別處測試時重新工作良好。(我們都知道,關(guān)閉和打開電源可以解決很多計算機的問題)。事實上,研究表明可以容忍這種類型錯誤的故障驅(qū)動器作為可靠的,只要在它們重置后,便可以當做新的驅(qū)動器出廠。
實際上Ober先生找到了一位不愿透露姓名的數(shù)據(jù)中心運營者,與他分享其驅(qū)動器故障統(tǒng)計數(shù)字。這個數(shù)據(jù)中心盡管比谷歌或者Facebook的標準小,但也擁有相當巨大的20多萬臺服務(wù)器。
他們發(fā)現(xiàn):
一些廠商正在解決這一問題。五年前,Xiotech和Atrato談到過“自愈”型磁盤陣列,在磁盤停止響應(yīng)指令的時候它會執(zhí)行修復(fù)任務(wù)而不是立即開始RAID重建。Xiotech與希捷(Seagate)緊密合作,甚至可以繼續(xù)運行帶有一個表面損壞的驅(qū)動器,或者映射訪問繞過它來(將部分)磁頭失效。當然,修復(fù)過程當中的第一步是在磁盤上執(zhí)行一個硬重置。
由于行業(yè)的變幻無常,人們的注意力轉(zhuǎn)到了閃存上,自愈型陣列不再時尚了。Atrato已經(jīng)消失,而Xiotech——現(xiàn)在重新命名的X-IO已經(jīng)顯得褪色,有所關(guān)聯(lián)的是,其最后的獨立競爭對手Compellent、3Par甚至Nexsan都被收購了。
由于磁盤驅(qū)動器是一個雙巨頭壟斷的市場,它的銷售量大,產(chǎn)品利潤低。我沒望希捷還是西部數(shù)據(jù)(Western Digital)建立一個可以檢測到錯誤故障并自我重置的高度冗余的電路板到驅(qū)動器中。但是有幾樣?xùn)|西,包括LSI在內(nèi)的業(yè)界廠商可以做到。
像LSI一樣的SAS控制器供應(yīng)商,可以構(gòu)建錯誤故障檢測和復(fù)位功能到控制器中。當驅(qū)動器響應(yīng)失敗時,控制器會在RAID開始重建之前給出一個快速反沖。這在SATA驅(qū)動器上比較難,因為它缺少一些必要的連接。但是控制SATA規(guī)范的人們,在接下來的幾年可能在6-12Gbps升級中增加一個硬件復(fù)位功能。簡單點兒說,陣列供應(yīng)商可以增加一個切斷到單獨驅(qū)動器的電源來強制復(fù)位的功能。
無論你如何切斷它,1%的AFR是不可接受的。這個行業(yè)應(yīng)該致力于真正的解決方案,而不只是更快的重建(rebuild)。
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.