大多數(shù)人以為硬驅(qū)的故障率就像澡盆曲線。首先,在早期故障期,你會(huì)看到許多驅(qū)動(dòng)出現(xiàn)故障。過(guò)了這段時(shí)期,故障率便會(huì)降低。另一方面,驅(qū)動(dòng)耗盡前故障率呈穩(wěn)步上升的趨勢(shì)。沒(méi)有任何研究表明這種假設(shè)成立??傮w而言,人們認(rèn)為驅(qū)動(dòng)故障會(huì)隨著使用時(shí)間的延長(zhǎng)而增加。
企業(yè)驅(qū)動(dòng)可靠性
對(duì)比兩個(gè)研究,就會(huì)發(fā)現(xiàn)100萬(wàn) MTBF Cheetah驅(qū)動(dòng)與30萬(wàn)小時(shí)MTBF數(shù)據(jù)表更為接近。這意味著企業(yè)和客戶驅(qū)動(dòng)在年故障率方面很相似,特別是當(dāng)二者的量相當(dāng)時(shí)。據(jù)NetApp的技術(shù)策略總監(jiān)透露,存儲(chǔ)數(shù)列控制驅(qū)動(dòng)類型故障的方式讓顧客一直抱著這樣的想法:越貴的的驅(qū)動(dòng)越可靠。存儲(chǔ)行業(yè)不可告人的秘密之一便是大多數(shù)企業(yè)級(jí)與用戶級(jí)驅(qū)動(dòng)的大部分組件都相同。不過(guò),他們的外部接口(FC, SCSI, SAS或SATA)以及固件設(shè)計(jì)的優(yōu)先級(jí)別在實(shí)際使用有助于對(duì)二者進(jìn)行區(qū)分。
數(shù)據(jù)安全性和RAID
Schroeder博士的研究覆蓋了最大的高性能計(jì)算實(shí)驗(yàn)室中大型RAID系統(tǒng)中所使用的企業(yè)驅(qū)動(dòng)。通常,我們主觀上認(rèn)為這類數(shù)據(jù)在精選過(guò)的RAID模式中更安全,不過(guò)該研究的結(jié)果卻有點(diǎn)出人意料。
磁盤(pán)更換的時(shí)間分布顯示了正在下降的風(fēng)險(xiǎn)率,即磁盤(pán)更換前預(yù)期的使用時(shí)間隨時(shí)間增長(zhǎng)。
這意味著數(shù)列中一個(gè)驅(qū)動(dòng)出現(xiàn)故障會(huì)增加其他驅(qū)動(dòng)出現(xiàn)故障的可能性。距離前次故障的時(shí)間越長(zhǎng)就意味著距離下次更換的時(shí)間越長(zhǎng)。當(dāng)然,這關(guān)系到RAID的重建進(jìn)程。經(jīng)歷第一次故障之后,在一小時(shí)內(nèi)出現(xiàn)另一次驅(qū)動(dòng)故障的幾率增加了四倍。而在十小時(shí)內(nèi),出現(xiàn)故障的幾率就將下降到兩倍。
溫度
最離奇的報(bào)道之一來(lái)自谷歌。調(diào)查者從SMART——內(nèi)置于大多數(shù)硬驅(qū)中的自我監(jiān)控,分析和報(bào)告技術(shù)——中獲取溫度讀數(shù),繼而發(fā)現(xiàn)較高的溫度與較高的故障率并無(wú)關(guān)聯(lián)。溫度似乎對(duì)較舊的驅(qū)動(dòng)的影響并不大。
SMART足夠智能嘛?
答案是否定的。SMART旨在盡早捕獲磁盤(pán)錯(cuò)誤,以便用戶可以備份數(shù)據(jù)。不過(guò),據(jù)谷歌透露,出現(xiàn)故障的硬盤(pán)中有三分之一以上都沒(méi)有觸發(fā)SMART警報(bào)。這并不奇怪,許多業(yè)內(nèi)人士早就料到了這一點(diǎn)。SMART被優(yōu)化的目的是捕獲機(jī)械故障,可是很多磁盤(pán)仍然是電子的。這就是為什么在出現(xiàn)數(shù)據(jù)一致性問(wèn)題的時(shí)候無(wú)法察覺(jué)一些操作和環(huán)境方面的故障。如果你正使用SMART來(lái)告知可能出現(xiàn)的故障,又想確保數(shù)據(jù)安全,恐怕要另外再部署冗余層。
原文鏈接:http://www.tomshardware.com/reviews/ssd-reliability-failure-rate,2923-2.html