固態(tài)硬盤 Vs RAID?是否該調(diào)整RAID以支持固態(tài)硬盤?
wangfei 發(fā)表于:13年07月04日 17:20 [編譯] DOIT.com.cn
我的同事兼好友、存儲分析師雷伊盧凱西(Ray Lucchesi)在最近一篇博客文章中指出,我們現(xiàn)在將固態(tài)硬盤與有限的寫壽命和RAID整合在一起可能是一種危險的做法。雷伊建議對固態(tài)硬盤進行調(diào)整,以便讓它們能夠更好地與RAID協(xié)作。
但我認為,雷伊剛好說反了。我們不應(yīng)該擔心如何讓固態(tài)硬盤更好地與RAID協(xié)作。 我們應(yīng)該考慮的問題是,是否應(yīng)該對RAID進行調(diào)整或是替換,以支持固態(tài)硬盤。
雷伊是在拜讀了納西姆尼古拉斯塔勒布(Nassim Nicholas Taleb)的最新暢銷書《Antifragile:Things That Gain from Disorder》之后寫下他的那篇博客文章的。塔勒布是《黑天鵝》(The Black Swan)一書的作者。塔勒布假設(shè)的前提是:有很多系統(tǒng)不但可以容許故障和其他應(yīng)激物,而且還可以因為它們而改善。 相反,易碎的系統(tǒng)在受到壓力時就會出現(xiàn)故障。反易碎的系統(tǒng)實際上就是那些不能殺死你反而能使你更加強壯的系統(tǒng)。
雷伊擔心的問題是有限的寫壽命會導致多塊固態(tài)硬盤出現(xiàn)故障,從而造成數(shù)據(jù)丟失的結(jié)果。因為RAID是根據(jù)傳統(tǒng)硬盤而設(shè)計的,傳統(tǒng)硬盤實際上并不會出現(xiàn)磨損,只是會隨機性出現(xiàn)故障,因此雷伊認為我們應(yīng)該改善固態(tài)硬盤以提高它的故障的正常性或隨機性。 這會在未來擴大故障的范圍。因此,RAID系統(tǒng)可能會改造一塊出現(xiàn)故障的固態(tài)硬盤,而且運營商可以在第二塊固態(tài)硬盤出現(xiàn)故障之前更換掉已經(jīng)出現(xiàn)故障的固態(tài)硬盤。
雷伊建議存儲專業(yè)人士和固態(tài)硬盤廠商對我們的實際操作進行改良,以便將故障分散化,讓RAID能夠良好運行:
這些改良措施尤其是消除磨損級別可以增強固態(tài)硬盤故障的隨機分布。問題是,它們也會減少固態(tài)硬盤的使用壽命。 我寧愿使用一大堆經(jīng)過3萬次寫周期后出現(xiàn)故障的固態(tài)硬盤,也不愿意使用在經(jīng)過1萬次寫周期到2.5萬次寫周期后隨機出現(xiàn)故障的固態(tài)硬盤。
由于每一款固態(tài)硬盤都有SMART(自我監(jiān)控、分析和報告技術(shù))計數(shù)器,它不但可以報告有多少flash頁面出現(xiàn)過故障,而且還可以報告設(shè)備剩余的寫壽命還有多少。
如果我們的RAID控制器(當我們遷移到軟件定義存儲時,就還包括它們的軟件控制器)只能監(jiān)控這些計數(shù)器,它們就可以向管理員發(fā)出一條信息,在更好的情況下,它們還可以向廠商的支持團隊發(fā)送一條信息。這些固態(tài)硬盤在寫壽命耗盡之前就可以被替換下來。
我們面臨的部分問題是,我們一直在使用RAID,它已經(jīng)成為我們的存儲根本概念中的一個根深蒂固的元素。但是RAID本身只是一種問題的解決方案。 帕特松、吉布森和卡茨最初提倡RAID是因為生產(chǎn)容量更大、速度更快的硬盤的成本過于高昂。RAID的設(shè)計初衷是將一系列廉價傳統(tǒng)硬盤整合起來,讓它的容量比一款大容量的昂貴磁盤的容量更大,速度更快。
固態(tài)硬盤的速度非?,因此我們很少需要利用RAID來提高它們的速度。然而,我們對可靠性的預(yù)期也提高了,因此我們需要一些冗余來提高它們的可靠性。 我認為,閃存硬盤與傳統(tǒng)硬盤是不同的,為了讓它能夠與使用了25年的RAID設(shè)計協(xié)作,調(diào)整軟件比犧牲閃存硬盤的優(yōu)勢更好一些。
為固態(tài)硬盤和混合環(huán)境建立后RAID數(shù)據(jù)保護方案應(yīng)該修改舊的鏡像、對等和雙對等方案,這樣不僅可以防止設(shè)備出現(xiàn)故障,而且還可以將它們創(chuàng)造的寫放大數(shù)值減少到最小程度。避免寫數(shù)據(jù)尤其是寫入少量數(shù)據(jù)可以延長固態(tài)硬盤的使用壽命和可靠性。
這樣就不用消除磨損級別,因為固態(tài)硬盤控制器需要經(jīng)常向空白頁寫入數(shù)據(jù),因此那是很難做到的,他們應(yīng)當擴展它,將磨損平均分布到一塊固態(tài)硬盤的所有閃存中,乃至于平均分布到一個系統(tǒng)中的所有固態(tài)硬盤中。
如果我們專注于全面減少故障而不是增強故障恢復,我們就能夠得到更高的正常運行率。
到底是我提出的解決方案更好,還是雷伊提出的解決方案更明智呢? 歡迎大家各抒己見,暢所欲言。
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.