拿數(shù)據(jù)說話——RAID 2.0真的可靠性嗎？

西瓜哥發(fā)表于：13年08月27日 14:24 [原創(chuàng)] DOIT.com.cn

分享：

[導(dǎo)讀]今天，西瓜哥來談?wù)劯叨舜鎯?chǔ)的一股勢(shì)力，RAID 2.0，最近被華為HVS搞得風(fēng)生水起，神奇的讓人摸不著頭腦。我還是從一個(gè)高端存儲(chǔ)的江湖說起吧。

通過上述大家應(yīng)該基本掌握了RAID 2.0的原理。今天我們就來聊聊RAID 2.0的可靠性問題。

可靠性是一個(gè)非常復(fù)雜的問題，我不是這方面的專家，我只是從我收集的資料整理一下分享給大家。

可靠性和性能也經(jīng)常是矛盾的，作為用戶，有時(shí)需要平衡，這個(gè)是一個(gè)藝術(shù)問題，哈，你別不信，看完我今天的分析，估計(jì)你也有同感。

我們先從理論上分析一下RAID 2.0的可靠性。

大家知道，系統(tǒng)的可靠性=MTBF / ( MTBF + MTTR ) * 100%

RAID 2.0(3PAR叫FAST RAID)，通過把數(shù)據(jù)分散到更多的磁盤，重構(gòu)時(shí)間縮短，MTTR應(yīng)該大大縮小了。但有一個(gè)問題，就是針對(duì)某一個(gè)LUN來說，由于數(shù)據(jù)分散到更多的盤，因此數(shù)據(jù)丟失的風(fēng)險(xiǎn)大大提高，即MTBF變大了。比如我采用傳統(tǒng)的RAID 5（3+1），4個(gè)盤同時(shí)壞兩個(gè)的概率是很小的，但如果用RAID 2.0, 假設(shè)這些數(shù)據(jù)分散到100個(gè)盤上，100個(gè)盤同時(shí)壞2個(gè)盤的概率大多了。雖然重構(gòu)速度很快，但雙盤失效的概率也提高了。那么到底重構(gòu)減低的風(fēng)險(xiǎn)是否能夠平衡掉雙盤失效帶來的風(fēng)險(xiǎn)呢？（什么，你一直想問這個(gè)問題，說明你入道了，很多童鞋是問不出這個(gè)問題來的。對(duì)RAID不了解的可以找度娘補(bǔ)習(xí)一下。老實(shí)說，我剛學(xué)習(xí)RAID 2.0的時(shí)候第一個(gè)問題就是這個(gè)，問了很多人，今天還未能完全解決）。

Markov模型是經(jīng)典的可靠性預(yù)計(jì)模型，采用Markov模型可以根據(jù)系統(tǒng)當(dāng)前狀態(tài)及轉(zhuǎn)移條件，來預(yù)計(jì)系統(tǒng)的可靠性指標(biāo)。

馬爾科夫是俄羅斯著名的數(shù)學(xué)家，計(jì)算公式復(fù)雜（我很佩服數(shù)學(xué)家，這么復(fù)雜的計(jì)算怎么算出來的），我想大家和我一樣都是俗人，不會(huì)自己去算了，對(duì)吧。好，我從非官方渠道拿到一份可靠性技術(shù)的白皮書，在這里第一時(shí)間分享給大家計(jì)算結(jié)果：

我來解讀一下這個(gè)結(jié)果。這個(gè)結(jié)果說明，從理論上來說，RAID 2.0系統(tǒng)比RAID 1.0系統(tǒng)丟失數(shù)據(jù)的風(fēng)險(xiǎn)要小很多。但是別急，這個(gè)是對(duì)整個(gè)系統(tǒng)來說的。也就是說，針對(duì)這個(gè)高端陣列的管理員，他覺得不錯(cuò)，整個(gè)系統(tǒng)的可靠性提高了。但針對(duì)這個(gè)高端陣列的某個(gè)最終用戶（比如ERP系統(tǒng)這個(gè)應(yīng)用的IT人員帥鍋小L）來說，好像不是這么回事。小L只關(guān)心ERP的數(shù)據(jù)，原來采用RAID 1.0，數(shù)據(jù)存放在5塊盤上，同時(shí)壞兩塊盤的概率比地震都小，現(xiàn)在你把小L的數(shù)據(jù)均衡分布到100塊盤上了，小L他晚上能睡著嗎？

我也在尋求這個(gè)答案，谷歌和度娘都找不到答案。有可靠性專家和我說，其實(shí)，這種情況下RAID 2.0的可靠性并不比RAID 1.0有優(yōu)勢(shì)，對(duì)于傳統(tǒng)RAID和RAID2.0，發(fā)生數(shù)據(jù)丟失的概率和丟失的數(shù)據(jù)量均近似有“隨著系統(tǒng)盤數(shù)和硬盤容量的增加而成比例增大”（因此，性能夠用就好，西瓜池也不要搞太大了）。雖然出現(xiàn)故障丟失的數(shù)據(jù)量要比RAID 1.0少，這對(duì)文件系統(tǒng)和歸檔來說問題不大，但對(duì)于數(shù)據(jù)庫來說，丟一點(diǎn)都不行。因此，重構(gòu)速度雖然快了，半小時(shí)搞定，但萬一半小時(shí)內(nèi)再壞第二塊盤怎么辦？用RAID 10或者RAID 6，或者做容災(zāi)。對(duì)頭，可靠性要匹配你的需求，這個(gè)世界上沒有完全可靠的東西，包括愛情，哈。

注意：上面的分析沒有考慮RAID 1.0重構(gòu)負(fù)載重可能導(dǎo)致的加快硬盤過勞死的風(fēng)險(xiǎn)，因?yàn)檫@個(gè)沒法算。

RAID 10和RAID 6哪個(gè)更可靠？

大家知道，RAID 6最多可以壞任意兩塊盤數(shù)據(jù)不丟失，RAID 10可能壞一半的盤數(shù)據(jù)也可能不會(huì)丟失。那個(gè)的可靠性高？我估計(jì)80%以上的人認(rèn)為是RAID 10可靠，如果你也是這么認(rèn)為的，請(qǐng)馬上回復(fù)微信告訴我，我看看我的判斷對(duì)不對(duì)。其實(shí)我也和你們一樣，我一直認(rèn)為RAID 10更可靠，直到某天一個(gè)可靠性專家給我一份材料，IBM的紅皮書，圣經(jīng)啊。在IBM的一本DS5000的紅皮書里，IBM經(jīng)過計(jì)算，結(jié)論就是RAID 6的可靠性最高，其次才是RAID 10，最差是RAID 5。

但你知道為什么現(xiàn)在無數(shù)的數(shù)據(jù)庫都推薦用RAID 10了嗎？因?yàn)樾阅�。RAID 10的讀寫性能好很多。我說性能和可靠性的平衡是一個(gè)藝術(shù)，這回你相信了吧？

網(wǎng)上一直有傳說說IBM XIV容易丟數(shù)據(jù)，我一直不信，現(xiàn)在想想，信了。為什么呢？它全部用SATA盤（現(xiàn)在它也叫SAS盤，其實(shí)是假的，是NL-SAS，也就是SAS接口，SATA的盤體），采用偽隨機(jī)算法把數(shù)據(jù)以1M大小的CHUNK平均分布到所有的磁盤上。SATA盤的可靠性本來就比較差，你分布到180塊盤，就算你重構(gòu)速度塊，同時(shí)壞2塊盤必然會(huì)造成數(shù)據(jù)丟失（因?yàn)榭隙ㄓ心?個(gè)CHUNK就在這兩塊盤上）。

對(duì)于RAID 2.0來說，已經(jīng)好多了，RAID可以選擇RAID 6。對(duì)于傳統(tǒng)的高端陣列廠商IBM DS8000/EMC/HDS，他們由于歷史原因，底層代碼不能變，還是用傳統(tǒng)的RAID，但為了實(shí)現(xiàn)自動(dòng)分層和性能不變，必須要直接切第二刀Extend，對(duì)不對(duì)? 但在這種RAID 1.5的改良對(duì)可靠性更加是個(gè)噩夢(mèng)，我們來欣賞一下IBM DS8000的紅皮書里面的描述：

看到?jīng)]有，由于DS8000的第二到必須在存儲(chǔ)池里面切，而這個(gè)存儲(chǔ)池底層是由多個(gè)傳統(tǒng)的RAID組（RANK）組成，因此，如果一個(gè)RAID組失效，一個(gè)池的數(shù)據(jù)都丟失了。因此，你害怕丟失，請(qǐng)容災(zāi)。為了控制這個(gè)，我記得DS8000一個(gè)pool下最多放4個(gè)RAID組，而HDS直接建議用RAID 6。你看看，RAID 1.5限制是否很多，RAID 2.0真正從底層解決這些問題就好多了。再一次說明，可靠性和性能功能的平衡，真是一個(gè)藝術(shù)活。

最后，我們?cè)僬勔幌轮貥?gòu)時(shí)間。

先說一下我收集到的各個(gè)廠商宣傳的數(shù)據(jù)：

HW：1TB重構(gòu)時(shí)間30分鐘，比傳統(tǒng)RAID需要10個(gè)小時(shí)快20倍；

IBM XIV：1TB重構(gòu)時(shí)間30分鐘；

3PAR：在老的膠片上寫的是重構(gòu)速度快2倍；

我喜歡刨根問底，我們來分析一下：大家知道，7200RPM的SATA盤寫的帶寬大約115MB/s，因此，如果采用RAID 1.0，理論上需要2.5小時(shí)寫1TB的數(shù)據(jù)。因?yàn)橹貥?gòu)的時(shí)候只能寫一個(gè)熱備盤，這是瓶頸。但一般的系統(tǒng)都是有負(fù)載的，重構(gòu)的優(yōu)先級(jí)一般都是最低的，因?yàn)橛脩粢ＷC業(yè)務(wù)的運(yùn)行，因此，一般的重構(gòu)時(shí)間基本都是理論時(shí)間的2-5倍。因此，如果RAID 2.0參與的盤很多，那個(gè)30分鐘是可以達(dá)到的。而如果傳統(tǒng)的RAID 1.0有較高的負(fù)載，重構(gòu)需要10個(gè)小時(shí)也是正常的。因此，HW的宣傳雖然稍微有點(diǎn)夸大，但基本屬實(shí)。最關(guān)鍵就是RAID 2.0重構(gòu)的時(shí)候?qū)I(yè)務(wù)基本沒有影響，因?yàn)闆]有熱點(diǎn)盤。而RAID 1.0重構(gòu)，對(duì)業(yè)務(wù)的影響是巨大的，反過來也影響到重構(gòu)的速度。

為了驗(yàn)證我的想法，我再?gòu)幕ヂ?lián)網(wǎng)上找一下3PAR的用戶發(fā)布的重構(gòu)數(shù)據(jù)。
https://storagemojo.com/2010/02/27/does-raid-6-stops-working-in-2019/

這個(gè)用戶分享了采用3PAR的fast RAID，SATA盤重構(gòu)時(shí)間只化了4分鐘（這個(gè)發(fā)揮了RAID 2.0的最大好處，只重構(gòu)用過的CHUNK，而不用整盤重構(gòu)，估計(jì)數(shù)據(jù)量比較小），而原來采用老的陣列，重構(gòu)時(shí)間是24小時(shí)（SATA盤）和4-6小時(shí)（FC盤）。我也看到另外一個(gè)用戶說說他采用3PAR的陣列，重構(gòu)750GB的數(shù)據(jù)用了3個(gè)小時(shí)（業(yè)務(wù)負(fù)載特別重），不過對(duì)業(yè)務(wù)性能沒有任何影響（怪不到3PAR宣稱它是唯一一個(gè)可以在業(yè)務(wù)期間換盤的高端存儲(chǔ)廠商，不過現(xiàn)在HW HVS把它的唯一去掉了，呵呵）。這說明重構(gòu)時(shí)間也是一個(gè)藝術(shù)活，和數(shù)據(jù)量和業(yè)務(wù)負(fù)載，硬件特性等等都有關(guān)系。

最后分享一個(gè)我想了很長(zhǎng)時(shí)間才想明白的事情，為什么RAID 2.0的重構(gòu)的總數(shù)據(jù)量少？RAID 1.0也不是全盤重構(gòu)的��？（我估計(jì)你們肯定也想不明白）。后來在我上周苦練切西瓜刀法后恍然大悟，RAID 1.0能夠感知的是LUN，也就是說，從一個(gè)RAID組里劃分出LUN后，雖然主機(jī)還沒有寫任何東西，但是系統(tǒng)不知道，因此重構(gòu)的時(shí)候都重構(gòu)了，一般陣列初始化的時(shí)候，肯定把LUN都劃了，因此相當(dāng)于整盤重構(gòu)了。但RAID 2.0劃分為CHUNK，每個(gè)CHUNK上都有標(biāo)簽，沒有分配的CHUNK，或者分配了沒有被寫過的CHUNK系統(tǒng)都清楚，當(dāng)然只會(huì)重構(gòu)有數(shù)據(jù)的CHUNK了，而不是整個(gè)LUN。

最后問大家一個(gè)問題，采用哪種RAID級(jí)別，RAID 2.0相比RAID 1.0重構(gòu)時(shí)間提升最大？哈哈，RAID 10。假設(shè)不考慮做奇偶校驗(yàn)的時(shí)間，所有的RAID 1.0的重構(gòu)時(shí)間是一樣的，因?yàn)橹荒芡瑫r(shí)寫1塊熱備盤，瓶頸在熱備盤上。但采用RAID 2.0后，瓶頸不在寫盤上了，RAID 5和RAID 6多了很多讀數(shù)據(jù)的動(dòng)作，而RAID 10就不用了，因此重構(gòu)的速度提升是最明顯的。
通過這些分析，大家估計(jì)得出的結(jié)論和我一樣，RAID 2.0確實(shí)是一個(gè)顛覆性的技術(shù)，優(yōu)點(diǎn)很多，而且有出色的性能和不遜于傳統(tǒng)RAID的可靠性（帶來業(yè)務(wù)的靈活性我們后面還會(huì)談到），并且業(yè)界采用了十幾年（3PAR 1999年就用了），應(yīng)該是一個(gè)經(jīng)過市場(chǎng)檢驗(yàn)的RAID方法，應(yīng)該也是高端存儲(chǔ)以后的發(fā)展方向。

希望大家積極反饋你的意見和建議，微信掃描如下二維碼，關(guān)注微信公眾號(hào)“高端存儲(chǔ)知識(shí)”，與作者微信互動(dòng)。

[責(zé)任編輯：西瓜哥]

存儲(chǔ)專欄：EMC VNX2中的VNX8000和MCx劇透

考慮到EMC VMAX2很可能基于VNX2平臺(tái)構(gòu)建，特別是VNX2的最高型號(hào)VNX8000。正好，我網(wǎng)上找到一份VNX8000的售后文檔，我們來劇透一下EMC VNX2這個(gè)產(chǎn)品的一些細(xì)節(jié)。

官方微信

相關(guān)閱讀

精彩專題更多

2014企業(yè)級(jí)IT風(fēng)云榜

存儲(chǔ)風(fēng)云榜”是由DOIT傳媒主辦的年度大型活動(dòng)�；仡�2014年，存儲(chǔ)作為IT系統(tǒng)架構(gòu)中最基礎(chǔ)的元素，已經(jīng)成為了推動(dòng)信息產(chǎn)業(yè)發(fā)展的核心動(dòng)力，存儲(chǔ)產(chǎn)業(yè)的發(fā)展邁向成熟，數(shù)據(jù)經(jīng)濟(jì)的概念順勢(shì)而為的提出。

華為OceanStor V3開啟全融合數(shù)據(jù)架構(gòu)時(shí)代

華為OceanStor V3系列存儲(chǔ)系統(tǒng)是面向企業(yè)級(jí)應(yīng)用的新一代統(tǒng)一存儲(chǔ)產(chǎn)品。在功能、性能、效率、可靠性和易用性上都達(dá)到業(yè)界領(lǐng)先水平，很好的滿足了大型數(shù)據(jù)庫OLTP/OLAP、文件共享、云計(jì)算等各種應(yīng)用下的數(shù)據(jù)存儲(chǔ)需求。

聯(lián)想亮相高交會(huì)

聯(lián)想攜ThinkServer+System+七大行業(yè)解決方案驚艷第十六屆高交會(huì)

噜噜噜综合,又色又爽又高潮免费观看,综合无码一区二区三区四区五区,中文字幕无码人妻aaa片,四虎成人精品永久网站

拿數(shù)據(jù)說話——RAID 2.0真的可靠性嗎？

拿數(shù)據(jù)說話——RAID 2.0真的可靠性嗎？