最新版天堂中文在线官网,亚洲欧美日韩精品成人

由于是芯片企業(yè)，系統(tǒng)可靠性是第一位的，一旦停機(jī)損失慘重（每小時(shí)的損失高達(dá)100萬(wàn)美金，主要是停產(chǎn)的產(chǎn)品銷售額和高昂機(jī)器設(shè)備的折舊），所以在IT系統(tǒng)上是非常舍得投入的。雖然采用了RAC，但負(fù)載全部集中在其中一臺(tái)機(jī)器上，采購(gòu)兩臺(tái)一樣配置的機(jī)器加RAC就是為了在down機(jī)時(shí)，能零時(shí)間切換到另外一臺(tái)機(jī)器上。

從上圖可以看出，200mm和300mm的MES系統(tǒng)互相隔離，兩個(gè)SAN也沒(méi)有連接起來(lái)。客戶的應(yīng)用部門認(rèn)為，萬(wàn)一300mm的存儲(chǔ)XP12000壞掉，雖然在200mm的XP12000系統(tǒng)上仍然有數(shù)據(jù)，但是應(yīng)用并不能自動(dòng)切換來(lái)訪問(wèn)，所以提出了系統(tǒng)容災(zāi)的項(xiàng)目。由于系統(tǒng)大部分是HP的，當(dāng)然HP被邀請(qǐng)?zhí)峤唤鉀Q方案。另外客戶在其他的系統(tǒng)上還使用了EMC的Symmetrix，有競(jìng)爭(zhēng)才能獲得更好的價(jià)格，同時(shí)EMC也對(duì)這樣一個(gè)大客戶虎視眈眈，所以EMC也參與了方案提交。最后總共提交了三個(gè)方案：

方案 1：HP Campuscluster + RAC

方案 2：HP Metrocluster+CA

方案 3：Oracle data guard

方案 1

采用HP的Campuscluster來(lái)實(shí)現(xiàn)200mm和300mm兩套系統(tǒng)的自動(dòng)切換，利用Mirrordisk實(shí)現(xiàn)兩個(gè)site的數(shù)據(jù)同步。該方案的系統(tǒng)架構(gòu)圖如下：

方案 1的優(yōu)點(diǎn)：支持Oracle RAC，可以實(shí)現(xiàn)在災(zāi)難時(shí)，零時(shí)間切換到另外一個(gè)site。實(shí)施不需要停機(jī)。

方案 1的缺點(diǎn)：不支持CA，浪費(fèi)現(xiàn)有投資；需要將兩個(gè)SAN連接起來(lái)，讓所有的Server可以訪問(wèn)兩個(gè)存儲(chǔ)，主機(jī)利用Mirrordisk同時(shí)寫兩邊的存儲(chǔ)，對(duì)主機(jī)的性能有影響。

本來(lái)這是一個(gè)不錯(cuò)的方案，但是由于XP在LUN上已經(jīng)配置了條帶化Strip（不知道是誰(shuí)出的主意），Mirrordisk不支持，需要去掉strip，重新劃卷，然后重新安裝Oracle，從磁帶備份恢復(fù)數(shù)據(jù)。這樣不但需要停機(jī)1天以上，而且風(fēng)險(xiǎn)極大（客戶的磁帶備份重來(lái)沒(méi)有做過(guò)恢復(fù)測(cè)試），萬(wàn)一數(shù)據(jù)無(wú)法恢復(fù)將變成一個(gè)大事故。

方案 2

采用HP的Metrocluster來(lái)實(shí)現(xiàn)200mm和300mm兩套系統(tǒng)的自動(dòng)切換，利用CA實(shí)現(xiàn)兩個(gè)site的數(shù)據(jù)同步。該方案的系統(tǒng)架構(gòu)圖如下：

方案 2的優(yōu)點(diǎn)：對(duì)于現(xiàn)有的硬件環(huán)境不需要調(diào)整，利用存儲(chǔ)上的CA軟件來(lái)實(shí)現(xiàn)數(shù)據(jù)同步對(duì)于服務(wù)器負(fù)載無(wú)影響。

方案 2的缺點(diǎn)：由于Metrocluster不支持Oracle RAC，在兩個(gè)site間發(fā)生切換時(shí)，MESDB數(shù)據(jù)庫(kù)需要reboot。另外由于要去掉RAC，需要系統(tǒng)停機(jī)1~2小時(shí)。這兩點(diǎn)客戶都無(wú)法接受。

方案 3

是由EMC提出的方案。在一個(gè)HP的Installbase里要實(shí)現(xiàn)容災(zāi)方案，EMC只能采用基于應(yīng)用的辦法。具體辦法是增加一臺(tái)新的存儲(chǔ)（當(dāng)然是EMC的啦），然后利用Oracle的Data Guard來(lái)同步數(shù)據(jù)。Data Guard對(duì)存儲(chǔ)沒(méi)有要求，對(duì)于服務(wù)器要求是相同的OS和相同的Oracle版本，所以服務(wù)器還必須是HP的（EMC也沒(méi)有服務(wù)器啦，當(dāng)然不會(huì)眼紅）。

方案 3的優(yōu)點(diǎn)：對(duì)于存儲(chǔ)沒(méi)有要求，廠商無(wú)關(guān)。

方案 3的缺點(diǎn)：由于Data Guard的數(shù)據(jù)同步是基于Oracle的Redo Log或Arch Log，增加了主機(jī)的負(fù)載，而且要通過(guò)網(wǎng)絡(luò)來(lái)傳遞數(shù)據(jù)，消耗了帶寬；當(dāng)災(zāi)難發(fā)生時(shí)，所有客戶端必須重新連接備份站點(diǎn)的主機(jī)，會(huì)有中斷影響；Data Guard運(yùn)作有兩種方式，同步或異步，同步模式對(duì)于主站點(diǎn)的性能影響大（主站點(diǎn)必須得到備份站點(diǎn)的肯定回復(fù)才能進(jìn)行下一步操作），而異步模式可能在災(zāi)難切換時(shí)丟數(shù)據(jù)；在最初始的數(shù)據(jù)同步階段，仍然需要系統(tǒng)停機(jī)，當(dāng)兩邊數(shù)據(jù)一致之后備份站點(diǎn)才能基于日志進(jìn)行更新。

綜合分析上述三種方案，對(duì)于客戶來(lái)說(shuō)，停機(jī)都不可避免，不能滿足客戶不停機(jī)的硬指標(biāo)。而且客戶都需要不小的投資，獲得的回報(bào)從上面的分析來(lái)看，都有很大不如意的地方，ROI不值。所以我們最后建議客戶的方案是方案 4。

方案 4

主要是連通兩個(gè)SAN，讓主機(jī)都可以訪問(wèn)兩個(gè)存儲(chǔ)，然后在主機(jī)上寫一個(gè)shell文件，在災(zāi)難發(fā)生時(shí)，系統(tǒng)管理員只需要one click執(zhí)行該Shell文件就可以完成切換。該方案的架構(gòu)圖如下：

方案 4的優(yōu)點(diǎn)：不需要停機(jī)；投資最小。

方案 4的缺點(diǎn)：仍然需要人工參與，不能做到100%自動(dòng)化。

通過(guò)前面的具體分析，我們可以看到，一個(gè)DR方案設(shè)計(jì)需要全面細(xì)致的考慮，絕對(duì)不是靠廠商的售前技術(shù)力量用PPT就做出的方案，否則真到實(shí)施環(huán)節(jié)，就悔之晚矣（目標(biāo)達(dá)不到，或投資打水漂）。

當(dāng)然為什么在這個(gè)案例中，我們會(huì)碰到各種技術(shù)限制將我們陷入兩難境地，最根本是客戶的初始系統(tǒng)設(shè)計(jì)有很多不夠完美的地方，不夠靈活，投入運(yùn)行后再要調(diào)整就有很多限制。主要的不完美地方如下，希望其他的客戶在系統(tǒng)設(shè)計(jì)初期找對(duì)全系統(tǒng)真正專業(yè)的顧問(wèn)一起參與：

1. Oracle的RAC一個(gè)非常好的feature就是在提供高可靠性的同時(shí)，將負(fù)荷分擔(dān)在cluster內(nèi)的多臺(tái)機(jī)器上，提高系統(tǒng)利用率，節(jié)省投資。該案例中客戶在正常狀態(tài)下，只使用了一臺(tái)服務(wù)器的處理能力，實(shí)在浪費(fèi)。后來(lái)由于rp7640的處理能力不夠升級(jí)到兩臺(tái)同配置的rp8640，浪費(fèi)更大。采用分擔(dān)負(fù)載的方案憑空增加一倍的處理能力也許就不需要升級(jí)主機(jī)了。當(dāng)然作為芯片行業(yè)，可能會(huì)擔(dān)心采用分擔(dān)負(fù)載的方式，一旦故障發(fā)生，負(fù)載全部切換到一臺(tái)機(jī)器時(shí)，處理能力不足造成連鎖down機(jī)（據(jù)說(shuō)某電力客戶就發(fā)生過(guò)該情況，不過(guò)是否是RAC的缺陷不確定），不過(guò)完全可以將200mm和300mm兩套系統(tǒng)組成一個(gè)大的RAC，正常情況下，每個(gè)應(yīng)用的負(fù)載各自運(yùn)行在一臺(tái)主機(jī)上，這樣三臺(tái)主機(jī)構(gòu)成的RAC就可以實(shí)現(xiàn)同樣的高可靠性，相比生產(chǎn)環(huán)境，節(jié)省了一臺(tái)主機(jī)。

2. 生產(chǎn)環(huán)境兩個(gè)SAN互相隔離，冠冕堂皇的理由是系統(tǒng)安全，可是造成的存儲(chǔ)孤島限制了系統(tǒng)架構(gòu)的靈活性。在同一個(gè)機(jī)房中還用昂貴的CA來(lái)同步數(shù)據(jù)，實(shí)在是不經(jīng)濟(jì)的做法。同一個(gè)機(jī)房也完全不能達(dá)到容災(zāi)的要求（真有火災(zāi)等天災(zāi)還不是一毀全毀）。

3. XP12000已經(jīng)是企業(yè)級(jí)的高端存儲(chǔ)，所有的部件都是雙份的，不存在單點(diǎn)故障，無(wú)需采用兩套XP，而且采用CA來(lái)同步數(shù)據(jù)，對(duì)于每一個(gè)XP來(lái)說(shuō)，只有一半的磁盤容量是服務(wù)于業(yè)務(wù)系統(tǒng)的，數(shù)據(jù)冗余太大。

4. MES也是一個(gè)典型的OLTP應(yīng)用，每次寫入的數(shù)據(jù)并不會(huì)太多。而XP存儲(chǔ)作為企業(yè)級(jí)的高端存儲(chǔ)，完全用VG就可以將數(shù)據(jù)分散到多個(gè)控制器下的多個(gè)盤中，實(shí)現(xiàn)I/O的并發(fā)，再橫向加上Strip條帶化完全沒(méi)有必要（主要原因是一開(kāi)始設(shè)計(jì)系統(tǒng)時(shí)，對(duì)于某些應(yīng)用的負(fù)載估計(jì)不足，XP上分配的主機(jī)端口不足造成性能不好，沒(méi)有找到根本原因之前，想用Strip的方式提高并發(fā)，結(jié)果瓶頸不在于此，最后還是增加主機(jī)端口解決，但Strip加上后要撤銷可不容易）

5. 整個(gè)系統(tǒng)設(shè)計(jì)中有很多點(diǎn)似乎被廠商忽悠而增大投資的嫌疑：4臺(tái)主機(jī)兩兩RAC；用昂貴的CA在一個(gè)50米不到的距離內(nèi)來(lái)實(shí)現(xiàn)數(shù)據(jù)同步，而且冗余一半的XP磁盤等。

本文是DoSTOR存儲(chǔ)技術(shù)論壇精華帖摘錄，更多關(guān)注或參與討論請(qǐng)看： http://bbs.doit.com.cn/viewthread.php?tid=51987&extra=page%3D1%26amp%3Bfilter%3Ddigest

分享到

多易

相關(guān)推薦

近期文章

熱門標(biāo)簽