現(xiàn)在,一年過去了,Gibson又接受了有關(guān)媒體的專訪,談及了PDSI學(xué)會是否找到了計算機出故障的原因以及在Peta級存儲設(shè)備的開發(fā)研究方面取得了什么樣的進(jìn)展。


      “我們在我們的系統(tǒng)中使用的驅(qū)動器的數(shù)量以及我們在那些驅(qū)動器上儲存的數(shù)據(jù)量在過去十年發(fā)生了急劇的增長,計算機的故障總量也增加了?!盙arth Gibson這樣說到。



      設(shè)定一個新的標(biāo)準(zhǔn)


      Gibson是領(lǐng)先的大型存儲設(shè)備廠商Panasas公司的創(chuàng)始人兼首席執(zhí)行官,據(jù)Gibson說:“對于企業(yè)和科學(xué)研究界的大型用戶來說,2007年存儲設(shè)備業(yè)界發(fā)生的最重要的事情是并行NFS標(biāo)準(zhǔn)草案的完成?!彼f他預(yù)計這個標(biāo)準(zhǔn)草案將于12月2日被提交給因特網(wǎng)工程特別工作組(Internet Engineering Task Force)審核。Gibson表示:“那將創(chuàng)立一個多源的、競爭性的、標(biāo)準(zhǔn)化文件系統(tǒng),可以滿足各種Peta級系統(tǒng)的要求。”他還指出,到目前為止可縮放文件系統(tǒng)界還沒有形成一個開放的標(biāo)準(zhǔn)。 “因此,各個解決方案都有新機會。”


      這項標(biāo)準(zhǔn)其實是下一代NFS即NFS 4.1,它是為了替代NFS 4.0而開發(fā)的。Gibson說:“在4.1標(biāo)準(zhǔn)中的所有東西都是可選擇的,因此你可以象往常一樣繼續(xù)使用NFS 4.0,并且開始體驗新功能?!盙ibson說,對于那些要求高性能、可縮放存儲系統(tǒng)但是不愿意進(jìn)行巨額投資購買需要經(jīng)常進(jìn)行升級的所有權(quán)系統(tǒng)的企業(yè)來說,他相信新的開放標(biāo)準(zhǔn)最終會提供一個更好的投資回報。


      彌補介質(zhì)故障


      為了解決計算機出現(xiàn)的故障,并試圖在更低故障率條件下建造大型存儲系統(tǒng),磁盤驅(qū)動器廠商們正在不斷對產(chǎn)品進(jìn)行完善,研究人員們也不斷研究開發(fā)出新的技術(shù)。


      Gibson說:“企業(yè)們將重新認(rèn)識規(guī)模的含義,它們將采取措施改善存儲系統(tǒng)在故障方面的容許量?!蹦切┐胧┌涌炀S修系統(tǒng)的速度、大規(guī)模并行重建數(shù)據(jù)、增加對檢查點、完整性代碼和糾錯碼的使用以防止出現(xiàn)更多種類的故障,并將RAID磁盤的故障容錯率提高2倍到3倍。 雖然Gibson避免將這些故障稱作是重要故障,但是他聲稱這表明了提供更強大的糾錯機制已經(jīng)形成一個總體趨勢。


      更重要以及更值得一提的是,驅(qū)動器會變得更加可靠。不過問題仍然存在,我們在系統(tǒng)中使用的驅(qū)動器的數(shù)量和我們在驅(qū)動器上存儲的數(shù)據(jù)量在過去10年里發(fā)生了急劇的增長,這就導(dǎo)致故障總量也增加了很多。


      企業(yè)和研究人員們特別關(guān)心的問題是介質(zhì)故障率,也被稱作無法修正的讀誤差或者潛在介質(zhì)故障。雖然這個問題并不是經(jīng)常發(fā)生,但是時不時尤其是當(dāng)里在使用Peta級系統(tǒng)時還是會不時發(fā)生這樣的故障并引發(fā)重要問題。


      例如,Gibson解釋了這樣一種情況:


      他說:“讓我們假定里在一個RAID種配備了14個磁盤,而且其中一個出現(xiàn)了故障?,F(xiàn)在你需要讀出13個磁盤的所有內(nèi)容。 這個磁盤的容量可能是1TB。也就是說你要想重建系統(tǒng)必須讀出13TB的數(shù)據(jù)。 一般,在數(shù)據(jù)讀出量達(dá)到10TB到100TB之間時可能會出現(xiàn)一次介質(zhì)故障。因此,也就是說在更低質(zhì)量驅(qū)動器的重建過程中,你很可能無法讀到所有的內(nèi)容。 可能只有一個扇區(qū)讀不出。即便是采用更高質(zhì)量的驅(qū)動器,在10次重建中仍可能會遇到1次這種問題?!?


      “如果你在重建過程中無法讀出某個磁盤扇區(qū)的內(nèi)容,哪怕你只丟失了十億分之一的數(shù)據(jù),你也無法進(jìn)行重建。在目前,當(dāng)你在重建過程中遇到故障時,是沒有任何解決辦法的。然后你可能不得不去找廠商,然后由生產(chǎn)廠商的技術(shù)人員設(shè)法弄清楚是哪個扇區(qū)出現(xiàn)故障,然后想辦法修復(fù)它?!?


      那么廠商們?yōu)槭裁床荒苓M(jìn)一步減少、消除或者補償潛在介質(zhì)故障呢? Gibson說,問題是市場希望能夠從同樣的投資中獲得更多的信息。至于具體的做法,廠商們必須將數(shù)據(jù)更緊密地包在一起。 如果它們不需要保證返回給你的數(shù)據(jù)的正確性,它們可以迅速返回。因此,它們不能返回正確數(shù)據(jù)的比率是它們可以以多快的速度來提升容量以及在同樣的投資下能夠提供給你多少數(shù)據(jù)時所面臨的一個限制?!?


      廠商們可以將數(shù)據(jù)壓縮得更緊密一些。但是Gibson說,如果廠商們那么做的話,可能就會發(fā)生故障率上升的情況。因此,它們在進(jìn)行數(shù)據(jù)壓縮的時候,必須控制相應(yīng)的故障率處于可接受范圍內(nèi)。


      結(jié)果,包括Panasas公司在內(nèi)的大型存儲設(shè)備廠商將開發(fā)新的保護(hù)機制來應(yīng)對萬一發(fā)生介質(zhì)故障時將故障的部分隔離開,對于企業(yè)用戶們來說,這可是大大的好消息。


      從失敗中吸取教訓(xùn)


      在Peta級數(shù)據(jù)存儲業(yè)界的另一個重大進(jìn)步是計算機故障數(shù)據(jù)存儲機構(gòu)(the Computer Failure Data Repository)的建立。最終用戶們可以在這里發(fā)布它們的故障記錄供其他人研究和學(xué)習(xí)。Gibson說,那些信息是很重要的,因為改善系統(tǒng)質(zhì)量的正確方法是真正理解它們是如何發(fā)生故障的。


      Gibson說,雖然計算機問世已經(jīng)有許多年了,但是大多數(shù)計算機科學(xué)家對于故障機制的認(rèn)識卻比較有限。


      由于廠商們常常不愿意或者不能夠共享故障數(shù)據(jù),因此計算機故障數(shù)據(jù)存儲機構(gòu)鼓勵并依賴最終用戶來提供那些故障數(shù)據(jù),比如Los Alamos 國家實驗室 、太平洋西北國家實驗室、勞倫斯伯克萊試驗室和國家能源研究科學(xué)計算中心等。Los Alamos國家試驗室已經(jīng)提供了試驗室的23個不同集群在9年時間中所遭遇的故障的數(shù)據(jù),事實證明這些數(shù)據(jù)對于研究人員們來說是非常重要的。


      他認(rèn)為,通過弄清楚大型計算機系統(tǒng)或者群集系統(tǒng)為什么以及如何發(fā)生故障,廠商們就可以開發(fā)出相應(yīng)的新技術(shù)來減少故障,這樣廠商們就可以在市場能夠承擔(dān)的價格范圍內(nèi)生產(chǎn)出更大、更快、更高效和更可靠的計算機和存儲系統(tǒng)。

分享到

多易

相關(guān)推薦