因此,中石油內(nèi)部提出:“寧可少打一口井,也要把資金投入到計(jì)算機(jī)裝備上”的口號(hào),用高質(zhì)量的勘測(cè)和運(yùn)算技術(shù)發(fā)現(xiàn)更可靠的地下構(gòu)造。
中國(guó)石油新疆地球物理研究所的高性能計(jì)算平臺(tái),主要用于勘測(cè)數(shù)據(jù)的匯集和運(yùn)算,也就是石油勘探地震資料處理,把地下地質(zhì)的地震信號(hào)通過(guò)地面提取后,用大型計(jì)算機(jī)進(jìn)行處理,形成地下構(gòu)造以及地下成像,發(fā)現(xiàn)地下的油氣構(gòu)造,為打井提供更加可靠的勘探數(shù)據(jù)。
從上個(gè)世紀(jì)80年代初應(yīng)用計(jì)算機(jī)開(kāi)始,研究所已經(jīng)經(jīng)歷了好幾代的更新,從早期應(yīng)用的向量級(jí)服務(wù)器到UNIX服務(wù)器,一直到現(xiàn)在的IBM刀片機(jī)群。
由于地質(zhì)原始數(shù)據(jù)文件很大,集群運(yùn)算需要巨大的運(yùn)算存儲(chǔ)空間,不但要求存儲(chǔ)設(shè)備的I/O吞吐性能可以滿足IBM機(jī)群服務(wù)器的運(yùn)算要求,并且盡可能做到低成本實(shí)施。
選購(gòu)與實(shí)施
性能、價(jià)格、容量的平衡點(diǎn)
由于數(shù)據(jù)占用空間巨大,存儲(chǔ)設(shè)備的需求量多,石油勘探高性能計(jì)算對(duì)于存儲(chǔ)系統(tǒng)有著三方面的要求:性能、價(jià)格和容量。而這三方面又是互相牽制,特別是價(jià)格和另外兩個(gè)因素之間始終存在著矛盾。
為了滿足高性能計(jì)算存儲(chǔ)系統(tǒng)這三方面的要求,新疆地球物理研究所總工程師賈亞軍選擇了NAS產(chǎn)品來(lái)構(gòu)建整個(gè)高性能計(jì)算平臺(tái)的存儲(chǔ)環(huán)境。
因?yàn)閱渭円揽糠?wù)器中的硬盤根本不可能滿足容量要求,采用DAS直連存儲(chǔ)既不能實(shí)現(xiàn)網(wǎng)絡(luò)化,維護(hù)又很不方面。
而光纖SAN架構(gòu)雖然性能高、容量大,但是成本太過(guò)昂貴,并不適合于高性能計(jì)算所采用。
賈亞軍談到,目前研究所中NAS設(shè)備的總?cè)萘恳呀?jīng)達(dá)到了100TB,其中基于SATA的NAS設(shè)備40T,基于IDE的設(shè)備為60T。而這些空間仍舊不能滿足應(yīng)用的需求,研究所還在不斷對(duì)系統(tǒng)進(jìn)行擴(kuò)容。
親自測(cè)試才會(huì)采用
業(yè)界對(duì)于存儲(chǔ)系統(tǒng)性能的評(píng)估標(biāo)準(zhǔn)很多,測(cè)試方法也是多種多樣。為了保證存儲(chǔ)系統(tǒng)能夠達(dá)到石油勘探高性能計(jì)算的要求,特別是要能夠應(yīng)對(duì)高性能計(jì)算服務(wù)器長(zhǎng)時(shí)間、大容量的訪問(wèn)要求,賈亞軍每次采購(gòu)前都會(huì)對(duì)入圍的設(shè)備在實(shí)際應(yīng)用環(huán)境中進(jìn)行測(cè)試。據(jù)他介紹,在此次存儲(chǔ)系統(tǒng)選型時(shí),研究所前后共選擇了九個(gè)品牌的NAS進(jìn)行測(cè)試。
一般的BenchMark測(cè)試對(duì)NAS產(chǎn)品而言,只能用來(lái)參考。因?yàn)楦咝阅苡?jì)算、特別是石油行業(yè)的應(yīng)用對(duì)于NAS的要求比較特殊。
此次系統(tǒng)擴(kuò)充選擇了網(wǎng)虎公司的NAS8500作為高性能計(jì)算服務(wù)器集群的存儲(chǔ)池,為地質(zhì)勘探數(shù)據(jù)提供存儲(chǔ)空間。研究所采集的原始數(shù)據(jù)上傳至集群服務(wù)器,運(yùn)算的中間結(jié)果及最終結(jié)果數(shù)據(jù)均保存在NAS上,每臺(tái)NAS8500目前可提供的存儲(chǔ)容量為2TB。
將存儲(chǔ)化整為零
看到這個(gè)小標(biāo)題也許會(huì)讓人覺(jué)得有些奇怪,許多行業(yè)現(xiàn)在都在大談數(shù)據(jù)大集中,為什么研究所要把存儲(chǔ)系統(tǒng)化整為零呢?
賈亞軍談到,以前數(shù)據(jù)的存儲(chǔ)有很大一部分放置在直聯(lián)的DAS盤陣當(dāng)中,因?yàn)楦咝阅苡?jì)算對(duì)于硬盤部件的消耗非常高,采取DAS方式很不靈活,維護(hù)起來(lái)也不太方便。
因此研究所將逐漸把這部分設(shè)備進(jìn)行淘汰,不再對(duì)其進(jìn)行維護(hù)的資金投入,逐步將這些數(shù)據(jù)轉(zhuǎn)移到網(wǎng)絡(luò)中的NAS上。這么做有兩大好處:
首先,采用NAS方式后,不同業(yè)務(wù)的存儲(chǔ)就可以分離放置在不同的NAS服務(wù)器中,有可能幾個(gè)NAS就是一個(gè)項(xiàng)目所有的數(shù)據(jù)資料,實(shí)現(xiàn)了數(shù)據(jù)的小“集中”,這樣維護(hù)和管理都會(huì)非常簡(jiǎn)單。
其次,此次采購(gòu)的網(wǎng)虎的NAS產(chǎn)品每一款數(shù)據(jù)存儲(chǔ)容量為2TB,將存儲(chǔ)系統(tǒng)化整為零后,即使某一臺(tái)NAS發(fā)生問(wèn)題,也不會(huì)對(duì)整個(gè)存儲(chǔ)系統(tǒng)造成影響,提高了系統(tǒng)的冗余度。
創(chuàng)新的“磁盤庫(kù)”歸檔方式
當(dāng)記者問(wèn)到如此海量的數(shù)據(jù)怎么進(jìn)行備份時(shí),賈亞軍介紹了自己的“高招”:研究所以前曾經(jīng)購(gòu)買過(guò)大型的磁帶庫(kù)系統(tǒng),累計(jì)投資也已經(jīng)在幾十萬(wàn)以上,但現(xiàn)在整個(gè)磁帶庫(kù)的空間已經(jīng)基本滿了。
出于成本的考慮,研究所將不會(huì)再對(duì)磁帶庫(kù)進(jìn)行投資。賈亞軍給記者算了這樣一筆賬:一盤容量為80GB磁帶的價(jià)格要近千元,和一塊100GB左右的硬盤價(jià)格相仿。
如此看來(lái),硬盤不但單TB成本比磁帶更低,而且還擁有著磁帶無(wú)法比擬的速度優(yōu)勢(shì)。用賈先生的話說(shuō),“把磁盤直接放進(jìn)倉(cāng)庫(kù)都比購(gòu)買磁帶劃算得多”。
因?yàn)檠芯克?jīng)過(guò)計(jì)算得出結(jié)果后的數(shù)據(jù),一般在2~3年之后才會(huì)取出復(fù)用。而且由于NAS存儲(chǔ)設(shè)備是根據(jù)項(xiàng)目進(jìn)行分散配置的,每個(gè)項(xiàng)目都被綁定在相應(yīng)的存儲(chǔ)設(shè)備中。
一個(gè)項(xiàng)目完成后,可以直接把硬盤從NAS中取出進(jìn)行保管,有新的項(xiàng)目上線時(shí),直接購(gòu)買空白硬盤補(bǔ)充即可,這點(diǎn)確實(shí)為許多高性能計(jì)算的用戶提供了備份的新思路。
這樣保存的數(shù)據(jù)還能時(shí)刻處于近線狀態(tài),如果突然需要訪問(wèn),只需要把硬盤安裝回NAS即可,不用花費(fèi)漫長(zhǎng)時(shí)間等待數(shù)據(jù)從磁帶恢復(fù)到磁盤。
管理難題尚未解決
賈亞軍在接受采訪時(shí),還對(duì)硬盤的質(zhì)量表示出了自己擔(dān)憂。因?yàn)楝F(xiàn)在在研究所的系統(tǒng)中,每個(gè)月都有硬盤損壞的情況發(fā)生。這種情況的頻繁出現(xiàn)不但維護(hù)成本較大,而且更換硬盤后的重建數(shù)據(jù)過(guò)程,也會(huì)對(duì)生產(chǎn)系統(tǒng)造成性能影響,甚至影響某個(gè)項(xiàng)目的時(shí)間進(jìn)程。
對(duì)待這種問(wèn)題,賈亞軍無(wú)奈地告訴記者,自己和同事只能像救火隊(duì)一樣,哪里出現(xiàn)“險(xiǎn)情”就解決哪里。
賈亞軍也為部門制定了詳細(xì)的工作流程制度,盡可能利用標(biāo)準(zhǔn)化的處理方式,減少因硬件損壞而對(duì)業(yè)務(wù)造成的影響。雖然這種方式不能根本解決問(wèn)題,但是也算是起到了一定的作用,如果讀者有什么更好的辦法,不妨跟我們聯(lián)系,一同探討。
用戶感言:
存儲(chǔ)絆了高性能計(jì)算的腿
在采訪中,賈亞軍坦率地告訴記者,現(xiàn)在國(guó)內(nèi)高性能計(jì)算領(lǐng)域的發(fā)展呈現(xiàn)出了不平衡的態(tài)勢(shì)。在國(guó)內(nèi),服務(wù)器以及機(jī)群技術(shù)已經(jīng)非常成熟,但是與之配套的存儲(chǔ)設(shè)備卻面臨很大的問(wèn)題,計(jì)算環(huán)境和存儲(chǔ)環(huán)境的不匹配牽制了高性能計(jì)算的發(fā)展。
多不如少
不了解高性能運(yùn)算的讀者肯定會(huì)認(rèn)為服務(wù)器堆得越多,得到結(jié)果的速度就越快,但事實(shí)并非如此。
據(jù)賈亞軍介紹,在系統(tǒng)進(jìn)行運(yùn)算的時(shí)候,高性能計(jì)算所采用的unix或者linux操作系統(tǒng)的瓶頸主要體現(xiàn)在nfs文件系統(tǒng)上,常規(guī)的mount鏈路數(shù)會(huì)有一定的限制。當(dāng)這個(gè)數(shù)量超過(guò)一定的級(jí)數(shù)時(shí),系統(tǒng)的性能反而會(huì)更差。
主要的原因是在nfs文件結(jié)構(gòu)中,數(shù)據(jù)塊的空間一般為4k或者8k,數(shù)據(jù)在傳輸中進(jìn)行打包與拆包所造成的系統(tǒng)性能消耗非常大。
這種情況好像用卡車運(yùn)貨,每跑一趟,卡車自身重量的移 動(dòng)做功都會(huì)耗油,但真正有效的只是貨物的移 動(dòng)。
根據(jù)研究所實(shí)際的測(cè)試來(lái)看,如果有16臺(tái)計(jì)算節(jié)點(diǎn)同時(shí)mount一個(gè)存儲(chǔ)資源的話,系統(tǒng)的性能還能比較穩(wěn)定。但是如果更多,性能就會(huì)出現(xiàn)衰減,出現(xiàn)多服務(wù)器比少服務(wù)器性能更差的結(jié)果。
與中科院合作找到突破口
為了解決這個(gè)問(wèn)題,賈亞軍帶領(lǐng)自己的團(tuán)隊(duì)嘗試過(guò)不少方法,例如對(duì)nfs系統(tǒng)進(jìn)行調(diào)優(yōu),但是收效甚微。
經(jīng)過(guò)調(diào)優(yōu)之后,系統(tǒng)的性能僅僅提升了10%左右,而這對(duì)于高性能計(jì)算而言,頂多能夠提前計(jì)算出結(jié)果1天左右,距離滿意仍舊保持一定的差距。
國(guó)外通常采用的方法是將nfs文件系統(tǒng)中的數(shù)據(jù)包進(jìn)行分解,把造成系統(tǒng)開(kāi)銷的部分分解出去。
據(jù)賈亞軍介紹,在國(guó)內(nèi)也找到了問(wèn)題的解決者?D?D中科院,所采用的方式也是將nfs系統(tǒng)中的數(shù)據(jù)包進(jìn)行分解,采用dnfs(分布式nfs)的方式進(jìn)行數(shù)據(jù)傳輸,使系統(tǒng)消耗得以大幅降低。
根據(jù)在新疆地球物理研究所進(jìn)行的測(cè)試來(lái)看,應(yīng)用了這一技術(shù)之后,mount 128個(gè)節(jié)點(diǎn)群后的i/o性能都能夠呈現(xiàn)出線性分布。也就是說(shuō),采用了這一技術(shù)之后,高性能計(jì)算得出結(jié)果的時(shí)間能夠比原來(lái)縮短一倍甚至幾倍。
得出這一實(shí)際測(cè)試結(jié)果令賈亞軍非常興奮,目前研究所已經(jīng)把原有服務(wù)器上的das存儲(chǔ)系統(tǒng)全部采用了這種技術(shù)。并且規(guī)劃平穩(wěn)運(yùn)行一段時(shí)間之后,將該項(xiàng)技術(shù)推廣到整個(gè)后臺(tái)存儲(chǔ)系統(tǒng)。
另外,新疆地球物理研究所也將對(duì)其它公司的類似技術(shù),如netapp dass技術(shù)、ibm gpss技術(shù)和panasas公司相關(guān)技術(shù)進(jìn)行測(cè)試,選擇出更適合的解決辦法。
鏈 接
中國(guó)石油新疆地球物理研究所
中國(guó)石油新疆地球物理研究所擁有世界先進(jìn)的sgi超級(jí)并行計(jì)算機(jī)、近百套sgi/sun工作站,是地震勘探資料數(shù)據(jù)處理、地質(zhì)綜合研究和計(jì)算機(jī)軟、硬件技術(shù)開(kāi)發(fā)為一體的高科技單位。1995年被國(guó)務(wù)院發(fā)展研究中心命名為“中國(guó)西北地區(qū)最大的地震資料處理解釋中心”,并載入《中華之最》。
建所20幾年來(lái),中國(guó)石油新疆油田分公司地球物理研究所先后多次從國(guó)外進(jìn)行計(jì)算機(jī)系統(tǒng)、配套設(shè)備及其應(yīng)用軟件系統(tǒng)的大規(guī)模引進(jìn)工作。在2004年應(yīng)用了ibm刀片服務(wù)器高性能計(jì)算機(jī)群后,三維處理能力提高到6000到7000平方公里。(文 / 《中國(guó)計(jì)算機(jī)用戶》)