范喆 發(fā)表于:14年12月02日 18:48 [原創(chuàng)] DOIT.com.cn
2014年12月2日DOIT編輯北京報道:2014(第十屆)中國存儲峰會今天在北京召開,大會以“掌控數(shù)據(jù)經(jīng)濟(jì),重塑商業(yè)價值”為主題,詮釋在IT走向DT時代下,如何通過數(shù)據(jù)重塑商業(yè)價值。大會共邀請了 16位頂尖第三方嘉賓,數(shù)十位專家,帶來了35場前瞻性演講+2場圓桌討論,并首次推出硅谷創(chuàng)始人訪談和存儲夜宴活動!
在當(dāng)天下午的大數(shù)據(jù)分論壇上,來自華為的存儲產(chǎn)品線分布式存儲技術(shù)專家程菊生為我們精彩解讀《華為OceanStor 9000大數(shù)據(jù)存儲系統(tǒng)》。
以下是演講實錄:
程菊生:大家下午好!很高興今天有機(jī)會跟大家一塊兒交流一下華為OceanStor 9000這款產(chǎn)品,我叫程菊生,主要是做分布式文件系統(tǒng),包括分布式存儲。目前OceanStor這個產(chǎn)品,我在里面擔(dān)任架構(gòu)師,我們團(tuán)隊在這一塊經(jīng)過很大的努力把這個產(chǎn)品做出來了。今天跟大家分享一下經(jīng)驗和技術(shù)。
今天主要從三個方面來講。第一、講大數(shù)據(jù)對我們帶來的一些挑戰(zhàn)。第二、華為的應(yīng)對之道。第三、我們這個產(chǎn)品應(yīng)用實踐的一些情況。
第一部分,剛才前面嘉賓也講到,目前大數(shù)據(jù)的來臨大家都在說,從1960年的大機(jī)出現(xiàn),到后面的個人電腦、互聯(lián)網(wǎng),包括到移動互聯(lián),以及最近提出的大數(shù)據(jù)。一個大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時代正在開啟。我們可以拿一個簡單的例子看一看,這里是我們實際的項目。在基因數(shù)據(jù)這一塊,我們有一個項目實際上是跟基因相關(guān)的東西;驍(shù)據(jù)基本上被分成四個部分。第一、做基因測序。第二、基因分析。第三、數(shù)據(jù)共享。第四、數(shù)據(jù)保存。從這四塊看,它的每一塊都跟數(shù)據(jù)的存儲、分析、共享關(guān)系都非常密切。像測序整個數(shù)據(jù)導(dǎo)入本身對后端的系統(tǒng)要求非常高。數(shù)據(jù)存好之后,需要對數(shù)據(jù)做一些分析,這些分析他們也是對后頭計算設(shè)備和存儲設(shè)備有很高要求。共享這一塊,一個數(shù)據(jù)不光是一家公司用,可能需要有很多地方共同用。所以,它是一個共享的問題。測試這一塊,包括像基因數(shù)據(jù),它的量非常大,整個用傳統(tǒng)的陣列,或者一個存儲形式它是沒有辦法來保證我們大規(guī)模并行或者海量存儲的一種方案。
在基因測序里面,我們可以看到,從它的測序大共享,到數(shù)據(jù)分析,這個數(shù)據(jù)從它生產(chǎn)出來,再到模板把數(shù)據(jù)共享出去,到后面的分享,會經(jīng)過多次的轉(zhuǎn)換,到本地、到存儲設(shè)備,然后分析這些設(shè)備。如果用傳統(tǒng)的方式,就會發(fā)現(xiàn)存在多次數(shù)據(jù)的拷貝,這樣對數(shù)據(jù)空間是個浪費,同時對時間、人力包括成本都是浪費非常大。所以,我們想有沒有一種產(chǎn)品,它能夠同時解決這個問題?就是計算、存儲和分析我們?nèi)绾稳诤显谝黄?
另外,在其他行業(yè)也面臨類似的問題。像我們碰見的一些項目里面,在衛(wèi)星測繪,媒資行業(yè),包括能源勘探和金融證券這些行業(yè),他們的數(shù)據(jù)需要一些存儲、分析和共享,同樣面臨這些困境。中間是海量的數(shù)據(jù),有一個數(shù)據(jù)源,源里面會有數(shù)據(jù)的共享和數(shù)據(jù)的存儲、數(shù)據(jù)的分析;谶@種挑戰(zhàn),我們看看華為是怎么來應(yīng)對這種挑戰(zhàn),怎么打破常規(guī),然后不破不立。
首先,我們這個產(chǎn)品叫OceanStor 9000,它是專門為大數(shù)據(jù)而設(shè)計的一個海量存儲系統(tǒng)。它要解決的問題就是在計算這一塊的一些分散的問題。像生產(chǎn)、共享和分析這一塊,知道產(chǎn)品之后,我們可以把生產(chǎn),把共享的一些數(shù)據(jù),還有分析很好的進(jìn)行一些融合。怎么融合的呢?這張圖是基于高效全融合系統(tǒng)的架構(gòu)圖,最上面是應(yīng)用層,應(yīng)用層面向的分為非常廣,像媒體,包括視頻監(jiān)控,高性能計算,像網(wǎng)盤,另外還有一些其他的互聯(lián)網(wǎng)的應(yīng)用,也都可以。然后,在應(yīng)用和數(shù)據(jù)處理之間,這是一個接口上,在這個接口層里面就非常豐富了。有傳統(tǒng)的NFS協(xié)議,另外還會支持當(dāng)前比較熱門的像HDFS這些接口,還會有一些像亞馬遜的S3這樣的接口,同時還會支持?jǐn)?shù)據(jù)庫的一些接口。
在接口之下,整個數(shù)據(jù)處理層,數(shù)據(jù)處理層基本上分這么幾個核心的部分。第一、有一套分布式服務(wù)系統(tǒng),我們稱為WuShanFS分布式系統(tǒng),還有分布式數(shù)據(jù)庫,我們稱之為WuShanSQL,還有一些企業(yè)級Hadoop系統(tǒng),我們稱之為Fuslonlnslght系統(tǒng)。另外還有我們?nèi)A為自己研發(fā)的X86的服務(wù)器,包括存儲服務(wù)器,這是整個系統(tǒng)架構(gòu)。
基于這一塊我們提出兩個理念。就是右上角提的兩個,一個是融合,一個是擴(kuò)展。融合會在存儲分析這一塊,第一是存儲和分析的融合。左邊第一部分講傳統(tǒng)的數(shù)據(jù)分析,右邊講用了我們的系統(tǒng)之后,我們自己怎么來解決這個傳統(tǒng)分析的流程。在左邊會發(fā)現(xiàn),整個數(shù)據(jù)的生產(chǎn)、共享和分析有一個篡寫的環(huán)節(jié),但是到右邊這一塊,數(shù)據(jù)的生產(chǎn)、共享、分析完全可以用一套存儲資源進(jìn)行管理和備份。這樣我不需要進(jìn)行一些額外的操作,在同一套系統(tǒng)完成操作。這里面更重要的是它還會提升我們的時間,包括數(shù)據(jù)的遷移、搬遷,消耗的時間會非常長。
第二塊關(guān)于存儲和歸檔的融合。一般來說存儲和歸檔在傳統(tǒng)行業(yè)是分開的。就是我會有一套傳統(tǒng)的產(chǎn)品,它是一些陣列的產(chǎn)品。另外還會有一些外植的歸檔設(shè)備,所以做歸檔的時候,它會把存儲設(shè)備遷移到歸檔設(shè)備,進(jìn)行歸檔的時候,由于要做歸檔,包括要做它的權(quán)限,還有可行性的一些檢查,所以,你一定要做一些外置的檢索還有相關(guān)的一些工作。這樣一來其實是兩套獨立的產(chǎn)品,但是現(xiàn)在其實有了一些新的解決方案,就是我同一套設(shè)備里面,可以把這兩個東西完全的融合起來。就是在一套存儲系統(tǒng)里,我們會有專門的一個在線的存儲區(qū),我們把它稱之為Online的存儲區(qū)。另外還有一塊歸檔區(qū),這兩個區(qū)其實在完整的一套設(shè)備里面。我們會把設(shè)備跟它隔離層不同的區(qū),不同的區(qū)分成不同的策略,包括數(shù)據(jù)冗余的一些策略。這樣做存儲的時候,可以直接到存儲區(qū)進(jìn)行數(shù)據(jù)存儲。如果我需要歸檔的時候,只要在整個小資源范圍內(nèi)能夠進(jìn)行一些新的歸檔,包括簡單的一些數(shù)據(jù)的設(shè)置,包括訪問等等。
第三個融合講的是多種數(shù)據(jù)類型的融合,傳統(tǒng)的數(shù)據(jù)為了適應(yīng)不同的數(shù)據(jù)類型,會從最底層進(jìn)行抽象,會把整個數(shù)據(jù)分成文件的部分,就成為分析化的部分,還會稱為一個數(shù)據(jù)化的部分,我們稱為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。這兩部分其實是用了不同的設(shè)備進(jìn)行做的。像數(shù)據(jù)庫這一塊,我們用一些陣列的設(shè)備,對外安裝一些數(shù)據(jù)庫,然后提供SQL查詢的接口。如果是文件這一塊,它會用標(biāo)準(zhǔn)的NFS設(shè)備,對外提供數(shù)據(jù)的一些共享,再進(jìn)行數(shù)據(jù)的分析、存儲,這是講的傳統(tǒng)的分析。
但是,隨著技術(shù)的發(fā)展,開始是把結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)融合在一起。就是整套設(shè)備里面有這么一套存儲的資源池,這個資源池里面本身會分成非結(jié)構(gòu)化,還有一塊是結(jié)構(gòu)化的設(shè)備。我們對外會同時提供一些NFS接口和一些數(shù)據(jù)庫的接口,還會包括一些BI的接口,這樣系統(tǒng)可以完成文件、對象,包括塊的存儲,做到一些統(tǒng)一的融合。所以,這里我們講的是多種數(shù)據(jù)類型的融合。
第二部分,關(guān)于擴(kuò)展。整個產(chǎn)品的擴(kuò)展是從三個緯度,三個層次進(jìn)行擴(kuò)展。首先,是協(xié)議層這一塊進(jìn)行了拓展。我們對外是用標(biāo)準(zhǔn)的NFS這些協(xié)議,但是這些協(xié)議本身有一些擴(kuò)展性的問題,還會包括一些熱點問題。所以,我們團(tuán)隊自己把享用的一些協(xié)議做了一些修改,然后解決一些它的熱點問題,包括它一些負(fù)載均衡的問題。這樣整套系統(tǒng)可以對外提供上千,甚至上萬個客戶端同時進(jìn)行訪問,在后續(xù)的設(shè)備里面,我們會在系統(tǒng)里面支持十萬個節(jié)點,甚至更多的節(jié)點的訪問。
中間是文件系統(tǒng)層和分布式數(shù)據(jù)庫層,會把整個系統(tǒng),用分布式系統(tǒng)連接起來,實現(xiàn)很好的橫向的擴(kuò)展。目前像這種技術(shù)在業(yè)界也非常多,像Hadoop等等。我們采用是我們自己的想法,我們會把整個單獨的一套系統(tǒng)擴(kuò)展成完全的一套分布式系統(tǒng),每一套分布式系統(tǒng)用一些指數(shù)切割的方法實現(xiàn)整個系統(tǒng)海量的管理。在最底層是分布式存儲層,這個存儲層我們在硬件和數(shù)據(jù)存儲這一塊,其實之下是全部的DS節(jié)點,是全互聯(lián)IP的方式,然后采用分布式的架構(gòu),同時會支持一些盤。這里面我們會對節(jié)點的加入,刪除做優(yōu)化,這樣我們把很多節(jié)點可以構(gòu)成一個資源池,然后它對外提供很好的存儲能力。
擴(kuò)展這一塊有一個比較好的能力就是性能。為什么我們提擴(kuò)展,就是傳統(tǒng)的存儲設(shè)備單個性能還是比較不錯,因為它走的是光纖這一塊,單臺機(jī)器的設(shè)備性能非常強(qiáng)。但是,如果它把多臺設(shè)備放在一起,如果構(gòu)成多系統(tǒng)之后,它的設(shè)備反而不行。這就是為什么說開始要用到像百度、阿里,他們開始用大的一些設(shè)備構(gòu)建它的分布式系統(tǒng)。目的一個是除了簡單使用,另外還有性能各方面的考慮。
這邊我們給我們系統(tǒng)做新的測試的時候,我們的一個測試指標(biāo),從數(shù)字上看,我們當(dāng)時測出來500萬的OPS性能,這個性能比上一次冠軍整整要高出3倍以上。據(jù)說他們之前測出來的性能在150萬左右的性能值,我們測出來性能值能達(dá)到500多萬,這個數(shù)字還是非常驚人。
成功的背后其實也有英特爾和華為存儲戰(zhàn)略合作的結(jié)果。這里面這張圖片,是我們一個實物的圖片,是在成都華為研究所機(jī)房里面,我們專門有一個實驗室所拍出來的。整個存儲規(guī)模有40P,總共有288個機(jī)電構(gòu)成,這個是當(dāng)前最大的一場存儲系統(tǒng),我們說是這個展現(xiàn)的,其他的存儲設(shè)備認(rèn)為我可能達(dá)到20P,或者40P都有理論值。我們這個是通過實物,實實在在把它構(gòu)建出來的。這里面,英特爾幫我們做了大的工作,設(shè)計是我們自己做的工作。英特爾在處理器這一塊,在加速,包括大數(shù)據(jù),還有橫向擴(kuò)容他們幫我們做了很多。另外在它的CPU,包括一些網(wǎng)卡類也做了很多工作。這張圖是我們?nèi)A為跟英特爾合作的這么一個發(fā)布會。
關(guān)于擴(kuò)展這一塊的好處,就是有了擴(kuò)展之后,本身這個產(chǎn)品能夠做到按需擴(kuò)展,同時也按需購買。隨著業(yè)務(wù)的發(fā)展,一開始可能不需要那么多設(shè)備,完全以定制化的形式買一部分東西。但是,隨著后續(xù)產(chǎn)品,包括公司的擴(kuò)大,我完全可以把它的規(guī)模擴(kuò)展上去。這就是說傳統(tǒng)的一些設(shè)備,他們往往很難做到比較好的擴(kuò)展性。像分布式系統(tǒng),這是它天然的一個優(yōu)勢。
另外,在管理方面,我們有幾個特點,我們稱為叫1、2、3、4。“1”就是有一套完整的管理系統(tǒng),有一套進(jìn)行管理。“2”指兩種資源系統(tǒng),這種資源系統(tǒng)包括物理資源,還有邏輯資源。“3”,支持三類管理終端,包括PC、Phone、Pad。“4”就是4種告警方式,包括郵件、聲音、短信、指示燈的告警。目前來說我們基本上一分鐘就可以上線,馬上就可以使用。這是整個管理便捷這一塊。
整個OceanStor 9000這款產(chǎn)品有幾個關(guān)鍵的數(shù)據(jù)。首先我們的產(chǎn)品按照類型可以分成三大類。第一類,我們把它成為叫分析節(jié)點。第二類高性能節(jié)點。第三類大容量節(jié)點。這是針對不同的市場,有的市場可能存儲流量不是那么大,但是我可能需要性能特別強(qiáng)。另外,可能是對性能要求偏弱,但是對存儲容量要求比較大。所以,我們會針對不同的情況會分幾類進(jìn)行區(qū)分。
這里面有幾個數(shù)據(jù)是我們在業(yè)界提出來的。第一、關(guān)于OPS性能這一塊,目前我們在500萬的OPS。第二、整個吞吐量能達(dá)到200GB總的這么一個情況。第三、容量,目前實際值已經(jīng)達(dá)到40PB,我們現(xiàn)在在構(gòu)建下一個版本,下一個版本我們計劃要到幾百P以上的規(guī)模。
我們這些產(chǎn)品有哪些具體的應(yīng)用?華為OceanStor 9000的應(yīng)用場景有這些,因為是根據(jù)我們目前拿到項目的情況把它列了一下,但是它也不完全取決于這些。它會包括在衛(wèi)星測繪,在氣象科學(xué)這一塊,包括能源勘探,航空,包括基因測序,教育,還有公共事業(yè)和媒體。其中像氣象這一塊,我們在國內(nèi)氣象類的項目里面,有幾個標(biāo)成功中標(biāo),目前項目也在實施。在基因測序這一塊,也跟一些國內(nèi)非常知名的基因公司做相應(yīng)的合作,他們有我們相應(yīng)的設(shè)備。在媒體這一塊,跟比較有名的一些像央視一些大的媒資企業(yè)我們也在進(jìn)行合作。
最后總結(jié)一下,我們整個OceanStor 9000的情況。整個華為OceanStor 9000,主要的問題是化解CIO存儲目前的一些困境,然后解決大數(shù)據(jù)帶來的一些挑戰(zhàn)的問題。然后這幾個數(shù)據(jù),剛剛我們說的就是它主要的特點就是如何擴(kuò)展高效、簡單。然后,它有幾個數(shù)字,500萬OPS,200GB/S寸土兩,288個節(jié)點,40PB的存儲孔兩,謝謝各位!
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.