程菊生：華為OceanStor 9000大數(shù)據(jù)存儲系統(tǒng)

范喆發(fā)表于：14年12月02日 18:48 [原創(chuàng)] DOIT.com.cn

分享：

[導(dǎo)讀]2014(第十屆)中國存儲峰會今天在北京召開，大會以“掌控數(shù)據(jù)經(jīng)濟，重塑商業(yè)價值”為主題，詮釋在IT走向DT時代下，如何通過數(shù)據(jù)重塑商業(yè)價值。在當(dāng)天下午的大數(shù)據(jù)分論壇上，來自華為的存儲產(chǎn)品線分布式存儲技術(shù)專家程菊生為我們精彩解讀《華為OceanStor 9000大數(shù)據(jù)存儲系統(tǒng)》。

2014年12月2日DOIT編輯北京報道：2014(第十屆)中國存儲峰會今天在北京召開，大會以“掌控數(shù)據(jù)經(jīng)濟，重塑商業(yè)價值”為主題，詮釋在IT走向DT時代下，如何通過數(shù)據(jù)重塑商業(yè)價值。大會共邀請了 16位頂尖第三方嘉賓，數(shù)十位專家，帶來了35場前瞻性演講+2場圓桌討論，并首次推出硅谷創(chuàng)始人訪談和存儲夜宴活動!

在當(dāng)天下午的大數(shù)據(jù)分論壇上，來自華為的存儲產(chǎn)品線分布式存儲技術(shù)專家程菊生為我們精彩解讀《華為OceanStor 9000大數(shù)據(jù)存儲系統(tǒng)》。

以下是演講實錄：

程菊生：大家下午好!很高興今天有機會跟大家一塊兒交流一下華為OceanStor 9000這款產(chǎn)品，我叫程菊生，主要是做分布式文件系統(tǒng)，包括分布式存儲。目前OceanStor這個產(chǎn)品，我在里面擔(dān)任架構(gòu)師，我們團隊在這一塊經(jīng)過很大的努力把這個產(chǎn)品做出來了。今天跟大家分享一下經(jīng)驗和技術(shù)。

今天主要從三個方面來講。第一、講大數(shù)據(jù)對我們帶來的一些挑戰(zhàn)。第二、華為的應(yīng)對之道。第三、我們這個產(chǎn)品應(yīng)用實踐的一些情況。

第一部分，剛才前面嘉賓也講到，目前大數(shù)據(jù)的來臨大家都在說，從1960年的大機出現(xiàn)，到后面的個人電腦、互聯(lián)網(wǎng)，包括到移動互聯(lián)，以及最近提出的大數(shù)據(jù)。一個大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時代正在開啟。我們可以拿一個簡單的例子看一看，這里是我們實際的項目。在基因數(shù)據(jù)這一塊，我們有一個項目實際上是跟基因相關(guān)的東西�；驍�(shù)據(jù)基本上被分成四個部分。第一、做基因測序。第二、基因分析。第三、數(shù)據(jù)共享。第四、數(shù)據(jù)保存。從這四塊看，它的每一塊都跟數(shù)據(jù)的存儲、分析、共享關(guān)系都非常密切。像測序整個數(shù)據(jù)導(dǎo)入本身對后端的系統(tǒng)要求非常高。數(shù)據(jù)存好之后，需要對數(shù)據(jù)做一些分析，這些分析他們也是對后頭計算設(shè)備和存儲設(shè)備有很高要求。共享這一塊，一個數(shù)據(jù)不光是一家公司用，可能需要有很多地方共同用。所以，它是一個共享的問題。測試這一塊，包括像基因數(shù)據(jù)，它的量非常大，整個用傳統(tǒng)的陣列，或者一個存儲形式它是沒有辦法來保證我們大規(guī)模并行或者海量存儲的一種方案。

在基因測序里面，我們可以看到，從它的測序大共享，到數(shù)據(jù)分析，這個數(shù)據(jù)從它生產(chǎn)出來，再到模板把數(shù)據(jù)共享出去，到后面的分享，會經(jīng)過多次的轉(zhuǎn)換，到本地、到存儲設(shè)備，然后分析這些設(shè)備。如果用傳統(tǒng)的方式，就會發(fā)現(xiàn)存在多次數(shù)據(jù)的拷貝，這樣對數(shù)據(jù)空間是個浪費，同時對時間、人力包括成本都是浪費非常大。所以，我們想有沒有一種產(chǎn)品，它能夠同時解決這個問題?就是計算、存儲和分析我們?nèi)绾稳诤显谝黄?

另外，在其他行業(yè)也面臨類似的問題。像我們碰見的一些項目里面，在衛(wèi)星測繪，媒資行業(yè)，包括能源勘探和金融證券這些行業(yè)，他們的數(shù)據(jù)需要一些存儲、分析和共享，同樣面臨這些困境。中間是海量的數(shù)據(jù)，有一個數(shù)據(jù)源，源里面會有數(shù)據(jù)的共享和數(shù)據(jù)的存儲、數(shù)據(jù)的分析�；谶@種挑戰(zhàn)，我們看看華為是怎么來應(yīng)對這種挑戰(zhàn)，怎么打破常規(guī)，然后不破不立。

首先，我們這個產(chǎn)品叫OceanStor 9000，它是專門為大數(shù)據(jù)而設(shè)計的一個海量存儲系統(tǒng)。它要解決的問題就是在計算這一塊的一些分散的問題。像生產(chǎn)、共享和分析這一塊，知道產(chǎn)品之后，我們可以把生產(chǎn)，把共享的一些數(shù)據(jù)，還有分析很好的進行一些融合。怎么融合的呢?這張圖是基于高效全融合系統(tǒng)的架構(gòu)圖，最上面是應(yīng)用層，應(yīng)用層面向的分為非常廣，像媒體，包括視頻監(jiān)控，高性能計算，像網(wǎng)盤，另外還有一些其他的互聯(lián)網(wǎng)的應(yīng)用，也都可以。然后，在應(yīng)用和數(shù)據(jù)處理之間，這是一個接口上，在這個接口層里面就非常豐富了。有傳統(tǒng)的NFS協(xié)議，另外還會支持當(dāng)前比較熱門的像HDFS這些接口，還會有一些像亞馬遜的S3這樣的接口，同時還會支持?jǐn)?shù)據(jù)庫的一些接口。

在接口之下，整個數(shù)據(jù)處理層，數(shù)據(jù)處理層基本上分這么幾個核心的部分。第一、有一套分布式服務(wù)系統(tǒng)，我們稱為WuShanFS分布式系統(tǒng)，還有分布式數(shù)據(jù)庫，我們稱之為WuShanSQL，還有一些企業(yè)級Hadoop系統(tǒng)，我們稱之為Fuslonlnslght系統(tǒng)。另外還有我們?nèi)A為自己研發(fā)的X86的服務(wù)器，包括存儲服務(wù)器，這是整個系統(tǒng)架構(gòu)。

基于這一塊我們提出兩個理念。就是右上角提的兩個，一個是融合，一個是擴展。融合會在存儲分析這一塊，第一是存儲和分析的融合。左邊第一部分講傳統(tǒng)的數(shù)據(jù)分析，右邊講用了我們的系統(tǒng)之后，我們自己怎么來解決這個傳統(tǒng)分析的流程。在左邊會發(fā)現(xiàn)，整個數(shù)據(jù)的生產(chǎn)、共享和分析有一個篡寫的環(huán)節(jié)，但是到右邊這一塊，數(shù)據(jù)的生產(chǎn)、共享、分析完全可以用一套存儲資源進行管理和備份。這樣我不需要進行一些額外的操作，在同一套系統(tǒng)完成操作。這里面更重要的是它還會提升我們的時間，包括數(shù)據(jù)的遷移、搬遷，消耗的時間會非常長。

第二塊關(guān)于存儲和歸檔的融合。一般來說存儲和歸檔在傳統(tǒng)行業(yè)是分開的。就是我會有一套傳統(tǒng)的產(chǎn)品，它是一些陣列的產(chǎn)品。另外還會有一些外植的歸檔設(shè)備，所以做歸檔的時候，它會把存儲設(shè)備遷移到歸檔設(shè)備，進行歸檔的時候，由于要做歸檔，包括要做它的權(quán)限，還有可行性的一些檢查，所以，你一定要做一些外置的檢索還有相關(guān)的一些工作。這樣一來其實是兩套獨立的產(chǎn)品，但是現(xiàn)在其實有了一些新的解決方案，就是我同一套設(shè)備里面，可以把這兩個東西完全的融合起來。就是在一套存儲系統(tǒng)里，我們會有專門的一個在線的存儲區(qū)，我們把它稱之為Online的存儲區(qū)。另外還有一塊歸檔區(qū)，這兩個區(qū)其實在完整的一套設(shè)備里面。我們會把設(shè)備跟它隔離層不同的區(qū)，不同的區(qū)分成不同的策略，包括數(shù)據(jù)冗余的一些策略。這樣做存儲的時候，可以直接到存儲區(qū)進行數(shù)據(jù)存儲。如果我需要歸檔的時候，只要在整個小資源范圍內(nèi)能夠進行一些新的歸檔，包括簡單的一些數(shù)據(jù)的設(shè)置，包括訪問等等。

第三個融合講的是多種數(shù)據(jù)類型的融合，傳統(tǒng)的數(shù)據(jù)為了適應(yīng)不同的數(shù)據(jù)類型，會從最底層進行抽象，會把整個數(shù)據(jù)分成文件的部分，就成為分析化的部分，還會稱為一個數(shù)據(jù)化的部分，我們稱為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。這兩部分其實是用了不同的設(shè)備進行做的。像數(shù)據(jù)庫這一塊，我們用一些陣列的設(shè)備，對外安裝一些數(shù)據(jù)庫，然后提供SQL查詢的接口。如果是文件這一塊，它會用標(biāo)準(zhǔn)的NFS設(shè)備，對外提供數(shù)據(jù)的一些共享，再進行數(shù)據(jù)的分析、存儲，這是講的傳統(tǒng)的分析。

但是，隨著技術(shù)的發(fā)展，開始是把結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)融合在一起。就是整套設(shè)備里面有這么一套存儲的資源池，這個資源池里面本身會分成非結(jié)構(gòu)化，還有一塊是結(jié)構(gòu)化的設(shè)備。我們對外會同時提供一些NFS接口和一些數(shù)據(jù)庫的接口，還會包括一些BI的接口，這樣系統(tǒng)可以完成文件、對象，包括塊的存儲，做到一些統(tǒng)一的融合。所以，這里我們講的是多種數(shù)據(jù)類型的融合。

第二部分，關(guān)于擴展。整個產(chǎn)品的擴展是從三個緯度，三個層次進行擴展。首先，是協(xié)議層這一塊進行了拓展。我們對外是用標(biāo)準(zhǔn)的NFS這些協(xié)議，但是這些協(xié)議本身有一些擴展性的問題，還會包括一些熱點問題。所以，我們團隊自己把享用的一些協(xié)議做了一些修改，然后解決一些它的熱點問題，包括它一些負(fù)載均衡的問題。這樣整套系統(tǒng)可以對外提供上千，甚至上萬個客戶端同時進行訪問，在后續(xù)的設(shè)備里面，我們會在系統(tǒng)里面支持十萬個節(jié)點，甚至更多的節(jié)點的訪問。

中間是文件系統(tǒng)層和分布式數(shù)據(jù)庫層，會把整個系統(tǒng)，用分布式系統(tǒng)連接起來，實現(xiàn)很好的橫向的擴展。目前像這種技術(shù)在業(yè)界也非常多，像Hadoop等等。我們采用是我們自己的想法，我們會把整個單獨的一套系統(tǒng)擴展成完全的一套分布式系統(tǒng)，每一套分布式系統(tǒng)用一些指數(shù)切割的方法實現(xiàn)整個系統(tǒng)海量的管理。在最底層是分布式存儲層，這個存儲層我們在硬件和數(shù)據(jù)存儲這一塊，其實之下是全部的DS節(jié)點，是全互聯(lián)IP的方式，然后采用分布式的架構(gòu)，同時會支持一些盤。這里面我們會對節(jié)點的加入，刪除做優(yōu)化，這樣我們把很多節(jié)點可以構(gòu)成一個資源池，然后它對外提供很好的存儲能力。

擴展這一塊有一個比較好的能力就是性能。為什么我們提擴展，就是傳統(tǒng)的存儲設(shè)備單個性能還是比較不錯，因為它走的是光纖這一塊，單臺機器的設(shè)備性能非常強。但是，如果它把多臺設(shè)備放在一起，如果構(gòu)成多系統(tǒng)之后，它的設(shè)備反而不行。這就是為什么說開始要用到像百度、阿里，他們開始用大的一些設(shè)備構(gòu)建它的分布式系統(tǒng)。目的一個是除了簡單使用，另外還有性能各方面的考慮。

這邊我們給我們系統(tǒng)做新的測試的時候，我們的一個測試指標(biāo)，從數(shù)字上看，我們當(dāng)時測出來500萬的OPS性能，這個性能比上一次冠軍整整要高出3倍以上。據(jù)說他們之前測出來的性能在150萬左右的性能值，我們測出來性能值能達到500多萬，這個數(shù)字還是非常驚人。

成功的背后其實也有英特爾和華為存儲戰(zhàn)略合作的結(jié)果。這里面這張圖片，是我們一個實物的圖片，是在成都華為研究所機房里面，我們專門有一個實驗室所拍出來的。整個存儲規(guī)模有40P，總共有288個機電構(gòu)成，這個是當(dāng)前最大的一場存儲系統(tǒng)，我們說是這個展現(xiàn)的，其他的存儲設(shè)備認(rèn)為我可能達到20P，或者40P都有理論值。我們這個是通過實物，實實在在把它構(gòu)建出來的。這里面，英特爾幫我們做了大的工作，設(shè)計是我們自己做的工作。英特爾在處理器這一塊，在加速，包括大數(shù)據(jù)，還有橫向擴容他們幫我們做了很多。另外在它的CPU，包括一些網(wǎng)卡類也做了很多工作。這張圖是我們?nèi)A為跟英特爾合作的這么一個發(fā)布會。

關(guān)于擴展這一塊的好處，就是有了擴展之后，本身這個產(chǎn)品能夠做到按需擴展，同時也按需購買。隨著業(yè)務(wù)的發(fā)展，一開始可能不需要那么多設(shè)備，完全以定制化的形式買一部分東西。但是，隨著后續(xù)產(chǎn)品，包括公司的擴大，我完全可以把它的規(guī)模擴展上去。這就是說傳統(tǒng)的一些設(shè)備，他們往往很難做到比較好的擴展性。像分布式系統(tǒng)，這是它天然的一個優(yōu)勢。

另外，在管理方面，我們有幾個特點，我們稱為叫1、2、3、4。“1”就是有一套完整的管理系統(tǒng)，有一套進行管理。“2”指兩種資源系統(tǒng)，這種資源系統(tǒng)包括物理資源，還有邏輯資源。“3”，支持三類管理終端，包括PC、Phone、Pad。“4”就是4種告警方式，包括郵件、聲音、短信、指示燈的告警。目前來說我們基本上一分鐘就可以上線，馬上就可以使用。這是整個管理便捷這一塊。

整個OceanStor 9000這款產(chǎn)品有幾個關(guān)鍵的數(shù)據(jù)。首先我們的產(chǎn)品按照類型可以分成三大類。第一類，我們把它成為叫分析節(jié)點。第二類高性能節(jié)點。第三類大容量節(jié)點。這是針對不同的市場，有的市場可能存儲流量不是那么大，但是我可能需要性能特別強。另外，可能是對性能要求偏弱，但是對存儲容量要求比較大。所以，我們會針對不同的情況會分幾類進行區(qū)分。

這里面有幾個數(shù)據(jù)是我們在業(yè)界提出來的。第一、關(guān)于OPS性能這一塊，目前我們在500萬的OPS。第二、整個吞吐量能達到200GB總的這么一個情況。第三、容量，目前實際值已經(jīng)達到40PB，我們現(xiàn)在在構(gòu)建下一個版本，下一個版本我們計劃要到幾百P以上的規(guī)模。

我們這些產(chǎn)品有哪些具體的應(yīng)用?華為OceanStor 9000的應(yīng)用場景有這些，因為是根據(jù)我們目前拿到項目的情況把它列了一下，但是它也不完全取決于這些。它會包括在衛(wèi)星測繪，在氣象科學(xué)這一塊，包括能源勘探，航空，包括基因測序，教育，還有公共事業(yè)和媒體。其中像氣象這一塊，我們在國內(nèi)氣象類的項目里面，有幾個標(biāo)成功中標(biāo)，目前項目也在實施。在基因測序這一塊，也跟一些國內(nèi)非常知名的基因公司做相應(yīng)的合作，他們有我們相應(yīng)的設(shè)備。在媒體這一塊，跟比較有名的一些像央視一些大的媒資企業(yè)我們也在進行合作。

最后總結(jié)一下，我們整個OceanStor 9000的情況。整個華為OceanStor 9000，主要的問題是化解CIO存儲目前的一些困境，然后解決大數(shù)據(jù)帶來的一些挑戰(zhàn)的問題。然后這幾個數(shù)據(jù)，剛剛我們說的就是它主要的特點就是如何擴展高效、簡單。然后，它有幾個數(shù)字，500萬OPS，200GB/S寸土兩，288個節(jié)點，40PB的存儲孔兩，謝謝各位!

[責(zé)任編輯：范喆]

存儲老兵的二次創(chuàng)業(yè)記

2014(第十屆)中國存儲峰會今天在北京召開，大會以“掌控數(shù)據(jù)經(jīng)濟，重塑商業(yè)價值”為主題，詮釋在IT走向DT時代下，如何通過數(shù)據(jù)重塑商業(yè)價值。近兩年對于年輕人來說創(chuàng)業(yè)是他們實現(xiàn)人生價值最好的方式，在美國硅谷這樣的事情天天都在發(fā)生，今天我們有幸請到美國硅谷初創(chuàng)明星企業(yè)、希智數(shù)據(jù)創(chuàng)始人陳文賢！由DOIT傳媒集團創(chuàng)始人兼CEO鄭信武先生為大家?guī)砭实膭?chuàng)業(yè)人訪談。

官方微信

相關(guān)閱讀

精彩專題更多

2014企業(yè)級IT風(fēng)云榜

存儲風(fēng)云榜”是由DOIT傳媒主辦的年度大型活動�；仡�2014年，存儲作為IT系統(tǒng)架構(gòu)中最基礎(chǔ)的元素，已經(jīng)成為了推動信息產(chǎn)業(yè)發(fā)展的核心動力，存儲產(chǎn)業(yè)的發(fā)展邁向成熟，數(shù)據(jù)經(jīng)濟的概念順勢而為的提出。

華為OceanStor V3開啟全融合數(shù)據(jù)架構(gòu)時代

華為OceanStor V3系列存儲系統(tǒng)是面向企業(yè)級應(yīng)用的新一代統(tǒng)一存儲產(chǎn)品。在功能、性能、效率、可靠性和易用性上都達到業(yè)界領(lǐng)先水平，很好的滿足了大型數(shù)據(jù)庫OLTP/OLAP、文件共享、云計算等各種應(yīng)用下的數(shù)據(jù)存儲需求。

聯(lián)想亮相高交會

聯(lián)想攜ThinkServer+System+七大行業(yè)解決方案驚艷第十六屆高交會

噜噜噜综合,又色又爽又高潮免费观看,综合无码一区二区三区四区五区,中文字幕无码人妻aaa片,四虎成人精品永久网站

程菊生：華為OceanStor 9000大數(shù)據(jù)存儲系統(tǒng)