范喆 發(fā)表于:14年12月02日 18:48 [原創(chuàng)] DOIT.com.cn
2014年12月2日DOIT編輯北京報道:2014(第十屆)中國存儲峰會今天在北京召開,大會以“掌控數據經濟,重塑商業(yè)價值”為主題,詮釋在IT走向DT時代下,如何通過數據重塑商業(yè)價值。大會共邀請了 16位頂尖第三方嘉賓,數十位專家,帶來了35場前瞻性演講+2場圓桌討論,并首次推出硅谷創(chuàng)始人訪談和存儲夜宴活動!
在當天下午的大數據分論壇上,來自華為的存儲產品線分布式存儲技術專家程菊生為我們精彩解讀《華為OceanStor 9000大數據存儲系統(tǒng)》。
以下是演講實錄:
程菊生:大家下午好!很高興今天有機會跟大家一塊兒交流一下華為OceanStor 9000這款產品,我叫程菊生,主要是做分布式文件系統(tǒng),包括分布式存儲。目前OceanStor這個產品,我在里面擔任架構師,我們團隊在這一塊經過很大的努力把這個產品做出來了。今天跟大家分享一下經驗和技術。
今天主要從三個方面來講。第一、講大數據對我們帶來的一些挑戰(zhàn)。第二、華為的應對之道。第三、我們這個產品應用實踐的一些情況。
第一部分,剛才前面嘉賓也講到,目前大數據的來臨大家都在說,從1960年的大機出現,到后面的個人電腦、互聯網,包括到移動互聯,以及最近提出的大數據。一個大規(guī)模生產、分享和應用數據的時代正在開啟。我們可以拿一個簡單的例子看一看,這里是我們實際的項目。在基因數據這一塊,我們有一個項目實際上是跟基因相關的東西。基因數據基本上被分成四個部分。第一、做基因測序。第二、基因分析。第三、數據共享。第四、數據保存。從這四塊看,它的每一塊都跟數據的存儲、分析、共享關系都非常密切。像測序整個數據導入本身對后端的系統(tǒng)要求非常高。數據存好之后,需要對數據做一些分析,這些分析他們也是對后頭計算設備和存儲設備有很高要求。共享這一塊,一個數據不光是一家公司用,可能需要有很多地方共同用。所以,它是一個共享的問題。測試這一塊,包括像基因數據,它的量非常大,整個用傳統(tǒng)的陣列,或者一個存儲形式它是沒有辦法來保證我們大規(guī)模并行或者海量存儲的一種方案。
在基因測序里面,我們可以看到,從它的測序大共享,到數據分析,這個數據從它生產出來,再到模板把數據共享出去,到后面的分享,會經過多次的轉換,到本地、到存儲設備,然后分析這些設備。如果用傳統(tǒng)的方式,就會發(fā)現存在多次數據的拷貝,這樣對數據空間是個浪費,同時對時間、人力包括成本都是浪費非常大。所以,我們想有沒有一種產品,它能夠同時解決這個問題?就是計算、存儲和分析我們如何融合在一起?
另外,在其他行業(yè)也面臨類似的問題。像我們碰見的一些項目里面,在衛(wèi)星測繪,媒資行業(yè),包括能源勘探和金融證券這些行業(yè),他們的數據需要一些存儲、分析和共享,同樣面臨這些困境。中間是海量的數據,有一個數據源,源里面會有數據的共享和數據的存儲、數據的分析。基于這種挑戰(zhàn),我們看看華為是怎么來應對這種挑戰(zhàn),怎么打破常規(guī),然后不破不立。
首先,我們這個產品叫OceanStor 9000,它是專門為大數據而設計的一個海量存儲系統(tǒng)。它要解決的問題就是在計算這一塊的一些分散的問題。像生產、共享和分析這一塊,知道產品之后,我們可以把生產,把共享的一些數據,還有分析很好的進行一些融合。怎么融合的呢?這張圖是基于高效全融合系統(tǒng)的架構圖,最上面是應用層,應用層面向的分為非常廣,像媒體,包括視頻監(jiān)控,高性能計算,像網盤,另外還有一些其他的互聯網的應用,也都可以。然后,在應用和數據處理之間,這是一個接口上,在這個接口層里面就非常豐富了。有傳統(tǒng)的NFS協(xié)議,另外還會支持當前比較熱門的像HDFS這些接口,還會有一些像亞馬遜的S3這樣的接口,同時還會支持數據庫的一些接口。
在接口之下,整個數據處理層,數據處理層基本上分這么幾個核心的部分。第一、有一套分布式服務系統(tǒng),我們稱為WuShanFS分布式系統(tǒng),還有分布式數據庫,我們稱之為WuShanSQL,還有一些企業(yè)級Hadoop系統(tǒng),我們稱之為Fuslonlnslght系統(tǒng)。另外還有我們華為自己研發(fā)的X86的服務器,包括存儲服務器,這是整個系統(tǒng)架構。
基于這一塊我們提出兩個理念。就是右上角提的兩個,一個是融合,一個是擴展。融合會在存儲分析這一塊,第一是存儲和分析的融合。左邊第一部分講傳統(tǒng)的數據分析,右邊講用了我們的系統(tǒng)之后,我們自己怎么來解決這個傳統(tǒng)分析的流程。在左邊會發(fā)現,整個數據的生產、共享和分析有一個篡寫的環(huán)節(jié),但是到右邊這一塊,數據的生產、共享、分析完全可以用一套存儲資源進行管理和備份。這樣我不需要進行一些額外的操作,在同一套系統(tǒng)完成操作。這里面更重要的是它還會提升我們的時間,包括數據的遷移、搬遷,消耗的時間會非常長。
第二塊關于存儲和歸檔的融合。一般來說存儲和歸檔在傳統(tǒng)行業(yè)是分開的。就是我會有一套傳統(tǒng)的產品,它是一些陣列的產品。另外還會有一些外植的歸檔設備,所以做歸檔的時候,它會把存儲設備遷移到歸檔設備,進行歸檔的時候,由于要做歸檔,包括要做它的權限,還有可行性的一些檢查,所以,你一定要做一些外置的檢索還有相關的一些工作。這樣一來其實是兩套獨立的產品,但是現在其實有了一些新的解決方案,就是我同一套設備里面,可以把這兩個東西完全的融合起來。就是在一套存儲系統(tǒng)里,我們會有專門的一個在線的存儲區(qū),我們把它稱之為Online的存儲區(qū)。另外還有一塊歸檔區(qū),這兩個區(qū)其實在完整的一套設備里面。我們會把設備跟它隔離層不同的區(qū),不同的區(qū)分成不同的策略,包括數據冗余的一些策略。這樣做存儲的時候,可以直接到存儲區(qū)進行數據存儲。如果我需要歸檔的時候,只要在整個小資源范圍內能夠進行一些新的歸檔,包括簡單的一些數據的設置,包括訪問等等。
第三個融合講的是多種數據類型的融合,傳統(tǒng)的數據為了適應不同的數據類型,會從最底層進行抽象,會把整個數據分成文件的部分,就成為分析化的部分,還會稱為一個數據化的部分,我們稱為結構化數據和非結構化數據。這兩部分其實是用了不同的設備進行做的。像數據庫這一塊,我們用一些陣列的設備,對外安裝一些數據庫,然后提供SQL查詢的接口。如果是文件這一塊,它會用標準的NFS設備,對外提供數據的一些共享,再進行數據的分析、存儲,這是講的傳統(tǒng)的分析。
但是,隨著技術的發(fā)展,開始是把結構化數據和非結構化數據融合在一起。就是整套設備里面有這么一套存儲的資源池,這個資源池里面本身會分成非結構化,還有一塊是結構化的設備。我們對外會同時提供一些NFS接口和一些數據庫的接口,還會包括一些BI的接口,這樣系統(tǒng)可以完成文件、對象,包括塊的存儲,做到一些統(tǒng)一的融合。所以,這里我們講的是多種數據類型的融合。
第二部分,關于擴展。整個產品的擴展是從三個緯度,三個層次進行擴展。首先,是協(xié)議層這一塊進行了拓展。我們對外是用標準的NFS這些協(xié)議,但是這些協(xié)議本身有一些擴展性的問題,還會包括一些熱點問題。所以,我們團隊自己把享用的一些協(xié)議做了一些修改,然后解決一些它的熱點問題,包括它一些負載均衡的問題。這樣整套系統(tǒng)可以對外提供上千,甚至上萬個客戶端同時進行訪問,在后續(xù)的設備里面,我們會在系統(tǒng)里面支持十萬個節(jié)點,甚至更多的節(jié)點的訪問。
中間是文件系統(tǒng)層和分布式數據庫層,會把整個系統(tǒng),用分布式系統(tǒng)連接起來,實現很好的橫向的擴展。目前像這種技術在業(yè)界也非常多,像Hadoop等等。我們采用是我們自己的想法,我們會把整個單獨的一套系統(tǒng)擴展成完全的一套分布式系統(tǒng),每一套分布式系統(tǒng)用一些指數切割的方法實現整個系統(tǒng)海量的管理。在最底層是分布式存儲層,這個存儲層我們在硬件和數據存儲這一塊,其實之下是全部的DS節(jié)點,是全互聯IP的方式,然后采用分布式的架構,同時會支持一些盤。這里面我們會對節(jié)點的加入,刪除做優(yōu)化,這樣我們把很多節(jié)點可以構成一個資源池,然后它對外提供很好的存儲能力。
擴展這一塊有一個比較好的能力就是性能。為什么我們提擴展,就是傳統(tǒng)的存儲設備單個性能還是比較不錯,因為它走的是光纖這一塊,單臺機器的設備性能非常強。但是,如果它把多臺設備放在一起,如果構成多系統(tǒng)之后,它的設備反而不行。這就是為什么說開始要用到像百度、阿里,他們開始用大的一些設備構建它的分布式系統(tǒng)。目的一個是除了簡單使用,另外還有性能各方面的考慮。
這邊我們給我們系統(tǒng)做新的測試的時候,我們的一個測試指標,從數字上看,我們當時測出來500萬的OPS性能,這個性能比上一次冠軍整整要高出3倍以上。據說他們之前測出來的性能在150萬左右的性能值,我們測出來性能值能達到500多萬,這個數字還是非常驚人。
成功的背后其實也有英特爾和華為存儲戰(zhàn)略合作的結果。這里面這張圖片,是我們一個實物的圖片,是在成都華為研究所機房里面,我們專門有一個實驗室所拍出來的。整個存儲規(guī)模有40P,總共有288個機電構成,這個是當前最大的一場存儲系統(tǒng),我們說是這個展現的,其他的存儲設備認為我可能達到20P,或者40P都有理論值。我們這個是通過實物,實實在在把它構建出來的。這里面,英特爾幫我們做了大的工作,設計是我們自己做的工作。英特爾在處理器這一塊,在加速,包括大數據,還有橫向擴容他們幫我們做了很多。另外在它的CPU,包括一些網卡類也做了很多工作。這張圖是我們華為跟英特爾合作的這么一個發(fā)布會。
關于擴展這一塊的好處,就是有了擴展之后,本身這個產品能夠做到按需擴展,同時也按需購買。隨著業(yè)務的發(fā)展,一開始可能不需要那么多設備,完全以定制化的形式買一部分東西。但是,隨著后續(xù)產品,包括公司的擴大,我完全可以把它的規(guī)模擴展上去。這就是說傳統(tǒng)的一些設備,他們往往很難做到比較好的擴展性。像分布式系統(tǒng),這是它天然的一個優(yōu)勢。
另外,在管理方面,我們有幾個特點,我們稱為叫1、2、3、4。“1”就是有一套完整的管理系統(tǒng),有一套進行管理。“2”指兩種資源系統(tǒng),這種資源系統(tǒng)包括物理資源,還有邏輯資源。“3”,支持三類管理終端,包括PC、Phone、Pad。“4”就是4種告警方式,包括郵件、聲音、短信、指示燈的告警。目前來說我們基本上一分鐘就可以上線,馬上就可以使用。這是整個管理便捷這一塊。
整個OceanStor 9000這款產品有幾個關鍵的數據。首先我們的產品按照類型可以分成三大類。第一類,我們把它成為叫分析節(jié)點。第二類高性能節(jié)點。第三類大容量節(jié)點。這是針對不同的市場,有的市場可能存儲流量不是那么大,但是我可能需要性能特別強。另外,可能是對性能要求偏弱,但是對存儲容量要求比較大。所以,我們會針對不同的情況會分幾類進行區(qū)分。
這里面有幾個數據是我們在業(yè)界提出來的。第一、關于OPS性能這一塊,目前我們在500萬的OPS。第二、整個吞吐量能達到200GB總的這么一個情況。第三、容量,目前實際值已經達到40PB,我們現在在構建下一個版本,下一個版本我們計劃要到幾百P以上的規(guī)模。
我們這些產品有哪些具體的應用?華為OceanStor 9000的應用場景有這些,因為是根據我們目前拿到項目的情況把它列了一下,但是它也不完全取決于這些。它會包括在衛(wèi)星測繪,在氣象科學這一塊,包括能源勘探,航空,包括基因測序,教育,還有公共事業(yè)和媒體。其中像氣象這一塊,我們在國內氣象類的項目里面,有幾個標成功中標,目前項目也在實施。在基因測序這一塊,也跟一些國內非常知名的基因公司做相應的合作,他們有我們相應的設備。在媒體這一塊,跟比較有名的一些像央視一些大的媒資企業(yè)我們也在進行合作。
最后總結一下,我們整個OceanStor 9000的情況。整個華為OceanStor 9000,主要的問題是化解CIO存儲目前的一些困境,然后解決大數據帶來的一些挑戰(zhàn)的問題。然后這幾個數據,剛剛我們說的就是它主要的特點就是如何擴展高效、簡單。然后,它有幾個數字,500萬OPS,200GB/S寸土兩,288個節(jié)點,40PB的存儲孔兩,謝謝各位!