首先,感謝DOIT給這個機會,讓自媒體也可以發(fā)出自己的聲音了。因為自媒體的比較少,我今天講的內(nèi)容還是聚焦我研究的高端存儲架構(gòu)。大家可能會想到高端存 儲跟大數(shù)據(jù)好像沒有特別多的關(guān)系。我今天講的可能是比較窄的大數(shù)據(jù)。首先,這是我個人的介紹,我是有一個自己的高端存儲個人的公眾號,每天晚上會寫寫我今 天學(xué)了什么。還有一個傳送門網(wǎng)站,它也收錄了我所有的歷史文摘。大家從百度上搜索存儲西瓜哥,在DOIT上搜索西瓜哥也能搜到我的文章。大家如果有什么問 題,會后通過微信平臺,都可以和我溝通。

我講一下我的觀點,我想講高端存儲架構(gòu),但是這是大數(shù)據(jù)的論壇,所以要靠點題。其實也不能說高端存儲和大數(shù)據(jù)沒有關(guān)系,其實大數(shù)據(jù)業(yè)務(wù)是一個業(yè)務(wù)的視角,從 用戶角度看,大數(shù)據(jù)解決什么問題。一般這個圈子有兩種生態(tài)圈,一種是基于Hadhoop這種開源的工具,技術(shù),大數(shù)據(jù)的存儲,包括它的分析、工具。但是, 企業(yè)里面很多人用的也是比較成熟的,比如Oracle、SAP。這么分,其實在商用生態(tài)圈,高端存儲其實還是企業(yè)里面比較明顯的選擇。我跟公安客戶交流 過,像公安里面很多大數(shù)據(jù)的業(yè)務(wù)。高端存儲并不完全是分布式的架構(gòu)。而且現(xiàn)在大數(shù)據(jù)這種業(yè)務(wù)在很多傳統(tǒng)企業(yè),比如銀行的信用信息分析,很多大數(shù)據(jù)的結(jié)果以 后馬上出結(jié)果,所以它的業(yè)務(wù)非常關(guān)鍵,對可靠性,對管理業(yè)務(wù)有比較高的要求。這塊也是高端存儲的長項。

總的來說,看一下大數(shù)據(jù)對存儲的需求,首先,數(shù)據(jù)量越來越大,可能一般的數(shù)據(jù)要達到PB級的量,美國那邊的一些調(diào)查,一般企業(yè)管理的數(shù)據(jù)量,一般1T左右。 第二、有良好的性能,因為這是關(guān)鍵業(yè)務(wù),需要實時分析,需要有很好的帶寬,這是它對存儲的訴求。用得起,這是開源打存儲最重要的地方。管理問題,數(shù)據(jù)量變 大了,傳統(tǒng)的管理方法已經(jīng)不能進行管理,里面有很好的管理方式,你存進去,可能管理的更加復(fù)雜。大數(shù)據(jù)大量是非結(jié)構(gòu)化,或者半結(jié)構(gòu)化的數(shù)據(jù),你存儲能不能 支持更多的結(jié)構(gòu)。

講一下高端存儲,我個人對高端存儲怎么理解,比如IDC的報告會寫高端存儲,比如2014年Q1下降了22%,市場不好,份額在下降,性價比不好。這塊告訴你 什么意思?它是廣義的高端存儲。在IDC的眼里是按價錢分的,他說什么叫高端?技術(shù)上很難定義,技術(shù)發(fā)展更快,原來說這要多功能架構(gòu),才能 定義高端?,F(xiàn)在很難定義高端,IDC說拿錢來說。比如他分十個檔次,一個存儲的朋友售價。也就是平均售價是比較貴的,它認為是高端,就是十萬美金以上。

講一下Gartner的觀點,Gartner是走技術(shù)派,用一些具體的參數(shù)定義高端存儲的范圍。Gartner3月7號發(fā)布了最新的高端存儲的研究報告,其 實它最新的版本已經(jīng)發(fā)布了,跟這個差不多,它刷新了一下,排名基本變化不大。他認為高端存儲從幾個技術(shù)指標(biāo)去理解。一個是單部件失效對主題不可見。第二個 如果是你這個單部件失效,存儲有什么部件壞了,對主機性能可能少于25%。也就是它想象中,應(yīng)該失控一下這個架構(gòu)。如果大修的時候,允許你有一半的性能損 失。還有下面細的一些條款,比如支持負載均衡,遠程復(fù)制,這些其實不是非常本質(zhì)的區(qū)別。他認為這樣的存儲,它的成本是在25萬美金起,這是Gartner 的定義。

Gartner的定義里面,還對高端存儲進行了一個打分,對目前這個市場他認為符合他定義的高端存儲進行打分。他分了8個功能向,包括管理、可靠性、性能、復(fù)制、擴展 性、生態(tài)系統(tǒng)、多租戶和安全、還有存儲的效能等。上面有六個應(yīng)用,有五大場景,每個場景對8個功能向的比重是不一樣的。我們看到它比較看中的幾個指標(biāo)是管 理性和性能,還有快照復(fù)制,這是Gartner的分析師在這個場景下比較看中高端存儲的特性。

HDS對所有的產(chǎn)品進行打分,他認為這個市場有12個產(chǎn)品符合它的標(biāo)準(zhǔn)。通過分析這些排名,我們可以看到,基本上是國外廠商,國內(nèi)有一家是華為。第一個是日立的 高端存儲及第二個也是日立的,第三個是惠普的。如果看總的排名是這個,不止分析這個場景,把所有這些結(jié)合起來。其實Gartner還對存儲廠商市場的能力 做了評估,前面評分主要針對技術(shù)水平和產(chǎn)品的技術(shù)能力,下面零分主要針對產(chǎn)品的生命力,包括市場的水平,市場的銷售,我們看到這個里面得分最高的是 EMC,EMC生態(tài)環(huán)境比較好,整個銷售能力比較強。第二、比較多了,優(yōu)秀的廠商,包括日立、華為。大概是這樣的一個圖形。

我個人研究的高端存儲主要是畫紅線的這一塊,因為它首先是面向傳統(tǒng)的高端存儲的市場。第二、在執(zhí)行報告里面可以抽它的數(shù)據(jù)拿出來給大家分享。因為有些數(shù)據(jù), 它賣兩部,賣四部看不出來,因為統(tǒng)計不了那么細,所以我暫時沒有列多方面報告里面去。像狹義的高端存儲范圍里面,我們看到在全球來看,剛才我畫紅線的高端 存儲,中國其實只占4%的市場份額,也就是這個市場,45%以上還是占你們那邊,中國這邊高端存儲市場感覺很多地方會被閃存,軟件定義搶掉它的份額,但是 我覺得還會有前進的空間。第二、看一下全球的排名情況。EMC在這塊最高有一個份額,41%,第二、IBM五,后面就是日立惠普,華為在比較小的氛圍。

中國區(qū)的數(shù)據(jù),原來HDS是第一,這兩年EMC超過HDS。這方面沒有什么特別大的變化,有一個比較大的區(qū)別就是這里可能看到華為上升的比較快一些。從行業(yè)緯度可以看,這個行業(yè)主要用在金融里面,第一是電信,第二是政府。到今天金融是最難做的,因為它的要是性比較高。

高端存儲我們講它的歷史,它的架構(gòu)是怎么演變的?特別是對大數(shù)據(jù)這個架構(gòu)怎么演變的?我講到兩個人,一個是做大型機的吉恩·阿姆達爾,其實真正把存儲做成一 個行業(yè)的,應(yīng)該是摩西·亞奈,他1990年研發(fā)了Symmetrix,推向市場,大家知道存儲里面也是吸引高端存儲。摩西·亞奈離開EMC又做了XIV。 后來被IBM收購,后來他又開創(chuàng)了第三代存儲,Infinbox,現(xiàn)在市場上都有他的三個產(chǎn)品。

高端存儲的歷史,講一下它架構(gòu)上的一些變化。1956年發(fā)明大機,配套存儲,1980年還是IBM用的存儲,還是很貴,百萬美金起,當(dāng)時是IBM自己專用的 大硬盤。1988年IBM有一個項目,沒有廣泛的推向市場,真正推向市場的是就是第四版的摩西·亞奈提出的技術(shù)。日立也開發(fā)了跟EMC類似的架構(gòu)存儲,這 種架構(gòu)存儲為什么要轉(zhuǎn)型,也是因為影響。當(dāng)時EMC出來,IBM的銷售受到它的影響。其實日立剛開始的時候做的是IBM大型機和存儲。從1995年的時 代,三國鼎立階段開始了。直到1999年,IBM也開始擁抱普通的硬盤。

IBM這個時候里面后的研究還是用它自己的標(biāo)準(zhǔn)。這也是我現(xiàn)在重點要看的發(fā)展的東西。2000年的時候日立的產(chǎn)品第一次把交換技術(shù)引入,現(xiàn)在很多人認為高端存儲 是完美的架構(gòu)。2002年3Par的出現(xiàn),3Par被惠普收購。2003年EMC推出DMX系列架構(gòu),也取得了市場的成功。2004年DS8000出來, 這是IBM經(jīng)典的架構(gòu)。2005年摩西·亞奈推出XIV,2007年被IBM收購。2006年整個互通了。2009年EMC推出VMAX,2012年5越 發(fā)不VMAX  40K。其他的架構(gòu)上沒有太大的變化。最后,就是2012年華為發(fā)布了自己的個人存儲,架構(gòu)比較像EMC的架構(gòu),但是它底層的東西有點像虛擬化的架構(gòu),同 時它本身交換技術(shù)更多學(xué)這個東西。因為它是SaaS的后端,跟交換技術(shù)用的差不多。所以說它借鑒了前面的一些特點,開發(fā)了自己的高端存儲。

整個高端存儲,這種架構(gòu),從總線式,到Crossbar架構(gòu),還有2003年高了直連架構(gòu),但是后來發(fā)現(xiàn)擴展性不是特別好,因為聯(lián)線密密麻麻,再加一個節(jié) 點,不太好擴展。所以,2009年有了虛擬矩陣架構(gòu),還是利用交換機。主要有四個特點,這可能跟現(xiàn)在大數(shù)據(jù)的驅(qū)動有一些影響。一個是Scale-out為 的架構(gòu),但是你發(fā)現(xiàn)數(shù)據(jù)量現(xiàn)在越來越大,Scale擴展已經(jīng)不夠了,所以必須把Scale的架構(gòu)加上,增長快比較快。還有全交換的架構(gòu),還有 X86,X86架構(gòu)給客戶帶來的好處就是成本,性價比,這是大數(shù)據(jù)里面我們要追求的。松偶合比如它會降低用戶的成本,松偶合有什么好處?你看到民的一個架 構(gòu),它每個節(jié)點有點像一個終端村素,通過低時延把這些高端存儲連在一起。

最后講一下這幾個存儲廠商,針對大數(shù)據(jù)時代下做出一些變化。這是跟我們傳統(tǒng)的高端存儲不太一樣。一個是EMC之前發(fā)布的產(chǎn)品VMAX3,它可以做到5000 多張硬盤,可以支持16TB的Cash,也就是針對這個云時代,大數(shù)據(jù)時代,如果不考慮成本的情況系,它遠遠滿足大部分企業(yè)的需要,除了互聯(lián)網(wǎng)企業(yè)。所 以,大數(shù)據(jù)應(yīng)該也是一個核心的大數(shù)據(jù)的平臺。

為了降低成本,為了降低功耗,為了降低機房的面積,EMC引進Highly  Efficient的設(shè)計。第二、講一下惠普的一些變化?;萜粘杀镜淖非笊弦沧龅谋容^好,比如它是業(yè)界第一個提供精簡配置功能的。也是第二個在重刪功能的 廠商。我們大數(shù)據(jù)以后存在上面,有數(shù)據(jù)的壓縮技術(shù),像成本,單位成本會下降,他也是第一次支持cMLC的廠商??梢耘浜祥W存價值,可以降低整體成本。 IBM  DS8000有快照復(fù)制的功能,大家知道在大數(shù)據(jù)場景下,備份備不完,需要用快照復(fù)制的方式管理它的平臺。

日立的HDS  VSP  G1000,大數(shù)據(jù)不僅僅有結(jié)構(gòu)化的數(shù)據(jù),非結(jié)構(gòu)化的數(shù)據(jù),它要保存這些數(shù)據(jù),把NAS做進來,但是做的并不是特別徹底,只是管理界面上融合了,物理上不 是特別融合。看一下INFINIDAT公司開發(fā)的InfiniBox,把對象存儲,文件存儲,Trade存儲全都放在一個系統(tǒng)里。

為了拒絕更低的成本,富士通出了一個CD10000,用開源的技術(shù)做了一個高端存儲,給客戶帶來比較低的成本,但是企業(yè)為什么改用開源,主要是技術(shù)沒有支 撐,這彌補了技術(shù)和成本的概念,這也是未來的方向。我們看到很多開源的存儲也會出來,大家都在嘗試應(yīng)對大數(shù)據(jù)架構(gòu)的變化。

管理方面是大數(shù)據(jù)很重要的一個方面的要求,這塊IBM做的比較好,特別是XIV,它有底層的架構(gòu),比較特別,所以它的管理做的特別好。很多東西通過限制了其他的一些功能,就自動優(yōu)化了,這是它的一個理念,管理非常簡單,特別是公安里面有用這個產(chǎn)品。

華為強調(diào)性能,是第一個高端存儲里面測SPC-D這么一個值,超過100萬的IOPS是用OceanStor測的。富士通也是一個性能,但是它強調(diào)的是帶 寬。富士通的架構(gòu)后面搞了一個SAS的連接,任何一個節(jié)點可以看到任何一塊硬盤,所以富士通的特點有很多SAS。它的帶寬的能力比較強。

總結(jié)來說,為什么大數(shù)據(jù)場景下,高端存儲它努力爭取它自己的地位,因為確實有它對大數(shù)據(jù)的一些支持。首先,在比較成熟的商業(yè)環(huán)境下用。第二、能提供企業(yè)級別 的支持,買高端存儲,服務(wù)都是廠商服務(wù)的。第三、高端存儲在關(guān)鍵業(yè)務(wù)支撐的聲譽是最好的,現(xiàn)在很多大數(shù)據(jù)的業(yè)績已經(jīng)是關(guān)鍵業(yè)務(wù)了,不像一線大數(shù)據(jù)業(yè)務(wù)都是 事后分析,現(xiàn)在是適時分析。第四、通過前面的一些變化,性能強大、管理簡化。同時,它與時俱進的一些特點,比如X86的架構(gòu),Scale-out技術(shù)的采 用,包括重刪,引到高端存儲里面,還有開源技術(shù),把存儲Hypervisor,高密、統(tǒng)一存儲、集群、cMLC。這樣可以跟數(shù)據(jù)結(jié)合的更緊密。我的觀點就 是作為一個企業(yè)用戶,可能高端存儲還是在大數(shù)據(jù)比較強勢的選擇。謝謝大家!

分享到

bruce

道由心悟,豈在坐也

相關(guān)推薦