峰會(huì)第二天,共舉行了十場(chǎng)分論壇。在“分布式存儲(chǔ)與應(yīng)用論壇”上, 柏科數(shù)據(jù)渠道銷售總監(jiān)劉夏鳴以“ 全閃存分布式存儲(chǔ)的應(yīng)用與實(shí)踐 ”為主題發(fā)表演講, 分享了分布式存儲(chǔ)建設(shè)過程中的問題 ,介紹了柏科的三種實(shí)施方案、產(chǎn)品體系架構(gòu)以及分布式存儲(chǔ)應(yīng)用方面的成果和實(shí)踐。
以下內(nèi)容根據(jù)速記整理。
圖:柏科數(shù)據(jù)渠道銷售總監(jiān)劉夏鳴
劉夏鳴:大家好,今天我代表柏科數(shù)據(jù)介紹一下我們?cè)诜植际酱鎯?chǔ)應(yīng)用上的一些成果和實(shí)踐。
關(guān)于全閃存分布式,在三、四年前,誰和我說分布式存儲(chǔ)全部使用閃存介質(zhì),我會(huì)啐他一臉,這個(gè)東西太貴了,大家做分布式存儲(chǔ),都想著是高性能、高帶寬、低成本,其實(shí)這完全符合我們國(guó)人的一些想法,就是花小錢辦大事。
關(guān)于分布式的這個(gè)應(yīng)用,給我的感受是很多的IT技術(shù)在用戶端的應(yīng)用,是在一些實(shí)際的需求問題逼迫下產(chǎn)生的,在逼迫中尋求一種進(jìn)步。柏科也是被實(shí)際的客戶需求逼迫來做全閃存分布式存儲(chǔ)的。
簡(jiǎn)單介紹一下柏科。柏科進(jìn)入到國(guó)內(nèi),經(jīng)歷了12個(gè)年頭,國(guó)內(nèi)基本上主要的地區(qū)都有全資分公司與一些合作的服務(wù)商,覆蓋了國(guó)內(nèi)的主要區(qū)域。從某種角度來看,客戶分布也是比較廣,在服務(wù)能力上也是沒有問題的。整體來講,柏科一直是做存儲(chǔ)的公司,公司建立開始,我們的公司宗旨就是“Bring life to Data”,就是指“給數(shù)據(jù)注入生命力,活力永續(xù)”,我個(gè)人感覺就是數(shù)據(jù)的靈動(dòng)。過去DAS,數(shù)據(jù)存入以后就基本不動(dòng)了,現(xiàn)在分布式應(yīng)用及互聯(lián)網(wǎng)的情況下,我們希望數(shù)據(jù)能流轉(zhuǎn)起來,能靈動(dòng)起來,這里面有存有備有復(fù)制有遷移,有應(yīng)用到大數(shù)據(jù)里面,有到智能數(shù)據(jù)湖中;就像水從源頭流入到湖里面,從數(shù)據(jù)湖里面可以做更多的針對(duì)數(shù)據(jù)的開發(fā)和挖掘,讓數(shù)據(jù)更有價(jià)值。
柏科公司從開始就是一個(gè)做存儲(chǔ)的專業(yè)公司,前身源自美國(guó)貝爾實(shí)驗(yàn)室,專門做廣電媒體行業(yè)的專業(yè)存儲(chǔ)公司,進(jìn)入到國(guó)內(nèi)以后,發(fā)現(xiàn)用戶對(duì)產(chǎn)生的數(shù)據(jù)更重視安全保護(hù),才有我們現(xiàn)在的備。從備份之后,大家想到數(shù)據(jù)放到本地還不夠安全,放到異地去,所以有了容災(zāi)。從存的產(chǎn)品演化到備份容災(zāi)產(chǎn)品,甚至到了分布式,我們的AI團(tuán)隊(duì)也做了這方面工作,包括融合計(jì)算、統(tǒng)一計(jì)算等方面。
柏科產(chǎn)品不斷的演化和研發(fā),按照用戶需求和自身對(duì)產(chǎn)品的要求,我們做了現(xiàn)在公司產(chǎn)品的延續(xù)。
今天公司其他產(chǎn)品線先不談了,只講和主題有關(guān)的分布式存儲(chǔ),柏科在分布式產(chǎn)品線為什么能誕生。
從2009年,柏科開始做一些分布式的文件系統(tǒng),早期的時(shí)候如果沒有記錯(cuò)的話,那時(shí)候基于GlusterFS來做,那時(shí)候看到GlusterFS面對(duì)海量的小文件性能非常的糟糕,現(xiàn)在同行業(yè)里面也都在通過很多技術(shù)手段來解決此類問題。
2013年,我們推出了分布式塊存儲(chǔ),就是在看到用戶業(yè)務(wù)需求里面又需要高的共享性,更需要高的性能,按照這樣的想法我們的分布式塊存儲(chǔ)也就這樣誕生了,在2013年已經(jīng)在一些客戶里面去應(yīng)用,包括一些做動(dòng)漫渲染,國(guó)家級(jí)的渲染,比如說北京電影學(xué)院這些業(yè)務(wù)系統(tǒng)應(yīng)用在這里面,2015年推出了文件塊和對(duì)象三合一產(chǎn)品,2016年在亞洲最大的動(dòng)漫渲染基地新疆落地,里面大量分布式存儲(chǔ)應(yīng)用到我們的產(chǎn)品,包括計(jì)算節(jié)點(diǎn)。今天講的主題全閃存分布式存儲(chǔ)。閃存介質(zhì)很貴,怎么有效放到分布式存儲(chǔ)中呢?看一下我們?cè)趺磥碜龅摹?/p>
業(yè)務(wù)需求驅(qū)動(dòng)分布式存儲(chǔ)技術(shù)發(fā)展
一個(gè)好的產(chǎn)品發(fā)展也是應(yīng)業(yè)務(wù)需求,分布式存儲(chǔ)整體發(fā)展也是業(yè)務(wù)需求導(dǎo)致,最早就是面對(duì)的海量數(shù)據(jù)能夠?qū)λM(jìn)行高性能高效處理,這是分布式存儲(chǔ)最開始的想法,但是到現(xiàn)在,大家會(huì)碰到或多或少的問題。我們需要不光是存儲(chǔ),還加上計(jì)算的融合,包括如何應(yīng)對(duì)海量小文件,包括新的介質(zhì)融合,以及對(duì)塊設(shè)備這方面高性能的追求,包括數(shù)據(jù)訪問的負(fù)載,甚至和第三方業(yè)務(wù)平臺(tái)有一些接口等。在這樣的情況下,業(yè)務(wù)需求上都有不同的訴求。
分布式存儲(chǔ)建設(shè)過程中的問題
分布式建設(shè)中,我們當(dāng)然會(huì)遇到很多的問題。閃存盤解決了機(jī)械盤的一些問題,閃存的性能會(huì)快,機(jī)械盤會(huì)慢一些。我們推出全閃存分布式,希望把性能提高。第二個(gè)是分布式文件系統(tǒng)的小文件的處理效率問題,就是海量小文件去訪問的時(shí)候源服務(wù)器的壓力會(huì)很大,分布式存儲(chǔ)系統(tǒng)應(yīng)用帶寬問題,IO路徑比較長(zhǎng),對(duì)性能影響問題,這在系統(tǒng)建設(shè)的時(shí)候,是和高性能要求上背道而馳,還有分布式數(shù)據(jù)的安全性和可用空間的問題,這和傳統(tǒng)的SAN不太一樣的地方,分布式上用副本的方式解決。比如說兩副本三副本,雖然安全,但是空間利用率低。通過EC的算法有效的提升空間利用率。EC的算法如果做不好和我們的想法就背道而馳了,因?yàn)闀?huì)影響到分布式系統(tǒng)計(jì)算的資源。塊設(shè)備延時(shí)也一樣。
為什么把全閃存放進(jìn)去?柏科有自己的想法。我們從兩個(gè)角度來看,第一個(gè),把分布式存儲(chǔ)定義成SDS(軟件定義存儲(chǔ)),其實(shí)來講SDS是一個(gè)廣的范疇,從我的角度來說分布式存儲(chǔ)只是其中一個(gè)部分,可以使基于X86架構(gòu)的平臺(tái),或者國(guó)產(chǎn)平臺(tái);在某些應(yīng)用領(lǐng)域替代傳統(tǒng)光纖存儲(chǔ)都是有可能,柏科也在這方面做。
分布式存儲(chǔ)系統(tǒng)到底是軟件硬件分離的,還是軟件硬件融合的。從軟件定義存儲(chǔ)的概念開始是一個(gè)軟件,首先大家很習(xí)慣分布式存儲(chǔ)是軟件,裝到通用X86硬件平臺(tái)上,所以軟件和硬件耦合度并不是很高。從柏科的角度是有點(diǎn)緊密的,原因在于,從每一個(gè)做硬件的角度和做軟件的角度來看,分布式里邊存在軟硬件兼容性問題,如何把硬件架構(gòu)中的基礎(chǔ)部件“磚頭瓦塊”的性能壓榨出來,如果壓榨不出來就是性能的損耗,單一的節(jié)點(diǎn),每一個(gè)節(jié)點(diǎn)性能不能壓榨出來,累加起來只能通過累加的(scale up)方式拼命的增加,某種意義上對(duì)成本控制是有問題的。所以軟件和硬件要有一個(gè)協(xié)調(diào),要有一個(gè)兼容性,能得到更多的硬件的信息,通過軟件來調(diào)整,把硬件諸多的性能吻合發(fā)揮出來,從硬件上重構(gòu),可能是基于標(biāo)準(zhǔn)的硬件系統(tǒng)。
舉一個(gè)例子,大家買車一樣,量產(chǎn)的車都是四個(gè)輪子有門有座椅,柏科希望不是普通的量產(chǎn)車,在量產(chǎn)車上去加一些改造的一些配件,車改,但又不希望那些特別魔改的,魔改一塌糊涂,魔改車比量產(chǎn)車諸多方面都好很多,在座各位也有人希望改裝車,我們注重的是在成本控制下車還可以跑的快,符合開車人的需求。
我認(rèn)為分布式存儲(chǔ)文件系統(tǒng)的應(yīng)用者其實(shí)是駕駛員,你知道你的習(xí)慣是什么,你買分布式存儲(chǔ)是要解決什么問題。不管是量產(chǎn)車還是魔改車,還是適度改裝車,駕駛員是有很大的關(guān)系,也就是說用戶業(yè)務(wù)導(dǎo)向,業(yè)務(wù)需求對(duì)分布式存儲(chǔ)系統(tǒng)選擇有重大的影響度。菜鳥司機(jī)開著賽車,叫賽車手開量產(chǎn)車,菜鳥司機(jī)也跑不過,別看車好。
從柏科角度來講,硬件重構(gòu)并不是完全推翻以前的標(biāo)準(zhǔn)架構(gòu),不是部分的節(jié)點(diǎn)上做魔改,魔改首先第一個(gè)在介質(zhì)上,要通過SSD、當(dāng)然不是放棄機(jī)械盤,只是在應(yīng)用業(yè)務(wù)場(chǎng)景里,控制成本的情況下,通過引入SSD這種磁盤解決用戶需求問題,這里面有一個(gè)故事我一會(huì)兒再說。
剛才也講到了用scale up(縱向擴(kuò)展)或者是scale out(橫向擴(kuò)展)的技術(shù),都是尋找一個(gè)平衡,其實(shí)不管引入新的技術(shù),如RDMA、硬件TOE,硬件糾刪碼等,都是希望把延時(shí)縮短,盡可能靠近本地的處理,讓數(shù)據(jù)離處理中心計(jì)算更近一點(diǎn),通過TOE網(wǎng)卡,壓載一下,包括我們很多柏科產(chǎn)品里面都會(huì)體現(xiàn)出這些,其他產(chǎn)品都有這樣的想法,用戶主要系統(tǒng)資源就是用到主要用戶上,我們需要盡可能幫助他把負(fù)載的壓力和負(fù)擔(dān)移植出來,也是貫穿整個(gè)柏科產(chǎn)品,其他產(chǎn)品線的產(chǎn)品都有這方面的想法。我們加入硬件的糾刪也一樣,通過硬件的糾刪來改善降低CPU處理的壓力,同某種意義上來講卸載這些壓力,同時(shí)提升處理的性能,從硬件重構(gòu)的角度上簡(jiǎn)單說一下。
剛才講到改造的角度上還有軟件定義。本質(zhì)上各個(gè)廠商對(duì)軟件定義存儲(chǔ),對(duì)分布式存儲(chǔ)系統(tǒng)有自己不同的理解,我們希望通過引入自己這幾年的技術(shù),AI層面分解這些壓力,通過我們算法,通過我們了解磁盤的磨損,顆粒的磨損。
剛才我也講到,軟件在監(jiān)控得到的信息都是由硬件廠商已有公開的信息,給什么接口才可以獲取,這些已經(jīng)定義了。想進(jìn)一步得到,得和硬件廠商或者芯片廠商有更好的合作,才可以拿到這些需要的信息。比如說,我們可以監(jiān)控磁盤的壽命,預(yù)測(cè)磁盤什么時(shí)候壞,每一個(gè)硬盤廠商都有自己磁盤壽命的監(jiān)管。第三方軟件獲取硬盤信息的時(shí)候,只能得到標(biāo)準(zhǔn)的信息。更詳細(xì)的SSD顆粒的磨損壽命等等是拿不到的,他不開放,這也是我們講一個(gè)生態(tài)圈。柏科在這方面,為了國(guó)產(chǎn)化、為了自己分布式,也和上下游廠商打通關(guān)系。
這里邊要講一個(gè)和投資人有關(guān)的故事。柏科的一個(gè)投資人,初創(chuàng)公司朗科優(yōu)盤,當(dāng)初投柏科的時(shí)候,也是認(rèn)為能做一個(gè)“小的存儲(chǔ)”公司上市,也希望做一個(gè)“大的存儲(chǔ)”公司上市。柏科這幾年一直努力通過完善自己,希望很快走上資本市場(chǎng)。投資人就說了,要學(xué)會(huì)換位思考,做存儲(chǔ)系統(tǒng)里面有控制芯片,有硬盤、有柏科的存儲(chǔ)系統(tǒng)軟件,像華為做存儲(chǔ)系統(tǒng)。這些方面能打通橫向的關(guān)系和交叉的關(guān)系,主控廠商控制芯片廠商可以提供更多的信息出來。
在分布式存儲(chǔ)系統(tǒng),大家都認(rèn)為企業(yè)SSD和消費(fèi)級(jí)的SSD壽命有很大的差異。柏科可以有效拿到磁盤的信息,通過軟件,可以讓消費(fèi)類的SSD我們叫筆記本、臺(tái)式機(jī)的SSD盤,具有企業(yè)級(jí)SSD的那種管理性和安全性。其實(shí)消費(fèi)類的SSD的性能現(xiàn)在不是很差,但是有一個(gè)先天的優(yōu)勢(shì)就是它的成本,柏科通過軟件技術(shù),通過硬盤的監(jiān)控,可以把SSD顆粒壽命寫均衡,減少損耗等等,能預(yù)測(cè)到這個(gè)硬盤什么時(shí)候壞,我們自己開玩笑叫“算命”,這個(gè)產(chǎn)品我們?cè)瓉響?yīng)用到智能運(yùn)維,和分布式一樣,都是軟件。通過這些軟件的定義可以對(duì)性能加速,有效解決這些延時(shí)響應(yīng)快速的問題,包括AI智能監(jiān)控等等,全閃存分布式存儲(chǔ)設(shè)想的初衷就可以實(shí)現(xiàn)。
彈出一張片子,特斯拉。為什么特斯拉可以賣很貴,也可以賣的相對(duì)便宜。很多人說買電動(dòng)車詬病,為什么呢?特斯拉最核心是它的軟件和控制尤其對(duì)于電池管理。大小像五號(hào)電池的東西密集的排列起來,特斯拉在這方面做的很好,用了幾年以后電池?fù)p耗,電池部分失效的時(shí)候,并不會(huì)影響整體的性能。國(guó)內(nèi)很多電池管理很差,迅速的衰減,電動(dòng)車核心管理管控,輪胎座椅車板后視鏡都是一樣,都有很多的問題。
實(shí)際上,柏科希望通過對(duì)于硬件的重構(gòu)和軟件定義,包括在這個(gè)生態(tài)里面做的事情,在分布式存儲(chǔ)市場(chǎng)里面能變成特斯拉型的、技術(shù)比較領(lǐng)先的、有特點(diǎn)的公司。
柏科的實(shí)施方案
在我們實(shí)施方案里,有三種。
一是純閃的SSD,二是混合存儲(chǔ)方案,通過SSD和機(jī)械盤的混插解決的問題;還有組合型的,通過獨(dú)立的SSD pool,或者HDD pool,通過軟件定義的算法,有效的按照合理用戶的需求將數(shù)據(jù)遷移到不同的存儲(chǔ)介質(zhì)池中,這也是柏科的實(shí)踐。
產(chǎn)品體系架構(gòu)
看一下整體的架構(gòu)。
IS Cloud產(chǎn)品品牌,我們基于飛騰2000+已經(jīng)完成了,申威硬件平臺(tái)也OK了,和華為鯤鵬平臺(tái)基本上也對(duì)接完成。從硬件平臺(tái)上完成硬件的兼容性,軟件的功能和接口方面,合作做了分布式塊接口,標(biāo)準(zhǔn)S3分布式傳統(tǒng)應(yīng)該具備的。這些通過接口層把軟件功能層的功能可以通過我們的通訊化管理平臺(tái)給前端的應(yīng)用。
這里面就不展開了,包括這些視頻、公檢法包括智慧城市包括海量視頻包括企業(yè)文件,金融票據(jù)醫(yī)療大數(shù)據(jù)等等。
分布式全閃的實(shí)踐
講一下這幾年在這些客戶上自己做出來的改變,通過硬件重構(gòu)硬件定義給客戶實(shí)踐里頭帶來什么樣的好處。
這個(gè)案例當(dāng)初想法總共1400路人臉攝像頭,主要人臉分析,1000路每天六千張,另外400路總共有兩個(gè)兩百路,一個(gè)一萬五千張每天每路、一個(gè)兩萬五千張每天每路,分別存三十天,最初業(yè)務(wù)需求處理的時(shí)候文件存儲(chǔ)延遲希望在每秒三百五十張,性能希望每秒不小于一百兆,計(jì)劃存儲(chǔ)8.4億張,最初規(guī)劃220TB,這是原來項(xiàng)目規(guī)劃。柏科部署了自己全閃存分布式產(chǎn)品,硬盤配了大概192塊希捷的Nytro 3731 1.6TB SAS SSD磁盤,最后在用戶實(shí)際交付的時(shí)候處理延遲變成每秒鐘420張,性能210MB每秒,存儲(chǔ)容量307TB,達(dá)到用戶在要求上的性能。
另外動(dòng)漫渲染,最初的規(guī)劃電影公司做的,用的環(huán)境里24盤位光纖盤陣,加上24盤位擴(kuò)展柜與8GB光纖接口,想給出自己的共享軟件,他的當(dāng)時(shí)想做的渲染的素材是8兆的序列楨,25幀每秒,4K分辨率, 60分鐘的故事版內(nèi)容渲染,當(dāng)初做的規(guī)劃是每秒1.4G,渲染60分鐘故事版內(nèi)容渲染出來1小時(shí)48分鐘。我們用三臺(tái)設(shè)備,最小的組合三臺(tái)配了36塊400GB希捷SSD盤對(duì)這套系統(tǒng)進(jìn)行改造以后,渲染的峰值由1.4GB/秒達(dá)到2.7GB/秒,渲染時(shí)間由原來一個(gè)小時(shí)48分變成1小時(shí)7分鐘,完成同樣60分鐘故事板內(nèi)容,提升還是很明顯。
這種案例對(duì)于柏科不少,剛才也講到了,新疆我們投資四五千節(jié)點(diǎn)渲染基地,號(hào)稱也是亞洲最大的。
在智慧城市業(yè)務(wù)方面,這幾年一直交付不少項(xiàng)目,其中一個(gè)項(xiàng)目計(jì)劃兩千個(gè)車道,圖片900KB,每路錄像頭,每天要一千張、存九十天,要求處理文件處理延時(shí)每秒231張/秒,性能每秒281MB/秒,實(shí)際上最后交付的時(shí)候用了六臺(tái)分布式設(shè)備,總共配置了132塊希捷1.6T的盤和84塊8TB機(jī)械盤,SSD pool里面在線放10天熱數(shù)據(jù),機(jī)械盤 Pool放近線20天歸檔數(shù)據(jù),達(dá)到的性能由原來280張可以變到310張每秒,性能變成360MB每秒,整體存儲(chǔ)容量并沒有增加多少,雖然用副本的方式只有883TB的物理容量;幫助用戶在這個(gè)項(xiàng)目上整體完成30%以上的提升,我認(rèn)為還是不錯(cuò)的。
對(duì)于HIC和SDS融合系統(tǒng),我們自己也做了一個(gè)測(cè)試,其實(shí)在我們交付的用戶產(chǎn)品里面可以達(dá)到這個(gè)性能,超融合是我們另外一個(gè)產(chǎn)品線,分布式存儲(chǔ)全閃分布式存儲(chǔ)和超融合系統(tǒng)合作,我們節(jié)點(diǎn)里面我們產(chǎn)品里面四個(gè)節(jié)點(diǎn)狀態(tài),用的三副本,虛擬機(jī)大概20個(gè),每一個(gè)虛擬機(jī)分配16VCPU和24GB內(nèi)存,當(dāng)時(shí)做壓力測(cè)試用的4K隨機(jī)的讀寫,每一個(gè)節(jié)點(diǎn)里面,大概每路CPU用的2.2主頻的CPU,內(nèi)存是256G。每個(gè)節(jié)點(diǎn)有七塊SSD,在這樣的情況下,在4K看到的一個(gè)數(shù)值,在64個(gè)碼流上并發(fā)讀的延遲是3.23ms、IOPS大概160萬,在64的并發(fā)寫的情況下可以達(dá)到將近460萬,所以整體的性能讀寫的IOPS的要求和延遲的要求有效做了一些改進(jìn)。
這也是我們自己在分布式存儲(chǔ)一些經(jīng)驗(yàn),產(chǎn)品交付的時(shí)候性能都可以達(dá)到客戶的要求,也可以看到我們?cè)谶@幾年對(duì)于硬件重構(gòu)和軟件定義領(lǐng)域的一些探索。針對(duì)業(yè)務(wù)需求,我們適當(dāng)定制、去改造一些需要通過新的技術(shù),包括硬件技術(shù)、軟件技術(shù)做一些完善。
以上是柏科這幾年的拙見,希望對(duì)大家有些幫助。另外,今天會(huì)場(chǎng)外面還有培訓(xùn),還有講座,有時(shí)間可以去我們的展臺(tái),和相關(guān)技術(shù)人員溝通,謝謝各位!
編后:本次2019中國(guó)數(shù)據(jù)與存儲(chǔ)峰會(huì)(DATA & STORAGE SUMMIT)為期兩天,包含主論壇、CIO高峰對(duì)話,以及大數(shù)據(jù)、閃存系統(tǒng)、分布式存儲(chǔ)、第二存儲(chǔ)與容災(zāi)備份、超融合與云存儲(chǔ)、人工智能、數(shù)據(jù)創(chuàng)新與安全可控、容器創(chuàng)新與應(yīng)用、SCM第五代存儲(chǔ)與閃存控制器等十大主題論壇,超過100場(chǎng)的專業(yè)知識(shí)分享。初步統(tǒng)計(jì),本屆峰會(huì)吸引了來自政、企、產(chǎn)、學(xué)、研、媒體等各方參會(huì)者約2000人,在線直播觀看觀眾再創(chuàng)新高,超過10萬余人次。