以下內(nèi)容根據(jù)峰會(huì)現(xiàn)場(chǎng)演講速記整理:
新數(shù)據(jù) 新需求
陳小亮:尊敬的各位領(lǐng)導(dǎo)、各位來(lái)賓:大家下午好!我是來(lái)自深信服的陳小亮,目前在公司主要負(fù)責(zé)基礎(chǔ)架構(gòu)業(yè)務(wù)。深信服的基礎(chǔ)架構(gòu)業(yè)務(wù)主要包括:桌面云、負(fù)載均衡、軟件定義廣域網(wǎng)(SD-WAN),以及軟件定義存儲(chǔ)(SDS)等多個(gè)產(chǎn)品和解決方案。今天主要想談?wù)劥鎯?chǔ),與大家分享深信服過(guò)去幾年在存儲(chǔ)或者在軟件定義存儲(chǔ)方面打造的核心能力和技術(shù)創(chuàng)新。
首先我們來(lái)看一下與存儲(chǔ)相關(guān)的技術(shù)以及應(yīng)用上的一些變化。對(duì)用戶來(lái)說(shuō),過(guò)去的業(yè)務(wù)更多的是以O(shè)A和數(shù)據(jù)庫(kù)等傳統(tǒng)的數(shù)據(jù)為主,產(chǎn)生的大多是結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)規(guī)??傮w不大,每年的增量可能也就幾個(gè)T。而現(xiàn)在,隨著云計(jì)算、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等新興技術(shù)廣泛應(yīng)用之后,數(shù)據(jù)增量非常大,使得數(shù)據(jù)產(chǎn)生了一些新的特點(diǎn)。比如數(shù)據(jù)的增長(zhǎng)更快了,數(shù)據(jù)來(lái)源更加多樣化了,對(duì)數(shù)據(jù)處理的性能要求更高了。
“新數(shù)據(jù)”的新特點(diǎn)對(duì)存儲(chǔ)提出了新的需求,總結(jié)為以下五點(diǎn):
第一,當(dāng)數(shù)據(jù)變大變多了之后,需要有更大的存儲(chǔ)空間,往往需要PB級(jí)空間來(lái)存儲(chǔ)這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
第二,深信服認(rèn)為,未來(lái)80%以上的數(shù)據(jù)都會(huì)是非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)是占用空間很大,增長(zhǎng)非??焖?,要求存儲(chǔ)有超大規(guī)模擴(kuò)展性。
第三,如今圖像類型和視頻類型的應(yīng)用,都在往智能分析和大數(shù)據(jù)分析這個(gè)方向發(fā)展,想在短時(shí)間內(nèi)獲取想要的數(shù)據(jù)分析結(jié)果。而這要求存儲(chǔ)有更快的讀寫和及時(shí)響應(yīng)能力。
第四,數(shù)據(jù)量變大之后對(duì)整個(gè)存儲(chǔ)底層的可靠性要求更高了。比如出現(xiàn)故障之后,要求存儲(chǔ)能將海量數(shù)據(jù)快速恢復(fù)。
最后一點(diǎn),我們?cè)诂F(xiàn)在和未來(lái)都會(huì)追求數(shù)據(jù)最大化共享。我們的大數(shù)據(jù)應(yīng)用,我們的AI應(yīng)用,需要把之前使用的大量數(shù)據(jù)進(jìn)行重新分析,產(chǎn)生新的價(jià)值。這就要我們關(guān)注數(shù)據(jù)的二次利用以及數(shù)據(jù)共享。
新數(shù)據(jù),呼喚智能云存儲(chǔ)
基于以上幾點(diǎn),深信服認(rèn)為,未來(lái)需要用一個(gè)智能云存儲(chǔ)來(lái)滿足存儲(chǔ)需求,需要大量利用標(biāo)準(zhǔn)的X86服務(wù)器和軟件定義存儲(chǔ)技術(shù),來(lái)打造一個(gè)具備高可靠、高性能,支持智能管理的分布式統(tǒng)一存儲(chǔ)。它不僅可以提供大容量、多種類型的存儲(chǔ)方案,比如對(duì)象存儲(chǔ)、文件存儲(chǔ)還有塊存儲(chǔ)。在這個(gè)平臺(tái)上面,還可以集成與數(shù)據(jù)強(qiáng)相關(guān)的應(yīng)用程序,比如說(shuō)網(wǎng)盤、備份、容災(zāi)、數(shù)據(jù)分析等等,簡(jiǎn)化數(shù)據(jù)分析的過(guò)程,加快數(shù)據(jù)產(chǎn)出新的價(jià)值。而深信服企業(yè)級(jí)分布式存儲(chǔ)EDS就是這樣的一款存儲(chǔ)。
聽深信服談存儲(chǔ)大家可能會(huì)有疑慮,深信服過(guò)去是做安全的,什么時(shí)候開始做存儲(chǔ)了,做得怎么樣?
其實(shí),早在2013年,深信服就成立了獨(dú)立的存儲(chǔ)研發(fā)部門,當(dāng)時(shí)主要進(jìn)行軟件定義存儲(chǔ)的一個(gè)布局,并在當(dāng)年就推出了分布式塊存儲(chǔ),把分布式塊存儲(chǔ)應(yīng)用到了桌面云上。2015年,分布式塊存儲(chǔ)又被運(yùn)用到了超融合上。截至目前,深信服分布式塊存儲(chǔ)服務(wù)的桌面云終端用戶達(dá)到了95萬(wàn),超融合用戶達(dá)到了5,000多家。
五年來(lái),深信服在存儲(chǔ)領(lǐng)域積累了大規(guī)模部署和實(shí)施的經(jīng)驗(yàn)。2018年年底,深信服基于技術(shù)積累發(fā)布了獨(dú)立了分布式存儲(chǔ)產(chǎn)品,同時(shí)加大了在研發(fā)上的投入。目前,深信服存儲(chǔ)業(yè)務(wù)的獨(dú)立研發(fā)人員達(dá)到了300多人,其中30%是碩博學(xué)歷,海內(nèi)外頂尖博士20多位。這些博士給深信服帶來(lái)了很多高端技術(shù)突破,目前深信服已獲得的存儲(chǔ)技術(shù)專利有68個(gè),同時(shí)申請(qǐng)中的專利有30多個(gè),成果顯著。
深信服企業(yè)級(jí)分布式存儲(chǔ)EDS四大核心能力
五年來(lái),深信服持續(xù)打造存儲(chǔ)核心能力,總結(jié)下來(lái)有四大核心能力。
1.海量數(shù)據(jù)存儲(chǔ)和擴(kuò)展能力
海量數(shù)據(jù)在存儲(chǔ)和使用時(shí)通常會(huì)面臨兩個(gè)問(wèn)題:第一是元數(shù)據(jù)索引效率非常低的問(wèn)題。元數(shù)據(jù)記錄了文件的各種信息,對(duì)文件進(jìn)行的所有操作都會(huì)修改、增加、刪除元數(shù)據(jù)。元數(shù)據(jù)傳統(tǒng)的存儲(chǔ)方式采用的是目錄式,所謂目錄式是指類似從樹干到樹枝到樹葉的關(guān)系,效率非常低下。面對(duì)幾千萬(wàn)甚至上億文件的時(shí)候,訪問(wèn)效率非常低,系統(tǒng)幾乎不可用。第二是數(shù)據(jù)容量擴(kuò)展的問(wèn)題。
深信服針對(duì)元數(shù)據(jù)問(wèn)題的解決方案是打造元數(shù)據(jù)分布式數(shù)據(jù)庫(kù);針對(duì)數(shù)據(jù)擴(kuò)容問(wèn)題的解決方案是采用彈性擴(kuò)展架構(gòu),實(shí)現(xiàn)數(shù)據(jù)自動(dòng)平衡。
深信服面向元數(shù)據(jù)管理而設(shè)計(jì)的數(shù)據(jù)庫(kù)系統(tǒng),針對(duì)海量元數(shù)據(jù)管理場(chǎng)景做了很多技術(shù)優(yōu)化與創(chuàng)新。這些優(yōu)化主要解決了索引慢的問(wèn)題,去除了在元數(shù)據(jù)使用過(guò)程當(dāng)中一些不必要的IO或者資源消耗。如通過(guò)自研的一致性框架,將多次寫入變成一次性寫入。
這些技術(shù)優(yōu)化與創(chuàng)新使得系統(tǒng)能夠輕松管理一百億以上的文件,整個(gè)索引效率提升了一百倍。過(guò)去查詢一個(gè)文件可能要幾分鐘甚至幾小時(shí),現(xiàn)在可以做到秒級(jí),就能將文件調(diào)用出來(lái)。
在擴(kuò)展性方面,深信服存儲(chǔ)EDS系統(tǒng)采用全對(duì)稱的分布式線性擴(kuò)展架構(gòu),最大可擴(kuò)展到五千節(jié)點(diǎn),并且擴(kuò)展的操作非常簡(jiǎn)單,只要在集群里面把新的存儲(chǔ)節(jié)點(diǎn)加進(jìn)去,后臺(tái)會(huì)自動(dòng)進(jìn)行數(shù)據(jù)的遷移和數(shù)據(jù)的平衡。
由于加入了智能自適應(yīng)的功能,整個(gè)擴(kuò)展過(guò)程當(dāng)中不需要人為干預(yù)。而且,在數(shù)據(jù)同步過(guò)程中,系統(tǒng)能智能感知到業(yè)務(wù)的壓力,自動(dòng)調(diào)整遷移策略和遷移節(jié)奏,避免遷移時(shí)對(duì)業(yè)務(wù)產(chǎn)生影響。
2.?dāng)?shù)據(jù)高可靠保障能力。
深信服發(fā)現(xiàn)大多數(shù)數(shù)據(jù)保護(hù)會(huì)面臨這樣兩個(gè)問(wèn)題:第一個(gè)問(wèn)題,數(shù)據(jù)保護(hù)往往是借助各種收費(fèi)軟件來(lái)實(shí)現(xiàn),這樣做首先是比較復(fù)雜,其次是需要額外購(gòu)買軟件,成本也比較高。第二個(gè)問(wèn)題是,當(dāng)數(shù)據(jù)出現(xiàn)故障后,平臺(tái)自愈效率低,自動(dòng)化程度低。
針對(duì)第一個(gè)問(wèn)題,深信服用五大類38種高可靠機(jī)制來(lái)保護(hù)數(shù)據(jù)。
第一類是在硬件層面,除了精選各種高兼容配件之外,通過(guò)各種硬件監(jiān)控與檢測(cè)功能,幫助用戶發(fā)現(xiàn)硬件上的一些問(wèn)題。
第二類是在主機(jī)層面,由包括服務(wù)器和網(wǎng)絡(luò)的硬件構(gòu)成冗余架構(gòu),而且對(duì)故障處理和隔離都做了專項(xiàng)優(yōu)化,可以縮小故障范圍以及避免部分其他問(wèn)題。
第三類在數(shù)據(jù)保護(hù)層面,有被動(dòng)的保護(hù)機(jī)制,如多副本、糾刪碼等;也有主動(dòng)的防御機(jī)制,如硬盤亞健康檢測(cè)、數(shù)據(jù)巡檢等,通過(guò)主動(dòng)和被動(dòng)相結(jié)合的方式給數(shù)據(jù)提供更高的可靠性。
第四類主要是在管理層面,使用AI技術(shù)來(lái)實(shí)現(xiàn)數(shù)據(jù)管理的智能化,智能地進(jìn)行故障診斷。
最后是在方案層面,通過(guò)快照、備份、多中心容災(zāi)層、異地復(fù)制等功能,實(shí)現(xiàn)跨集群容災(zāi)建設(shè)。
五大類38種高可靠機(jī)制帶來(lái)了怎樣的優(yōu)勢(shì)呢?
首先,使得整個(gè)數(shù)據(jù)保護(hù)更加全面立體,對(duì)各個(gè)故障點(diǎn)都有了應(yīng)急保護(hù)措施。
其次,是性價(jià)比更高,硬件方面采用的是相對(duì)低成本的標(biāo)準(zhǔn)化硬件,軟件方面不需要額外購(gòu)買第三方收費(fèi)工具。通過(guò)軟件機(jī)制和優(yōu)化最終達(dá)到同樣高品質(zhì)數(shù)據(jù)保護(hù)方案的性能和安全級(jí)別。
同時(shí),五大類38種高可靠機(jī)制形成了一個(gè)事前、事中、事后的數(shù)據(jù)保護(hù)框架。事前通過(guò)數(shù)據(jù)的校驗(yàn)、巡檢提前發(fā)現(xiàn)數(shù)據(jù)風(fēng)險(xiǎn)并自動(dòng)修復(fù)。事中通過(guò)多副本、糾刪碼確保數(shù)據(jù)不會(huì)丟失。事后是可以在故障之后實(shí)現(xiàn)數(shù)據(jù)快速修復(fù)與重建。
3.高性能,實(shí)時(shí)響應(yīng)能力
在性能方面,存儲(chǔ)也面臨兩個(gè)問(wèn)題:
第一個(gè)問(wèn)題就是當(dāng)文件數(shù)量上升到幾千萬(wàn)甚至上億之后,性能衰減得非常厲害,訪問(wèn)速度非常慢。
第二個(gè)問(wèn)題在于各種業(yè)務(wù)對(duì)于性能的需求不一樣,為此,傳統(tǒng)做法是購(gòu)買多套不同類型的存儲(chǔ)。深信服認(rèn)為未來(lái)數(shù)據(jù)中心的趨勢(shì)是只需要一套存儲(chǔ),它同時(shí)具備高吞吐、低時(shí)延的需求,但這樣的存儲(chǔ)需要做大量的性能優(yōu)化,優(yōu)化才是關(guān)鍵所在。
在性能優(yōu)化方面,深信服做了高性能分層技術(shù)框架,框架分為數(shù)據(jù)層、緩存層,以及協(xié)議層,針對(duì)每一層的優(yōu)化都有助于提升性能,最終做到用低成本的硬件實(shí)現(xiàn)高性能。主要的優(yōu)化方向有三點(diǎn):
第一點(diǎn)是分層本身。分層的核心其實(shí)是要智能感知業(yè)務(wù),然后,基于業(yè)務(wù)需求對(duì)不同IO采取不同的處理機(jī)制。如果是隨機(jī)小IO的話,需要先寫到分布式緩存層,將小IO合并完以后再寫到容量層;如果是連續(xù)的大IO,則直接寫到容量層里。
第二點(diǎn)是分層算法。分層算法里最核心的是數(shù)學(xué)算法,深信服的數(shù)學(xué)算法博士們幾年來(lái)持續(xù)優(yōu)化算法,使得熱力圖算法的緩存命中率高達(dá)80%以上,高命中率可以大大提高效率和性能。
第三點(diǎn)是自適應(yīng)條帶化。自適應(yīng)條帶化是指將一個(gè)大的數(shù)據(jù)塊切分成幾個(gè)小的數(shù)據(jù)塊,然后分散到多塊硬盤里面去,最終目的是提高存儲(chǔ)性能。
通過(guò)多項(xiàng)優(yōu)化,深信服的分布式存儲(chǔ)系統(tǒng)EDS在結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)場(chǎng)景中的性能都有了大幅提升。
4.基于AI的高效的管理能力
傳統(tǒng)的存儲(chǔ)管理需要依靠大量的手工運(yùn)維,隨著存儲(chǔ)設(shè)備越來(lái)越多,管理復(fù)雜度呈指數(shù)級(jí)上升。同時(shí),隨著存儲(chǔ)設(shè)備越來(lái)越老,維護(hù)越來(lái)越困難,故障定位越來(lái)越困難。深信服認(rèn)為,未來(lái)的運(yùn)維一定是往自動(dòng)化智能化方向發(fā)展。
深信服第一階段構(gòu)建了全自動(dòng)化運(yùn)維體系,可以把平時(shí)常用的50%的操作都變?yōu)樽詣?dòng)化任務(wù)。全自動(dòng)化運(yùn)維能做到什么程度呢?
比如一鍵智能管理功能,通過(guò)一個(gè)按鈕就可以對(duì)軟硬件進(jìn)行全方位的檢測(cè),并顯示故障原因以及解決方案。又比如可以通過(guò)全局熱備空間,在硬盤出現(xiàn)故障時(shí),快速恢復(fù)數(shù)據(jù),自動(dòng)進(jìn)行數(shù)據(jù)修復(fù),整個(gè)過(guò)程是全自動(dòng)化完成的。
第二階段構(gòu)建了智能運(yùn)維,深信服的人工智能大數(shù)據(jù)分析和統(tǒng)計(jì)分析團(tuán)隊(duì)做了許多創(chuàng)新,主要有以下三點(diǎn):
第一點(diǎn)——故障預(yù)測(cè),尤其是硬盤的故障預(yù)測(cè)。存儲(chǔ)系統(tǒng)里有大量的硬盤,這些硬盤非常容易損壞,智能運(yùn)維系統(tǒng)可以做硬盤亞健康檢測(cè),可以在硬盤沒(méi)有出現(xiàn)故障之前提前15天識(shí)別出問(wèn)題,通知用戶及時(shí)更換,深信服現(xiàn)在把硬盤亞健康檢測(cè)的準(zhǔn)確率提升到了98.5%。
第二點(diǎn)——趨勢(shì)分析,智能運(yùn)維系統(tǒng)可以給出性能和容量上的規(guī)劃建議,動(dòng)態(tài)合理地對(duì)資源進(jìn)行分配,而避免過(guò)去要靠人工計(jì)算預(yù)測(cè)的麻煩,避免出錯(cuò)或者浪費(fèi)的情況。
第三點(diǎn)——智能的應(yīng)用優(yōu)化,不同業(yè)務(wù)應(yīng)用對(duì)性能的需求是不一樣的,智能運(yùn)維系統(tǒng)可以在后臺(tái)自動(dòng)感知業(yè)務(wù)的特點(diǎn),自動(dòng)在后臺(tái)進(jìn)行調(diào)整,包括調(diào)整IO的路徑,調(diào)整資源配置。整個(gè)過(guò)程當(dāng)中不需要人工干預(yù),使得業(yè)務(wù)體驗(yàn)和資源利用達(dá)到最優(yōu)的狀態(tài)。
今天我的主要分享到此為止,謝謝大家。