現(xiàn)在看到的是MSmart分布式存儲(chǔ)基礎(chǔ)的邏輯架構(gòu)圖,整個(gè)MSmart產(chǎn)品能夠提供的存儲(chǔ)服務(wù)分成了對(duì)象、文件、塊幾個(gè)不同方面,都提供多種協(xié)議支持,可實(shí)現(xiàn)數(shù)據(jù)共享,在一個(gè)統(tǒng)一架構(gòu)之下實(shí)現(xiàn),宏杉多個(gè)節(jié)點(diǎn)去并發(fā)的提供完整的數(shù)據(jù)服務(wù),這是宏杉MSmart基本的架構(gòu)。

海量數(shù)據(jù)存儲(chǔ)

宏杉MSmart產(chǎn)品有幾個(gè)方面的特色,一是海量的數(shù)據(jù)存儲(chǔ),這從架構(gòu)的設(shè)計(jì)上來(lái)體現(xiàn),宏杉MSmart分布式存儲(chǔ)可以提供最多1萬(wàn)個(gè)節(jié)點(diǎn)的橫向擴(kuò)展能力,而且宏杉整個(gè)性能和容量是可以實(shí)現(xiàn)完全線(xiàn)性的擴(kuò)展。宏杉MSmart可以忽略后端網(wǎng)絡(luò)設(shè)置,在圖上后端網(wǎng)絡(luò)是用虛線(xiàn)進(jìn)行連接的,采用宏杉特有的增強(qiáng)型文件或者塊協(xié)議,可以不配置后端網(wǎng)絡(luò)的,通過(guò)前端網(wǎng)絡(luò)、通過(guò)前端客戶(hù)端去實(shí)現(xiàn)分片或數(shù)據(jù)的分發(fā),來(lái)提高更大的存儲(chǔ)并發(fā)性能。

另外一個(gè)方面,節(jié)點(diǎn)容量空間、磁盤(pán)空間利用率。在傳統(tǒng)分布式存儲(chǔ)當(dāng)中大家都知道,一般情況下宏杉在數(shù)據(jù)分布都是采用像一致性哈希算法實(shí)現(xiàn)數(shù)據(jù)的分布,可能會(huì)存在一個(gè)問(wèn)題,它的數(shù)據(jù)分布是不完全均勻的,當(dāng)存儲(chǔ)容量達(dá)到80%左右的時(shí)候,宏杉就需要對(duì)整個(gè)存儲(chǔ)系統(tǒng)進(jìn)行擴(kuò)容了。原因就于宏杉不管是用一致性糾刪,還是類(lèi)似的哈希算法進(jìn)行數(shù)據(jù)的分布,它的數(shù)據(jù)不完全均衡,有些硬盤(pán)多一些,有些硬盤(pán)當(dāng)中少一些,為了保證整個(gè)存儲(chǔ)空間可用程度,所以說(shuō)當(dāng)宏杉整體存儲(chǔ)利用率達(dá)到80%的時(shí)候,宏杉就需要盡快的對(duì)存儲(chǔ)空間進(jìn)行擴(kuò)容。

那這種情況其實(shí)也是對(duì)宏杉整個(gè)存儲(chǔ)可用空間的浪費(fèi)。那么對(duì)宏杉MSmart來(lái)說(shuō),宏杉采用了自研的一種智能數(shù)據(jù)分布算法,宏杉不均衡可以控制在5%以下,換句話(huà)說(shuō),宏杉可以把宏杉整個(gè)存儲(chǔ)每個(gè)節(jié)點(diǎn)每塊硬盤(pán)的使用率提升到95%以上,大大提升了系統(tǒng)整體的可用容量空間。

第三,除了存儲(chǔ)容量之外,宏杉MSmart還有一個(gè)比較大的特色,宏杉支持融合存儲(chǔ)的模式,它跟超融合是有一些區(qū)別,超融合一般是采用虛擬化的方式去提供計(jì)算資源的,但是在MSmart存儲(chǔ)當(dāng)中,底層是采用內(nèi)核級(jí)服務(wù)來(lái)提供的,宏杉可以支持部署其他一些應(yīng)用軟件,這些應(yīng)用軟件是不會(huì)對(duì)宏杉內(nèi)核態(tài)的存儲(chǔ)服務(wù)進(jìn)行干擾的,這種融合模式的好處可以在很多應(yīng)用方案中得到體現(xiàn),比如很多視頻監(jiān)控應(yīng)用,基本上采用的都是監(jiān)控直存的方案,前端攝像頭的數(shù)據(jù)流下來(lái)之后直接到存儲(chǔ)當(dāng)中去了,需要存儲(chǔ)本身具備視頻解析、視頻轉(zhuǎn)發(fā)的功能,這個(gè)時(shí)候就可以把流媒體轉(zhuǎn)發(fā)的軟件直接部署在存儲(chǔ)節(jié)點(diǎn)上,去實(shí)現(xiàn)視頻的直存,而且這種直存方式不區(qū)分任何監(jiān)控平臺(tái)和攝像頭廠(chǎng)家。

再比如說(shuō)網(wǎng)盤(pán)的解決方案,很多用戶(hù)在使用分布式存儲(chǔ)的時(shí)候,更多是提供一個(gè)網(wǎng)盤(pán)服務(wù),可以在分布式存儲(chǔ)的基礎(chǔ)上直接部署網(wǎng)盤(pán)軟件,去實(shí)現(xiàn)一體化的網(wǎng)盤(pán)方案,這也是宏杉在存儲(chǔ)融合這一塊所做的一個(gè)創(chuàng)新。

智能數(shù)據(jù)算法

基于宏杉智能數(shù)據(jù)算法,宏杉智能的數(shù)據(jù)算法也在很多方面得到體現(xiàn),比如說(shuō)宏杉其實(shí)在SAN存儲(chǔ)的一個(gè)著名算法,叫做IDDC主動(dòng)式磁盤(pán)診斷中心,簡(jiǎn)單來(lái)說(shuō),通過(guò)IDDC這個(gè)技術(shù),宏杉可以智能的主動(dòng)去檢測(cè)硬盤(pán)相關(guān)的故障,包括慢盤(pán)、磁盤(pán)故障等等故障,通過(guò)主動(dòng)的去檢測(cè),去預(yù)防當(dāng)文件寫(xiě)到這個(gè)位置的時(shí)候出現(xiàn)報(bào)錯(cuò)的情況,這也是IDDC給用戶(hù)帶來(lái)的最大的便利。

宏杉也把IDDC的功能SAN存儲(chǔ)移植到分布式存儲(chǔ)當(dāng)中,宏杉分布式存儲(chǔ)也可以支持IDDC數(shù)據(jù)自檢、自動(dòng)重建的功能,而且通過(guò)優(yōu)化的數(shù)據(jù)重建算法,可以保證哪怕是在最小集群、最小硬盤(pán)數(shù)的狀態(tài)之下,平均每TB數(shù)據(jù)重建時(shí)間也不會(huì)超過(guò)30分鐘,這是非常快的數(shù)據(jù)重建速度。這個(gè)IDDC算法是宏杉宏杉分布式存儲(chǔ)在智能算法這一塊所做的新創(chuàng)新。

其他一些智能算法包括小文件聚合,在分布式存儲(chǔ)當(dāng)中叫做Nest技術(shù),簡(jiǎn)單來(lái)說(shuō)就是把小文件聚合成大文件,然后再分片并發(fā)的向分布式存儲(chǔ)當(dāng)中去寫(xiě)入,這樣的過(guò)程減少了存儲(chǔ)對(duì)于小文件負(fù)載,不論在寫(xiě)入,還是在查詢(xún)和讀取的時(shí)候,其實(shí)都會(huì)對(duì)性能有非常大的提升。

宏杉自己內(nèi)部也做了一個(gè)驗(yàn)證,在大量小文件隨機(jī)讀寫(xiě)的狀態(tài)之下,通過(guò)小文件聚合的技術(shù),可以把整體存儲(chǔ)性能提升30%以上,這也是宏杉在存儲(chǔ)智能算法方面去做的一些創(chuàng)新努力。

另外還有一個(gè)方向,就是分布式全閃存,因?yàn)槲覀兌贾婪植际酱鎯?chǔ)對(duì)存儲(chǔ)性能的要求逐步提高,宏杉MSmart現(xiàn)在也全面支持了分布式閃存,尤其支持全NVMe的配置,通過(guò)分布式存儲(chǔ)給用戶(hù)輸出極致的存儲(chǔ)性能。

基于閃存的存儲(chǔ)介質(zhì),其實(shí)對(duì)存儲(chǔ)相關(guān)算法都會(huì)有比較特殊的一些要求。比如說(shuō)快照,宏杉分布式存儲(chǔ)是可以支持無(wú)限快照一資源設(shè)置的,對(duì)快照的數(shù)量完全沒(méi)有限制?;谶@一點(diǎn),宏杉在全閃存配置之下,快照基于ROW快照方式去實(shí)現(xiàn)的,ROW的好處是本身沒(méi)有寫(xiě)放大,對(duì)于磁盤(pán)擦寫(xiě)次數(shù)是比COW快照方式要少的,所以也是通過(guò)這種方式,盡可能保護(hù)SSD的壽命。

第三,基于全閃存的方式,去重寫(xiě)優(yōu)化數(shù)據(jù)分布算法,會(huì)盡可能的把所有的文件打散,均勻分布的寫(xiě)在所有硬盤(pán)當(dāng)中。包括在數(shù)據(jù)進(jìn)行重建的時(shí)候,也會(huì)考慮到不同的SSD的壽命問(wèn)題,盡可能對(duì)讀寫(xiě)進(jìn)行均衡,以此來(lái)延長(zhǎng)整體SSD的壽命,這是宏杉在全閃存這一塊所做的一些智能算法優(yōu)化。

高效的數(shù)據(jù)共享

宏杉對(duì)分布式存儲(chǔ)想所的提升,是在更高效的數(shù)據(jù)共享方面。

第一,宏杉能夠提供豐富的接口類(lèi)型,比如說(shuō)訪(fǎng)問(wèn)接口,基于文件的NFS/CIFS、FTP、Http、HDFS、S3/Swift接口,iSCSI塊接口,在宏杉分布式存儲(chǔ)當(dāng)中,通過(guò)一個(gè)集群就可以直接實(shí)現(xiàn),而且是所有節(jié)點(diǎn)全部可以同時(shí)參與,去提供所有接口訪(fǎng)問(wèn),不需要去分域來(lái)提供服務(wù),這是宏杉比較大的一個(gè)特色。

在網(wǎng)絡(luò)接口這一塊,宏杉是可以支持各種各樣的接口,包括萬(wàn)兆25G、100G的接口,給用戶(hù)在不同場(chǎng)景之下最極致的存儲(chǔ)帶寬性能。

除了常見(jiàn)的一些通用接口協(xié)議之外,宏杉分布式存儲(chǔ)有一個(gè)比較大的特色,就是宏杉有一個(gè)自有的增強(qiáng)型智能存儲(chǔ)協(xié)議,以同時(shí)支持文件協(xié)議和塊協(xié)議,是在用戶(hù)的客戶(hù)端可以安裝宏杉增強(qiáng)型智能存儲(chǔ)協(xié)議的客戶(hù)端,它可以實(shí)現(xiàn)最大的優(yōu)勢(shì)是可以在客戶(hù)端層面上直接去實(shí)現(xiàn)前端切片,不管是做副本還是做糾刪,都可以在客戶(hù)端上把切片完成。然后通過(guò)多個(gè)節(jié)點(diǎn)并發(fā)的向節(jié)點(diǎn)里面寫(xiě),通過(guò)這種方式實(shí)現(xiàn)多線(xiàn)程的并發(fā)讀寫(xiě),去進(jìn)一步的增強(qiáng)宏杉存儲(chǔ)本身的并發(fā)性能。

第二,基于宏杉增強(qiáng)型的存儲(chǔ)可以提供更高級(jí)的權(quán)限控制,一共可以提供七種權(quán)限靈活設(shè)置,七種權(quán)限組合在一起,有大概127種權(quán)限組合,能夠完全滿(mǎn)足用戶(hù)對(duì)權(quán)限安全方面的要求。

還有一個(gè)優(yōu)勢(shì),前面其實(shí)也提到了,通過(guò)增強(qiáng)型的存儲(chǔ)協(xié)議,是可以不配置后端網(wǎng)絡(luò)的,因?yàn)榇鎯?chǔ)文件直接在前端就進(jìn)行切片了,然后通過(guò)分片分線(xiàn)程的方式向所有節(jié)點(diǎn)并發(fā)讀寫(xiě),所以在這種情況下我是可以不配置后端網(wǎng)絡(luò)的,這是關(guān)于增強(qiáng)型的智能存儲(chǔ)協(xié)議,能夠?qū)?shù)據(jù)共享來(lái)達(dá)到更高層面的提升。

第三,基于前面提到的,不論一些公有的文件協(xié)議、對(duì)象協(xié)議,還是增強(qiáng)型的文件協(xié)議,針對(duì)所有非結(jié)構(gòu)化數(shù)據(jù)相關(guān)協(xié)議,宏杉都可以實(shí)現(xiàn)類(lèi)似數(shù)據(jù)湖的多協(xié)議融合互通訪(fǎng)問(wèn)的功能,包括NFS、CFS、增強(qiáng)型的POSIX接口,包括S3/Swift的對(duì)象接口,像HDFS的大數(shù)據(jù)接口,這些所有的協(xié)議都可以在一個(gè)統(tǒng)一的全局空間之下,去實(shí)現(xiàn)數(shù)據(jù)的融合互通訪(fǎng)問(wèn)。

這種方式的好處是實(shí)現(xiàn)了所有非結(jié)構(gòu)化數(shù)據(jù)的協(xié)議互通,共享一份數(shù)據(jù),不需要進(jìn)行數(shù)據(jù)遷移的。舉個(gè)簡(jiǎn)單的例子,比如說(shuō)有一部分通過(guò)通常NFS或者SMB這樣一些通用的文件協(xié)議寫(xiě)入的數(shù)據(jù),我需要通過(guò)像HDFS接口進(jìn)行大數(shù)據(jù)分析的時(shí)候,有了數(shù)據(jù)共享、多協(xié)議共享功能之后,不需要把這些文件數(shù)據(jù)再進(jìn)行遷移、拷貝、格式的轉(zhuǎn)換等等這些過(guò)程,通過(guò)NFS或者SMB協(xié)議寫(xiě)入的文件,可以直接通過(guò)HDFS的協(xié)議去訪(fǎng)問(wèn),而且宏杉可以支持原生的HDFS接口,可以直接替代掉Hadoop當(dāng)中HDFS組件,給前端一些其他的組件提供存儲(chǔ)服務(wù)的,這是關(guān)于宏杉互聯(lián)互通的數(shù)據(jù)共享、協(xié)議共享的特色。

靈活管理方式

靈活的管理方式也是很多用戶(hù)在實(shí)際使用過(guò)程當(dāng)中提出來(lái)的相關(guān)需求,宏杉也把很多用戶(hù)的需求在現(xiàn)在分布式存儲(chǔ)產(chǎn)品當(dāng)中去做了一些實(shí)現(xiàn)。第一,可以實(shí)現(xiàn)靈活的節(jié)點(diǎn)調(diào)整,宏杉分布式集群是以三節(jié)點(diǎn)為最小規(guī)模起步進(jìn)行配置的,可以根據(jù)業(yè)務(wù)需求在線(xiàn)的進(jìn)行擴(kuò)容,也可以在線(xiàn)的縮小容量,不管是擴(kuò)容還是縮容,還是節(jié)點(diǎn)更換的過(guò)程都是可以在線(xiàn)完成的。

而且宏杉分布式存儲(chǔ)在節(jié)點(diǎn)增減或者更換的過(guò)程當(dāng)中有一個(gè)比較大的特色,就是不會(huì)強(qiáng)制要求所有節(jié)點(diǎn)結(jié)構(gòu)或者配置是完全一致的。比如在初始配置了三個(gè)原始節(jié)點(diǎn)的情況下,在擴(kuò)容的時(shí)候,如果原始節(jié)點(diǎn)配置比較落后,現(xiàn)在有性能更高的節(jié)點(diǎn),用戶(hù)也可以補(bǔ)充新的不同結(jié)構(gòu),甚至盤(pán)位數(shù)不一樣,硬盤(pán)規(guī)格不一樣,這些情況下新的節(jié)點(diǎn)都是可以加入到原有的存儲(chǔ)空間當(dāng)中去的。

基于這樣一種情況,新增的節(jié)點(diǎn)它的單節(jié)點(diǎn)容量可能就會(huì)跟原有節(jié)點(diǎn)不一致,所以在做數(shù)據(jù)自動(dòng)均衡的時(shí)候,實(shí)際上也是基于兩種不同的維度去實(shí)現(xiàn)的。如果所有節(jié)點(diǎn)間的可用容量是完全均衡的,直接按照容量的方式在多個(gè)節(jié)點(diǎn)之間實(shí)現(xiàn)數(shù)據(jù)均衡。當(dāng)新增的節(jié)點(diǎn)比如說(shuō)它的容量比原有這些節(jié)點(diǎn)可用容量要高的時(shí)候,宏杉也可以支持基于存儲(chǔ)資源的利用率去進(jìn)行自動(dòng)均衡,可以保證所有節(jié)點(diǎn)空間的利用率是一致的,這是兩種不同的自動(dòng)均衡方式,可以自動(dòng)的進(jìn)行切換,也幫助用戶(hù)不管進(jìn)行擴(kuò)容還是縮容還是進(jìn)行節(jié)點(diǎn)更換的時(shí)候,能夠更靈活的進(jìn)行管理的方式。

關(guān)于數(shù)據(jù)冗余的設(shè)置,都知道分布式存儲(chǔ)很多要求糾刪、副本等等一系列的冗余模式,但是對(duì)于絕大部分產(chǎn)品來(lái)說(shuō),它會(huì)有一個(gè)要求,針對(duì)我一個(gè)集群或者至少在一個(gè)故障域之下,用戶(hù)只能選擇一種冗余模式,比如說(shuō)只能選擇4+2糾刪,或者只能選擇3副本等等一系列冗余模式。對(duì)于宏杉的分布式存儲(chǔ)來(lái)說(shuō),很大一個(gè)靈活點(diǎn)是在于可以基于任何一個(gè)目錄去獨(dú)立設(shè)置它的冗余模式,在這個(gè)圖上也舉了個(gè)例子,比如說(shuō)在根目錄,根目錄在初始設(shè)置的時(shí)候選擇了8+2的糾刪,小文件聚合功能是關(guān)閉的,存儲(chǔ)介質(zhì)是機(jī)械盤(pán)。在根目錄之下創(chuàng)建了兩個(gè)2級(jí)目錄,兩個(gè)2級(jí)目錄冗余模式是可以自己手動(dòng)進(jìn)行選擇的,比如說(shuō)把其中一個(gè)目錄可能存的小文件比較多,數(shù)據(jù)安全性要求比較高,同時(shí)對(duì)性能要求也比較高??梢园堰@一個(gè)目錄設(shè)置成四副本的模式,然后把小文件聚合開(kāi)起,而且可以把這個(gè)目錄放到SSD硬盤(pán)介質(zhì)上。

然后再往后看他的下一級(jí)目錄,如果不去單獨(dú)進(jìn)行設(shè)置的時(shí)候,那這個(gè)目錄就會(huì)繼承附目錄的相關(guān)設(shè)置屬性,當(dāng)認(rèn)為這個(gè)目錄和附目錄在文件存儲(chǔ)特點(diǎn)上有一些區(qū)別的時(shí)候,可以對(duì)任何一級(jí)的任何目錄進(jìn)行單獨(dú)設(shè)置,這也是宏杉在管理方式上非常靈活的一點(diǎn)。

關(guān)于權(quán)限這一塊的控制,前面也簡(jiǎn)單提到了,宏杉分布式存儲(chǔ)本身基于分布式存儲(chǔ)這一層可以提供七種不同權(quán)限的靈活設(shè)置,七種不同權(quán)限互相組合的話(huà),是可以達(dá)到大概127種左右的權(quán)限組合,這種直接基于存儲(chǔ)校驗(yàn)底層的訪(fǎng)問(wèn)權(quán)限,跟操作系統(tǒng)權(quán)限、其他一些相關(guān)的權(quán)限都是屏蔽開(kāi)的,可以幫助用戶(hù)去更好的對(duì)存儲(chǔ)相關(guān)權(quán)限進(jìn)行管理。

小結(jié)

前面其實(shí)宏杉提到了很多不同場(chǎng)景上、不同維度上做的一些創(chuàng)新??偨Y(jié)來(lái)說(shuō),主要體現(xiàn)在四個(gè)大的方面。

第一,提供了海量的數(shù)據(jù)存儲(chǔ)服務(wù)。第二,有大量的智能數(shù)據(jù)管理算法。第三,提供了高效了數(shù)據(jù)共享方式。第四,可以提供更多更靈活的存儲(chǔ)和數(shù)據(jù)管理方式。

以上就是今天會(huì)介紹到MSmart分布式存儲(chǔ)相關(guān)的技術(shù)探索和創(chuàng)新。

接下來(lái)其實(shí)宏杉宏杉一直也會(huì)以自主創(chuàng)新來(lái)引領(lǐng)存儲(chǔ)智能的發(fā)展,以智能制造服務(wù)為口號(hào),來(lái)助力百行百業(yè)的用戶(hù)進(jìn)行數(shù)字化的轉(zhuǎn)型。

本文根據(jù)宏杉科技產(chǎn)品部副總工張夏男演講整理而成!

分享到

songjy

相關(guān)推薦