目前,能支持RDMA技術(shù)的物理網(wǎng)絡(luò)主要有Infiniband(簡(jiǎn)稱IB)、Omni-Path和以太網(wǎng)。

其中,IB為最主流的技術(shù),RDMA市場(chǎng)目前的壟斷者。目前IB網(wǎng)卡和交換機(jī)的供應(yīng)商主要是Mellanox,在高性能計(jì)算(HPC)領(lǐng)域,IB是最為廣泛使用的高速網(wǎng)絡(luò)設(shè)備。

Omni-Path為Intel收購(gòu)Qlogic之后研制出來(lái)的下一代高性能網(wǎng)絡(luò)架構(gòu),典型速度為100Gbps,且Intel在部分CPU上面直接繼承了相關(guān)的接口,可見Intel開拓相關(guān)市場(chǎng)的決心。但Omni-Path的應(yīng)用才開始起步,市場(chǎng)占有率遠(yuǎn)沒有IB那么大。

現(xiàn)在的高速以太網(wǎng)(比如25Gb及其以上的網(wǎng)卡),除了支持傳統(tǒng)的TCP/IP之外,也支持RDMA方式?;谝蕴W(wǎng)的RDMA技術(shù)有兩種,RoCE和iWRAP。RoCE的主要廠商為Mellanox和Broadcom(Avago),它對(duì)交換機(jī)的要求較高;iWARP的主要廠商為Intel,對(duì)交換機(jī)的要求較低。

儲(chǔ)迅對(duì)GlusterFS的RDMA模塊的改進(jìn)

因?yàn)镽DMA技術(shù)的高帶寬和低延遲,GlusterFS在早期的時(shí)候便加入了對(duì)RDMA的支持。不過(guò),GlusterFS還是以在傳統(tǒng)的TCP/IP網(wǎng)絡(luò)中運(yùn)行為主,如果采用RDMA模式,在HPC等領(lǐng)域持續(xù)地大規(guī)模讀寫,會(huì)遇到連接斷掉I/O不能持續(xù)進(jìn)行等諸多問(wèn)題,性能的抖動(dòng)也較大。針對(duì)目錄元數(shù)據(jù)的操作(比如列目錄、刪除目錄、查找文件等),表現(xiàn)出來(lái)的問(wèn)題更多。

針對(duì)上述問(wèn)題,儲(chǔ)迅的研發(fā)團(tuán)隊(duì)對(duì)GlusterFS的RDMA模塊以及相關(guān)代碼做了全面的梳理,優(yōu)化了讀寫流程,改進(jìn)了目錄元數(shù)據(jù)的查找方式,并針對(duì)并發(fā)操作時(shí)不規(guī)范的鎖操作導(dǎo)致的race condition問(wèn)題進(jìn)行了全面排查。新的代碼經(jīng)過(guò)了大規(guī)模的內(nèi)部測(cè)試,以及在基因測(cè)序、視頻分析、材料計(jì)算等多個(gè)客戶處的長(zhǎng)時(shí)間檢驗(yàn),可以穩(wěn)定地運(yùn)行在復(fù)雜的商用環(huán)境中,尤其適合HPC領(lǐng)域的各項(xiàng)計(jì)算場(chǎng)景。

除了穩(wěn)定性,在性能方面,使用儲(chǔ)迅改進(jìn)版本的GlusterFS,基于同樣的硬件,其并發(fā)讀寫性能不僅比TCP/IP模式快3-5倍,而且綜合性能完全可以和Lustre文件系統(tǒng)的性能抗衡。由于GlusterFS比起Lustre有更多的特性,包括數(shù)據(jù)冗余性等HA特性,且不依賴于昂貴的元數(shù)據(jù)服務(wù)器,所以,該方案具有比Lustre更強(qiáng)的競(jìng)爭(zhēng)力。

針對(duì)具有元數(shù)據(jù)服務(wù)器的分布式文件系統(tǒng),GlusterFS采用了去中性化的架構(gòu),完全屏蔽了元數(shù)據(jù)服務(wù)器。這種架構(gòu)帶來(lái)了更好的數(shù)據(jù)可靠性,且更容易維護(hù),但也有一定的缺點(diǎn),主要表現(xiàn)在目錄操作較慢–畢竟列目錄等命令,不能在元數(shù)據(jù)服務(wù)器中直接獲取,而需要遍歷每個(gè)存儲(chǔ)節(jié)點(diǎn)來(lái)獲取內(nèi)容。儲(chǔ)迅在改進(jìn)RDMA代碼的同時(shí),也對(duì)GlusterFS的相關(guān)代碼架構(gòu)做了優(yōu)化,對(duì)于列目錄等命令,其性能有著較大的提升,甚至在集群硬盤較多的時(shí)候,速度能提高一個(gè)數(shù)量級(jí)以上,徹底改變了部分用戶對(duì)GlusterFS在元數(shù)據(jù)操作方面體驗(yàn)不佳的印象。

儲(chǔ)迅基于RDMA的HPC存儲(chǔ)的完整方案

基于優(yōu)化了RDMA代碼的GlusterFS,儲(chǔ)迅提供了HPC的完整存儲(chǔ)解決方案,具有高并發(fā)、低延遲、數(shù)據(jù)可靠性高、接口豐富、開箱即用等特點(diǎn),特別適合基因計(jì)算、材料研究、氣象分析、石油勘探、視頻分析等領(lǐng)域。

此外,儲(chǔ)迅還和Infiniband技術(shù)的領(lǐng)軍企業(yè)–Mellanox建立了戰(zhàn)略合作關(guān)系。Mellanox針對(duì)儲(chǔ)迅的GlusterFS存儲(chǔ)產(chǎn)品,提供Infiniband和RoCE技術(shù)的全面支持,通過(guò)行業(yè)內(nèi)的合作伙伴,提供整合的HPC存儲(chǔ)產(chǎn)品方案,不僅僅在穩(wěn)定性、性能和功能方面給客戶最大的保障,還能為客戶帶來(lái)更好的存儲(chǔ)使用體驗(yàn),確保能為客戶創(chuàng)造更大的價(jià)值。

分享到

songjy

相關(guān)推薦