隨著 AI/GPU 場景的爆發(fā),對于存儲性能的要求一下子提升一大截,硬件性能本身已經(jīng)暴露出了瓶頸,更不用說軟件還帶來額外的 OP 放大浪費?;诜植际轿募軜?gòu)設(shè)計的產(chǎn)品很多,但市面上大部分產(chǎn)品都還沒涉及到這個問題,或者說仍然存在嚴重的 OP 放大問題。在很多時候,仍然通過更多的系統(tǒng)資源來掩蓋問題,比如更高的 CPU、更好的 SSD 等。因此,面向未來的 AI/GPU 文件需求,文件協(xié)議網(wǎng)關(guān)的 OP 放大問題的解決決定了文件存儲系統(tǒng)的性能競爭力。

文件協(xié)議 OP 放大問題

文件協(xié)議網(wǎng)關(guān)的 OP 放大問題(Operation Amplification Problem)是指在文件存儲系統(tǒng)中,由于文件協(xié)議(如 NFS、SMB)的設(shè)計和實現(xiàn),每個用戶請求的操作(如創(chuàng)建、讀取、寫入、刪除文件等)需要在底層存儲系統(tǒng)中執(zhí)行多次額外的操作。這會導(dǎo)致實際執(zhí)行的操作數(shù)量遠多于用戶請求的操作數(shù)量,從而引起性能問題。以下是 OP 放大問題的具體描述:

這些 OP 放大會帶來顯著的性能影響,不僅增加了 I/O 路徑的長度,還增加了網(wǎng)絡(luò)傳輸?shù)难舆t和處理時間。另一方面,額外的操作也會消耗更多的計算資源和網(wǎng)絡(luò)帶寬,導(dǎo)致系統(tǒng)效率降低。

因此解決 OP 放大問題對于分布式文件系統(tǒng)的性能進一步提升十分關(guān)鍵,可以用更少的系統(tǒng)資源(CPU、IO、網(wǎng)絡(luò))實現(xiàn)同等的客戶端 IOPS 結(jié)果。

為什么文件協(xié)議 OP 放大問題,難以解決?

首先 OP 放大需要面臨文件協(xié)議的復(fù)雜性:

這些協(xié)議的歷史演進都成為了解決 OP 放大的挑戰(zhàn),需要在不破壞協(xié)議原有語義和兼容性的前提下,進行語義擴展或合并操作。例如,將多個操作合并為一個操作,但仍需確保這些操作在協(xié)議層面上是合法的。

而減少 OP 放大的本質(zhì)就是合并多個 OP 以及盡可能通過緩存技術(shù)實現(xiàn)本地命中,因此,不僅要求協(xié)議細節(jié)的掌握,還要求分布式文件系統(tǒng)的元數(shù)據(jù)服務(wù)和緩存機制緊密配合,這對于非自研的文件系統(tǒng)產(chǎn)品來說幾乎做不到

以元數(shù)據(jù)管理為例,文件系統(tǒng)中的許多操作涉及元數(shù)據(jù)(如文件創(chuàng)建、屬性設(shè)置、權(quán)限檢查等)。優(yōu)化這些操作需要高效的元數(shù)據(jù)管理機制,而這些機制本身又復(fù)雜且難以優(yōu)化。簡單的元數(shù)據(jù)緩存無法解決跨節(jié)點的元數(shù)據(jù)一致性,需要精細的鎖機制和一致性協(xié)議來確保數(shù)據(jù)的正確性。

歷經(jīng) 4 年的生產(chǎn)部署經(jīng)驗和廣泛的企業(yè)級 NAS 場景適配,通過逐步優(yōu)化現(xiàn)有系統(tǒng)的協(xié)議語義,減少對系統(tǒng)穩(wěn)定性的影響,并驗證每一步優(yōu)化的效果。XSKY 終于在 XGFS 6.4 版本的文件協(xié)議 OP 放大問題實現(xiàn)了突破。

NFS/SMB OP 放大問題的解決效果 

NFS 協(xié)議 OP 放大完全消除

NFS 協(xié)議廣泛應(yīng)用于 Linux 操作系統(tǒng)中,是目前主流的文件協(xié)議之一,XGFS 當(dāng)前支持標(biāo)準 NFSv3 協(xié)議。應(yīng)用于云原生、AI、HPC、文件共享等場景。

針對 NFSv3 協(xié)議,每次讀寫 IO 都需要多次訪問元數(shù)據(jù),用于處理鑒權(quán)、屬性檢查等操作,同時完成 OP 后也需要給客戶端返回新的長度、修改時間等元數(shù)據(jù),也就帶來在數(shù)據(jù) IO 之外需要多次元數(shù)據(jù)操作;

實驗室性能混閃硬件測試結(jié)果如下:

通過協(xié)議 OP 優(yōu)化,IOPS 性能全面提升,特別是讀性能。寫性能應(yīng)該已經(jīng)達到混閃池的瓶頸,因此效果沒有這么明顯。但如果以后換成星飛全閃數(shù)據(jù)池,相信這次 OP 優(yōu)化的效果也可以體現(xiàn)出來了。

SMB 協(xié)議 OP 放大減少到 1.3 倍

SMB 協(xié)議也是 NAS 存儲最重要的協(xié)議之一,多應(yīng)用于 Windows 操作系統(tǒng),適用PACS、仿真、基因測序、文件網(wǎng)盤,制造業(yè)數(shù)據(jù)采集等場景。

SMB 協(xié)議由于元數(shù)據(jù)操作是串行方式,如典型的 CREATE/GETINFO/CLOSE 等等,都是以單線程,同步的方式執(zhí)行,導(dǎo)致時延很高,同時并發(fā)也上不去。需要性能提升,協(xié)議 OP 放大優(yōu)化就變得極為重要。

SMB 協(xié)議一次小文件寫入,客戶端需要 create/setinfo/write/setinfo/getinfo/close 6 次 OP 操作,

SMB 協(xié)議配合 XDCache 寫緩存(支持內(nèi)存 3 副本和持久化存儲,大大減少分布式帶來的 IO 路徑長問題,提升單流寫性能),性能進一步提升。

內(nèi)部實測單流拷貝性能如下:

(注:PACS 場景之一, 57K 是圖片切片大?。?/p>

同時,我們也和業(yè)界著名的 NAS 廠商 NetApp 的全閃 NAS 進行了性能對比, 測試了 SMB 協(xié)議 57KB 小文件拷貝性能。發(fā)現(xiàn)如果存儲節(jié)點采用老的 CPU 平臺,性能可達到 NetApp 75%以上,如果采用新的 CPU 平臺,性能接近 NetApp 的 93%,幾乎可以媲美 NetApp。

(注:XGFS v6.4 雖然采用混閃配置,但元數(shù)據(jù)是保存在 NVMe SSD 上的,這個場景混閃和全閃應(yīng)該差距不大)

信創(chuàng) NAS 存儲 性能提升同樣明顯

在信創(chuàng) CPU 上,文件網(wǎng)關(guān)協(xié)議 OP 放大的降低帶來了更大的性能收益。XGFS 文件系統(tǒng)由于實現(xiàn)了用戶態(tài)架構(gòu),可快速支持國產(chǎn) CPU 架構(gòu)平臺和操作系統(tǒng)兼容。在最新 6.4 版本協(xié)議 OP 放大優(yōu)化后,信創(chuàng)硬件平臺性能相應(yīng)提升,內(nèi)部實驗室測試機性能如下:

相同硬件條件下對海光和鯤鵬平臺,OP 優(yōu)化后性能提升巨大,性能可以媲美同檔次的國外主流 NAS,如 NetApp,是 NetApp 國產(chǎn)化替換的理想選擇。

XSKY 文件存儲已經(jīng)有很多的信創(chuàng)案例,包括珠海華潤銀行、北京銀行、貴州農(nóng)信、安信證券、東風(fēng)財務(wù)等。這次 XSKY SDS V6.4 版本的文件性能優(yōu)化,將會大大加速信創(chuàng)文件存儲的推進。

 小結(jié)

分布式文件存儲系統(tǒng)的性能與 NFS 和 SMB 協(xié)議操作密切相關(guān)。協(xié)議的設(shè)計、網(wǎng)絡(luò)條件、并發(fā)處理能力和緩存機制等因素都會影響整體性能。通過優(yōu)化協(xié)議實現(xiàn)和采用合適的架構(gòu)設(shè)計,分布式文件存儲系統(tǒng)能夠在提供高性能的同時,保持數(shù)據(jù)的高可用性和一致性。

XGFS 6.4 版本通過對 NAS 核心協(xié)議(NFSv3、SMB)OP 放大優(yōu)化,極大提升了集群的 IOPS 性能。在某項目 POC 中,對比國內(nèi) S 友商,發(fā)現(xiàn)該廠商的 NFS 協(xié)議放大 3 倍,SMB 協(xié)議放大 3 倍,XGFS 協(xié)議性能大幅領(lǐng)先。

同時,XGFS 企業(yè)級文件存儲不僅支持企業(yè)級高級特性,還支持文件雙活、多協(xié)議互通等高級功能,全方位滿足客戶業(yè)務(wù)需求。

在信創(chuàng)生態(tài)中,XSKY 將持續(xù)針對信創(chuàng)硬件和操作系統(tǒng)適配,為客戶信創(chuàng)轉(zhuǎn)型提供完善的解決方案。

分享到

nina

相關(guān)推薦