XSKY 從 2016 年正式發(fā)布基于 XStore 的 SDS V2 產(chǎn)品,XStore 在當時是業(yè)內(nèi)少數(shù)的用戶態(tài)緩存技術(shù),提供本地 SSD 緩存來加速讀寫性能,其后 XSKY 陸續(xù)增加了大塊 IO Bypass,可以自動識別大塊 IO 直寫 HDD。

在 2018 年,我們意識到本地 SSD 緩存固然簡單,但是隨著集群的長期運行,在 SSD 故障或者壽命到期后,SSD 對應(yīng)的全量 HDD 數(shù)據(jù)都需要進行重構(gòu),大幅增加恢復(fù)時間,帶來了更高的運維成本。同時,XStore 僅能夠支持副本模式,而三副本的硬件成本相比使用 RAID 技術(shù)的集中性存儲并沒有顯著的規(guī)?;瘍?yōu)勢。

因此,XSKY 設(shè)計了新一代全局緩存架構(gòu) XSpeed,并在 SDS V5 發(fā)布會亮相。

XSpeed 實現(xiàn)了集群中緩存介質(zhì)的池化,可以整合全部緩存容量并以三副本冗余度提供高性能 IO 服務(wù)。整合后的全局緩存數(shù)據(jù)有更大的空間來進行回刷,在回刷過程中會使用 EC 糾刪碼技術(shù)和數(shù)據(jù)壓縮功能,大幅提高集群的空間利用率。

新的架構(gòu)變化,使得不管是 SSD 還是 HDD 故障,都可以只重構(gòu)對應(yīng)容量的數(shù)據(jù),且 SSD 故障完全不會影響 HDD。

在 2021 年 V5 發(fā)布會后的 3 年時間里,大量的客戶享受到了新架構(gòu)帶來的收益,得盤率提高 300% 以上,運維成本降低 94%。

從 XStore 到 XSpeed 的發(fā)展表明,在企業(yè)級存儲系統(tǒng)中,存儲軟件架構(gòu)是極其重要的。它可以決定系統(tǒng)的性能、TCO、擴展性和可靠性這些關(guān)鍵因素。

硬件技術(shù)的發(fā)展帶來機會和挑戰(zhàn)

在 XSpeed 發(fā)布之后的三年時間里面,硬件技術(shù)已經(jīng)發(fā)生了非常大的變化。

在 2019 年,SATA/SAS SSD 還是主流,HDD 在持久化數(shù)據(jù)存儲中正發(fā)揮著主要作用。PCIe 還停留在 3.0,存儲 的 CPU 還是 8-12 Cores 為主,網(wǎng)絡(luò)還是 10Ge。

但在短短幾年內(nèi),技術(shù)的飛躍式進步已經(jīng)顛覆了這一格局。特別是隨著 AI 相關(guān)業(yè)務(wù)驅(qū)動,硬件平臺迎來了大躍進。

不管是 x86 還是信創(chuàng) CPU,單節(jié)點核數(shù)早已經(jīng)躍升至 32 Cores,而今年的數(shù)據(jù)中心大贏家 GPU 也已經(jīng)是主流算力,在網(wǎng)絡(luò)上,基于以太網(wǎng)的存儲網(wǎng)絡(luò)已經(jīng) 25Gb 起步,100Gb 也已經(jīng)普遍使用。SSD 介質(zhì)隨著 PCIe 5.0 落地和顆粒層數(shù)工藝進步,擁有了更大的容量、更好的性能和更低的價格。

面對這些硬件技術(shù)變化和客戶需求,我們開始思考如何設(shè)計面向全場景的分布式閃存存儲系統(tǒng),其中會有哪些新的挑戰(zhàn)。

而隨著 AI、大數(shù)據(jù)的發(fā)展,客戶日益增長的存儲需求中,一個突出的趨勢是對高效存儲解決方案的渴望??蛻舨粌H需要通過分配更高性能的存儲資源來處理更多任務(wù),還追求更高的空間效率和完善的數(shù)據(jù)保護服務(wù)。

而現(xiàn)有的面向全場景的分布式閃存存儲系統(tǒng)架構(gòu),很難完全滿足需求:

可靠性較低:隨著越來越低的性能延遲,應(yīng)用實實在在享受到更好的存儲性能所帶來的好處,但更快的處理意味著對于存儲可用性要求的提高。過去是 10 毫秒內(nèi)的存儲延遲,我們通常假設(shè) 10 秒內(nèi)的節(jié)點故障規(guī)格可以接受,而在全閃化后,延遲降低到 100 微秒級別,之前秒級的異常規(guī)格就變得不可接受。但現(xiàn)有市場上分布式全閃產(chǎn)品中,仍然只提供長達數(shù)秒的故障切換指標。? 性能服務(wù)水平不足:在不斷迭代的 NVME SSD 和高速網(wǎng)絡(luò)加持下,性能絕對值基本不再是挑戰(zhàn)。反而是在規(guī)?;娜W存里,在支持大規(guī)模高效寫入數(shù)據(jù)和元數(shù)據(jù)更新情況下,長期的尾部延遲結(jié)果才能真正衡量存儲性能服務(wù)水平。因為在堆砌大量 SSD 并基于高速網(wǎng)絡(luò)后,SSD 的 GC (垃圾回收)以及網(wǎng)絡(luò)偶發(fā)丟包等因素,導(dǎo)致的長尾延遲抖動,是應(yīng)用性能體驗的關(guān)鍵。因此,我們認為需要更關(guān)注 P99 延遲的穩(wěn)定性,它才意味著真實的服務(wù)水平。? 成本仍然過高:SSD 和 HDD 的成本剪刀差在過去 8 年沒有發(fā)生根本性變化。用戶仍然期望在數(shù)據(jù)量持續(xù)增長的背景下,能以適當?shù)某杀精@得全閃存的巨大優(yōu)勢。如果在全閃存下,分布式存儲還依賴三副本且不具備任何數(shù)據(jù)縮減能力,它并沒有長期競爭力。

因此,如果在這三方面,我們?nèi)绻荒芎芎萌ソ鉀Q,只是有了一個高性能的分布式存儲系統(tǒng),是很難與集中式全閃相提并論,甚至在很多場景下,集中式全閃陣列借助 RAID 和壓縮技術(shù),會有更好的性價比。

因此,我們希望能夠利用新的硬件變化來進一步推動分布式存儲架構(gòu)變革,來更好解決這些最新需求。而最好的辦法,就是推出全新的架構(gòu)來適應(yīng)新時期的硬件和需求,也就是 XSKY 最新推出的“星海(XSEA,eXtreme Shared-Everything Architecture,極速全共享架構(gòu))”架構(gòu)。

面向全閃數(shù)據(jù)中心的星海架構(gòu)

星海架構(gòu)是 XSKY 過去 8 年在存儲技術(shù)領(lǐng)域,不斷磨礪與創(chuàng)新的結(jié)果,它仍然采用軟件定義的技術(shù),以最新的標準存儲協(xié)議和網(wǎng)絡(luò)技術(shù)作為基礎(chǔ),并引入了三項技術(shù)創(chuàng)新點。

第一,星海架構(gòu)采用了 Shared Everything (全共享)模型來實現(xiàn)全共享數(shù)據(jù)存儲,使得每個節(jié)點都能直接訪問所有 SSD,來提高了數(shù)據(jù)訪問速度和靈活性;

其次,星海架構(gòu)采用了單層閃存介質(zhì)的設(shè)計,來專門面向 TLC NVMe SSD 進行優(yōu)化,可以減少硬件配置復(fù)雜性;

第三,星海架構(gòu)在 IO 路徑中采用端到端的 NVMe 實現(xiàn),不僅存儲系統(tǒng)對外提供 NVMF 協(xié)議,內(nèi)部復(fù)制網(wǎng)絡(luò)和 IO 處理也同樣采用 NVMF 技術(shù),確保 IO 路徑的高效處理。

Shared Everything 模型是新架構(gòu)基石

在過去十年乃至更久的時間里,Shared Nothing 模型因其物理資源隔離的能力、易于擴展和管理的特點,在大規(guī)模存儲解決方案中被廣泛認可和應(yīng)用。從超融合存儲到分布式文件和對象存儲,再到數(shù)據(jù)庫、數(shù)倉系統(tǒng)等領(lǐng)域,都在使用 Shared Nothing 模型。

然而,隨著 NVMe 規(guī)范標準化和 100Gb 以上高速網(wǎng)絡(luò)的普及,遠程訪問 SSD 的性能已經(jīng)可以媲美本地訪問。Shared Nothing 模型過去基于網(wǎng)絡(luò)性能瓶頸的假設(shè)其實已經(jīng)不再適用。

在面對新的可靠性、性能服務(wù)水平和成本的挑戰(zhàn),我們看到 shared nothing 模型的局限性:? 性能擴展性的局限性:在 Shared Nothing 架構(gòu)中,每個節(jié)點獨立處理數(shù)據(jù),而隨著節(jié)點增多,為了維持分布式事務(wù)的一致性,帶來了額外的軟件復(fù)雜性和 CPU 消耗,并可能導(dǎo)致寫放大。這樣的開銷限制了擴容的收益,在全閃存系統(tǒng)里,這種瓶頸更為明顯;

資源利用浪費:在 Shared Nothing 架構(gòu)中,資源的獨立性限制了靈活性,使得各節(jié)點資源無法統(tǒng)一利用。例如,在處理高負載時,每個節(jié)點必須配備足夠的硬件資源,導(dǎo)致規(guī)劃系統(tǒng)時需要進行提前預(yù)留,在大規(guī)模部署中,會造成更大的浪費。

服務(wù)質(zhì)量:在 Shared Nothing 架構(gòu)中,故障檢測和響應(yīng)機制常常缺乏業(yè)務(wù)層面的敏感度。一旦發(fā)生故障,節(jié)點間需要進行復(fù)雜的一致性協(xié)商,導(dǎo)致故障切換時間過長。在系統(tǒng)出現(xiàn)亞健康狀況時,這種機制會更加脆弱,故障處理過程難以迅速有效地進行。

局部視角問題:Shared Nothing 架構(gòu)將每個節(jié)點劃分為獨立的單元,這種劃分會導(dǎo)致無法實施大比例的 EC 糾刪碼,數(shù)據(jù)恢復(fù)和后臺 IO 操作也難以全局優(yōu)化。結(jié)果是,這些操作可能占用過多帶寬,影響正常的客戶端 IO 請求,進而影響整體業(yè)務(wù)的穩(wěn)定性。

為應(yīng)對 Shared Nothing 模型的挑戰(zhàn),星海架構(gòu)使用了 Shared Everything 的設(shè)計,借助最新硬件平臺的支持,這一架構(gòu)可以克服 Shared Nothing 限制,來顯著提升性能、資源效率和整體服務(wù)質(zhì)量。

從上圖可知,BlockServer、FileServer 和 ChunkServer 作為一組無狀態(tài)容器分布在多個服務(wù)器集群中,它們通過共享內(nèi)存直接交互,無需通過網(wǎng)絡(luò)。而 IOServer 會將所有 SSD 通過 NVMe-oF 協(xié)議暴露出物理卷,使得任意 ChunkServer 在啟動時,都可以掛載集群里的所有 NVMe 卷。這意味著不管是塊設(shè)備還是文件系統(tǒng),都可以直接獲得任意位置的 SSD 數(shù)據(jù)。

這樣的架構(gòu)設(shè)計在性能可擴展方面具有明顯優(yōu)勢。

首先,隨著集群的橫向擴展,由于每個節(jié)點無需跟其他節(jié)點的服務(wù)進行通信,可以消除不必要的數(shù)據(jù)轉(zhuǎn)發(fā),實現(xiàn)了網(wǎng)絡(luò)的線性擴展能力。

其次,存儲容量和性能,可以與 CPU、內(nèi)存資源解耦,為不同業(yè)務(wù)場景提供更高的靈活性和資源利用率。例如,在備份場景,可以使用較低的 CPU 和內(nèi)存資源;在 OLTP 場景中,則可以部署更高頻率的 CPU 以實現(xiàn)更低延遲的 IO 處理。

第三,Shared Everything 架構(gòu)設(shè)計賦予了每個節(jié)點全局數(shù)據(jù)讀寫能力。這意味著,我們可以實施大比例的 EC 糾刪碼,如 20+4,大幅提升空間利用效率。也可以更好的進行全局流控、后臺任務(wù)調(diào)度,并根據(jù)全局 SSD 的狀態(tài)進行磨損均衡。

此外,在關(guān)鍵的可靠性方面,Shared Everything 架構(gòu)顯著提高了故障恢復(fù)能力。無論是節(jié)點、網(wǎng)絡(luò)還是 SSD 故障,其他節(jié)點都能迅速接管,保證業(yè)務(wù)連續(xù)性。這是因為每個服務(wù)都可以訪問到所有數(shù)據(jù),而不用在故障時等待數(shù)據(jù)復(fù)制或狀態(tài)同步。這樣的設(shè)計可以在 100ms 內(nèi)實現(xiàn)故障切換,為存儲提供高可靠性保證。

面向 TLC SSD 優(yōu)化,單層閃存介質(zhì)設(shè)計

在定義存儲池的構(gòu)建方式時,星海架構(gòu)挑戰(zhàn)了傳統(tǒng)的模式,該架構(gòu)放棄了常規(guī)的緩存加數(shù)據(jù)盤的組合,轉(zhuǎn)而采用了單層閃存介質(zhì)構(gòu)建,其背后是反映了 XSKY 對 SSD 技術(shù)和傳輸標準演進的深入理解。

從 PCIe 3.0 到 4.0,再到如今的 5.0,我們見證了 NVMe SSD 在帶寬吞吐方面的巨大飛躍。這意味著,現(xiàn)在我們可以用更少的 PCIe 通道實現(xiàn)更高的數(shù)據(jù)傳輸速率,使得 TLC 型 NVMe SSD 持續(xù)具備最好的性價比。

因此,星海架構(gòu)采用單層 TLC NVMe SSD 來構(gòu)建存儲池,簡化集群的存儲硬件結(jié)構(gòu)。

在使用方式上,我們利用 Append Only 方式實現(xiàn)數(shù)據(jù)寫入,減少了寫放大現(xiàn)象。并通過精心設(shè)計的空間布局,在單個 SSD 上實現(xiàn)了緩存和持久存儲的雙重功能。這些技術(shù)使得在沒有專用緩存介質(zhì)情況下,確保足夠的性能穩(wěn)定性。

根據(jù) XSKY 的評估,在常規(guī)的混合讀寫業(yè)務(wù)場景中,相比分層緩存方式,單層閃存可以顯著降低介質(zhì)成本 20%以上。

同時配合 Shared Everything 架構(gòu)模型帶來的全局 EC 和壓縮功能,使得集群的得盤率超過了 100%。就如去年,著名的 HCI 存儲軟件 vSAN 8.0 發(fā)布,正式宣布其全閃架構(gòu)從 OSA 演變?yōu)?ESA,而 ESA 架構(gòu)的關(guān)鍵設(shè)計就是采用了 Single Tier。

最大化硬件卸載,端到端的 NVMe

在端到端 IO 路徑上,星海架構(gòu)采用了標準 NVMe over Fabric 協(xié)議進行構(gòu)建。

過去,在存儲系統(tǒng)中,SCSI 協(xié)議一直占據(jù)主導(dǎo)地位。然而,SCSI 在并發(fā)處理能力和協(xié)議效率上存在約束。相比之下,NVMe 協(xié)議以其更高的并發(fā)性和較低的協(xié)議開銷脫穎而出,目前已得到主流操作系統(tǒng)內(nèi)核的原生支持。

星海架構(gòu)不僅在存儲訪問方面采用了 NVMe over Fabrics 協(xié)議,而且在存儲內(nèi)部網(wǎng)絡(luò)中也全面實施了該協(xié)議。這意味著所有存儲節(jié)點都可以通過 NVMe over Fabrics 高效地訪問每一個 NVMe SSD,從而避免了存儲協(xié)議轉(zhuǎn)換所帶來的額外開銷。

在端到端的 NVMe I/O 路徑上,也采用了高效的 Polling 模式處理每個 I/O 請求,并通過 NUMA 綁定優(yōu)化了不同服務(wù)的內(nèi)存訪問效率。最后實現(xiàn)低至 100 微秒的端到端延遲。

此外,星海架構(gòu)持續(xù)適應(yīng)硬件技術(shù)的演進,通過與領(lǐng)先的智能網(wǎng)卡廠商合作,利用智能網(wǎng)卡來進行 NVMF 協(xié)議的硬件卸載,在存儲設(shè)備上實現(xiàn)從計算節(jié)點到存儲的高效數(shù)據(jù)傳輸。

3 個 100 的架構(gòu)收益

通過 shared everything、單層閃存介質(zhì)和端到端 NVMe,星海架構(gòu)可以實現(xiàn) 3 個 100:? 在 40%-60%負載下實現(xiàn) 100 微秒的超低延遲;? 通過 EC 和數(shù)據(jù)壓縮技術(shù)實現(xiàn)超過 100%的存儲系統(tǒng)得盤率;? 在面對慢盤、亞健康網(wǎng)絡(luò)問題時,能在 100 毫秒內(nèi)快速切換,以保證系統(tǒng)的穩(wěn)定運行。

這 3 個 100 的實現(xiàn),不僅是技術(shù)的飛躍,也直接回應(yīng)了前文提出的的三大主要挑戰(zhàn)。因此,星海架構(gòu)能夠?qū)崿F(xiàn)更高的可靠性、更優(yōu)異的性能服務(wù)水平,并有效控制成本。

成本優(yōu)先架構(gòu),帶來場景優(yōu)勢

基于星海架構(gòu),XSKY 已經(jīng)發(fā)布了星飛軟件和星飛 9000 一體機全閃存儲,這也是業(yè)界首款采用全共享架構(gòu)的分布式全閃主存儲。

如上圖左側(cè)所示,當前數(shù)據(jù)中心存儲結(jié)構(gòu)通常由高性能 NVMe DAS、全閃存陣列、容量型存儲及歸檔存儲構(gòu)成。在行業(yè)和用戶共同的推動下,過去十年我們見證了容量型存儲領(lǐng)域分布式架構(gòu)的崛起,根據(jù) IDC 報告,分布式架構(gòu)的市場份額在容量型存儲持續(xù)增長。

而星飛產(chǎn)品有更大的野心,希望能橫跨 NVMe DAS、全閃陣列和容量型存儲的使用場景,

為了驗證這一定位,我們精心設(shè)計了三個實際場景的測試項目,分別與合作伙伴和客戶一同展現(xiàn)星海架構(gòu)的領(lǐng)先性和創(chuàng)新成效:? 第一個是面向 OLTP 數(shù)據(jù)庫場景,與本地 NVMe DAS 對比測試? 第二個是面向 OLAP 場景,與集中式全閃陣列對比測試? 第三個是在公有云上與高性能網(wǎng)盤的對比測試

NVMe DAS 對比測試

過去數(shù)年中,很多用戶反饋隨著 NVME SSD 價格下降,越來越多用戶在高性能應(yīng)用場景都選用本地 NVME SSD 提供存儲能力,但隨著 SSD 的規(guī)模化使用和老化,存儲介質(zhì)的運維實際上是很大挑戰(zhàn),硬件亞健康問題、SSD 容量和性能彈性需求都成為挑戰(zhàn)。

XSKY 聯(lián)合了 Intel Lab 做了面向數(shù)據(jù)庫場景的本地 NVMESSD 與星飛產(chǎn)品的對比測試,從性能、TCO 方面進行評估。

根據(jù)英特爾中國區(qū)解決方案部技術(shù)總監(jiān)高豐的介紹,經(jīng)過雙方聯(lián)合測試,借助 QAT 加速數(shù)據(jù)壓縮/解壓縮的強大能力,與 NVMe DAS 配置相比,星飛 9000 獲得相同延遲的同時,還可以實現(xiàn)更高的空間利用率,并大幅降低運維成本,提升業(yè)務(wù)連續(xù)性。

在測試中,采用了 OceanBase 數(shù)據(jù)庫運行在計算節(jié)點上,占用 48C 和 192GB 內(nèi)存。同時在計算節(jié)點上配備了兩塊  NVMe SSD,通過 RAID1 來提供本地盤。

而星飛存儲系統(tǒng)運行在配置 16 塊 1.92TB NVMe SSD 的三節(jié)點上,計算節(jié)點通過 2*100Gb 的網(wǎng)絡(luò)訪問存儲。

三節(jié)點的星飛系統(tǒng)使用 EC 2+1 的冗余策略,啟用了 QAT 壓縮能力,并提供 NVMe over RDMA 協(xié)議的卷供 OceanBase 使用。

測試用例我們選擇了 sysbench 中的 Point Select,ReadOnly,WriteOnly 和 ReadWrite 四種用例,針對每種用例,我們分別執(zhí)行從 32 并發(fā)到 1024 并發(fā)的不同壓力,主要關(guān)注 QPS 和 P95 延遲指標。

從下圖中可以看到,橙色塊是星飛系統(tǒng)的性能,另一個是本地 NVMe SSD 提供的性能。

從 32 到 1024 并發(fā),星飛性能和本地 NVMe SSD 基本平分秋色,唯一的不足是在 1024 并發(fā)的情況下,星飛系統(tǒng)的延遲是本地 NVMe SSD 的 2 倍,后續(xù)我們會進一步探究問題原因。該結(jié)果也證明了星飛系統(tǒng)實際上已經(jīng)達到了本地 NVMe SSD 的延遲水平,軟件損耗非常低。

另一方面,在存儲效率上,星飛通過 EC 加壓縮的能力,在 1TB 的數(shù)據(jù)庫空間里,實際只占用了 880GB 的容量,壓縮比達到了 1.8,而使用 RAID 1 的本地 NVMe SSD,則占用了 2TB 的實際空間。相比而言,星飛系統(tǒng)只需要 44% 的本地 RAID1 方案的容量空間。再加上本地 NVMe SSD 的長期運維成本,星飛的圖形化管理運維,以及閃存全局均衡,實際 TCO 下降到本地 NVMe SSD 的 30%。

集中式全閃對比測試

在銀行業(yè),數(shù)據(jù)庫跑批是相當常見的一項業(yè)務(wù)。過去該業(yè)務(wù)一直運行在集中性存儲廠商的全閃陣列上,江蘇省農(nóng)村信用社聯(lián)合社(簡稱:江蘇農(nóng)信)也是如此。

隨著業(yè)務(wù)規(guī)模的增加,集中全閃架構(gòu)進一步制約了江蘇農(nóng)信云的彈性服務(wù)能力,因此江蘇農(nóng)信也開始考慮在分布式存儲上進行數(shù)據(jù)庫場景評估。

在面向 OLAP 數(shù)據(jù)庫場景的集中式全閃對比場景中,XSKY 與江蘇農(nóng)信進行了聯(lián)合測試。

對銀行場景來說,高并發(fā)低延遲要求更嚴格,對賬差 1 分錢都不會過夜,晚上跑批對賬,做不到高性能低延遲,可能當天的賬就無法按時對完,統(tǒng)計核算報表就沒法出。因此,做完這些基準性能測試后,在星飛環(huán)境測試了一下跑批業(yè)務(wù),數(shù)據(jù)庫跑批業(yè)務(wù)主要有以下過程,分別是解壓、數(shù)據(jù)入庫、數(shù)據(jù)倉庫轉(zhuǎn)換和數(shù)據(jù)集市處理。從這里可以看到,星飛相比混閃集群的運行時間降低了 79 分鐘,而相比 IBM FS9200 基本持平,在數(shù)據(jù)集市處理階段階段表現(xiàn)更好。

通過這次測試,江蘇農(nóng)信堅定了上云信心。過去受限于性能,集中存儲承接數(shù)據(jù)庫跑批業(yè)務(wù),分布式主要面向非數(shù)據(jù)庫庫業(yè)務(wù),通過本次測試,新架構(gòu)的高得盤率使得江蘇農(nóng)信對全閃分布式數(shù)據(jù)中心有了更多的信心,未來考慮建設(shè)大規(guī)模全 NVME 星飛云存儲,進一步提升云平臺存儲服務(wù)能力。測試結(jié)果也驗證了星飛產(chǎn)品可以與集中全閃陣列做到相當?shù)男阅軙r延,且規(guī)?;W存池化后提升資源利用率,降低成本

公有云高速云盤對比測試

公有云高性能云盤,實際上早已已成為眾多互聯(lián)網(wǎng)業(yè)務(wù)架構(gòu)中不可或缺的部分。這些云盤不僅提供了彈性的存儲能力,還滿足了業(yè)務(wù)對高性能的迫切需求。但有一個不爭的事實是,越來越多的客戶在關(guān)注多云化 IT 架構(gòu),特別是數(shù)據(jù)密集型業(yè)務(wù)的下云。

對于星飛而言,我們不僅希望能在云下提供高效存儲能力,也希望在公有云上也能支持,給客戶帶來一致的存儲體驗。

我們與某互聯(lián)網(wǎng)客戶成立了聯(lián)合項目組,針對星飛產(chǎn)品在公有云環(huán)境中的性能和成本效益,我們進行了一系列詳盡的對比測試。

我們選擇基于 AWS 云進行測試,使用了高性能的虛擬機配置作為客戶端節(jié)點,啟動了 3 個適合作為存儲配置的虛擬機作為存儲節(jié)點,該配置會掛載 4 個 7500GB 的本地 SSD,并部署了星飛系統(tǒng),創(chuàng)建了 EC 4+2:1 的存儲池并提供 12 個總可用容量為 116TB 的 NVMF 卷。具體配置在這里就不贅述了。

在每個客戶端節(jié)點上利用 NVMe over TCP 方式掛載分別掛載了 4 卷。我們通過簡單性能壓測,基本看到,這樣三節(jié)點星飛大約提供 615K IOPS 的讀寫 IOPS。

io2 是 AWS EBS 的高性能云盤,可以按需靈活提供 IOPS 和容量,其中容量價格為 0.125GB/月,每 IOPS 價格為 0.065。為了跟星飛提供的容量近似,我們創(chuàng)建了 16 個總?cè)萘繛?116TB 的 io2 類型卷。

在性能基準測試中,基于同等容量的 16 個 LUN,我們主要關(guān)注單卷隨機 4KB 延遲和集群整體延遲對比。

從性能對比中,可以看到在一致的 IOPS 性能下,AWS EBS io2 和星飛卷實現(xiàn)了同等數(shù)量級的延遲。另外由于星飛運行在 AWS 虛擬網(wǎng)絡(luò)上,并使用 TCP/IP 協(xié)議通信,延遲高于云下的 RoCE/RDMA 網(wǎng)絡(luò),導(dǎo)致延遲高于 AWS EBS io2。針對該問題,后續(xù)計劃支持公有云的 RDMA 網(wǎng)絡(luò)方案,來顯著降低延遲,接近或持平 AWS EBS 延遲。

在 TCO 對比環(huán)節(jié),我們分別計算了 AWS 星飛系統(tǒng)和 AWS EBS io2 的購置成本。

星飛全閃總共提供 615K 的 IOPS,相比 EBS io2 預(yù)留 615K IOPS 的方案降低 87% 的成本。這個差距是巨大的。

我們都覺得這樣的成本對比可能并不公平,因為星飛系統(tǒng)提供的性能 IOPS 超出了大多數(shù)工作負載所需,在公有云使用中,用戶通常只會申請所需的 IOPS 來節(jié)約成本。因此我們將 AWS EBS io2 預(yù)留 IOPS 降低到 61K 來接近實際情況,但即使這樣,依然能降低 62% 的 EBS 成本。

通過這次測試,我們看到星飛產(chǎn)品,不僅可以面向最新的硬件技術(shù)設(shè)計,也能夠運行在公有云上,提供跟高性能云盤近似的性能。除了 AWS 外,后續(xù)星飛明年計劃支持國內(nèi)的 Top3 公有云平臺。

這次測試我們達成了這些目的:1. 首先,星飛可以提供一致的數(shù)據(jù)服務(wù),幫助實現(xiàn)多云化的 IT 架構(gòu),統(tǒng)一管理和運維技能;2. 其次,相比公有云網(wǎng)盤的可用性承諾,基于公有云的星飛產(chǎn)品可以提供更高的冗余度和可靠性保證;3. 最后,利用低廉的快照成本和數(shù)據(jù)縮減能力,星飛產(chǎn)品至少可以降低 50% 以上的 TCO。

通過這些收益,我們認為星飛確實能夠幫助用戶一起實現(xiàn)云上云下,一致體驗,成本節(jié)省一半。

面向未來全閃數(shù)據(jù)中心的架構(gòu)答案

綜上所述,無論從存儲系統(tǒng)的架構(gòu)演進,還是目前硬件產(chǎn)品的發(fā)展新趨勢、市場和應(yīng)用的需求,以及基于星海架構(gòu)的星飛產(chǎn)品的驗證結(jié)果而言,星海架構(gòu)以及基于星海架構(gòu)的全閃存儲,是最值得考慮的選擇。

作為行業(yè)的領(lǐng)先者,XSKY 致力于通過創(chuàng)新的星海架構(gòu),推動全閃數(shù)據(jù)中心技術(shù)的發(fā)展,滿足日益增長的數(shù)據(jù)存儲需求。

分享到

崔歡歡

相關(guān)推薦