圖一
主流的超融合廠商有Nutanix(NGFS),VMware(VSAN),以及國內(nèi)新興代表力量如華為(FusionCube),H3C(OneStor),SMARTX(ZBS),深信服(aSAN),和道熵(Titlis)。其中Nutanix的NGFS和SMARTX 的ZBS 脫胎于Google的GFS分布式文件系統(tǒng);華為的FusionCube和H3C的OneStor是基于Ceph的定制化開發(fā);而深信服的aSAN則是基于GlusterFS;VSAN在很大程度上和Ceph架構(gòu)類似;而道熵的Titlis分布式存儲在接口層兼容了標(biāo)準(zhǔn)Ceph接口,底層采用了磁盤陣列中常見的存儲虛擬化技術(shù)。
根據(jù)對超融合產(chǎn)品的重要程度,我們選擇了幾方面的技術(shù)功能進(jìn)行了相關(guān)考察:
1、抗靜默錯(cuò)誤
2副本或3副本機(jī)制可以保證在硬盤損壞甚至節(jié)點(diǎn)宕機(jī)的惡劣環(huán)境下,仍然保持高可用。但是面對“靜默錯(cuò)誤”的情況,分布式塊存儲的副本機(jī)制則無能為力,騰訊云在不久前的“靜默錯(cuò)誤”風(fēng)波證明了這一點(diǎn),后果也是相當(dāng)嚴(yán)重,用戶的所有數(shù)據(jù)全部丟失,無法修復(fù)。
靜默錯(cuò)誤譯自英文:Silent Data Corruption。磁盤在使用過程中,除了會發(fā)生硬件錯(cuò)誤、固件BUG或者軟件BUG、供電問題、介質(zhì)損壞等可以正常捕獲和告警的常規(guī)故障之外,還會發(fā)生一些無法預(yù)警的錯(cuò)誤,用戶直到使用的時(shí)候才發(fā)現(xiàn)數(shù)據(jù)是錯(cuò)誤的、損壞的,這就是靜默錯(cuò)誤。簡而言之,就是用戶在使用的時(shí)候發(fā)現(xiàn)寫入數(shù)據(jù)和讀取出來的不一致。
“靜默錯(cuò)誤”的概率不低。硬盤的誤碼率是“靜默錯(cuò)誤”產(chǎn)生的原因之一,根據(jù)官方數(shù)據(jù),企業(yè)級硬盤每120Tb就會有一位靜默錯(cuò)誤的概率;另一方面,磁盤次記錄磨損、磁盤幻象寫、磁盤指向錯(cuò)誤、DMA校驗(yàn)錯(cuò)誤等等,都有可能引發(fā)靜默錯(cuò)誤,主板老化、內(nèi)存條松動(dòng)、連接線和卡的松動(dòng)等都會導(dǎo)致讀出的數(shù)據(jù)不是當(dāng)初寫入的數(shù)據(jù)。
在線數(shù)據(jù)完整性校驗(yàn)技術(shù)被認(rèn)為是唯一能夠有效應(yīng)對靜默錯(cuò)誤的關(guān)鍵技術(shù)。 在線數(shù)據(jù)完整性校驗(yàn)技術(shù)確保每個(gè)數(shù)據(jù)塊都有相對應(yīng)的數(shù)據(jù)校驗(yàn)碼,數(shù)據(jù)在讀出時(shí),必須與校驗(yàn)碼匹配后才交付前端應(yīng)用,否則,啟動(dòng)數(shù)據(jù)自修復(fù)機(jī)制。目前,在所有的超融合廠商中,只有Nutanix的NDFS和道熵的Titlis支持在線數(shù)據(jù)完整性校驗(yàn)和數(shù)據(jù)自修復(fù)技術(shù)。 VSAN只在全閃存環(huán)境中具備在線數(shù)據(jù)完整性校驗(yàn)功能。
2、應(yīng)對大延遲問題
分布式存儲常產(chǎn)生大延遲現(xiàn)象,隨著節(jié)點(diǎn)數(shù)增多,數(shù)據(jù)量增大而頻次提升。此現(xiàn)象的根源在于分布式存儲共有的數(shù)據(jù)在磁盤間隨機(jī)分布的特征造成的:小數(shù)據(jù)塊隨機(jī)落盤在不同節(jié)點(diǎn)磁盤上,由概率論可知,這就造成了每塊磁盤上的工作流呈現(xiàn)“正態(tài)分布”,盡管多數(shù)磁盤的工作負(fù)載呈平均狀態(tài),而正態(tài)分布的“尾部效應(yīng)”可知,有極少部分磁盤的工作負(fù)載遠(yuǎn)遠(yuǎn)超過平均值,成為系統(tǒng)中的“熱點(diǎn)磁盤”而構(gòu)成性能瓶頸,而帶來大延遲問題。
市場上的分布式存儲技術(shù)(除道熵Titlis外)有一個(gè)共同點(diǎn),就是均采用2副本或3副本的方式實(shí)現(xiàn)數(shù)據(jù)在不同節(jié)點(diǎn)的磁盤上隨機(jī)均勻分布,從而實(shí)現(xiàn)高可用和磁盤故障保護(hù)。在應(yīng)對大延遲問題方面,道熵Titlis采用存儲虛擬化技術(shù)將節(jié)點(diǎn)內(nèi)存儲資源池化管理,不僅實(shí)現(xiàn)節(jié)點(diǎn)內(nèi)RAID保護(hù),同時(shí)實(shí)現(xiàn)了節(jié)點(diǎn)內(nèi)負(fù)載自動(dòng)均衡功能,有效避免由“熱點(diǎn)磁盤”導(dǎo)致的大延遲問題。
3、Flash加速
Flash緩存加速技術(shù)是分布式存儲提升IOPS性能的重要手段?;贑eph或GlusterFS的超融合廠商在該項(xiàng)技術(shù)面臨挑戰(zhàn),因?yàn)樵腃eph并沒有一個(gè)成熟的Flash緩存技術(shù)手段,需要各個(gè)廠家自行研發(fā)解決方案。目前大都在Flashcache、bcache、lvmcache基礎(chǔ)上進(jìn)行二次開發(fā),總體而言,其穩(wěn)定性和性能差強(qiáng)人意。
VSAN 采用基于LRU策略的Cache策略,其SSD和HDD的配比關(guān)系最大1:1,最小1:7。Nutanix采用基于LRU的Flash 分層策略,其SSD容量至少為虛擬機(jī)占用容量的10%。道熵的Titlis,則采用自適應(yīng)的LRU和LFU 緩存替換策略,能夠在保持較高命中率的前提下自動(dòng)適應(yīng)業(yè)務(wù)工作流的變化,且無需要求較高的SSD與HDD配比關(guān)系。
4、其他特征
Nutanix NDFS為了優(yōu)化讀寫速度,盡可能會將虛擬機(jī)的數(shù)據(jù)保存于其所在的物理主機(jī)中;并支持LZ4數(shù)據(jù)壓縮以及數(shù)據(jù)去重。
VSAN的突出亮點(diǎn)在于它是唯一在Hypervisor層面支持VMware虛擬化的超融合。
華為的FusionCube與H3C的OneStor具有Ceph的享譽(yù)的穩(wěn)定性,而其在性能上的表現(xiàn)更多依賴于硬件能力。
SMARTX的技術(shù)路線與Nutanix NDFS非常相似。
深信服的aSAN是唯一支持2節(jié)點(diǎn)的超融合,但伴隨著腦裂的風(fēng)險(xiǎn);其超融合最大的特點(diǎn)在于體現(xiàn)了深信服特長的安全虛擬化。
道熵的Titlis在優(yōu)化寫性能方面采用了隨機(jī)寫轉(zhuǎn)化為順序?qū)懠夹g(shù),支持保護(hù)LZ4和GZIP1-9等數(shù)據(jù)壓縮,提供Site-to-Site遠(yuǎn)程復(fù)制和內(nèi)置的數(shù)據(jù)備份功能。
圖二、超融合技術(shù)對比
小結(jié)
Nutanix,VSAN和華為在品牌中占據(jù)優(yōu)勢;以性能和架構(gòu)先進(jìn)性而論,道熵的Titlis處于明顯優(yōu)勢;在安全虛擬化方面深信服占據(jù)領(lǐng)先地位;而對已經(jīng)使用VMware虛擬化的用戶而言,VSAN是一個(gè)合情合理的選擇。對用戶來說最重要的一點(diǎn),超融合承載用戶業(yè)務(wù)關(guān)鍵數(shù)據(jù),數(shù)據(jù)安全至關(guān)重要,按抵御靜默錯(cuò)誤的能力而言,Nutanix和道熵Titlis是最讓人放心的選擇。