來(lái)源:https://www.snia.org/sites/default/files/SNIA_Software_Defined_Storage_%20White_Paper_v1.pdf
業(yè)界很多分析師和廠商都認(rèn)為“SDS”應(yīng)該和硬件解耦,可以部署在容器、虛擬機(jī)、標(biāo)準(zhǔn)裸金屬服務(wù)器上。但在上述SNIA發(fā)布的SDS白皮書(shū)中,SNIA并不認(rèn)同這種觀點(diǎn),而是更關(guān)心SDS實(shí)現(xiàn)管理面的自動(dòng)化和數(shù)據(jù)面的彈性。
分布式存儲(chǔ)“軟硬件解耦”之錯(cuò)覺(jué)來(lái)源
或許我們需要把鏡頭投向21世紀(jì)初期,Google提出分布式存儲(chǔ)架構(gòu)的概念并予以實(shí)踐,在其強(qiáng)大的技術(shù)和維護(hù)團(tuán)隊(duì)支撐下,實(shí)現(xiàn)了基于在標(biāo)準(zhǔn)服務(wù)器上部署自研分布式存儲(chǔ)軟件,構(gòu)建成大規(guī)模存儲(chǔ)集群,以應(yīng)對(duì)其互聯(lián)網(wǎng)搜索業(yè)務(wù)帶來(lái)的海量數(shù)據(jù)流。
正所謂一石激起千層浪,其他互聯(lián)網(wǎng)企業(yè)紛紛效仿“老大哥”Google的方式,使得軟硬件解耦的概念在互聯(lián)網(wǎng)行業(yè)盛行起來(lái),迎來(lái)了一大幫研究者對(duì)其價(jià)值進(jìn)行分析,并總結(jié)出如下四點(diǎn)價(jià)值:
·標(biāo)準(zhǔn)x86服務(wù)器的低成本;
·歸一數(shù)據(jù)中心硬件為標(biāo)準(zhǔn)服務(wù)器,實(shí)現(xiàn)統(tǒng)一硬件運(yùn)維;
·Infrastructure as Code,存儲(chǔ)納入軟件定義數(shù)據(jù)中心自動(dòng)化調(diào)度框架;
· 用戶可以在企業(yè)數(shù)據(jù)中心、邊緣或者公有云獲得一致的數(shù)據(jù)服務(wù)。
可以說(shuō),分布式存儲(chǔ)在互聯(lián)網(wǎng)浪潮中橫空出世的樣子太過(guò)于絢爛,以至于大家忘記了存儲(chǔ)系統(tǒng)本身應(yīng)該有的模樣。冷靜者更喜歡用辯證的思維分析問(wèn)題,所以,我們也看到很多用戶對(duì)“軟硬件解耦”表現(xiàn)出擔(dān)憂,認(rèn)為軟硬件解耦的分布式存儲(chǔ)在可靠性、性能、運(yùn)維等方面存在諸多待改進(jìn)點(diǎn)。
分布式存儲(chǔ)軟硬件解耦之難點(diǎn)剖析
難言之隱,分布式存儲(chǔ)軟硬件解耦究竟難在哪里?總結(jié)起來(lái)有如下幾點(diǎn):
·難點(diǎn)一:可靠性
存儲(chǔ)承載了千行百業(yè)用戶數(shù)據(jù)資產(chǎn),一旦因存儲(chǔ)故障出現(xiàn)數(shù)據(jù)丟失,將給企業(yè)帶來(lái)無(wú)法挽回的巨大損失。存儲(chǔ)的核心部件是硬盤(pán)。業(yè)界流傳著一句話:SDS就是把不可靠的標(biāo)準(zhǔn)化服務(wù)器變成了可靠的存儲(chǔ)系統(tǒng)。這句話的背后技術(shù)基礎(chǔ)是SDS通過(guò)跨節(jié)點(diǎn)的冗余算法,可以容忍服務(wù)器節(jié)點(diǎn)故障。但這句話真的完全正確嗎?某些用戶在實(shí)踐中發(fā)現(xiàn),其采用的標(biāo)準(zhǔn)服務(wù)器偶爾出現(xiàn)批量硬盤(pán)/SSD卡故障,冗余算法失效,導(dǎo)致數(shù)據(jù)丟失。
通過(guò)和軟硬件一體的廠商深入交流,用戶發(fā)現(xiàn)軟硬件一體存儲(chǔ)硬件和標(biāo)準(zhǔn)服務(wù)器的質(zhì)量控制流程有較大差異。標(biāo)準(zhǔn)服務(wù)器的成本低廉,生產(chǎn)流程質(zhì)量控制多數(shù)限于CPU、內(nèi)存、硬盤(pán)三大件的簡(jiǎn)單功能測(cè)試。而專(zhuān)業(yè)存儲(chǔ)硬件增加了避免批量硬盤(pán)故障的嚴(yán)苛保障措施,例如:
·TOP存儲(chǔ)廠商會(huì)在硬盤(pán)供應(yīng)商規(guī)劃、設(shè)計(jì)新款產(chǎn)品時(shí),對(duì)其特性、規(guī)格、方案做嚴(yán)格的評(píng)審,以確保新款硬盤(pán)和存儲(chǔ)產(chǎn)品深度契合。
·新款硬盤(pán)上市之前,TOP存儲(chǔ)廠商會(huì)基于大批量樣盤(pán)進(jìn)行長(zhǎng)達(dá)數(shù)月的系統(tǒng)兼容性和穩(wěn)定性測(cè)試,以確保一塊硬盤(pán)在3到5年生命周期內(nèi)正常運(yùn)行。
·硬盤(pán)批次變更、Firmware變更,存儲(chǔ)廠商會(huì)重新執(zhí)行上述穩(wěn)定性測(cè)試。
·某些TOP存儲(chǔ)廠商甚至?xí)付ü?yīng)商的硬盤(pán)產(chǎn)線。
數(shù)據(jù)是企業(yè)的核心資產(chǎn),軟硬件一體存儲(chǔ)的附加值其實(shí)來(lái)自于平常不為人知的背后故事。
·難點(diǎn)二:性能SLA保障
隨著企業(yè)數(shù)字化轉(zhuǎn)型的深入,分布式存儲(chǔ)由最初的開(kāi)發(fā)測(cè)試、桌面云等非關(guān)鍵應(yīng)用,逐步走向生產(chǎn)應(yīng)用。生產(chǎn)應(yīng)用除了上述可靠性SLA要求之外,對(duì)分布式存儲(chǔ)的性能,尤其是數(shù)據(jù)訪問(wèn)的穩(wěn)定低時(shí)延提出了更嚴(yán)苛的要求。
軟硬件解耦的分布式存儲(chǔ)在性能設(shè)計(jì)上存在兩大天然缺陷:
·標(biāo)準(zhǔn)服務(wù)器不具備機(jī)房突然斷電時(shí)保護(hù)內(nèi)存數(shù)據(jù)的電池(BBU),所以只能用SSD卡/盤(pán)來(lái)做數(shù)據(jù)緩存。SSD的時(shí)延遠(yuǎn)高于內(nèi)存,導(dǎo)致業(yè)界絕大多數(shù)的軟硬解耦的分布式存儲(chǔ)時(shí)延無(wú)法和生產(chǎn)存儲(chǔ)媲美。
·單獨(dú)采購(gòu)的分布式存儲(chǔ)軟件無(wú)法和第三方服務(wù)器的SSD盤(pán)緊密配合,從而無(wú)法像業(yè)界先進(jìn)的全閃存存儲(chǔ)一樣實(shí)現(xiàn)全局垃圾回收,控制數(shù)量眾多的SSD盤(pán)各自的垃圾回收導(dǎo)致的生產(chǎn)應(yīng)用時(shí)延波動(dòng)。
軟硬件一體的分布式存儲(chǔ)有機(jī)會(huì)克服如上兩大缺陷。我們看到業(yè)界先進(jìn)的分布式存儲(chǔ)產(chǎn)品,采用了類(lèi)似于全閃存存儲(chǔ)的電池保護(hù)(BBU)、系統(tǒng)級(jí)全局垃圾回收,達(dá)到了媲美傳統(tǒng)生產(chǎn)存儲(chǔ)的高并發(fā)壓力下的1ms穩(wěn)定時(shí)延,從而為分布式存儲(chǔ)進(jìn)入企業(yè)生產(chǎn)應(yīng)用提供了性能的SLA保障。
·難點(diǎn)三:運(yùn)維風(fēng)險(xiǎn)
軟硬件解耦給用戶帶來(lái)大量的維護(hù)負(fù)擔(dān),例如幾乎無(wú)法實(shí)現(xiàn)有效的自動(dòng)化部署與深度巡檢。而且使用期間出現(xiàn)問(wèn)題時(shí),供應(yīng)商容易互相推諉,軟件和硬件廠家責(zé)任界面不清晰,用戶反而可能淪為問(wèn)題定位的第一責(zé)任人。
軟硬件一體存儲(chǔ)可以提前設(shè)計(jì)自動(dòng)化部署技術(shù)方案,從端到端全生命周期構(gòu)建自動(dòng)化運(yùn)維的能力,從而提升交付、運(yùn)維效率,降低業(yè)務(wù)風(fēng)險(xiǎn)。
·難點(diǎn)四:長(zhǎng)期總擁有成本
軟硬件解耦宣稱(chēng)的降低采購(gòu)成本本質(zhì)是認(rèn)為標(biāo)準(zhǔn)服務(wù)器便宜。然而,存儲(chǔ)的附加增值更多是軟件、質(zhì)量控制、技術(shù)支持。用戶花了很大力氣分離采購(gòu)回來(lái)軟硬件部署上線后,慢慢發(fā)現(xiàn)省的錢(qián)相對(duì)于DIY的后期投入不值一提。原因很簡(jiǎn)單,在相同質(zhì)量要求下,規(guī)?;I(yè)生產(chǎn)永遠(yuǎn)比DIY綜合成本低。采購(gòu)成本是顯性的,但綜合成本不是簡(jiǎn)單的硬件采購(gòu)成本,還要考慮使用和維護(hù)成本。
根據(jù)行業(yè)場(chǎng)景各取所需,實(shí)現(xiàn)魚(yú)和熊掌兼得
對(duì)于廣大著急踏上數(shù)字化轉(zhuǎn)型高速列車(chē)的行業(yè)用戶來(lái)說(shuō),到底是選擇軟硬解耦還是專(zhuān)業(yè)存儲(chǔ)廠家預(yù)集成的軟硬件一體產(chǎn)品呢?在商業(yè)的世界里,或許沒(méi)那么多路線和理念之爭(zhēng)。軟硬件解耦的優(yōu)勢(shì)在于采購(gòu)成本,軟硬件一體的長(zhǎng)處在于可靠性和性能。所以,根據(jù)用戶場(chǎng)景的數(shù)據(jù)重要性,選擇最合適自己的方案才是明智之道,魚(yú)和熊掌其實(shí)可以兼得。
·軟硬件一體已成共識(shí)的行業(yè)場(chǎng)景:HPC/HPDA(能源勘探、衛(wèi)星遙感、基因測(cè)序、自動(dòng)駕駛、氣象海洋、教育科研、動(dòng)漫渲染、超算平臺(tái)等)、平安城市視頻監(jiān)控/交通卡口、超高清視頻制作/媒資庫(kù)、運(yùn)營(yíng)商IPTV等。
·更適合用軟硬件一體的行業(yè)場(chǎng)景:政務(wù)云;運(yùn)營(yíng)商BOM域云化、5G電信云;金融網(wǎng)銀、手機(jī)銀行、前置系統(tǒng)Web應(yīng)用、票據(jù)影像等;大數(shù)據(jù)分析(政務(wù)、運(yùn)營(yíng)商、平安城市、金融等)以及各行業(yè)備份歸檔系統(tǒng)。以中國(guó)移動(dòng)為例,早年大量購(gòu)買(mǎi)分布式存儲(chǔ)軟件,搭配集采的標(biāo)準(zhǔn)服務(wù)器使用。近兩年,不管是分布式塊還是文件的集采,都已經(jīng)全面轉(zhuǎn)向軟硬件一體模式。
·可以解耦的行業(yè)場(chǎng)景:各行業(yè)開(kāi)發(fā)測(cè)試、桌面云。這部分場(chǎng)景數(shù)據(jù)的重要性略低于生產(chǎn)場(chǎng)景,IT預(yù)算緊張的用戶,可以嘗試。當(dāng)然,預(yù)算足夠的用戶可以更加穩(wěn)妥。
無(wú)論如何波折,分布式存儲(chǔ)未來(lái)可期
正所謂不管白貓、黑貓,抓到老鼠的就是好貓。我們相信在較長(zhǎng)一段時(shí)間內(nèi),分布式存儲(chǔ)軟硬件一體和軟硬件解耦會(huì)長(zhǎng)期共存??傮w而言,筆者認(rèn)為隨著數(shù)據(jù)價(jià)值的增高,場(chǎng)景對(duì)數(shù)據(jù)可靠性的要求隨之會(huì)越來(lái)越嚴(yán)苛,市場(chǎng)的天平就會(huì)更多偏向軟硬件一體;與此相反,場(chǎng)景對(duì)數(shù)據(jù)可靠性的敏感度越低、短期成本敏感度越高,市場(chǎng)的天平就會(huì)更多的偏向軟硬件解耦。
分布式存儲(chǔ)的發(fā)展歷程無(wú)論如何波折,我們更愿意相信它最終會(huì)是部正劇,在整個(gè)存儲(chǔ)市場(chǎng)中占據(jù)海量數(shù)據(jù)承載的主力軍位置,鏗鏘而立,并給人以無(wú)窮回味!