當(dāng)然,對于一個人來說,只有這些信息是不完整的,如果每個人都有自己的形象照片,這個照片就是典型的非結(jié)構(gòu)化數(shù)據(jù),但照片不適合放到表格里,因為它沒辦法根據(jù)內(nèi)容進(jìn)行有條件的檢索,如果非要按照顏值的高低進(jìn)行排序,那就太為難計算機了。而且,照片的數(shù)量和單位容量都在快速增長,基于以上種種原因,它不得不以另外一種方式進(jìn)行存儲。
非結(jié)構(gòu)化數(shù)據(jù)主要以文件存儲和對象存儲的方式進(jìn)行組織,在社交網(wǎng)站上、在IoT設(shè)備里、在企業(yè)的文件檔案庫、在視頻監(jiān)控設(shè)備里、在新聞媒體的資料庫、在基因測序研究者的電腦里、在自動駕駛的汽車?yán)铩⒃阢y行的后臺到處都有大量的非結(jié)構(gòu)化數(shù)據(jù),而且增長的速度還很快。
信息技術(shù)與數(shù)據(jù)存儲相伴相生,隨著數(shù)據(jù)量的增長和應(yīng)用類型的不斷豐富,數(shù)據(jù)管理系統(tǒng)也越來越負(fù)載,上世紀(jì)九十年代,文件存儲系統(tǒng)NAS開始出現(xiàn),戴爾在1996年發(fā)布 Symmetrix Network File Storage (SNFS)這一劃時代的NAS文件存儲系統(tǒng)。
而后,戴爾又在2001年發(fā)布CENTRA進(jìn)入對象存儲市場,當(dāng)時,距離AWS發(fā)布第一款云計算產(chǎn)品S3還有五年時間。AWS的對象存儲服務(wù)S3是如今對象存儲市場火熱的一個起點,客觀上說,是公有云把對象存儲市場真正帶火的,但火的遠(yuǎn)不限于公有云。
之所以現(xiàn)在對象存儲火到冒煙兒,最根本原因還是AI和大數(shù)據(jù)技術(shù)能從非結(jié)構(gòu)化數(shù)據(jù)中挖掘出價值,企業(yè)越來越重視。之所以對象存儲比文件存儲更火,除了因為對象存儲在成本、可管理性和靈活性上更有優(yōu)勢以外,還在于它與許多新技術(shù)有密切關(guān)系,對新技術(shù)的支持度更高。
公有云的對象存儲服務(wù)有其優(yōu)勢,但考慮到安全合規(guī)以及帶寬成本等問題,企業(yè)傾向于部署企業(yè)私有的對象存儲方案,那么企業(yè)都是怎么用對象存儲的呢?
戴爾科技集團(tuán)大中華區(qū)非結(jié)構(gòu)化數(shù)據(jù)存儲事業(yè)部技術(shù)總監(jiān)胡淵汶介紹說,對象存儲主要有兩類用法,一類是面向傳統(tǒng)場景提供歸檔存儲。另外一類,面向現(xiàn)代化的應(yīng)用程序,比如互聯(lián)網(wǎng)大數(shù)據(jù)分析、AI等場景,比如云原生架構(gòu)這類負(fù)載。
其實,第一類用法利用的是對象存儲低成本以及寫入少讀取多(WORM)的特性,第二類主要利用其高擴展性和高靈活性的優(yōu)點。為了克服對象存儲性能上的不足,業(yè)內(nèi)近幾年來開始嘗試用全閃存來提升性能,性能型的對象存儲成為趨勢后,應(yīng)用場景將進(jìn)一步擴大。
在2020年10月份,在Gartner發(fā)布的分布式文件和對象存儲魔力象限報告中,戴爾科技集團(tuán)和IBM作為傳統(tǒng)傳統(tǒng)存儲大廠,都處于魔力象限的領(lǐng)導(dǎo)者象限,可見老牌存儲廠商對于數(shù)據(jù)存儲這件事本身還是非常重視。
魔力象限報告中,戴爾憑借明星產(chǎn)品Isilon(PowerScale)和ECS對象存儲處于最右上角的位置,戴爾的非結(jié)構(gòu)存儲,尤其是ECS究竟有哪些特點呢?
首先,作為一款對象存儲產(chǎn)品,作為一款有大約20年歷史的對象存儲方案,ECS經(jīng)歷了三次大的版本迭代?,F(xiàn)在的第三代ECS有很強的可擴展性,支持從最低60TB起步一步步擴展到EB級以上規(guī)模,可謂是門檻很低,但升級潛力巨大,擴展性是對象存儲的首要特性。
當(dāng)然,忽略性能和SLA談擴展性是耍流氓。ECS對于存儲的文件數(shù)量和文件大小都沒什么限制,也就是無視小文件對讀寫性能的挑戰(zhàn),也無視擴展到大規(guī)模之后對性能的影響。在具體落地過程中,戴爾的專家會具體給出實施建議,在滿足大規(guī)模的基礎(chǔ)上,提供足夠的性能表現(xiàn)。
ECS支持小文件歸并功能,通俗點講,就好比湊夠十多個人過馬路一樣,因為,10個小文件寫十次的效率要明顯低于將十個小文件在內(nèi)存里合并后寫一次的效率,這是ECS提升性能的一個操作。
隨著2020年戴爾發(fā)布全閃版本的ECS——EXF900,更驗證了性能型的對象存儲這一發(fā)展趨勢,性能上雖然趨近于文件存儲,但對象存儲不能反復(fù)修改的特性(某種程度上也是優(yōu)點)是它跟文件存儲的本質(zhì)區(qū)別,決定了它適合一次寫入多次讀取的工作負(fù)載,比如人工智能、機器學(xué)習(xí)、物聯(lián)網(wǎng)、分析和云原生應(yīng)用等場景。如你所見,絕大部分都是新型工作負(fù)載。
此外,在架構(gòu)設(shè)計上。ECS可以跨全球部署8個站點,構(gòu)建覆蓋全球的云存儲服務(wù),它可以通過就近訪問和緩存加速來優(yōu)化使用體驗。由于支持?jǐn)?shù)據(jù)跨區(qū)域復(fù)制,所以ECS可以針對每個站點提供保護(hù),在站點發(fā)生故障或者宕機時進(jìn)行恢復(fù),也就是自帶容災(zāi)架構(gòu)。
在兼容性方面,ECS除了提供S3協(xié)議以外,還支持常見的NFS、CFS、HDFS等文件存儲協(xié)議,從而與原有的存儲系統(tǒng)相互打通,比如與PowerScale或者DataDomain配合使用,將ECS作為前者的容量型存儲池,分出一層做歸檔或者冷存儲。
ECS高級的元數(shù)據(jù)搜索功能令人印象深刻,除了系統(tǒng)自帶的元數(shù)據(jù),用戶可以自定義元數(shù)據(jù)進(jìn)行搜索,用戶通過打標(biāo)簽的方式對數(shù)據(jù)進(jìn)行分類,如果同一個項目都有一個標(biāo)簽,那么就可以從項目的角度去看整個數(shù)據(jù)構(gòu)成,對于用戶的實際管理和使用都有很大幫助。
對于許多使用戴爾ECS對象存儲的用戶來說,最不用擔(dān)心的就是安全合規(guī)方面的問題,數(shù)據(jù)安全方面有許多像ECC之類的技術(shù),安全管理方面也有許多措施,還兼容AWS的IAM標(biāo)準(zhǔn),能防止各種未經(jīng)授權(quán)的數(shù)據(jù)訪問。
與公有云對象存儲不同的是,ECS是一種能提供強一致性的對象存儲,強一致性多站點訪問,能保證用戶能夠讀到最新的數(shù)據(jù),這種技術(shù)給前端業(yè)務(wù)帶來很大的便利性,降低開發(fā)難度,也就是提高開發(fā)效率。
ECS既提供本地部署方案,也能部署在云上,比如ECS可部署在公有云Google Cloud Platform上。國內(nèi)市場上,戴爾主要提供本地部署方案,具體點說目前只提供軟硬一體的交付形式。在技術(shù)上和商業(yè)模式上,都可以與大型公有云服務(wù)商合作來提供對象存儲服務(wù)。
2021年這個時間點也挺有意思,要知道,云原生是在近一兩年才開始逐步升溫的,2016年當(dāng)IBM收購Cleversafe來強化對象存儲實力時,就曾掀起過一波對象存儲話題熱度,但當(dāng)時提到對象存儲,更多還是面向胡淵汶介紹的第一類場景,大部分企業(yè)用對象存儲做歸檔存儲。
在國內(nèi)以及國際市場上,戴爾其實很少來單獨講對象存儲,尤其是很少談對象存儲,2021年4月,再談起對象存儲的時候,市場環(huán)境與2016年相比已有很大不同,戴爾向中國媒體重新介紹了一下對象存儲ECS,那為什么是現(xiàn)在?
首先,從市場來看,國內(nèi)對象存儲市場在快速增長,國內(nèi)市場上時不時就有超大容量的項目出現(xiàn)。IDC《2020年Q2,中國軟件定義存儲及超融合存儲系統(tǒng)市場季度跟蹤報告》顯示,SDS在2020年上半年較去年同期實現(xiàn)38.3%增長,其中對象存儲出貨比例增長46%,超過軟件定義存儲市場總體增長率,對象存儲是存儲市場增長的新動力。
作為非結(jié)構(gòu)化數(shù)據(jù)存儲市場的(魔力象限)最右上角領(lǐng)導(dǎo)者,憑借品牌影響力和久經(jīng)考驗的產(chǎn)品方案,戴爾自然不會放過這一市場機遇。
第二點,從根本上來講,還是技術(shù)和用戶需求在推動對象存儲的發(fā)展。從企業(yè)應(yīng)用創(chuàng)新的角度看,對象存儲的價值非常明顯。
如上文所說,對象存儲更適合人工智能、機器學(xué)習(xí)、物聯(lián)網(wǎng)、分析和云原生應(yīng)用等場景。云原生的技術(shù)更容易落地,更容易讓用戶看到業(yè)務(wù)加速的效果,人工智能、機器學(xué)習(xí)等技術(shù)的價值也都不言而喻,新技術(shù)在推動著企業(yè)用上對象存儲。
有企業(yè)為新技術(shù)落地而選擇對象存儲。海通證券利用ECS對象存儲的擴展性建立了存儲資源池,不僅降低了初期成本投入和TCO ,還解決了傳統(tǒng)磁帶庫性能低下、可靠性不足等問題,同時還獲得了數(shù)據(jù)全生命周期管理能力,更為后續(xù)在業(yè)務(wù)中融入人工智能等技術(shù)做好了準(zhǔn)備。
胡淵汶認(rèn)為,企業(yè)在對舊的定制應(yīng)用系統(tǒng)做現(xiàn)代化改造時,最好的做法是改變應(yīng)用使用存儲的方式。
因為基于NAS文件存儲來開發(fā)傳統(tǒng)應(yīng)用的體系其實非常復(fù)雜,有幾個應(yīng)用就需要對應(yīng)有幾套文件系統(tǒng),甚至還有五花八門的專有API,這導(dǎo)致應(yīng)用開發(fā)和存儲管理的成本都很高。而且,許多應(yīng)用都只能本地使用,無法以Web應(yīng)用和移動應(yīng)用方式來訪問,非常不現(xiàn)代化。
現(xiàn)代化的云原生應(yīng)用中直接使用對象存儲來存儲數(shù)據(jù),數(shù)據(jù)繞過Web服務(wù)器,直接通過API存取數(shù)據(jù)到對象存儲,開發(fā)過程簡化。而且對象存儲的管理成本很低,一個人就能輕松管理PB級的數(shù)據(jù)。配合對象存儲,云原生架構(gòu)會使得企業(yè)軟件的開發(fā)迭代速度變得非??臁?/p>
從胡淵汶的介紹中了解到,國內(nèi)某大型商業(yè)銀行的手機銀行有許多新應(yīng)用需要大量頻繁迭代,于是,該銀行逐步把這部分業(yè)務(wù)轉(zhuǎn)型為云原生業(yè)務(wù),底層存儲中采用了ECS,存放著超過100億個對象,每天大概要接受2億左右的請求,在ECS之上部署了200多個應(yīng)用。
該銀行的應(yīng)用開發(fā)部署的節(jié)奏明顯加快,最多一個季度上線了50個應(yīng)用這在以前是不可想象的,這是云原生架構(gòu)以及對象存儲技術(shù)的價值體現(xiàn)。