2020年,戴爾與谷歌合作將Isilon的橫向擴(kuò)展文件系統(tǒng)OneFS放到了谷歌云上,用于生產(chǎn)環(huán)境。

2021年的一份白皮書(shū)上,Dell PowerScale OneFS在微軟的Azure上提供計(jì)算密集型文件工作負(fù)載。

在許多人的想象中,公有云似乎無(wú)所不能,那為什么還會(huì)跟傳統(tǒng)本地存儲(chǔ)廠(chǎng)商進(jìn)行合作呢?

戴爾大中華區(qū)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)事業(yè)部總經(jīng)理劉志洪的一番話(huà)道出了背后的關(guān)鍵原因。

某國(guó)內(nèi)大型公有云服務(wù)商的負(fù)責(zé)人曾對(duì)劉志洪表示,任何公有云廠(chǎng)商想要做好分布式文件系統(tǒng),做好高性能分布式文件系統(tǒng),大概需要投入兩三億人民幣,需要兩三百個(gè)研發(fā)人員研發(fā)兩三年,做出來(lái)的方案還不一定比戴爾的分布式文件系統(tǒng)OneFS好。

OneFS是戴爾分布式NAS Isilon的操作系統(tǒng),Isilon最早是在2001年推出的,20多年的發(fā)展歷程中,經(jīng)歷了無(wú)數(shù)生產(chǎn)環(huán)境驗(yàn)證,踩過(guò)的坑很難數(shù)清楚。如果要再造一個(gè)OneFS或者超越OneFS,也需要經(jīng)歷多年的打造和歷練,產(chǎn)品技術(shù)以外還得積累大量實(shí)戰(zhàn)經(jīng)驗(yàn)。

在IDC的報(bào)告中,基于OneFS的PowerScale是排名第一的橫向擴(kuò)展NAS平臺(tái)。在Gartner的魔力象限中,基于OneFS的存儲(chǔ)系統(tǒng)連續(xù)六年位居領(lǐng)導(dǎo)者象限的最右上角。市場(chǎng)上,基于OneFS的文件存儲(chǔ)系統(tǒng)已經(jīng)提供了17EB的容量空間,服務(wù)于數(shù)不清的企業(yè)用戶(hù)。

劉志洪的這番話(huà)梳理了公有云存儲(chǔ)和本地存儲(chǔ)之間的關(guān)系,優(yōu)勢(shì)差異,其實(shí)我們也完全可以從另一個(gè)角度來(lái)看兩者的關(guān)系。

十多年前,中國(guó)市場(chǎng)上的存儲(chǔ)服務(wù)提供商絕對(duì)以國(guó)際大廠(chǎng)的本地存儲(chǔ)為主,中國(guó)的存儲(chǔ)廠(chǎng)商只有少數(shù)幾家,而現(xiàn)在,在公有云如火如荼發(fā)展了十年后,中國(guó)存儲(chǔ)市場(chǎng)上的本地存儲(chǔ)廠(chǎng)商數(shù)量居然在增多。

在公有云發(fā)展的同時(shí),本地存儲(chǔ)廠(chǎng)商也在巨大的市場(chǎng)空間下快速發(fā)育,其實(shí),這些市場(chǎng)空間大部分都來(lái)自于數(shù)據(jù)量的爆炸性增長(zhǎng),特別是非結(jié)構(gòu)化數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)推動(dòng)存儲(chǔ)市場(chǎng)發(fā)展

IDC預(yù)測(cè),到2025年,全球數(shù)據(jù)量將達(dá)到181ZB,其中,80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù)。得益于各行各業(yè)的數(shù)字化轉(zhuǎn)型進(jìn)程,大數(shù)據(jù)、物聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)等技術(shù)的應(yīng)用和普及,企業(yè)和組織希望從數(shù)據(jù)中發(fā)現(xiàn)價(jià)值,提高企業(yè)和組織的運(yùn)行效率。

劉志洪表示,2018年,戴爾在內(nèi)部發(fā)起了一個(gè)“10PB俱樂(lè)部”活動(dòng),用于表彰銷(xiāo)售容量達(dá)到10PB的銷(xiāo)售人員,推廣部署容量達(dá)到10PB的用戶(hù)案例,而當(dāng)時(shí)很多人都覺(jué)得這一目標(biāo)設(shè)定的太高了,以醫(yī)療行業(yè)為例,2018年普遍需要的容量都是幾十TB到幾百TB的水平。

而在最近兩年,醫(yī)療行業(yè)對(duì)于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),特別是醫(yī)療影像數(shù)據(jù)存儲(chǔ)需求爆炸式增長(zhǎng)。去年,有一家醫(yī)院一次性采購(gòu)了10PB的PowerScale用于存儲(chǔ)醫(yī)療影像數(shù)據(jù),而這還不是國(guó)內(nèi)最大的,國(guó)內(nèi)醫(yī)院最大的容量已經(jīng)達(dá)到20PB的水平了。

PowerScale是Isilon的升級(jí)版本,提供全閃節(jié)點(diǎn)、混合節(jié)點(diǎn)和歸檔節(jié)點(diǎn),在某醫(yī)院一次性采購(gòu)10PB存儲(chǔ)的項(xiàng)目中,既有大量全閃存節(jié)點(diǎn),也有歸檔節(jié)點(diǎn),前者負(fù)責(zé)支撐前端應(yīng)用,后者用于長(zhǎng)期歸檔數(shù)據(jù),也可用于大數(shù)據(jù)分析和人工智能等場(chǎng)景。

劉志洪對(duì)于未來(lái)趨勢(shì)也非常樂(lè)觀,認(rèn)為在未來(lái)三到五年里,會(huì)有一些用戶(hù)一次性采購(gòu)100PB規(guī)模的存儲(chǔ),到時(shí)候,戴爾的10PB俱樂(lè)部就應(yīng)該改成100PB俱樂(lè)部了。

在IDC的數(shù)據(jù)里,2020年全球數(shù)據(jù)量才64ZB,到2025年就要達(dá)到181ZB了,劉志弘說(shuō)的100PB俱樂(lè)部或許并不遙遠(yuǎn)。

但說(shuō)到底,數(shù)據(jù)的增長(zhǎng)只是現(xiàn)象,企業(yè)和組織說(shuō)到底是為了從數(shù)據(jù)中挖掘價(jià)值,提升競(jìng)爭(zhēng)力,所以,各行各業(yè)對(duì)數(shù)據(jù)的利用情況就非常關(guān)鍵。

非結(jié)構(gòu)化數(shù)據(jù)在典型行業(yè)的典型用法

下圖是戴爾匯總的非結(jié)構(gòu)化數(shù)據(jù)(UDS-Unstructured data storage)比較火的應(yīng)用領(lǐng)域,總結(jié)的還是非常全面的,不難發(fā)現(xiàn),非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)對(duì)每個(gè)行業(yè)都越發(fā)重要。

戴爾大中華區(qū)非結(jié)構(gòu)化數(shù)據(jù)解決方案部高級(jí)系統(tǒng)工程師高中耀介紹了非結(jié)構(gòu)化數(shù)據(jù)在芯片設(shè)計(jì)和機(jī)器學(xué)習(xí)領(lǐng)域的用法。

從介紹中了解到,芯片設(shè)計(jì)和芯片制造環(huán)節(jié)會(huì)產(chǎn)出大量非結(jié)構(gòu)化數(shù)據(jù),從存儲(chǔ)的角度看,設(shè)計(jì)10nm芯片前后需要600-700TB數(shù)據(jù),設(shè)計(jì)7nm芯片則需要大約1.2PB的數(shù)據(jù)。從計(jì)算的復(fù)雜度來(lái)看,每更新一代芯片進(jìn)行仿真測(cè)試運(yùn)算所需的CPU核數(shù)也會(huì)翻倍。

EDA芯片設(shè)計(jì)行業(yè)對(duì)于存儲(chǔ)的性能和容量都提出了要求。

芯片設(shè)計(jì)前期需要處理大量小文件,對(duì)于IOPS性能要求很高,而在做仿真測(cè)試驗(yàn)證的時(shí)候,則會(huì)產(chǎn)生大量大文件,對(duì)于存儲(chǔ)系統(tǒng)的帶寬吞吐都提出了更高要求。最后,在設(shè)計(jì)完成后,則需要設(shè)計(jì)數(shù)據(jù)做長(zhǎng)久歸檔,整個(gè)流程對(duì)存儲(chǔ)能力的要求非常均衡。

高中耀介紹稱(chēng),Dell PowerScale在芯片行業(yè)的應(yīng)用非常普遍,全球排名TOP20的芯片設(shè)計(jì)企業(yè)里,有80%都采用了PowerScale的方案,PowerScale可以幫企業(yè)輕松應(yīng)對(duì)芯片設(shè)計(jì)對(duì)IT的挑戰(zhàn)。

Dell PowerScale的可擴(kuò)展性可真正實(shí)現(xiàn)彈性伸縮,可面向未來(lái)的設(shè)計(jì)需求,靈活根據(jù)需求調(diào)整集群大小。同時(shí),PowerScale全閃存、混合、歸檔系列可以滿(mǎn)足芯片設(shè)計(jì)不同階段對(duì)于存儲(chǔ)的要求。

Dell PowerScale本身非常成熟和現(xiàn)代化,無(wú)需遷移數(shù)據(jù)就能完成升級(jí)換代,在可靠性方面,也都是行業(yè)標(biāo)桿水平,能讓用戶(hù)更省心。

在AI和機(jī)器學(xué)習(xí)領(lǐng)域,PowerScale可以從容處理大量用于機(jī)器學(xué)習(xí)模型訓(xùn)練非結(jié)構(gòu)化數(shù)據(jù),閃存配置的PowerScale可應(yīng)對(duì)對(duì)性能的更高要求,PowerScale豐富的存儲(chǔ)協(xié)議還可以統(tǒng)一對(duì)接各種存儲(chǔ)資源。

戴爾大中華區(qū)非結(jié)構(gòu)化數(shù)據(jù)解決方案部高級(jí)系統(tǒng)工程師趙斌介紹了高性能數(shù)據(jù)分析(High Performance Data Analytics-HPDA)在油氣勘探場(chǎng)景對(duì)存儲(chǔ)提出的挑戰(zhàn)。

HPDA結(jié)合了高性能計(jì)算和大數(shù)據(jù)分析技術(shù),本身對(duì)于實(shí)時(shí)性要求就比較高,油氣勘探行業(yè),隨著模型精度的提升,隨著采集頻次的提升,數(shù)據(jù)量呈幾何級(jí)的激增,采集的數(shù)據(jù)進(jìn)入HPC系統(tǒng)后,需要極高的并行處理性能,而且要縮短數(shù)據(jù)處理的周期。

在油氣勘探場(chǎng)景中,支持多協(xié)議的PowerScale不僅能將各種數(shù)據(jù)快速導(dǎo)入,而且還能根據(jù)數(shù)據(jù)的冷熱程度進(jìn)行自動(dòng)分層,配合數(shù)據(jù)精簡(jiǎn)功能還能提高數(shù)據(jù)存儲(chǔ)的效率,降低存儲(chǔ)的成本。

結(jié)束語(yǔ)

非結(jié)構(gòu)化數(shù)據(jù)的用法可謂是多種多樣,各行各業(yè)的應(yīng)用中,都是負(fù)責(zé)記錄豐富多樣的數(shù)據(jù),然后從數(shù)據(jù)中獲得洞察。

在可見(jiàn)的未來(lái),數(shù)據(jù)的量會(huì)越來(lái)越大,對(duì)非結(jié)構(gòu)化存儲(chǔ)的要求也會(huì)越來(lái)越多,也就有越來(lái)越大的市場(chǎng)空間。

在巨大的市場(chǎng)空間中,本地存儲(chǔ)和公有云上的存儲(chǔ)都將迎來(lái)發(fā)展機(jī)遇,兩者也將相互影響,相互促進(jìn)。

分享到

zhupb

相關(guān)推薦