HPC向HPDA演進(jìn),“存儲(chǔ)墻”日益顯現(xiàn)
隨著5G、大數(shù)據(jù)和AI等新興數(shù)字化技術(shù)融入到傳統(tǒng)行業(yè),在數(shù)字化轉(zhuǎn)型和智能化升級(jí)過(guò)程中,企業(yè)數(shù)據(jù)量迎來(lái)了新一輪爆發(fā)式增長(zhǎng)。企業(yè)依賴HPC提供大數(shù)據(jù)分析,以支撐高效的業(yè)務(wù)分析決策。同時(shí),面對(duì)大量AI應(yīng)用場(chǎng)景落地,計(jì)算過(guò)程必須支撐低延時(shí)、高帶寬的應(yīng)用需求,對(duì)HPC存儲(chǔ)性能帶來(lái)了巨大考驗(yàn)。
IDC 預(yù)計(jì)到2021年,全球HPC存儲(chǔ)市場(chǎng)空間可達(dá)148億美金,其中新興的HPDA和HPC-based AI場(chǎng)景將以年化17%、29.5%的增速快速增長(zhǎng)。以HPDA、HPC-based AI為代表的HPC應(yīng)用新趨勢(shì),既給HPC產(chǎn)業(yè)發(fā)展帶來(lái)了新的機(jī)遇,同時(shí)也帶來(lái)了新的挑戰(zhàn),總結(jié)來(lái)說(shuō),HPC存儲(chǔ)面臨四大“存儲(chǔ)墻”:
·首先,CPU計(jì)算能力仍然按照摩爾定律成倍提升,IB互聯(lián)技術(shù)通過(guò)不斷迭代更新,持續(xù)高效匹配算力增長(zhǎng)帶來(lái)的傳輸需求。但這些年,存儲(chǔ)效率的提升并未跟上計(jì)算與網(wǎng)絡(luò)的步伐,多數(shù)存儲(chǔ)架構(gòu)還是面向一類負(fù)載打造,面對(duì)日益復(fù)雜的負(fù)載沖擊,顯得捉襟見(jiàn)肘。
·其次,傳統(tǒng)的HPC存儲(chǔ)主要基于文件協(xié)議打造,當(dāng)HPC開(kāi)始與大數(shù)據(jù)、AI負(fù)載融合時(shí),如何讓數(shù)據(jù)能在不同的分析應(yīng)用間更便捷的調(diào)用成為當(dāng)務(wù)之急。如何實(shí)現(xiàn)跨協(xié)議訪問(wèn),是構(gòu)建HPC必須解決的存儲(chǔ)問(wèn)題。
·第三,隨著數(shù)字化轉(zhuǎn)型的持續(xù)深入,以及AI應(yīng)用場(chǎng)景的大量落地,很多企業(yè)現(xiàn)在一天產(chǎn)生的數(shù)據(jù)量就可能達(dá)到幾十TB,比如在自動(dòng)駕駛系統(tǒng)研發(fā)過(guò)程中,每車每天產(chǎn)生的數(shù)據(jù)量就能達(dá)到64TB。海量的數(shù)據(jù)即需要存儲(chǔ)系統(tǒng)快速的分析處理,也需要消耗大量的存儲(chǔ)空間和機(jī)房空間。未來(lái)企業(yè)的數(shù)據(jù)量將不可避免的從PB向EB級(jí)跨越,而如何更好的控制存儲(chǔ)成本,實(shí)現(xiàn)最優(yōu)的TCO,將是HPC存儲(chǔ)應(yīng)用必須找到的解決方案。
·第四,在Hyperion Research最近進(jìn)行了一項(xiàng)全球范圍的研究根據(jù)調(diào)查,高性能計(jì)算存儲(chǔ)系統(tǒng)的平均故障頻率為每年9.8次。從存儲(chǔ)系統(tǒng)故障中恢復(fù)的平均時(shí)間是1.7天,平均停工時(shí)間花費(fèi)為每天12.7萬(wàn)美元。因此,打造高可靠性的HPC存儲(chǔ),是HPC產(chǎn)業(yè)發(fā)展的重要支撐。
歸納起來(lái),HPC產(chǎn)業(yè)發(fā)展面臨存儲(chǔ)性能提升過(guò)慢、異構(gòu)存儲(chǔ)難以整合、海量數(shù)據(jù)的存儲(chǔ)優(yōu)化管理以及打造高可靠性存儲(chǔ)系統(tǒng)的四大瓶頸問(wèn)題。
四面出擊,打破“存儲(chǔ)墻”
如何推倒HPC產(chǎn)業(yè)發(fā)展的四堵“存儲(chǔ)墻”,充分釋放數(shù)據(jù)潛能,成為了當(dāng)下HPC產(chǎn)業(yè)發(fā)展的重要課題,也是向HPDA演進(jìn)升級(jí)的必由之路。
首先,最迫切需要打破的是混合負(fù)載的“性能墻”
通過(guò)筆者和不同行業(yè)客戶的溝通發(fā)現(xiàn),單純從帶寬或OPS的負(fù)載需求來(lái)說(shuō),當(dāng)前產(chǎn)業(yè)是有完善解決方案的。比如某油氣行業(yè)客戶在地震資料處理環(huán)節(jié),采用了Dell EMC的Isilon分布式文件產(chǎn)品,這個(gè)環(huán)節(jié)特點(diǎn)是數(shù)據(jù)量大,帶寬需求高,這是Isilon的強(qiáng)項(xiàng);而在隨后的地震資料解釋環(huán)節(jié),數(shù)據(jù)量?jī)HTB級(jí),但OPS需求可達(dá)數(shù)十萬(wàn),Isilon就沒(méi)法應(yīng)對(duì)了,這時(shí),他們則用了NetApp的FAS存儲(chǔ)。這樣帶來(lái)的一個(gè)問(wèn)題就是,管理越來(lái)越復(fù)雜,還得做數(shù)據(jù)遷移也耗時(shí)費(fèi)力。
這是一個(gè)比較典型的例子,其他行業(yè)還有很多,因此誰(shuí)能先解決混合負(fù)載這個(gè)問(wèn)題,對(duì)產(chǎn)業(yè)必然是一次大的推進(jìn)。
其次,打破多應(yīng)用訪問(wèn)時(shí)數(shù)據(jù)快速流轉(zhuǎn)的”效率墻”
前面講到了,HPDA、HPC-based AI應(yīng)用帶來(lái)了除文件以外的HDFS、S3等多種協(xié)議訪問(wèn)需求,其實(shí)即便在傳統(tǒng)的HPC負(fù)載下,業(yè)務(wù)流程中數(shù)據(jù)匯聚、預(yù)處理、分析、發(fā)布所采用的訪問(wèn)協(xié)議也不盡相同。因此??吹揭恍┯脩?系統(tǒng)中文件、對(duì)象、大數(shù)據(jù)多套存儲(chǔ)來(lái)承載不同的業(yè)務(wù),非結(jié)構(gòu)化數(shù)據(jù)Silo問(wèn)題相比結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)更為突出,只是一直沒(méi)有好的方案。
怎么解決,我認(rèn)為多協(xié)議互通是一劑良藥。
第三,打破海量數(shù)據(jù)保存的“成本墻”
成本的構(gòu)成多種多樣,除了存儲(chǔ)本身的采購(gòu)成本,還有維護(hù)運(yùn)營(yíng)的成本。前者,需要開(kāi)發(fā)更高效的冗余算法,用更少的介質(zhì)存更多的數(shù)據(jù);此外,還需要根據(jù)數(shù)據(jù)熱度決定保存在什么介質(zhì)中,當(dāng)前這個(gè)動(dòng)作通常是手動(dòng)的,比如把海量基因數(shù)據(jù)定期從文件存儲(chǔ)導(dǎo)入到磁帶庫(kù)和藍(lán)光存儲(chǔ)中,未來(lái),自動(dòng)化的數(shù)據(jù)流動(dòng)不可或缺。還有一個(gè)方向是更高密度的設(shè)備,由于機(jī)房空間租用成本的高昂,這一點(diǎn)在歐美市場(chǎng)的需求更加迫切
第四,打破系統(tǒng)長(zhǎng)穩(wěn)運(yùn)行的“穩(wěn)定墻”
隨著數(shù)據(jù)量的增長(zhǎng),單次數(shù)據(jù)分析的周期越來(lái)越長(zhǎng),一旦出現(xiàn)故障,輕則影響分析效率,重則導(dǎo)致數(shù)據(jù)丟失,影響分析結(jié)果的準(zhǔn)確性。并且,這些數(shù)據(jù)都非常珍貴,比如油氣勘探,需要人為制造一次小規(guī)模地震來(lái)獲取源數(shù)據(jù),自動(dòng)駕駛場(chǎng)景,則是數(shù)十輛測(cè)試車輛持續(xù)不斷地在路上跑獲取數(shù)據(jù)。這些數(shù)據(jù)寶貴,且難以重復(fù)獲取。
為避免HPC存儲(chǔ)可靠性問(wèn)題隨規(guī)模增長(zhǎng)而加劇,存儲(chǔ)應(yīng)具備自動(dòng)從故障中恢復(fù)的能力,排除單點(diǎn)故障。同時(shí),人工調(diào)優(yōu)耗時(shí)、復(fù)雜且容易出錯(cuò),存儲(chǔ)系統(tǒng)需要具備自我調(diào)優(yōu)能力,系統(tǒng)一旦經(jīng)過(guò)調(diào)優(yōu),就可以優(yōu)化絕大多數(shù)HPC應(yīng)用的性能,而不需要隨著工作負(fù)載的變化而重新進(jìn)行調(diào)整。
在服務(wù)器、網(wǎng)絡(luò)技術(shù)日趨同質(zhì)化的今天,存儲(chǔ)已經(jīng)成為構(gòu)建HPC平臺(tái)差異化競(jìng)爭(zhēng)力的關(guān)鍵。作為HPC的數(shù)據(jù)底座,未來(lái)誰(shuí)先解決這四大難題,誰(shuí)就能在HPC存儲(chǔ)產(chǎn)業(yè)的下一波浪潮中,占據(jù)先機(jī),并且加速推進(jìn)HPC產(chǎn)業(yè)邁向新高度。
來(lái)源:網(wǎng)絡(luò)