現(xiàn)場簽售的著作作者——清華大學(xué)長聘教授、閩江學(xué)院院長舒繼武告訴大家,國內(nèi)系統(tǒng)介紹存儲領(lǐng)域的高校并不多,很多學(xué)校最多也就是把存儲系統(tǒng)作為計算機系統(tǒng)結(jié)構(gòu)的一章。為了讓高校更多學(xué)生能更清晰了解,兩年前,清華大學(xué)團隊和華為著手聯(lián)合撰寫了這本書。

在當天峰會上,舒繼武教授還發(fā)表了題為“低存儲稅的新型存儲系統(tǒng)設(shè)計與思考”的主題演講,并提出了“存儲稅”的概念。

何為“存儲稅”?舒繼武教授表示,存儲稅,就是將支持數(shù)據(jù)存儲應(yīng)用需求的過程中,享受到的容量、帶寬、以及CPU算力、軟件管理等各種服務(wù)進行分離并單獨計費。

“從2016年開始,芯片制造技術(shù)全面放緩,而網(wǎng)絡(luò)、存儲及硬件技術(shù)發(fā)展都呈現(xiàn)上升趨勢,CPU與這種發(fā)展的不匹配,帶來了存儲稅的問題?!?舒繼武教授說。

眾所周知,當前數(shù)字規(guī)模發(fā)展迅速,帶動數(shù)據(jù)量急劇增長。預(yù)計2025年我國總數(shù)據(jù)量將達到175ZB,同時,自動駕駛、VR/AR等應(yīng)用對數(shù)字的實時通訊和處理要求激增。預(yù)計到達2025年,實時性數(shù)據(jù)總量將達50ZB,在全球數(shù)據(jù)的占比將高達30%。

“存儲是數(shù)據(jù)的載體,云廠商巨頭,通過構(gòu)建超大規(guī)模數(shù)據(jù)中心,承載著海量數(shù)據(jù)?!笔胬^武教授舉例說,微軟Azure云存儲系統(tǒng)遍布全球59個地區(qū),阿里云盤古云存儲系統(tǒng)有數(shù)十萬存儲節(jié)點,F(xiàn)acebook建設(shè)有EB級超大規(guī)模存儲系統(tǒng)Tectonic。

海量的數(shù)據(jù),意味著龐大的系統(tǒng),會產(chǎn)生相應(yīng)的問題。比如,構(gòu)建數(shù)據(jù)中心,要用到各種存儲,大量的器件,一方面,傳統(tǒng)的硬盤與閃存盤,組成金字塔架構(gòu),在性能和容量上存在數(shù)量級的差別,軟件也跟不上硬件的發(fā)展,另一方面,隨著摩爾定律的終結(jié),芯片制造技術(shù)的發(fā)展全面放緩,但存儲、網(wǎng)絡(luò)技術(shù)發(fā)展勢頭迅猛,如數(shù)據(jù)中心網(wǎng)絡(luò)已正式邁入400Gbps大關(guān),PCIe Gen5 SSD帶寬高達12GB/s。這意味著,CPU已經(jīng)成為存儲系統(tǒng)中新的性能瓶頸。而且,規(guī)模大、數(shù)度快,并不意味著一切問題的解決,至少,還有成本的問題。

高企的存儲稅影響了數(shù)字經(jīng)濟的發(fā)展。清華大學(xué)開始了這方面的工作。

舒繼武教授表示,降低存儲稅的辦法有很多種,涉及到很多相關(guān)的技術(shù),通常是從新接口、新能力和新編程三個角度考慮:通過硬件卸載,把應(yīng)用調(diào)配放在最適合處理它的硬件設(shè)備上,減少占用GPU的資源,基于新編程接口重構(gòu)軟件,大幅度降低開銷。

從硬件接口角度,傳統(tǒng)的SSD提供的block接口,軟件開銷效率比較低,優(yōu)化也比較難,但主要供應(yīng)商是三星、英特爾等,有一些雙接口SSD,既提供寬接口也提供自接接口,可大幅度降低效能,軟件性能也大幅度提高,代表廠商是英特爾,還有一種鍵值接口SSD,定向優(yōu)化鍵值存儲,不兼容其它軟件(如文件系統(tǒng))主要供應(yīng)商是三星。

從硬件能力方面,雖然都是采用軟硬件協(xié)同設(shè)計方式,開放通道SSD克服了普通SSD性能和可靠性問題,性能隔離和定向優(yōu)化,但硬件需要大幅改動;分區(qū)SSD (ZNS),優(yōu)化了普通SSD的性能和可靠性,以用軟件管理來管理,硬件改動較前者少,市場上接觸的比較快;可計算SSD具有存儲能力與計算的能力,在離存儲更近的地方計算,有的硬件甚至還具備網(wǎng)的能力,從而克服了設(shè)備與主機互連帶寬瓶頸,硬件改動更小。

在編程模型的變化方面,在硬件提升比較慢的情況下,可采取基于輪詢(polling)的編程模式,以及NVMe SSD、RDMA、DPDK等設(shè)備編程庫。此舉相對來說不存在太大難題,現(xiàn)實的情況下還可以處理新的一些事情,是比較好的方式。

針對低存儲稅的新型存儲系統(tǒng)設(shè)計,清華大學(xué)在新接口、新能力以及新編程方面都取得了一定的研究成果。

在新接口方面,有面向數(shù)據(jù)復(fù)制的RDMA新抽象: Rowan、異步內(nèi)存存儲框架: EasylO;在新能力方面,是分布式持久性內(nèi)存文件系統(tǒng)Octopus、可計算存儲設(shè)備IO棧: 入-IO和寫優(yōu)化的分布式B+樹: Sherman;新編程方面,低CPU開銷的遠程數(shù)據(jù)保序傳輸: RIO、基于RDMA原語的分布式范圍鎖: Citron和分離式內(nèi)存保護原語: Patronus。這些科研成果,都是以降低存儲稅為目的。

如新的編程框架EasylO,這項工作主要的背景是面向存算分離的架構(gòu)為主當然也包括其他的架構(gòu)的數(shù)據(jù)中心。分離式內(nèi)存往往具有高時延特性,進一步加劇了CPU的等待,導(dǎo)致在數(shù)據(jù)搬運過程中消耗了90%的CPU資源,從而引發(fā)高昂存儲稅,清華大學(xué)在能力方面提供了的優(yōu)化的分布式的比加數(shù),在接口方面提供了數(shù)據(jù)保護的存儲,即通過DMA引擎取代Load/Store指令,進行異步數(shù)據(jù)拷貝,并將DMA訪存的時間窗口用于執(zhí)行其他計算任務(wù),測試結(jié)果顯示,峰值的時候CPU資源占用降低了78.5%。

當負載的寫比例增多時,吞吐率和尾延遲嚴重惡化,原因是過多的網(wǎng)絡(luò)往返、低效的RDMA網(wǎng)卡原子指令,導(dǎo)致現(xiàn)有索引結(jié)構(gòu)部署在分離式內(nèi)存時寫效率低下。

這就是清華大學(xué)的第二項工作——Sherman,寫優(yōu)化分布式的B+樹,它通過索引緩存,在計算端緩存樹的中間節(jié)點,減少網(wǎng)絡(luò)遠程訪問,同時也采取分層片上鎖方式,將鎖從樹節(jié)點剝離,存入網(wǎng)卡內(nèi)存,消除PCIe事務(wù)。

第三項工作是低CPU開銷的遠程數(shù)據(jù)保存?zhèn)鬏敗?/p>

順序性是存儲系統(tǒng)的重要語義,它保證了數(shù)據(jù)的可靠存儲。測試表明,為保證順序性,需要耗費12倍以上的CPU資源才能達到無序數(shù)據(jù)傳輸?shù)男阅?。為此,清華大學(xué)認為,I/O棧的分層設(shè)計加上異步并發(fā)的網(wǎng)絡(luò)和存儲設(shè)備,使得I/O棧與CPU流水線概念上十分類似,由是決定將CPU流水線設(shè)計引入到保序I/O路徑中,盡可能避免同步操作。

總體而言,降低存儲稅方面有大量對策,包括硬件卸載、軟件重構(gòu)等等。近期,清華大學(xué)研究團隊將異步內(nèi)存存儲框架、可計算存儲設(shè)備IO棧,以及寫優(yōu)化的分布式B+樹作為研究對象并取得一定進展。

期待清華大學(xué)更多的科研成果。

“2023中國數(shù)據(jù)與存儲峰會”共吸引了近1000名業(yè)界精英和專家學(xué)者現(xiàn)場參會,圍繞“數(shù)智創(chuàng)新 AI未來”的主題,以及如何跨越數(shù)據(jù)和經(jīng)濟之間的鴻溝難題展開深度交流與研討。

作為延續(xù)了18年、業(yè)內(nèi)最具影響力的盛會之一,中國數(shù)據(jù)存儲峰會為產(chǎn)學(xué)研用專業(yè)人士提供了交流學(xué)習(xí)的平臺,也為全球存儲產(chǎn)業(yè)的發(fā)展提供了寶貴的經(jīng)驗和建議;在展示中國處于全球存儲產(chǎn)業(yè)重要地位的同時,也展現(xiàn)了中國企業(yè)和科研機構(gòu)在數(shù)據(jù)與存儲領(lǐng)域不斷進步的實力。

分享到

xiesc

相關(guān)推薦