11月8日,在DOIT傳媒主辦的2024中國(guó)數(shù)據(jù)與存儲(chǔ)峰會(huì)上,新華三集團(tuán)副總裁、存儲(chǔ)產(chǎn)品線總經(jīng)理關(guān)天舒發(fā)表了”數(shù)智聚能 重構(gòu)AI時(shí)代數(shù)據(jù)存儲(chǔ)平臺(tái)”的主題演講,分享了新華三對(duì)未來(lái)存儲(chǔ)技術(shù)發(fā)展趨勢(shì)的觀點(diǎn),以及未來(lái)新華三存儲(chǔ)產(chǎn)品的演進(jìn)路線。
新華三集團(tuán)副總裁、存儲(chǔ)產(chǎn)品線總經(jīng)理關(guān)天舒
技術(shù)發(fā)展驅(qū)動(dòng)存儲(chǔ)革新
談到數(shù)據(jù)存儲(chǔ)領(lǐng)域技術(shù)創(chuàng)新的發(fā)展方向,關(guān)天舒表示,從介質(zhì)層面來(lái)看,SSD已經(jīng)從TLC向QLC方向發(fā)展,今年有可能就是QLC的元年。閃存顆粒的密度越來(lái)越高,同時(shí)SSD硬盤(pán)的設(shè)計(jì)形態(tài)也在發(fā)生變化。依照EDSFF標(biāo)準(zhǔn),這種像標(biāo)尺一樣的硬盤(pán)形態(tài)能夠從整個(gè)存儲(chǔ)系統(tǒng)的設(shè)計(jì)上實(shí)現(xiàn)更高的性能密度,能夠?qū)崿F(xiàn)更高的綠色環(huán)保。在存儲(chǔ)的協(xié)議方面,存儲(chǔ)系統(tǒng)已經(jīng)從傳統(tǒng)的SCSI協(xié)議全面進(jìn)入了NVMe的時(shí)代,隨著NVMeOF的普遍應(yīng)用,結(jié)合高速的RDMA的技術(shù)消除高速鏈路的瓶頸,閃存系統(tǒng)正在走向端到端的NVMe的連接。
AI智算的普遍應(yīng)用,意味著GPU的工作負(fù)載越來(lái)越高。為了支持存儲(chǔ)系統(tǒng)和GPU更好的協(xié)同而問(wèn)世的GDS技術(shù),可以讓GPU繞過(guò)CPU的處理直接訪問(wèn)存儲(chǔ)系統(tǒng)的數(shù)據(jù),從而實(shí)現(xiàn)整個(gè)智算系統(tǒng)更加的高效。
“這些技術(shù)創(chuàng)新的方向,為未來(lái)技術(shù)的發(fā)展帶來(lái)無(wú)限的想象空間。” 關(guān)天舒指出,擺在人們面前的新問(wèn)題是,如何充分發(fā)揮這些新技術(shù)帶來(lái)的潛能——除了要在硬件上前瞻性地兼容這些新的技術(shù)標(biāo)準(zhǔn),更重要的是如何在軟件上做全面的優(yōu)化,對(duì)整個(gè)系統(tǒng)和算法上進(jìn)行協(xié)調(diào)設(shè)計(jì),充分的釋放新的存儲(chǔ)系統(tǒng)的性能。
“技術(shù)的發(fā)展正在驅(qū)動(dòng)數(shù)據(jù)存儲(chǔ)走向變革?!标P(guān)天舒強(qiáng)調(diào)說(shuō)。
智能應(yīng)用給數(shù)據(jù)存儲(chǔ)帶來(lái)新的挑戰(zhàn)
智能算力正在成為驅(qū)動(dòng)中國(guó)數(shù)字經(jīng)濟(jì)發(fā)展的新引擎。
中國(guó)信通院的數(shù)據(jù)顯示,截止到今年6月底,中國(guó)智能算力的規(guī)模已經(jīng)達(dá)到了76EFlops,同比增長(zhǎng)65%;在算力總規(guī)模的投資中,GPU的占比不斷加大,很多企業(yè)IT開(kāi)支都在向GPU傾斜,智算應(yīng)用越來(lái)越普遍,成為存儲(chǔ)系統(tǒng)中最重要的核心應(yīng)用負(fù)載。這些智算應(yīng)用帶來(lái)了非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)式增長(zhǎng),對(duì)存儲(chǔ)系統(tǒng)的廠商而言,既是新的商機(jī),也是強(qiáng)大的挑戰(zhàn)。
關(guān)天舒將這些挑戰(zhàn)總結(jié)為以下三點(diǎn):
首先是模型參數(shù)的挑戰(zhàn)。過(guò)去兩年,大模型的參數(shù)量以年均復(fù)合增長(zhǎng)400%的速度增長(zhǎng),對(duì)AI算力的需求增長(zhǎng)了15萬(wàn)倍,與此同時(shí),整個(gè)智算系統(tǒng)中GPU的平均利用率最高只有50%,大量的GPU空耗和等待。存儲(chǔ)系統(tǒng)如何以更高的性能,為智算應(yīng)用提供更高效的數(shù)據(jù)供給,并提升智算系統(tǒng)的有效算力利用率?
其次是多樣化數(shù)據(jù)的挑戰(zhàn)。在智算應(yīng)用數(shù)據(jù)的處理過(guò)程中,數(shù)據(jù)來(lái)源復(fù)雜,類型多樣,而且涉及文件、對(duì)象、大數(shù)據(jù)等多種應(yīng)用,需要耗費(fèi)大量時(shí)間頻繁進(jìn)行數(shù)據(jù)拷貝和數(shù)據(jù)格式的轉(zhuǎn)換。存儲(chǔ)系統(tǒng)如何支持更高效的數(shù)據(jù)訪問(wèn)、提升模型的訓(xùn)練效率?
第三,智算應(yīng)用對(duì)存儲(chǔ)系統(tǒng)要求更為苛刻的穩(wěn)定性。由于智算系統(tǒng)投資太高,任何中斷都是投資的損失。存儲(chǔ)系統(tǒng)如何支撐智算訓(xùn)練的穩(wěn)定運(yùn)行,減少重復(fù)訓(xùn)練帶來(lái)的資源浪費(fèi)?
應(yīng)對(duì)上述智算應(yīng)用的挑戰(zhàn),10月24日,新華三發(fā)布了全新的下一代高性能數(shù)據(jù)存儲(chǔ)平臺(tái)H3C UniStor Polaris X20000系列。
重構(gòu) ? 下一代AI數(shù)據(jù)存儲(chǔ)平臺(tái)
H3C UniStor Polaris X20000全系列產(chǎn)品包括性能優(yōu)先的全閃節(jié)點(diǎn)(Polaris X28000/X20828)與容量?jī)?yōu)先的混閃節(jié)點(diǎn)(Polaris X20516/X20536/X20360),可以滿足所有智算場(chǎng)景的應(yīng)用的需求。相對(duì)于新華三上一代智算存儲(chǔ)產(chǎn)品,UniStor Polaris X20000最大帶寬提升了260%,最大IOPS提升了210%,容量密度也提升了300%。
據(jù)悉,UniStor Polaris X20000系列采用了新華三自主研發(fā)的傲擎存儲(chǔ)軟件平臺(tái),通過(guò)在性能、融合、可用性三個(gè)方面的創(chuàng)新,為AI計(jì)算應(yīng)用提供了高性能的數(shù)據(jù)存儲(chǔ)平臺(tái),全面釋放智算生產(chǎn)力的創(chuàng)新價(jià)值。
UniStor Polaris X20000以重構(gòu)展現(xiàn)其強(qiáng)大實(shí)力和應(yīng)用價(jià)值。
1)重構(gòu)性能體驗(yàn):最大程度釋放GPU有效算力
一次完整的模型訓(xùn)練通常包含數(shù)據(jù)加載、模型加載、模型訓(xùn)練、CheckPoint等不同階段,不同階段對(duì)于數(shù)據(jù)存儲(chǔ)的性能要求各不一樣,需要存儲(chǔ)系統(tǒng)能夠提供更加復(fù)雜的異構(gòu)混合負(fù)載的工作方式。
在性能層面,H3C UniStor Polaris X20000提供了獨(dú)有的高性能EPC客戶端,可以同時(shí)支持MPI-IO和Posix IO兩種方式,以及支持并行文件系統(tǒng)的訪問(wèn),可以讓存儲(chǔ)系統(tǒng)實(shí)現(xiàn)IO級(jí)的負(fù)載均衡,最大程度釋放單個(gè)節(jié)點(diǎn)的性能。
同時(shí),H3C UniStor Polaris X20000還支持智能的CPU分組,實(shí)現(xiàn)專核專用,避免各個(gè)應(yīng)用在核間的搶占,減少核間調(diào)度,最大程度發(fā)揮單節(jié)點(diǎn)性能。UniStor Polaris X20000支持IO級(jí)的智能分組和流控調(diào)度,可以同時(shí)滿足混合負(fù)載情況下的大IO高帶寬、小IO高IOPS低時(shí)延的混合負(fù)載需求。
通過(guò)對(duì)底層存儲(chǔ)系統(tǒng)架構(gòu)的優(yōu)化,H3C UniStor Polaris X20000單節(jié)點(diǎn)的性能實(shí)現(xiàn)了80GB帶寬和200萬(wàn)IOPS,大幅度提升了不同的階段數(shù)據(jù)加載效率,加上對(duì)不同訓(xùn)練階段的IO模型進(jìn)行單獨(dú)的性能優(yōu)化,共減少30%的訓(xùn)練等待時(shí)間,有效保證智能算力系統(tǒng)的算力供給。
2)重構(gòu)數(shù)據(jù)管理體驗(yàn):一個(gè)資源池支持全流程智算應(yīng)用
在整個(gè)模型的訓(xùn)練中,同一份數(shù)據(jù)可能會(huì)被不同的應(yīng)用同時(shí)訪問(wèn),所以需要在不同應(yīng)用間去做數(shù)據(jù)的遷移和轉(zhuǎn)換,這個(gè)過(guò)程要占到整個(gè)數(shù)據(jù)處理的30%以上。
對(duì)此,新華三重新設(shè)計(jì)了全新的元數(shù)據(jù)的處理架構(gòu)和處理流程,實(shí)現(xiàn)了文件、對(duì)象、大數(shù)據(jù)在存儲(chǔ)系統(tǒng)中只需要保存唯一的一份原數(shù)據(jù),就可以同時(shí)被不同的上層應(yīng)用系統(tǒng)訪問(wèn),同時(shí)還支持不同的協(xié)議、數(shù)據(jù)并行處理,做到了協(xié)議無(wú)損、性能無(wú)損。整個(gè)系統(tǒng)架構(gòu)的規(guī)劃時(shí)只需規(guī)劃一個(gè)統(tǒng)一的邏輯資源池,提升可用容量空間達(dá)40%,不僅大幅度簡(jiǎn)化后續(xù)規(guī)劃配置運(yùn)維工作,還可以對(duì)多樣化的數(shù)據(jù)做本地分析、免數(shù)據(jù)遷移,最大化提升數(shù)據(jù)的分析效率。
3)重構(gòu)可用性體驗(yàn):秒級(jí)切換,訓(xùn)練不中斷
在大模型的訓(xùn)練過(guò)程中,最令人頭疼的就是各種意外的情況導(dǎo)致的訓(xùn)練中斷,這會(huì)導(dǎo)致GPU空閑,降低利用率。
H3C UniStor Polaris X20000實(shí)現(xiàn)了多級(jí)可靠性方案,支持租戶間的隔離,每個(gè)租戶實(shí)現(xiàn)獨(dú)有的容量策略和性能策略,保證多個(gè)租戶在同時(shí)訓(xùn)練中不受其他某個(gè)租戶訓(xùn)練中斷的影響。H3C UniStor Polaris X20000所有組件,無(wú)論是硬件還是軟件均采用了冗余的多活系統(tǒng)設(shè)計(jì)架構(gòu),形成了一套完整的多層級(jí)可靠性的方案。
相對(duì)于傳統(tǒng)的分布式存儲(chǔ)系統(tǒng)采用節(jié)點(diǎn)間軟件的心跳探測(cè)方式,H3C UniStor Polaris X20000通過(guò)硬件級(jí)的SOM存儲(chǔ)管理平臺(tái)實(shí)現(xiàn)對(duì)存儲(chǔ)節(jié)點(diǎn)的健康監(jiān)測(cè),此方法支持中斷式的上報(bào)以及主動(dòng)輪詢上報(bào)等多種不同的監(jiān)控方案,對(duì)故障實(shí)現(xiàn)毫秒級(jí)的上報(bào),最大化保障訓(xùn)練的任務(wù)不間斷連續(xù)運(yùn)行,無(wú)論是計(jì)劃內(nèi)的擴(kuò)容升級(jí)還是計(jì)劃外的節(jié)點(diǎn)故障,業(yè)務(wù)都是弱感知。
價(jià)值重構(gòu):H3C UniStor Polaris X20000的行業(yè)實(shí)踐
H3C UniStor Polaris X20000已經(jīng)在行業(yè)應(yīng)用測(cè)試中得到驗(yàn)證。
AIGC文本大模型。新華三AIGC大模型團(tuán)隊(duì)的主要工作之一是基于行業(yè)的數(shù)據(jù)去訓(xùn)練垂直領(lǐng)域的行業(yè)模型,目前參數(shù)規(guī)模約70B,通常一個(gè)模型的訓(xùn)練周期在10天左右,訓(xùn)練過(guò)程中需要定期CheckPoint保存,以保證異常情況時(shí)可以重新加載、連續(xù)訓(xùn)練。根據(jù)AIGC團(tuán)隊(duì)實(shí)測(cè)數(shù)據(jù),H3C UniStor Polaris X20000將CheckPoint的保存和加載時(shí)間降低了50%以上,大幅度提升了GPU的資源利用率。
基因測(cè)序。一家客戶的基因測(cè)序每天產(chǎn)生約10TB的非結(jié)構(gòu)化數(shù)據(jù)文件。實(shí)際測(cè)試數(shù)據(jù)顯示,應(yīng)用H3C UniStor Polaris X20000后,分析處理周期可縮短57%,數(shù)據(jù)處理時(shí)間也從30小時(shí)降低到13小時(shí)。
自動(dòng)駕駛。眾所周知,自動(dòng)駕駛每天產(chǎn)生的數(shù)據(jù)量龐大,研發(fā)周期也很長(zhǎng)。根據(jù)客戶提供的報(bào)告,每輛車每天產(chǎn)生60TB訓(xùn)練數(shù)據(jù)。采用H3C UniStor Polaris X20000后,系統(tǒng)平均開(kāi)發(fā)迭代周期從28個(gè)月縮短至13個(gè)月,節(jié)省了一半以上的時(shí)間。
毫無(wú)疑問(wèn),H3C UniStor Polaris X20000未來(lái)將全面助力動(dòng)漫渲染、氣象預(yù)報(bào)、油氣勘探、芯片設(shè)計(jì)、地震預(yù)測(cè)、制造仿真等更多行的AI應(yīng)用,釋放AI智算生產(chǎn)力的創(chuàng)新價(jià)值。
作為新華三整體智算方案最核心的底層存儲(chǔ)組件,X20000支持傲飛算力平臺(tái)的統(tǒng)一系統(tǒng)管理,面向AI的應(yīng)用,可以對(duì)應(yīng)用提供業(yè)務(wù)可靠、智能IO路徑優(yōu)化、數(shù)據(jù)全域管控、數(shù)據(jù)安全策略的功能,為AI智算基礎(chǔ)設(shè)施提供性能強(qiáng)勁、兼顧可靠的數(shù)據(jù)底座。
愿景:內(nèi)生智能?成就智慧存儲(chǔ)
回顧過(guò)去近20年的時(shí)間,新華三始終專注于最前沿的存儲(chǔ)市場(chǎng),從傳統(tǒng)陣列到融合存儲(chǔ),從軟件定義到全閃存儲(chǔ)。
如今,AI的發(fā)展正在深刻的改變存儲(chǔ)領(lǐng)域,一方面人工智能的深度應(yīng)用使得存儲(chǔ)系統(tǒng)變得更加的智能可靠,另一方面,智算復(fù)雜異構(gòu)的混合工作負(fù)載更需要存儲(chǔ)系統(tǒng)提供更高效的穩(wěn)定的性能。
迎合這一轉(zhuǎn)變,2023年8月,新華三發(fā)布了H3C/HPE Alletra MP全局解耦NVMe智能全閃存儲(chǔ),借助AI in Storage理念讓存儲(chǔ)系統(tǒng)從應(yīng)用模式中自我學(xué)習(xí),進(jìn)而進(jìn)化存儲(chǔ)資源、提升性能。如今,新華三又推出了專為智算場(chǎng)景設(shè)計(jì)的全新一代高性能存儲(chǔ)H3C UniStor Polaris X20000,對(duì)AI智算數(shù)據(jù)存儲(chǔ)平臺(tái)進(jìn)行全面的革新。
新華三全棧智算解決方案支持大模型的全棧能力,支持從模型開(kāi)發(fā)到基礎(chǔ)設(shè)施的一站式的應(yīng)用部署,支持行業(yè)數(shù)據(jù)的統(tǒng)一治理,通過(guò)對(duì)算力、存儲(chǔ)、網(wǎng)絡(luò)的協(xié)同感知,實(shí)現(xiàn)智算整個(gè)集群的最佳效率。
作為IT行業(yè)的領(lǐng)軍企業(yè),新華三存儲(chǔ)提出了“內(nèi)生智能?成就智慧存儲(chǔ)” 的發(fā)展戰(zhàn)略,借助多年的行業(yè)經(jīng)驗(yàn)結(jié)合前瞻性的技術(shù)創(chuàng)新,不斷推動(dòng)存儲(chǔ)產(chǎn)品的智慧進(jìn)化,為AI時(shí)代注入新的發(fā)展動(dòng)力。
展望未來(lái),關(guān)天舒表示,新華三將繼續(xù)堅(jiān)持研發(fā)創(chuàng)新發(fā)展理念,持續(xù)探索最前沿的存儲(chǔ)技術(shù),持續(xù)推動(dòng)產(chǎn)品的創(chuàng)新,持續(xù)發(fā)展AI時(shí)代的海量數(shù)據(jù)存儲(chǔ)。