2023閃存峰會(huì)主論壇上,綠算技術(shù)首席科學(xué)家、烽煙研究院院長(zhǎng)孟坤分享了Diskless存算分離架構(gòu)的發(fā)展以及其如何助力加速AI模型訓(xùn)練。
綠算技術(shù)的產(chǎn)品主要特性是支持Diskless存算分離架構(gòu)的解決方案。事實(shí)上,我們身處各種信息技術(shù)加持的時(shí)代,給我們帶來了便利的同時(shí),也面臨用戶更高的需求,因此,做產(chǎn)品務(wù)必圍繞應(yīng)用需求展開。當(dāng)前信息應(yīng)用已進(jìn)入AI時(shí)代、數(shù)據(jù)驅(qū)動(dòng)時(shí)代,如何助力其發(fā)展是產(chǎn)品人應(yīng)擔(dān)負(fù)的時(shí)代責(zé)任。
那么避不開的是實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)計(jì)算,從應(yīng)用需求角度來看,好的技術(shù)務(wù)必能夠幫助用戶解決問題。當(dāng)前,數(shù)據(jù)驅(qū)動(dòng)智能已經(jīng)轉(zhuǎn)化為“計(jì)算”,依賴于數(shù)據(jù)、模型算法及計(jì)算基礎(chǔ)設(shè)施;其中,計(jì)算基礎(chǔ)設(shè)施包括運(yùn)算資源(算)、存儲(chǔ)資源(存)、通信資源(運(yùn)),三者需要相輔相成,相互協(xié)同才能更好地完成計(jì)算任務(wù),存儲(chǔ)在整個(gè)計(jì)算環(huán)境中的作用不容忽視。
針對(duì)現(xiàn)在大規(guī)模AI應(yīng)用的發(fā)展,對(duì)存儲(chǔ)的要求在全面提升,不論是空間上、性能上,還是使用模式上都存在著巨大挑戰(zhàn)。一方面,大規(guī)模數(shù)據(jù)需要大容量存儲(chǔ)空間,并行(集群)運(yùn)算需要高效的數(shù)據(jù)存取和交互,重點(diǎn)體現(xiàn)在吞吐率、IO等服務(wù)能力上;另一方面,多樣化的計(jì)算任務(wù)要求所有資源都應(yīng)具備靈活的伸縮能力,具有靈活的可擴(kuò)展性。在高速網(wǎng)絡(luò)支撐下,Diskless存算分離架構(gòu)具備了滿足上述需求的潛質(zhì),亟需支撐這些創(chuàng)新架構(gòu)的技術(shù)和實(shí)施方法。
Diskless存算分離架構(gòu)是什么?
Diskless就是存算分離架構(gòu),在高速網(wǎng)絡(luò)加持下,實(shí)現(xiàn)運(yùn)算模塊和存儲(chǔ)模塊的解耦。在討論Diskless之前,有必要要談一下Serverless(去服務(wù)器),事實(shí)上就是云計(jì)算。它解決了用戶對(duì)計(jì)算資源所有權(quán)和使用權(quán)的解耦,用戶不用擔(dān)心設(shè)備購(gòu)置負(fù)擔(dān),可以通過按需購(gòu)買服務(wù)的方式獲取所需計(jì)算資源,實(shí)現(xiàn)了“計(jì)算資源數(shù)據(jù)化”,便利了資源共享使用。
但是,云計(jì)算發(fā)展到現(xiàn)在,瓶頸也日益凸顯,主要體現(xiàn)為“服務(wù)質(zhì)量難以滿足和服務(wù)器CPU利用率不足”同時(shí)存在的現(xiàn)象,說明了利用服務(wù)器集群提供計(jì)算資源池的模式存在的管理和數(shù)據(jù)交互頻繁問題難以克服,亟需新的計(jì)算架構(gòu)。Diskless架構(gòu)旨在實(shí)現(xiàn)存算分離,進(jìn)而實(shí)現(xiàn)各種計(jì)算資源的完美協(xié)同和靈活擴(kuò)展,滿足用戶對(duì)性能及其它服務(wù)質(zhì)量提升的要求。而從傳統(tǒng)基于服務(wù)器集群到現(xiàn)在存算分離架構(gòu)的發(fā)展需求中,極速設(shè)備成為保證質(zhì)量的關(guān)鍵。綠算技術(shù)基于芯片級(jí)卸載RDMA/NVMe-oF的高速協(xié)議技術(shù)研發(fā)了網(wǎng)絡(luò)化極速存儲(chǔ)設(shè)備,提供了高性能、高擴(kuò)展、網(wǎng)絡(luò)共享的數(shù)據(jù)存儲(chǔ)系統(tǒng),并在AI訓(xùn)練加速上做了一些實(shí)踐驗(yàn)證。
在實(shí)踐方案中,綠算技術(shù)提供高速數(shù)據(jù)存儲(chǔ)系統(tǒng),聯(lián)合運(yùn)算模塊合作伙伴——GPU廠商思騰合力,重點(diǎn)針對(duì)高?;蚩蒲性核谧龃竽P陀?xùn)練場(chǎng)景,搭建了微型存算分離架構(gòu)超算平臺(tái)。為科研實(shí)驗(yàn)室,提供了一種開箱即用的AI訓(xùn)練平臺(tái)解決方案平臺(tái),較好地適應(yīng)了用戶在設(shè)備空間,能源及運(yùn)維能力相對(duì)受限的場(chǎng)景。
整體來看,方案直接簡(jiǎn)單,上面是應(yīng)用層,通過虛擬化技術(shù)方便用于定制所需計(jì)算資源,中間是運(yùn)算資源池,并通過高速網(wǎng)絡(luò)與下層的存儲(chǔ)資源池互聯(lián)互通。為滿足用戶差異化需求,存儲(chǔ)資源層又被分為兩層:存儲(chǔ)系統(tǒng)服務(wù)層和存儲(chǔ)空間資源池,存儲(chǔ)資源池集中式共享使用的模式進(jìn)行服務(wù)。
在上述方案中,應(yīng)用了綠算技術(shù)的兩個(gè)核心產(chǎn)品,分別體現(xiàn)在軟件系統(tǒng)和硬件設(shè)備上。硬件是GP超100Gb的新型存儲(chǔ)服務(wù)器(EBOF),可以完全釋放數(shù)據(jù)存取能力,核心優(yōu)勢(shì)包含五個(gè)方面:(1)實(shí)現(xiàn)網(wǎng)絡(luò)高速通道的線速匹配,(2)高速存儲(chǔ)協(xié)議包的芯片級(jí)卸載,(3)適當(dāng)冗余設(shè)計(jì)保障可靠性,(4)簡(jiǎn)約模塊化實(shí)現(xiàn)降低功耗,(5)可視化配置監(jiān)管提升使用體驗(yàn)。
硬件設(shè)備通過采用上述技術(shù),設(shè)備實(shí)測(cè)參數(shù)達(dá)到了2U設(shè)備可以提供到72GB/s的帶寬,單機(jī)的IOPS達(dá)到了1600萬,時(shí)延和功耗也體現(xiàn)了不俗性能。更重要地,GP設(shè)備是可以網(wǎng)絡(luò)擴(kuò)展的,如果更高需求,可以簡(jiǎn)單地通過網(wǎng)絡(luò)設(shè)備直接橫向擴(kuò)展。此外,設(shè)備采用標(biāo)準(zhǔn)接口和協(xié)議,并提供多樣化的應(yīng)用模式,滿足用戶需求。
另一方面,綠算技術(shù)適應(yīng)GP設(shè)備基礎(chǔ)上還開發(fā)并行文件系統(tǒng)LinePillar FS,滿足了運(yùn)算模塊對(duì)數(shù)據(jù)存儲(chǔ)的多樣化需求。主要優(yōu)勢(shì)體現(xiàn)為大流分級(jí),小流的聚合方式保障性能;采用標(biāo)準(zhǔn)接口適配多種應(yīng)用系統(tǒng),此外,多個(gè)版本兼容了主流操作系統(tǒng)、處理芯片,能夠滿足用戶各種場(chǎng)景或現(xiàn)有IT資產(chǎn)利舊。
綠算分享兩個(gè)典型案例
基于上述Diskless超算平臺(tái),綠算技術(shù)也開展兩個(gè)應(yīng)用場(chǎng)景測(cè)試,一個(gè)是大家常見的AI模型訓(xùn)練場(chǎng)景,這個(gè)場(chǎng)景是一個(gè)期貨公司做回測(cè)服務(wù),他們的數(shù)據(jù)量不大,但交互非常多。訓(xùn)練過程數(shù)據(jù)非常多,要求高頻讀寫,對(duì)IOPS有很高要求。之前他們采用服務(wù)器集群的方式進(jìn)行模型訓(xùn)練,跑十年的期貨數(shù)據(jù)、兩百多個(gè)模型,往常出份報(bào)告需要大概跑一個(gè)月;采用上述解決方案后,出報(bào)告時(shí)間直接降到了八個(gè)小時(shí),后來又在數(shù)據(jù)系統(tǒng)上做了一個(gè)調(diào)整,模型訓(xùn)練時(shí)間壓縮到三個(gè)小時(shí)。之后我們進(jìn)行了分析總結(jié),發(fā)現(xiàn)訓(xùn)練時(shí)長(zhǎng)的壓縮主要得益于數(shù)據(jù)交互模式的簡(jiǎn)化和路程的降低。
第二個(gè)場(chǎng)景是AI驅(qū)動(dòng)安全的一個(gè)場(chǎng)景,該場(chǎng)景需求是實(shí)現(xiàn)100Gb帶寬網(wǎng)絡(luò)流量的實(shí)時(shí)異常檢測(cè)。該任務(wù)的難點(diǎn)主要體現(xiàn)在兩個(gè)方面:(1)需要把流量完整存下來,(2)流量數(shù)據(jù)能夠高效的供訓(xùn)練模型存取。經(jīng)歷了高端服務(wù)器集群無法完成場(chǎng)景需求的情況下,采用Diskless超算平臺(tái)后,問題得到了很好的解決,實(shí)現(xiàn)了100Gb網(wǎng)絡(luò)流量的線速分析,滿足了大規(guī)模數(shù)據(jù)瞬間寫入和PB級(jí)海量數(shù)據(jù)秒級(jí)查詢需求。 事實(shí)上,分析發(fā)現(xiàn),成功實(shí)踐還主要得益于通過建立集中式高速數(shù)據(jù)共享資源池,減少了數(shù)據(jù)在服務(wù)器之間的橫向流動(dòng),使得各個(gè)運(yùn)算節(jié)點(diǎn)的性能得以充分發(fā)揮。
最后
孟坤總結(jié)了Diskless架構(gòu)產(chǎn)品解決方案優(yōu)勢(shì),并強(qiáng)調(diào)使用全閃存儲(chǔ)方案后,能耗、空間依賴、存儲(chǔ)密度等都具有明顯優(yōu)勢(shì)。展望未來,Diskless存算分離架構(gòu)方案在云數(shù)據(jù)中心的基礎(chǔ)設(shè)施改造中具有巨大優(yōu)勢(shì),不僅體現(xiàn)在“碳達(dá)峰、碳中和”綠色數(shù)據(jù)中心建設(shè)方面,還體現(xiàn)在高性能、高性價(jià)比服務(wù)能力方面。