黃飛:非常感謝DOIT提供了這次跟大家共同分享的機(jī)會(huì)。
綠算技術(shù)是存儲(chǔ)行業(yè)的新勢(shì)力企業(yè),面向于存算分離的方向。本次演講著重探討異構(gòu)算力是否存在調(diào)度的可能、如何構(gòu)建先進(jìn)存力中心等話題,為后續(xù)存儲(chǔ)行業(yè)的發(fā)展提供新的思路。僅僅是拋磚引玉,希望各位專(zhuān)家和各位大咖點(diǎn)評(píng)。今天的分享分為四個(gè)部分,先進(jìn)存力的需求,如何構(gòu)建先進(jìn)存力,二是分級(jí)存儲(chǔ)該如何設(shè)計(jì),如何利用分級(jí)存儲(chǔ)構(gòu)建先進(jìn)的存力平臺(tái),三是綠算技術(shù)的產(chǎn)品和解決方案,四是廠商賦能計(jì)劃。
先進(jìn)存力需求與對(duì)策
在當(dāng)前,智算中心、數(shù)據(jù)中心建設(shè)面臨技術(shù)自主和資源的配置問(wèn)題、存儲(chǔ)發(fā)展與區(qū)域的均衡問(wèn)題、智能管理與數(shù)據(jù)治理問(wèn)題、綠色節(jié)能與云存儲(chǔ)挑戰(zhàn)問(wèn)題、數(shù)據(jù)共享與存儲(chǔ)介質(zhì)創(chuàng)新問(wèn)題,以及資源調(diào)度與投資效益問(wèn)題。其對(duì)策有三點(diǎn),一是實(shí)現(xiàn)存力、算力和運(yùn)力三種力之間的統(tǒng)一調(diào)度、統(tǒng)一協(xié)調(diào),將網(wǎng)絡(luò)、存儲(chǔ)等資源合理地進(jìn)行分配,提升算力資源利用率;二是依據(jù)業(yè)務(wù)主導(dǎo)的模式構(gòu)建多級(jí)存力的建設(shè),對(duì)性能、容量、熱度、質(zhì)量等多方面合理提供匹配存力介質(zhì),依據(jù)數(shù)據(jù)分類(lèi)分級(jí),構(gòu)建多級(jí)存儲(chǔ)機(jī)制,根據(jù)數(shù)據(jù)的冷熱不同進(jìn)行合理的分配,實(shí)現(xiàn)數(shù)據(jù)、存儲(chǔ)的超精細(xì)化管理;三是加強(qiáng)超高速局域網(wǎng)、廣域網(wǎng)建設(shè)。高性能并不一定代表存力,多級(jí)存力的構(gòu)建以及形成多級(jí)存力架構(gòu)的體系才能構(gòu)成真正高級(jí)別的存力或者最終的存力中心,依托400G/800G以及TB級(jí)以上的網(wǎng)絡(luò),以及Roce、IB、iWARP互聯(lián)互通。
數(shù)據(jù)存力中心的建設(shè)過(guò)程中,需要依據(jù)政策法規(guī)與保障措施,針對(duì)存力中心建設(shè)現(xiàn)狀與挑戰(zhàn),根據(jù)發(fā)展需求,做好建設(shè)規(guī)劃與布局,打造國(guó)家級(jí)存儲(chǔ)能力基礎(chǔ)設(shè)施。
對(duì)于異構(gòu)存力調(diào)度平臺(tái)規(guī)劃,綠算技術(shù)提供了如下建議:
根據(jù)上圖,需要將現(xiàn)有Server storage,比如HDD、SAN、藍(lán)光、帶庫(kù)以及最新的NVMe、SSD統(tǒng)一納入管理體系,構(gòu)建不同的文件和管理系統(tǒng),去適配用戶(hù)的需求。通過(guò)對(duì)接口不斷的調(diào)度,做到多種系統(tǒng)的平滑匹配以及數(shù)據(jù)的流轉(zhuǎn)。當(dāng)然,對(duì)外統(tǒng)一輸出仍偏向于更多的轉(zhuǎn)向NFS for RDMA的協(xié)議以及sunbus for RDMA協(xié)議,通過(guò)以RDMA為主的網(wǎng)絡(luò)加強(qiáng)數(shù)據(jù)的快速流動(dòng)。
異構(gòu)存力調(diào)度平臺(tái)還包括兩方面管理內(nèi)容。一是異構(gòu)存力平臺(tái)的實(shí)時(shí)性能、故障點(diǎn)、故障的定位,以及業(yè)務(wù)級(jí)快速恢復(fù),二是在數(shù)據(jù)向異構(gòu)調(diào)度平臺(tái)里進(jìn)行統(tǒng)管的時(shí)候,要知曉性能和對(duì)容量評(píng)估,包括要做數(shù)據(jù)的交易。數(shù)據(jù)僅存起來(lái),不交易就是死的數(shù)據(jù)。國(guó)家已經(jīng)開(kāi)放公共數(shù)據(jù),這是非常有意義的舉措。
異構(gòu)存力調(diào)度平臺(tái)的建設(shè),還這包括引入數(shù)據(jù)全生命周期管理的過(guò)程。
分級(jí)存儲(chǔ)設(shè)計(jì)思路
AI業(yè)務(wù)對(duì)存儲(chǔ)各環(huán)節(jié)有什么樣的需求?
拆解后可以發(fā)現(xiàn),原始數(shù)據(jù)收集部分需要的是海量存儲(chǔ),這部分可以采用傳統(tǒng)機(jī)械盤(pán)加少量SSD組成混閃的模式構(gòu)成數(shù)據(jù)的快速收集與存儲(chǔ);在數(shù)據(jù)處理部分,可以標(biāo)準(zhǔn)化簡(jiǎn)單清洗海量存儲(chǔ),在訓(xùn)練準(zhǔn)備階段,也就是往Kuda灌數(shù)據(jù)或者模型訓(xùn)練以及模型微調(diào)、模型推理過(guò)程中,對(duì)存儲(chǔ)性能要求越來(lái)越高,如容量足夠大、速度足夠快、IOPS足夠高等等。這種組建混閃的模式就是綠算技術(shù)針對(duì)AI訓(xùn)練的解決方案。
綠算技術(shù)在分級(jí)存儲(chǔ)設(shè)計(jì)的方案分為經(jīng)濟(jì)型和通用型兩種。
上圖是一個(gè)經(jīng)濟(jì)性的分級(jí)存儲(chǔ)。
可以看到,左上側(cè)是一個(gè)包括英偉達(dá)與國(guó)產(chǎn)化產(chǎn)品異構(gòu)的算力集群。綠算技術(shù)提供不同的介入方式,對(duì)前者采用GPUDirect技術(shù),后者更多采用RDMA方式進(jìn)行數(shù)據(jù)的接入。由于采用文件系統(tǒng)管理更方便,但經(jīng)過(guò)文件系統(tǒng)以后會(huì)發(fā)現(xiàn)性能衰減非常非???,所以綠算技術(shù)使用分布式塊甚至裸塊的方式,直接把數(shù)據(jù)速度加載到極限,具體方式是,通過(guò)一個(gè)PCIe4.0網(wǎng)卡連接,最大32GB大B的帶寬輸入,以空間換時(shí)間,加速數(shù)據(jù)的讀取與寫(xiě)入。
對(duì)于加載了這種像Last或者GPFS并行文件系統(tǒng),綠算技術(shù)將其下移作為二級(jí)存儲(chǔ),提供大量的數(shù)據(jù)保護(hù)能力,一旦出現(xiàn)子資源崩潰現(xiàn)象,就可從二級(jí)存儲(chǔ)里把整個(gè)過(guò)程的CheckPoint數(shù)據(jù)或者相關(guān)的Kuda數(shù)據(jù)拉回到一級(jí)存儲(chǔ)快速讀取。測(cè)試數(shù)據(jù)顯示,以A100 PCIe卡的數(shù)據(jù)讀取,12塊3.0的SSD就能做到一塊A100卡的1秒CheckPoint讀取和寫(xiě)入。
在推理業(yè)務(wù)解決方案中,綠算技術(shù)把推理數(shù)據(jù)和推理服務(wù)器直接裸掛載,所有訓(xùn)練好的模都作為右側(cè)的模型倉(cāng)庫(kù)使用,所有的數(shù)據(jù)直接在完全加速的SSD上運(yùn)行,此舉相當(dāng)于為所有的推理服務(wù)器加載立一個(gè)大型的Cache,實(shí)現(xiàn)整體速度的推理模型快速加載。
整個(gè)過(guò)程離不開(kāi)異構(gòu)存力平臺(tái)的調(diào)度的平臺(tái)。
上圖是綠算技術(shù)與華瑞指數(shù)云共同打造的通用型解決方案。
華瑞指數(shù)云在分布式塊有很強(qiáng)的優(yōu)勢(shì),以綠算技術(shù)高性能的硬件作為基座,將分布式塊訓(xùn)練的結(jié)果直接推送到裸塊卷上。對(duì)于推理結(jié)點(diǎn)厚的可以掛載鏡像,實(shí)現(xiàn)整個(gè)速度的提升。
綠算技術(shù)希望跟更多合作伙伴共同打造相應(yīng)的針對(duì)AI場(chǎng)景解決方案。
產(chǎn)品解決方案
綠算技術(shù)的產(chǎn)品分為兩代。
第一代產(chǎn)品是平板式的,形態(tài)一性能實(shí)現(xiàn)了的升級(jí),在裸設(shè)備的情況下可以做到3240萬(wàn)的單機(jī)IOPS、144G的帶寬,讀取時(shí)延20微秒左右,整機(jī)功耗400瓦,形態(tài)上改變了原來(lái)鑲在板上的設(shè)計(jì),形態(tài)二是使用了大量的PCIe,可以插ACIC卡、FPGA卡也可以插DPU,包括英偉達(dá)BlueField以及各種PCIe卡。最新的進(jìn)展是兩顆PCI swith加上大量PCIe插槽,實(shí)現(xiàn)了更高速度。未來(lái)還將陸續(xù)改變產(chǎn)品形態(tài),產(chǎn)品之間完全PCIe互通,提供完整的NameSpace給所有的軟件廠商。
在軟硬自由度結(jié)合業(yè)務(wù)性能提升方面,綠算技術(shù)提供兩種模式,一是傳統(tǒng)服務(wù)器加存儲(chǔ)盤(pán)或SSD的形式,支持SCM,滿(mǎn)足用戶(hù)對(duì)性能的最優(yōu)要求,二是針對(duì)DBU廠商,這個(gè)方案其實(shí)也是Wasdata主推的,通過(guò)把Bluefield國(guó)產(chǎn)化的DPU安裝到GPU服務(wù)器中,將SDS控制程序放到遠(yuǎn)端,直接調(diào)取存儲(chǔ)的極限速度,去掉盡量多的數(shù)據(jù)路徑,實(shí)現(xiàn)數(shù)據(jù)的高速加載。
伴隨數(shù)據(jù)的遷移過(guò)程,未來(lái)數(shù)據(jù)智算中心將會(huì)越建越大。如果用戶(hù)自建的智算中心算力不足,可把共用的算力中心做數(shù)據(jù)的模型訓(xùn)練,但是這涉及數(shù)據(jù)安全與大量數(shù)據(jù)遷移的問(wèn)題。綠算技術(shù)提出數(shù)智魔方解決方案,通過(guò)1.2T的帶寬快速的將訓(xùn)練數(shù)據(jù)搬遷到數(shù)智魔方的設(shè)備上,拖動(dòng)設(shè)備快速的實(shí)現(xiàn)多地?cái)?shù)據(jù)的轉(zhuǎn)運(yùn)過(guò)程,適應(yīng)自有算力中心和公有算力中心匹配的方案。
廠商賦能計(jì)劃
綠算技術(shù)推出的廠商賦能計(jì)劃,包括兩個(gè)方面內(nèi)容。
一是高性能硬件整體解決方案的服務(wù)。通過(guò)提供全程硬件配置解決方案,從服務(wù)器、IO服務(wù)器到硬件設(shè)備,甚至包括設(shè)計(jì)PCIe結(jié)構(gòu);二是對(duì)于特殊的外形提供非標(biāo)硬件全程定制服務(wù),包括標(biāo)準(zhǔn)件的OEM以及PCB定制化的服務(wù)。
綠算技術(shù)認(rèn)為,要打破各廠商和行業(yè)之間的隔閡,應(yīng)該像數(shù)據(jù)與存儲(chǔ)大會(huì),把行業(yè)相關(guān)的企業(yè)聚集起來(lái),共同合作,打破壁壘,實(shí)現(xiàn)中國(guó)存儲(chǔ)、存力行業(yè)的發(fā)展,真正為國(guó)家做出貢獻(xiàn)。