為什么要面向萬(wàn)卡AI集群?背景是這兩年整體的趨勢(shì)都是AI。
AI場(chǎng)景的存儲(chǔ)需求與挑戰(zhàn)
首先,這兩年一個(gè)主體的背景,更多我們關(guān)心的就是先進(jìn)存力的建設(shè)。一個(gè)是國(guó)家近兩年制定了一系列宏觀政策,千億AI基礎(chǔ)設(shè)施的發(fā)展,一個(gè)就是工信部的180號(hào)文件,存儲(chǔ)總量超過(guò)1800EB,先進(jìn)存儲(chǔ)容量達(dá)到30%以上。而在重點(diǎn)行業(yè)重點(diǎn)數(shù)據(jù)覆蓋率達(dá)到百分之百。另一個(gè)制造行業(yè)正在促進(jìn)整個(gè)先進(jìn)存力的快速發(fā)展,美國(guó)大概是1.1TB/GFlops,中國(guó)0.42,中國(guó)的存力相對(duì)不足,存在重算力輕存力。當(dāng)前先進(jìn)存力占比24%,智算先進(jìn)存力要求30%,所以未來(lái)幾年先進(jìn)存力應(yīng)該會(huì)有長(zhǎng)足的發(fā)展。
接下來(lái)從兩個(gè)視角,宏觀視角和微觀視角和大家聊一下AI和存儲(chǔ)的關(guān)系。
宏觀視角,典型的大模型訓(xùn)練由訓(xùn)到全流程中各階段對(duì)于針對(duì)存儲(chǔ)語(yǔ)義存在多樣性。不管人工智能、機(jī)器學(xué)習(xí),技術(shù)正在推動(dòng)存儲(chǔ)系統(tǒng)既有能力的提升,推動(dòng)了整個(gè)底層技術(shù)的革新。左圖是對(duì)大模型各環(huán)節(jié)對(duì)存儲(chǔ)系統(tǒng)的需求拆解,數(shù)據(jù)存儲(chǔ)處理、模型開(kāi)發(fā)、訓(xùn)練、推理基本抽象出來(lái)更大的容量,更大的吞吐,更高的性能。這里面我們總結(jié)大概跟傳統(tǒng)的存儲(chǔ)性能相比,存在有變化性和不變性,不變性并沒(méi)有新的存儲(chǔ)方式新需求出來(lái),依然以文件對(duì)象形態(tài)為主。變動(dòng)性,數(shù)據(jù)靈活流動(dòng),需要消除數(shù)據(jù)煙囪式的變化。
二是AI的出現(xiàn),數(shù)據(jù)集在持續(xù)增長(zhǎng),首先也是存在兩點(diǎn)變動(dòng)性,多模態(tài)趨勢(shì)下使數(shù)據(jù)規(guī)模大幅增長(zhǎng),依然是驅(qū)動(dòng)存儲(chǔ)技術(shù)的革新。從微觀視角看一下AI與存儲(chǔ),我們完全從技術(shù)角度做一下分析。
其實(shí)存儲(chǔ)系統(tǒng)性能直接關(guān)乎著GPU的使用率和整個(gè)智算,整個(gè)AI大模型整體效率和成本直接相關(guān)。第二,存在復(fù)雜的混合讀寫(xiě)模式,性能要求非常高,所以說(shuō)我們分別針對(duì)高性能存儲(chǔ)對(duì)MSSU的重要意義做了兩點(diǎn)變動(dòng)性的考慮,一個(gè)就是目前軟硬結(jié)合的性能優(yōu)化,需要突破馮諾伊曼架構(gòu)下的數(shù)據(jù)流動(dòng)的瓶頸。第二個(gè)就是性能的超高彈性,比如說(shuō)Checkpoint等階段,另一個(gè)大模型各環(huán)節(jié)典型的有各種不同的I/O模型、模式、包括數(shù)據(jù)準(zhǔn)備、訓(xùn)練、推理階段包括各種各樣的隨機(jī)讀寫(xiě)、大小I/O、順序讀寫(xiě),就是各種模型在AI智算各個(gè)環(huán)節(jié)都是混合的。所以說(shuō)它存在兩種變動(dòng)性,一個(gè)就是多種模式混合的情況下,我們?nèi)绾稳ス?jié)省資源流轉(zhuǎn),做更好的資源調(diào)度。第二,訓(xùn)推核心模式下我們?nèi)绾稳ソ档脱訒r(shí)提高吞吐?
所以總結(jié)下來(lái),需求和挑戰(zhàn),整個(gè)AI智算需要更大的容量,也就是說(shuō)每年據(jù)Gartner分析每年需要50%的高速增長(zhǎng),需要超大容量存儲(chǔ)空間,單個(gè)大模型的訓(xùn)練數(shù)據(jù)可達(dá)PB級(jí),存儲(chǔ)服務(wù)需要具備良好的擴(kuò)展服務(wù)能力。需要更高性能,AI場(chǎng)景中需處理千億級(jí)別的小文件,需要文件存儲(chǔ)系統(tǒng)提供十萬(wàn)級(jí)IOPS能力。為保證斷點(diǎn)續(xù)訓(xùn),需讀寫(xiě)TB級(jí)CKPT文件,要求文件存儲(chǔ)系統(tǒng)具備百GB以上帶寬。需要更低成本,AI項(xiàng)目需要處理和存儲(chǔ)大量數(shù)據(jù),存儲(chǔ)成本是重要考慮因素。AI場(chǎng)景下數(shù)據(jù)會(huì)有明確的冷熱轉(zhuǎn)換,需要提高數(shù)據(jù)管理效率、優(yōu)化,需要更多協(xié)議,AI平臺(tái)需要與多種工具、技術(shù)及上層業(yè)務(wù)集成,AI項(xiàng)目在數(shù)據(jù)采集、處理、訓(xùn)練、驗(yàn)證、發(fā)布過(guò)程中亦涉及多種訪問(wèn)協(xié)議,存儲(chǔ)系統(tǒng)需要融合存儲(chǔ)能力。
移動(dòng)云文件存儲(chǔ)面向AI解決方案
這是我們面向AI場(chǎng)景去設(shè)計(jì)的一個(gè)高性能文件存儲(chǔ)的方案,首先我們分了四層,分別是計(jì)算資源層、接入?yún)f(xié)議層、存儲(chǔ)能力層、高性能的原數(shù)據(jù)層和高性能的數(shù)據(jù)層。
接口協(xié)議層:對(duì)外提供POSIX、NFS、CIFS、S3的訪問(wèn)接口,支持1000+計(jì)算客戶端,負(fù)責(zé)文件語(yǔ)義解析以及對(duì)象語(yǔ)義到文件語(yǔ)義的轉(zhuǎn)換。
存儲(chǔ)能力層:作為存儲(chǔ)集群的核心模塊,負(fù)責(zé)文件切片、多池納管、冷熱分層、文件分池治理、IO分流、小IO聚合等一系列核心存儲(chǔ)能力實(shí)現(xiàn)。
高性能元數(shù)據(jù)引擎:利用高性能分布式鍵值存儲(chǔ)維護(hù)文件和目錄的樹(shù)狀視圖,實(shí)現(xiàn)元數(shù)據(jù)的動(dòng)態(tài)分片管理、全局負(fù)載均衡。
全閃高性能數(shù)據(jù)引擎:負(fù)責(zé)隨機(jī)寫(xiě)到順序?qū)憻o(wú)損語(yǔ)義轉(zhuǎn)換,高效管理數(shù)據(jù)索引,同時(shí)支持TCP和RDMA,支持副本和糾刪碼間的無(wú)感數(shù)據(jù)流動(dòng)。
分別介紹一下整個(gè)架構(gòu)里面具體的幾點(diǎn)功能實(shí)現(xiàn)。
第一,我們提供統(tǒng)一命名空間與冷熱分級(jí)。我們通過(guò)左圖跨池統(tǒng)一命名空間設(shè)計(jì),可以做到PB級(jí)文件系統(tǒng)的彈性擴(kuò)展。第二根據(jù)支持用戶自定義的存儲(chǔ)優(yōu)先級(jí),滿足不同場(chǎng)景的存儲(chǔ)需求。右圖是數(shù)據(jù)流轉(zhuǎn)模式,在read/write有冷池、熱池和溫池,因?yàn)橹С諥I全流程數(shù)據(jù)生命周期的管理,可以優(yōu)化存儲(chǔ)成本,提高存儲(chǔ)效率,同樣也是支持自定義的流轉(zhuǎn)規(guī)則,做到數(shù)據(jù)遷移過(guò)程中使業(yè)務(wù)無(wú)感。
第二,智能緩存加速與IO智能流轉(zhuǎn)。
左邊是緩存是在多協(xié)議網(wǎng)關(guān)與數(shù)據(jù)存儲(chǔ)和原數(shù)據(jù)存儲(chǔ)之間假設(shè)了一層分布式緩存能力,通過(guò)全閃緩存加速,使用SPDK無(wú)鎖隊(duì)列、RDMA網(wǎng)絡(luò)卸載技術(shù),避免了進(jìn)程上下文切換、鎖搶占問(wèn)題,加速全鏈路IO。構(gòu)建內(nèi)存、SSD的多層緩存機(jī)制,逐層對(duì)IO進(jìn)行聚合加速,全面提升系統(tǒng)IO性能,單PB提供近百萬(wàn) IOPS、近百GB/s帶寬能力。
另一個(gè)數(shù)據(jù)跨池分布、大小IO分流。多副本的能力,EC的能力,因?yàn)镋C更適合處理一些大的文件,或者大的IO,具有一些低成本的優(yōu)勢(shì),三副本在一些小IO小文件上,性能是提升比較明顯的,所以說(shuō)我們針對(duì)這個(gè)做了一些數(shù)據(jù)跨池分布,大小IO分流處理,在保證集群性能的前提下,壓縮20%存儲(chǔ)成本。
第三,統(tǒng)一數(shù)據(jù)底座與多協(xié)議互通能力。左邊就是數(shù)據(jù)底座和多協(xié)議互通基本架構(gòu),首先數(shù)據(jù)通路從下到上分別是TAIHU、通用語(yǔ)義層、網(wǎng)關(guān)層。傳統(tǒng)解決方案從數(shù)據(jù)采集到模型發(fā)布、推理,面臨多次數(shù)據(jù)拷貝和流轉(zhuǎn),一份數(shù)據(jù)存儲(chǔ)效率低,流轉(zhuǎn)效率低,工具語(yǔ)義較為割裂,使用體驗(yàn)比較差。通過(guò)TAIHU解決方案,我們可以做到數(shù)據(jù)全池互通,消除數(shù)據(jù)的煙囪式分布,提高整個(gè)訓(xùn)推效率。
性能收益與應(yīng)用場(chǎng)景
性能收益上還是針對(duì)整個(gè)大模型AI處理,做一下各階段的分析。首先是針對(duì)數(shù)據(jù)歸集和預(yù)處理上面,因?yàn)閭鹘y(tǒng)的煙囪式的存儲(chǔ)解決方案處理時(shí)間較長(zhǎng),數(shù)據(jù)歸集、數(shù)據(jù)較為分散,我們針對(duì)此用智能數(shù)據(jù)流動(dòng)能力可以進(jìn)行快速的數(shù)據(jù)加載,高效存儲(chǔ)、高效流轉(zhuǎn),整體大概縮短35%的準(zhǔn)備時(shí)長(zhǎng)。
模型訓(xùn)練階段,因?yàn)槟P陀?xùn)練最重要的還是Checkpoink和恢復(fù)階段,這兩個(gè)CPU并不能完全使用,而浪費(fèi)算力。我們用我們提供的極致的讀寫(xiě)能力,高IOPS和并行大帶寬,大概提升整個(gè)GPU利用率近45%以上。
整個(gè)訓(xùn)推過(guò)程中,算力或者算力集群存在著穩(wěn)定性比較差的情況,就存在數(shù)據(jù)中斷,所以由此我們也是做到了多級(jí)故障隔離,業(yè)務(wù)持續(xù)化在線,完全可靠。
綜上,高性能文件存儲(chǔ)基于對(duì)智算全流程需求分析,針對(duì)痛點(diǎn)全面優(yōu)化,高效支撐萬(wàn)卡集群的大模型訓(xùn)練,使訓(xùn)練時(shí)長(zhǎng)降低20%以上,GPU利用率提升近15%。
應(yīng)用場(chǎng)景:人工智駕需要高吞吐量和低延遲加速自動(dòng)駕駛模型訓(xùn)練,提升數(shù)據(jù)處理速度,確保車輛具備實(shí)時(shí)決策能力,增強(qiáng)安全性與行駛效率。
高性能計(jì)算:基因測(cè)序,單個(gè)文件掛載點(diǎn)可承載數(shù)億小文件,實(shí)現(xiàn)跨區(qū)域、跨租戶數(shù)據(jù)共享,滿足海量基因數(shù)據(jù)高效處理的高帶寬需求。媒體娛樂(lè):影視渲染,按需按時(shí)計(jì)費(fèi),多維付費(fèi)模式:優(yōu)化調(diào)度效率,按需供給資源,大幅降低成本。
高性能共享服務(wù)能力:提供超高帶寬、百萬(wàn)級(jí)IOPS的高性能存儲(chǔ),支持千余客戶端并發(fā),渲染時(shí)長(zhǎng)降低70%,業(yè)務(wù)量增長(zhǎng)近3倍,經(jīng)濟(jì)效益提升近3倍。
我們針對(duì)面向AI萬(wàn)卡集群的高性能文件存儲(chǔ)可提供大容量、高吞吐、低時(shí)延、多協(xié)議訪問(wèn)能力,支持高性能計(jì)算、人工智能及媒體娛樂(lè)等多種應(yīng)用場(chǎng)景,全方位滿足各行業(yè)多元化需求。
(以上內(nèi)容根據(jù)速記整理,未經(jīng)本人審定)