11月29日,在DOIT傳媒主辦的“2023中國數(shù)據(jù)與存儲峰會”上,曙光存儲行業(yè)總監(jiān)李國君發(fā)表主題演講,詳述面向AI大模型的數(shù)據(jù)存儲解決方案,通過打造AI數(shù)據(jù)基礎(chǔ)設(shè)施,加速行業(yè)AI應(yīng)用落地。。
數(shù)據(jù)質(zhì)量高低決定大模型智能化程度
李國君指出,目前有一個值得關(guān)注的問題是,平時訓(xùn)練AI大模型,客戶首先想到的是需要極強的算力與先進的算法,往往忽略了訓(xùn)練數(shù)據(jù)的質(zhì)量。其實對大模型的智能化水平而言,數(shù)據(jù)的質(zhì)量非常重要。
可以說,數(shù)據(jù)質(zhì)量的好壞決定模型的智能化水平。良好的數(shù)據(jù)質(zhì)量,也成為了大模型進步的階梯。有這樣一組數(shù)據(jù),Meta公司的大模型LLaMA與OpenAI的GPT-3的數(shù)據(jù)對比,雖然參數(shù)量是不足后者的40%,但是OBQA測試得分卻更高。
大模型應(yīng)用開發(fā)的存儲三大訴求與對策
在以往的項目實踐中,作為安全高效管理高質(zhì)量數(shù)據(jù)的載體,也就是存儲系統(tǒng),也經(jīng)常被用戶忽視。缺乏好用易用的存儲系統(tǒng),導(dǎo)致花大量資金購置的AI算力基礎(chǔ)設(shè)施往往無法充分發(fā)揮優(yōu)勢,對于客戶來說ROI不高。。所以,在大模型的時代,存儲是一個非常重要的核心基礎(chǔ)設(shè)施。
基于過去項目中與大量進行AI應(yīng)用創(chuàng)新開發(fā)的用戶溝通交流以及在智算中心的大模型測試經(jīng)驗,曙光存儲也總結(jié)了一些大模型存儲遇到的挑戰(zhàn)。主要體現(xiàn)在以下三個方面:
一是超大規(guī)模數(shù)據(jù)預(yù)處理耗時長。在正式訓(xùn)練前,需要對海量多格式的原始數(shù)據(jù)進行歸類與預(yù)處理,甚至涉及數(shù)據(jù)在多套系統(tǒng)間進行搬遷,處理數(shù)據(jù)時間過長,會造成算力資源的浪費,對存儲的訴求就是需要一套能夠智能分級、異構(gòu)融合支持?jǐn)?shù)據(jù)全生命周期管理的存儲,降低數(shù)據(jù)在異構(gòu)存儲系統(tǒng)間傳輸?shù)某杀尽?/p>
二是在訓(xùn)練過程中的空載過高,配備的大量的GPU算力由于需要周期性地等待存儲系統(tǒng)處理數(shù)據(jù),導(dǎo)致算力不能充分投入AI計算流程中,原因是在訓(xùn)練時需要對語言數(shù)據(jù)進行檢索以及樣本數(shù)據(jù)快速的加載,同時,為防止任務(wù)異常退出,模型從初始狀態(tài)進行訓(xùn)練過程中也需要保存中間狀態(tài)數(shù)據(jù)、間隔幾個小時就要保存一次數(shù)據(jù),這個過程當(dāng)中需要寫入大量的文件。兩者疊加,對存儲的訴求就是讀延時低、寫數(shù)據(jù)快。
三是高質(zhì)量的數(shù)據(jù)。高質(zhì)量的數(shù)據(jù)往往不是公開的數(shù)據(jù),而是企業(yè)核心的生產(chǎn)數(shù)據(jù),這也在客觀上形成了企業(yè)客戶開發(fā)行業(yè)大模型及相關(guān)AI創(chuàng)新應(yīng)用的數(shù)據(jù)安全和規(guī)避風(fēng)險要求。但同時也需要存儲系統(tǒng)具備對這些隱私數(shù)據(jù)提供安全保護機制。
客戶在大模型及相關(guān)應(yīng)用開發(fā)過程中,遇到的涉及數(shù)據(jù)處理的上述痛點,歸根到底還是對企業(yè)級高性能存儲系統(tǒng)的訴求。
行業(yè)標(biāo)準(zhǔn)流程范式需求,企業(yè)級AI存儲解決方案訴求,其實就是預(yù)訓(xùn)練+微調(diào)的范式,它背后考驗的是后臺的大數(shù)據(jù)、服務(wù)質(zhì)量的要求。模型“預(yù)訓(xùn)練+微調(diào)”已經(jīng)成為行業(yè)統(tǒng)一的標(biāo)準(zhǔn)流程和范式。在此基礎(chǔ)上,結(jié)合具體的應(yīng)用場景和專業(yè)數(shù)據(jù),可以進一步定制和優(yōu)化各領(lǐng)域各行業(yè)的小模型。某種程度上,大模型訓(xùn)練數(shù)據(jù)和數(shù)據(jù)服務(wù)接口標(biāo)準(zhǔn),將會成為下一代國際標(biāo)準(zhǔn)的核心之一。
打造高效AI數(shù)據(jù)基礎(chǔ)設(shè)施
基于上述三點訴求,曙光存儲打造了高效的AI數(shù)據(jù)基礎(chǔ)設(shè)施底座。
該底座具有三大特性。
首先是異構(gòu)融合。通過一套存儲系統(tǒng)能夠保存視頻、圖片、多模態(tài)的數(shù)據(jù),并且以同一份數(shù)據(jù)支持文件、對象、大數(shù)據(jù)的并行訪問。
第二是極致性能。為了發(fā)揮GPU該有的效率,需要在訓(xùn)練前、訓(xùn)練中降低存儲處理的時延以及高吞吐量。曙光推出了三項技術(shù):1、多級緩存加速:基于自研BurstBuffer,最大化釋放本地NVMe介質(zhì)能力,達(dá)到百萬+IOPS能力。2、XDS數(shù)據(jù)加速:支持國內(nèi)主流與國外GPU的計算能力,把后端存儲的數(shù)據(jù)快速加入到芯片緩存中,實現(xiàn)基于DMA技術(shù)。3、智能高速選路:多路徑均衡優(yōu)化,選擇“最優(yōu)最短”路徑下發(fā)IO。
第三是高安全性,以存儲節(jié)點內(nèi)提供芯片級安全能力,支持芯片級的加解密的算法,提供安全可靠集群存儲服務(wù)。
李國君表示,為了實現(xiàn)這三大特性,曙光存儲在五個方面開展了細(xì)致的工作。
1.自研創(chuàng)新,激活算力
曙光存儲一直堅持自研創(chuàng)新,針對影響存儲性能的軟硬件兩大因素持續(xù)發(fā)力。
在硬件方面,曙光創(chuàng)新硬件支持PCIe5.0、DDR5以及CXL2.0的技術(shù),包括芯片內(nèi)置的加解密的算法,這些新技術(shù)、新特性為將來千億級、萬億級市場提供更多的性能優(yōu)化空間。在軟件方面,支持00Gb以太、200Gb IB等協(xié)議,支持各種容器化、虛擬化的資源池以及大模型的開發(fā)框架,加速行業(yè)AI應(yīng)用落地。
基于軟硬協(xié)同的方式,曙光存儲在一個數(shù)百TB的AI大模型的項目中得到這樣的實測性能結(jié)果,聚合帶寬達(dá)到900GBps、IOPS突破了3000萬的能力。
2.海量文件智能存儲與管理
大模型需要多模態(tài)的數(shù)據(jù),數(shù)據(jù)量大,規(guī)模大,增長快。在這個背景下,需要海量的數(shù)據(jù)的存儲和管理能力。
為此,曙光存儲從三個方面進行應(yīng)對。首先采用融合多協(xié)議,通過異構(gòu)數(shù)據(jù)融合,實現(xiàn)單集群支持多模態(tài),避免數(shù)據(jù)跨存儲系統(tǒng)復(fù)制;其次是千億級文件管理的能力。大模型的場景小文件非常多,采取多目錄分片索引集群,在存儲集群的物理節(jié)點上可以分更多的邏輯節(jié)點,提升數(shù)據(jù)處理的效率,減少目錄熱點問題;三是生命周期的管理,基于對熱點數(shù)據(jù)的智能分層,讓冷、溫、熱三層的資源之間進行互通,減少用戶使用存儲的成本。
3.面向AI的數(shù)據(jù)IO性能優(yōu)化
存儲永恒的追求就是提高IO性能。曙光存儲的對策就是采用更快的存儲介質(zhì)和節(jié)點,以及針對AI模型應(yīng)用相匹配的、基于軟件層面的調(diào)優(yōu)工作。
4.多級可靠,讓訓(xùn)練任務(wù)運行穩(wěn)定
曙光存儲始終認(rèn)為,只有企業(yè)級的產(chǎn)品和方案才能保證AI大模型運行過程中的安全穩(wěn)定運行。采用開源的產(chǎn)品,如果缺乏大規(guī)模的使用和維護的經(jīng)驗,一旦存儲遇到崩潰、數(shù)據(jù)不可訪問或者數(shù)據(jù)丟失的場景,將嚴(yán)重影響AI大模型開發(fā)的工作。曙光存儲支持基于部件級、節(jié)點級以及系統(tǒng)級和方案級四級安全可靠的機制,保證AI大模型開發(fā)過程當(dāng)中全生命周期的穩(wěn)定運行。
5.原生硬件安全,符合國內(nèi)政策和未來安全趨勢
安全問題是大模型開發(fā)過程中值得重點關(guān)注的環(huán)節(jié)。
曙光存儲充分發(fā)揮國產(chǎn)硬件處理器的原生安全能力,支持多樣化的加密機制,以硬件處理器內(nèi)置芯片級加解密算法以及豐富的國密指令級,相比軟件加密的方式性能提升50%以上,充分發(fā)揮了原生的硬件級的數(shù)據(jù)加密的保護方式。
推進國內(nèi)領(lǐng)先大模型建設(shè),加速行業(yè)AI應(yīng)用落地
在國內(nèi),一家領(lǐng)先的企業(yè)進行大模型開發(fā),系統(tǒng)中存儲有將近1TB的數(shù)據(jù)、上百臺AI算力設(shè)備。這家企業(yè)的要求是系統(tǒng)架構(gòu)簡潔,數(shù)據(jù)高效流轉(zhuǎn)支撐業(yè)務(wù)快速發(fā)展,能提供微秒級元數(shù)據(jù)訪問性能,提升訓(xùn)練效率,支持多類存儲協(xié)議(如POSIX、NAS、S3),提供高速訓(xùn)練存儲池同時,支持歷史CKPT數(shù)據(jù)利用對象存儲進行歸檔保存等。
應(yīng)用曙光存儲系統(tǒng)后,該企業(yè)新版本的大模型開發(fā)周期縮短了5天,實現(xiàn)了重要模型數(shù)據(jù)及開發(fā)日志等跨協(xié)議、跨數(shù)據(jù)中心安全歸檔;相比傳統(tǒng)SSD混閃文件存儲,分鐘級寫入3TB CKPT數(shù)據(jù),整體訓(xùn)練效率可提升50%以上,大大提高了模型開發(fā)的效率。
曙光存儲異構(gòu)融合,極致性能以及原生的安全來支撐大模型應(yīng)用的開發(fā),適用于各類企業(yè)級AI應(yīng)用開發(fā),助力行業(yè)AI大模型應(yīng)用更快一步。
未來,曙光存儲將繼續(xù)堅持自研創(chuàng)新,跟廣大行業(yè)解決方案伙伴一道攜手同行,為客戶提供更好、更安全可靠、更智能的存儲解決方案。