在2025人工智能基礎(chǔ)設(shè)施峰會(huì)舉行期間,曙光存儲(chǔ)副總裁張新鳳接受DOIT記者采訪時(shí)表示,從大模型的訓(xùn)練到推理應(yīng)用的落地,AI領(lǐng)域?qū)Υ鎯?chǔ)的需求呈現(xiàn)出爆發(fā)式增長(zhǎng)且不斷變化的態(tài)勢(shì)。
早期,AI處于大模型訓(xùn)練階段,Checkpoint數(shù)據(jù)吞吐量極大。張新鳳提到:“以單卡為例,寫入帶寬可達(dá)2-5G,若處理視頻數(shù)據(jù),帶寬需求甚至高達(dá)7-8G。在千卡集群的情況下,對(duì)存儲(chǔ)帶寬的需求達(dá)到TB級(jí)。在NVMe全閃技術(shù)出現(xiàn)之前,傳統(tǒng)的HDD混閃方案一個(gè)節(jié)點(diǎn)僅能提供3-5GB的帶寬,要滿足TB級(jí)帶寬需求,不僅需要數(shù)百個(gè)節(jié)點(diǎn),還會(huì)帶來高昂的造價(jià)成本,同時(shí)機(jī)房空間占用和電費(fèi)等問題也接踵而至。這一階段,存儲(chǔ)性能成為制約AI發(fā)展的關(guān)鍵因素。”
隨著AI的發(fā)展,尤其是進(jìn)入2025年,推理應(yīng)用逐漸興起。張新鳳強(qiáng)調(diào):“推理應(yīng)用對(duì)存儲(chǔ)的要求與訓(xùn)練階段截然不同,其核心在于縮短推理tokens生成時(shí)間,或在一秒內(nèi)生成盡可能多的tokens,同時(shí)要保證生成tokens的質(zhì)量,避免出現(xiàn)AI幻覺等問題。這些新的需求促使存儲(chǔ)技術(shù)必須不斷創(chuàng)新和優(yōu)化?!?/p>
張新鳳分析道:“DeepSeek對(duì)算力要求的降低,從表面上看似乎會(huì)減少對(duì)存儲(chǔ)的短期需求,但實(shí)際上卻擴(kuò)大了AI的受眾范圍,使更多企業(yè)有可能成為AI客戶,這意味著AI基礎(chǔ)設(shè)施涉及的范圍更廣,從長(zhǎng)遠(yuǎn)來看對(duì)存儲(chǔ)市場(chǎng)是利好的。然而,從訓(xùn)練到推理的轉(zhuǎn)變,對(duì)存儲(chǔ)的訴求發(fā)生了很大變化,存儲(chǔ)能否適應(yīng)這些新需求成為關(guān)鍵問題?!?/p>
同時(shí),市場(chǎng)上出現(xiàn)了很多一體機(jī),存力和算力的需求從集中型數(shù)據(jù)中心發(fā)散到邊緣設(shè)備,產(chǎn)品多元化。張新鳳表示:“這對(duì)于企業(yè)級(jí)存儲(chǔ)來說,短期內(nèi)是利空的。另外,DeepSeek利用算法彌補(bǔ)硬件設(shè)施的缺失,使得一些企業(yè)無需采購(gòu)新硬件,這在短期內(nèi)也對(duì)存儲(chǔ)市場(chǎng)產(chǎn)生了一定的沖擊。但從長(zhǎng)期來看,新技術(shù)應(yīng)用成本與應(yīng)用規(guī)模打破臨界值后,會(huì)推動(dòng)大規(guī)模的基礎(chǔ)設(shè)施建設(shè),AI基礎(chǔ)設(shè)施仍將呈現(xiàn)集中與邊緣結(jié)合的方式,這為存儲(chǔ)市場(chǎng)帶來了新的機(jī)遇?!?/p>
全新升級(jí)AI存儲(chǔ)方案
曙光存儲(chǔ)ParaStor F9000專為AI訓(xùn)練場(chǎng)景量身打造,針對(duì)AI訓(xùn)練帶來的GPU利用率低、KV Cache、向量數(shù)據(jù)庫(kù)存儲(chǔ)和檢索性能低等問題,升級(jí)后的ParaStor可整機(jī)柜交付,提供千卡/萬卡/十萬卡集群整機(jī)柜交付方案,輕松容納DeepSeek-R1這樣千億級(jí)參數(shù)的大模型,部署時(shí)間縮短50%。
性能方面,ParaStor F9000更是表現(xiàn)卓越,擁有500萬IOPS的強(qiáng)大處理能力和190GB/s的高速帶寬。借助五級(jí)加速技術(shù)和秒級(jí)彈性擴(kuò)容功能,可將GPT- 4級(jí)別模型的訓(xùn)練周期從原本的3個(gè)月大幅縮短至1周,加速AI技能迭代。
大模型實(shí)時(shí)推理往往帶來每秒千萬級(jí)的并發(fā)請(qǐng)求,對(duì)存儲(chǔ)性能要求極高。FlashNexus集中式全閃存儲(chǔ)在AI推理領(lǐng)域樹立了新的性能標(biāo)桿,其32控配置可實(shí)現(xiàn)超3000萬IOPS的驚人性能,時(shí)延低至0.202ms,在SPC-1基準(zhǔn)評(píng)測(cè)中榮獲全球第一。
基于國(guó)內(nèi)最新芯片級(jí)研發(fā)成果,優(yōu)化從處理器芯片、RDMA網(wǎng)絡(luò)芯片、PCIe芯片、NVMe控制器芯片的端到端協(xié)議路徑。微控架構(gòu)建立無鎖化的數(shù)據(jù)IO“超級(jí)隧道”,將寫性能提升2倍以上。為AI推理的向量數(shù)據(jù)庫(kù)、KV Cache長(zhǎng)文本存儲(chǔ)提供了更優(yōu)方案。此外,高性能數(shù)據(jù)加密、完善的數(shù)據(jù)保護(hù)等技術(shù)為用戶最關(guān)鍵的私域核心數(shù)據(jù)資產(chǎn)提供全方位保護(hù)。
面對(duì)大模型實(shí)時(shí)推理需求,該產(chǎn)品可“零幀起手”支撐每秒百萬級(jí)并發(fā)需求;聚焦自動(dòng)駕駛決策實(shí)時(shí)性需求,可以毫秒級(jí)速度加載TB級(jí)路況數(shù)據(jù);針對(duì)金融客戶,可在高波動(dòng)市場(chǎng)環(huán)境下穩(wěn)定處理高頻量化交易數(shù)據(jù)流,讓交易更高效、安全。
升級(jí)后的ParaStor S6000系列,以1.44PB/框的超大容量和20%成本降低支撐千億參數(shù)歸檔。單框配置14塊NVMe盤和60塊SATA/SAS盤,通過冷熱數(shù)據(jù)分層技術(shù)和智能數(shù)據(jù)調(diào)度功能,實(shí)現(xiàn)動(dòng)態(tài)優(yōu)化存儲(chǔ)資源的分配、跨形態(tài)熱溫冷數(shù)據(jù)無感流動(dòng),提高存儲(chǔ)資源的利用率。
通過與2U2N全閃節(jié)點(diǎn)的統(tǒng)一管理和使用,利用系統(tǒng)間無縫數(shù)據(jù)遷移等技術(shù),顯著降低使用和運(yùn)維成本。
張新鳳介紹,第二代ParaStor全閃智存產(chǎn)品基于2U通用的NVMe全閃服務(wù)器構(gòu)建。
第一代產(chǎn)品推出時(shí),基于NVMe全閃技術(shù),已實(shí)現(xiàn)150GB的帶寬和320萬的IOPS,有效緩解了當(dāng)時(shí)AI大模型訓(xùn)練的存儲(chǔ)壓力。但隨著AI項(xiàng)目的推進(jìn),客戶對(duì)存儲(chǔ)帶寬的要求越來越高,幾乎沒有上限?;谕ㄓ糜布拇鎯?chǔ)平臺(tái)在發(fā)揮PCIe性能時(shí)遇到瓶頸,為了突破這些限制,曙光決定打造專用的存儲(chǔ)硬件平臺(tái)——F9000 2U2N。張新鳳詳細(xì)解釋道:“在這款硬件平臺(tái)中,2U的節(jié)點(diǎn)內(nèi)設(shè)置2個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)帶12塊盤,實(shí)現(xiàn)了每塊NVMe盤與CPU直通,極大地提升了性能,確保24塊盤的性能能夠充分發(fā)揮?!?/p>
在軟件方面,曙光針對(duì)AI訓(xùn)練和推理的特點(diǎn)進(jìn)行了多項(xiàng)優(yōu)化。訓(xùn)練時(shí),為解決GPU等待數(shù)據(jù)的問題,推出XDS技術(shù)(類似國(guó)外的GDS技術(shù))。張新鳳表示:“該技術(shù)不僅支持國(guó)外主流GPU,對(duì)國(guó)產(chǎn)加速卡也有很好的支持,能夠讓數(shù)據(jù)直通GPU的卡,使存儲(chǔ)節(jié)點(diǎn)的內(nèi)存占用直接降低80%,CPU利用率下降約一半,讓存儲(chǔ)節(jié)點(diǎn)能夠釋放更多資源處理其他業(yè)務(wù)負(fù)載?!蓖瑫r(shí),Burst Buffer技術(shù)也是一大亮點(diǎn)?!霸谔幚鞢heckpoint數(shù)據(jù)時(shí),先將數(shù)據(jù)寫到GPU本地節(jié)點(diǎn)的NVMe存儲(chǔ)介質(zhì)上,待空閑時(shí)再寫入存儲(chǔ),這樣縮短了數(shù)據(jù)寫入距離,性能提升了兩倍?!?/p>
在推理應(yīng)用方面,曙光針對(duì)訓(xùn)練tokens生成的關(guān)鍵需求,采用了KV Cache技術(shù),將更多的tokens緩存起來,以存代算,減少重新計(jì)算的時(shí)間。同時(shí),對(duì)向量數(shù)據(jù)庫(kù)進(jìn)行專用的性能優(yōu)化,提升了推理效率和生成結(jié)果的質(zhì)量。張新鳳透露:“目前,該產(chǎn)品的節(jié)點(diǎn)性能已提升至190GB帶寬和500萬IOPS,且未來還有進(jìn)一步提升的空間?!?/p>
在AI大模型的訓(xùn)練和推理場(chǎng)景中,曙光根據(jù)不同階段的需求,提供了靈活的方案組合。張新鳳介紹:“在訓(xùn)練和推理對(duì)性能要求極高的階段,通常采用分布式全閃方案,以滿足高并發(fā)帶寬和低延遲的需求。而在數(shù)據(jù)預(yù)處理和歸檔階段,由于數(shù)據(jù)量較大,如果全部采用全閃方案成本過高,此時(shí)曙光會(huì)推薦高密的混閃產(chǎn)品,利用大容量硬盤構(gòu)建存儲(chǔ)空間。對(duì)于數(shù)據(jù)量規(guī)模不是特別大的客戶,則推薦FlashNexus NVMe全閃盤陣,其具有延遲低、并發(fā)度高的特點(diǎn),不僅適用于金融的在線實(shí)時(shí)交易、醫(yī)療HIS系統(tǒng),也能很好地滿足AI推理需求。如果用戶之前在FlashNexus存儲(chǔ)了數(shù)據(jù),可直接基于這些數(shù)據(jù)進(jìn)行處理和推理分享,十分便捷?!?/p>
行業(yè)布局:AI存儲(chǔ),中國(guó)第一
曙光存儲(chǔ)自稱“最懂AI的存儲(chǔ)”,并非虛言。張新鳳介紹:“在訓(xùn)練階段,XDS和Burst Buffer技術(shù)有效解決了GPU空載等數(shù)據(jù)的問題,大幅提升了GPU利用率。以前GPU利用率僅30%-40%,采用曙光存儲(chǔ)技術(shù)后,利用率可達(dá)到70%-80%。對(duì)于大的訓(xùn)練中心來說,GPU造價(jià)高昂,減少等待時(shí)間能避免巨大的經(jīng)濟(jì)損失?!?/p>
在推理階段,曙光通過用戶處理私域的專業(yè)數(shù)據(jù),利用向量數(shù)據(jù)庫(kù)和KV Cache加速技術(shù),解決了推理中幻覺的問題,提高了生成tokens的效率和精度。曙光致力于打造AI全數(shù)據(jù)通道,從數(shù)據(jù)采集、加載、預(yù)處理、訓(xùn)練、推理到歸檔,都能在其存儲(chǔ)系統(tǒng)上完成。在不同階段,根據(jù)不同的協(xié)議和接口要求,以及數(shù)據(jù)存儲(chǔ)的不同介質(zhì)和區(qū)域,曙光都能提供完整的支持。
在產(chǎn)品布局上,曙光存儲(chǔ)圍繞AI進(jìn)行全面規(guī)劃。分布式存儲(chǔ)方面,無論是硬件還是軟件,都緊密圍繞AI存儲(chǔ)需求進(jìn)行快速適配調(diào)整,重點(diǎn)關(guān)注自動(dòng)駕駛、具身智能、計(jì)算中心等典型的AI產(chǎn)出大戶。同時(shí),曙光也在集中式存儲(chǔ)領(lǐng)域發(fā)力。張新鳳解釋:“一方面,分布式和集中式存儲(chǔ)在底層技術(shù)上有相通之處,特別是在NVMe協(xié)議的應(yīng)用上;另一方面,客戶對(duì)高性能集中式存儲(chǔ)的需求強(qiáng)烈,而目前國(guó)內(nèi)市場(chǎng)上可選的優(yōu)質(zhì)產(chǎn)品較少。曙光在兩年前進(jìn)行了NVMe全閃布局,去年推出一款產(chǎn)品,今年將對(duì)產(chǎn)品進(jìn)行多次迭代更新,未來兩年還會(huì)有更多新產(chǎn)品推出,致力于打造最高端的集中式NVMe全閃產(chǎn)品,服務(wù)關(guān)鍵行業(yè)和應(yīng)用場(chǎng)景。”
張新鳳介紹,為國(guó)內(nèi)一家新勢(shì)力企業(yè)構(gòu)建底層存力平臺(tái)時(shí),面臨著諸多挑戰(zhàn)。該企業(yè)有100多輛路測(cè)車,每天采集2-4TB的數(shù)據(jù),這些數(shù)據(jù)采集后需匯總到存儲(chǔ)平臺(tái)進(jìn)行清洗、標(biāo)注、去敏感信息,然后用于算法迭代訓(xùn)練,訓(xùn)練結(jié)果和部分?jǐn)?shù)據(jù)還需長(zhǎng)期存儲(chǔ)。
在數(shù)據(jù)處理過程中,不同階段使用不同的協(xié)議,采集階段使用S3協(xié)議,標(biāo)注處理時(shí)用NAS協(xié)議,算法訓(xùn)練用POSIX協(xié)議,歸檔到云時(shí)又用S3協(xié)議。張新鳳感慨道:“要確保數(shù)據(jù)在不同協(xié)議之間轉(zhuǎn)換時(shí)性能無損且高級(jí)功能可用,難度極大。此外,自動(dòng)駕駛數(shù)據(jù)涉及大量敏感信息,權(quán)限控制嚴(yán)格?!笔锕忉槍?duì)這些問題,進(jìn)行了大量專門的權(quán)限管理設(shè)計(jì),為客戶提供了高性能且方便易用的存儲(chǔ)解決方案,這也是眾多客戶長(zhǎng)期與曙光合作的重要原因。
此外,曙光存儲(chǔ)還關(guān)注低空經(jīng)濟(jì)、生物信息等領(lǐng)域。張新鳳介紹:“低空經(jīng)濟(jì)中,衛(wèi)星和無人機(jī)等采集設(shè)備產(chǎn)生大量數(shù)據(jù),曙光在該領(lǐng)域已有很多百PB的案例落地。生物信息領(lǐng)域,基因測(cè)序和冷凍電鏡等前端采集設(shè)備生成具有高科研價(jià)值的數(shù)據(jù),對(duì)存儲(chǔ)性能要求較高,曙光幫助科研單位打通不同客戶之間的數(shù)據(jù)共享問題,其在AI領(lǐng)域積累的數(shù)據(jù)流動(dòng)和存儲(chǔ)技術(shù)也適用于該領(lǐng)域。同時(shí),曙光還在打造視頻存力平臺(tái)、交通存力平臺(tái)等,聚焦具體應(yīng)用場(chǎng)景,滿足不同行業(yè)的差異化需求?!?/p>
結(jié)語
展望未來,曙光存儲(chǔ)充滿信心。張新鳳說道:“隨著AI技術(shù)的不斷發(fā)展,AI基礎(chǔ)設(shè)施將呈現(xiàn)集中與邊緣結(jié)合的模式,大規(guī)模的集中訓(xùn)練和遍地開花的推理集群將成為主流場(chǎng)景。曙光已經(jīng)為國(guó)內(nèi)很多萬卡集群提供支持,今年年底還將打造十萬卡的集群。在這個(gè)過程中,曙光的技術(shù)也在不斷進(jìn)化,以滿足AI發(fā)展的需求?!?/p>
曙光存儲(chǔ)將繼續(xù)圍繞AI進(jìn)行產(chǎn)品研發(fā)和優(yōu)化,不斷提升存儲(chǔ)性能,降低成本,拓展應(yīng)用領(lǐng)域。張新鳳最后表示:“同時(shí),也希望通過自身的努力,推動(dòng)整個(gè)存儲(chǔ)行業(yè)的發(fā)展,在AI時(shí)代的存儲(chǔ)領(lǐng)域發(fā)揮更大的作用,為千行百業(yè)的數(shù)字化轉(zhuǎn)型提供堅(jiān)實(shí)的存儲(chǔ)支撐。”