作為華為面向產(chǎn)業(yè)智能化推出的最新一代AI大模型,盤古5.5延續(xù) “不作詩(shī),只做事” 的理念,專注于解決實(shí)際產(chǎn)業(yè)問(wèn)題。涵蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、多模態(tài)、預(yù)測(cè)與科學(xué)計(jì)算五大基礎(chǔ)模型全面升級(jí)。其7180億參數(shù)的Ultra MoE架構(gòu)、世界模型、深度研究系統(tǒng)DeepDiver等創(chuàng)新,正推動(dòng)人工智能在工業(yè)、農(nóng)業(yè)、汽車、科研等領(lǐng)域的深度落地。

文字編輯|宋雨涵

1

技術(shù)突破

以五大基礎(chǔ)模型重構(gòu)AI能力邊界

新一代昇騰AI云服務(wù)打造算力基礎(chǔ)

隨著大模型訓(xùn)練與推理對(duì)算力需求呈現(xiàn)出爆炸式的增長(zhǎng)態(tài)勢(shì),傳統(tǒng)計(jì)算架構(gòu)在支撐AI技術(shù)實(shí)現(xiàn)代際跨越方面已顯得力不從心。華為云相關(guān)專家指出,傳統(tǒng)分布式系統(tǒng)本質(zhì)上屬于松耦合系統(tǒng),在多數(shù)應(yīng)用場(chǎng)景下,服務(wù)器之間借助25Gbps或100Gbps以太網(wǎng)帶寬即可滿足需求。

為滿足這些需求,云平臺(tái)必須借助新型超高性能網(wǎng)絡(luò),將大量GPU、CPU等多元算力緊密連接。同時(shí),需用“對(duì)等架構(gòu)”取代傳統(tǒng)的“主從架構(gòu)”,使多元算力能夠直接通信,無(wú)需再依賴CPU進(jìn)行中轉(zhuǎn)。這一能力,正是AI原生云基礎(chǔ)設(shè)施最為核心的關(guān)鍵能力。

華為云新一代昇騰AI云服務(wù)基于CloudMatrix 384超節(jié)點(diǎn)創(chuàng)新性地采用全新高速網(wǎng)絡(luò)MatrixLink,將384顆昇騰NPU與192顆鯤鵬CPU實(shí)現(xiàn)全對(duì)等互聯(lián),從而構(gòu)建出一臺(tái)超級(jí)“AI服務(wù)器”。在此架構(gòu)下,單卡推理吞吐量大幅提升至2300 Tokens/s,相較于非超節(jié)點(diǎn)架構(gòu),性能提升近4倍。

在面對(duì)萬(wàn)億、十萬(wàn)億參數(shù)級(jí)別的大模型訓(xùn)練任務(wù)時(shí),超節(jié)點(diǎn)架構(gòu)在云數(shù)據(jù)中心展現(xiàn)出強(qiáng)大的擴(kuò)展能力,可將432個(gè)超節(jié)點(diǎn)級(jí)聯(lián)起來(lái),構(gòu)建出最高可達(dá)16萬(wàn)卡的超大集群。此外,超節(jié)點(diǎn)還支持訓(xùn)練與推理算力的一體化部署,例如采用“日推夜訓(xùn)”的模式,實(shí)現(xiàn)訓(xùn)推算力的靈活分配,助力客戶實(shí)現(xiàn)資源的最優(yōu)利用。

目前,昇騰AI云服務(wù)已成功為科大訊飛、新浪、硅基流動(dòng)、面壁智能、中科院、360等超過(guò)1300家客戶提供強(qiáng)勁的AI算力支持。

基于國(guó)產(chǎn)算力,盤古大模型5.5全面升級(jí)

盤古大模型5.5首次實(shí)現(xiàn)自然語(yǔ)言處理(NLP)、計(jì)算機(jī)視覺(jué)(CV)、多模態(tài)、預(yù)測(cè)與科學(xué)計(jì)算五大領(lǐng)域的全棧升級(jí)

1、自然語(yǔ)言處理(NLP):

2、計(jì)算機(jī)視覺(jué)(CV)

300億參數(shù)視覺(jué)大模型:支持多維度泛視覺(jué)感知、分析和決策,構(gòu)建工業(yè)場(chǎng)景稀缺的泛視覺(jué)故障樣本庫(kù),提升業(yè)務(wù)場(chǎng)景的可識(shí)別種類與精度。

3、多模態(tài)

世界模型:為智能駕駛、具身智能機(jī)器人訓(xùn)練構(gòu)建數(shù)字物理空間,實(shí)現(xiàn)持續(xù)優(yōu)化迭代。例如在智能駕駛領(lǐng)域,可生成大量訓(xùn)練數(shù)據(jù),無(wú)需依賴高成本路采。

4、預(yù)測(cè):

Triplet Transformer 架構(gòu):將不同行業(yè)的數(shù)據(jù)進(jìn)行統(tǒng)一的三元組編碼和預(yù)訓(xùn)練,提升預(yù)測(cè)精度和跨行業(yè)、跨場(chǎng)景的泛化性。

5、科學(xué)計(jì)算:

AI集合預(yù)報(bào):例如深圳氣象局基于盤古大模型升級(jí)的“智霽”大模型,首次實(shí)現(xiàn) AI 集合預(yù)報(bào),能更直觀地反映天氣系統(tǒng)的演變可能性。

2

世界模型誕生

多模態(tài)能力跨越式突破

此次,盤古5.5在NLP領(lǐng)域主要有三大模型組成,即盤古Ultra MoE、盤古Pro MoE、盤古Embedding;以及快慢思考合一的高效推理策略、盤古深度研究產(chǎn)品DeepDiver。

盤古UltraMoE:超大規(guī)模與高效推理的融合

盤古UltraMoE具備超大規(guī)模與稀疏激活特性,擁有7180億參數(shù),采用256個(gè)路由專家,每個(gè)token激活8個(gè)專家,激活量達(dá)39億,實(shí)現(xiàn)了超大規(guī)模和高稀疏比的完美結(jié)合。

在架構(gòu)設(shè)計(jì)上,它引入了MLA(Multi-headLatentAttention)注意力機(jī)制,有效壓縮KVCache空間,緩解了推理階段的內(nèi)存帶寬瓶頸。同時(shí),采用MTP(Multi-TokenParallelism)多頭擴(kuò)展,通過(guò)單頭MTP訓(xùn)練后擴(kuò)展至多頭結(jié)構(gòu),實(shí)現(xiàn)多Token投機(jī)推理,加速了整體推理過(guò)程。

在訓(xùn)練技術(shù)方面,提出了Depth-ScaledSandwich-Norm(DSSN)穩(wěn)定架構(gòu)和TinyInit小初始化方法,解決了超大規(guī)模MoE模型訓(xùn)練過(guò)程中的穩(wěn)定性難題,實(shí)現(xiàn)了超過(guò)18TB數(shù)據(jù)的長(zhǎng)期穩(wěn)定訓(xùn)練。此外,采用EPgrouploss負(fù)載優(yōu)化方法,保證了各個(gè)專家之間較好的負(fù)載均衡,同時(shí)提升了專家的領(lǐng)域特化能力。訓(xùn)練策略上,使用Dropless訓(xùn)練策略,避免Drop&Pad訓(xùn)推不一致問(wèn)題,提升訓(xùn)練的數(shù)據(jù)效率;還采用迭代難例挖掘與多能力項(xiàng)均衡的獎(jiǎng)勵(lì)函數(shù),參考GRPO算法,提升了模型的訓(xùn)練效率與最終推理性能。

盤古ProMoE:創(chuàng)新架構(gòu)與卓越性能的典范

盤古ProMoE創(chuàng)新性地提出分組混合專家模型(MoGE),在專家選擇階段對(duì)專家進(jìn)行分組,并約束token在每個(gè)組內(nèi)激活等量專家,實(shí)現(xiàn)了專家負(fù)載均衡,顯著提升了模型在昇騰平臺(tái)的部署效率。

在推理性能上,表現(xiàn)十分出色。在昇騰300IDuo平臺(tái)上,單卡吞吐量可達(dá)201tokens/s,通過(guò)引入MTP解碼和多token優(yōu)化可進(jìn)一步提升至321tokens/s。在昇騰800IA2平臺(tái)上,低并發(fā)場(chǎng)景下可實(shí)現(xiàn)毫秒級(jí)響應(yīng),高并發(fā)條件下單卡吞吐量可達(dá)1148tokens/s,結(jié)合優(yōu)化后可提升至1528tokens/s,性能大幅領(lǐng)先于同等規(guī)模的稠密模型。

在推理能力方面,盤古ProMoE在跨語(yǔ)言多領(lǐng)域基準(zhǔn)測(cè)試中展現(xiàn)出色性能,涵蓋英語(yǔ)通用推理、閱讀理解、常識(shí)推理,邏輯推理中的代碼生成和中英雙語(yǔ)數(shù)學(xué)問(wèn)題,以及中文的知識(shí)問(wèn)答和閱讀理解等,全面驗(yàn)證了模型在復(fù)雜認(rèn)知任務(wù)上的通用性與領(lǐng)域適應(yīng)性。同時(shí),針對(duì)昇騰300IDuo和800IA2平臺(tái)進(jìn)行系統(tǒng)優(yōu)化,深度融合昇騰硬件加速架構(gòu)的并行計(jì)算特性與算子級(jí)編譯優(yōu)化技術(shù),實(shí)現(xiàn)了從算法設(shè)計(jì)到系統(tǒng)落地的全棧創(chuàng)新。

盤古Embedding:雙系統(tǒng)認(rèn)知架構(gòu)的智慧結(jié)晶

盤古Embedding采用雙系統(tǒng)認(rèn)知架構(gòu),集成“快思考”與“慢思考”雙推理模式。通過(guò)兩階段訓(xùn)練框架,第一階段通過(guò)迭代蒸餾和多源動(dòng)態(tài)獎(jiǎng)勵(lì)系統(tǒng)(MARS)構(gòu)建基礎(chǔ)推理器;第二階段賦予模型快慢思考能力,可根據(jù)任務(wù)難度自動(dòng)切換模式,實(shí)現(xiàn)推理效率與深度的動(dòng)態(tài)平衡。

在訓(xùn)練策略上,提出基于模型感知型迭代蒸餾的SFT方案,動(dòng)態(tài)選擇與模型當(dāng)前能力相匹配的數(shù)據(jù)樣本進(jìn)行訓(xùn)練,并通過(guò)訓(xùn)練過(guò)程中的模型合并策略保留早期知識(shí),持續(xù)提升性能。通過(guò)引入特定領(lǐng)域的長(zhǎng)思考數(shù)據(jù)繼續(xù)訓(xùn)練,可顯著提升模型在專業(yè)任務(wù)上的能力水平。例如在法律領(lǐng)域,經(jīng)過(guò)法律語(yǔ)料訓(xùn)練后,在LawBench基準(zhǔn)測(cè)試中的平均準(zhǔn)確率達(dá)到54.59%。模型還能夠根據(jù)任務(wù)的復(fù)雜程度自動(dòng)調(diào)整推理深度,在簡(jiǎn)單問(wèn)題上快速輸出答案,在復(fù)雜問(wèn)題上進(jìn)行深入分析,確保輸出的準(zhǔn)確性。

盤古DeepDiver:深度研究場(chǎng)景的得力助手

盤古DeepDiver針對(duì)深度研究場(chǎng)景,如科學(xué)助手、個(gè)性化教育以及復(fù)雜的行業(yè)報(bào)告調(diào)研等,能夠完成超過(guò)10跳的復(fù)雜問(wèn)答,并生成萬(wàn)字以上的專業(yè)調(diào)研報(bào)告。通過(guò)構(gòu)建大量的合成交互數(shù)據(jù),并采用漸進(jìn)式獎(jiǎng)勵(lì)策略進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,在開(kāi)放域信息獲取中表現(xiàn)出色,可在5分鐘內(nèi)完成復(fù)雜的任務(wù),生成高質(zhì)量的調(diào)研報(bào)告。同時(shí),顯著提升了盤古大模型的自主規(guī)劃、探索、反思等高階能力,使其在復(fù)雜任務(wù)處理中表現(xiàn)更加出色。

具身智能平臺(tái)

開(kāi)啟機(jī)器人新時(shí)代

本次大會(huì)的另一重磅發(fā)布是華為云推出的CloudRobo具身智能平臺(tái)。該平臺(tái)整合數(shù)據(jù)合成、模型訓(xùn)練、仿真驗(yàn)證、云邊協(xié)同部署等全流程能力,并發(fā)布三大核心模型:具身多模態(tài)生成、規(guī)劃與執(zhí)行大模型。

為破解機(jī)器人接口協(xié)議復(fù)雜、傳感器種類繁多等挑戰(zhàn),華為云同步推出R2C開(kāi)放協(xié)議(Robot to Cloud),推動(dòng)機(jī)器人與云平臺(tái)的標(biāo)準(zhǔn)化聯(lián)接。通過(guò)協(xié)同伙伴和行業(yè)組織,共建 “可連接、可調(diào)用、可成長(zhǎng)” 的具身智能新生態(tài)。

具身智能平臺(tái)的推出大幅降低了機(jī)器人開(kāi)發(fā)門檻。開(kāi)發(fā)者無(wú)需從零構(gòu)建基礎(chǔ)能力,可基于平臺(tái)統(tǒng)一技術(shù)??焖匍_(kāi)發(fā)行業(yè)專用機(jī)器人。這一布局顯示華為正從“云端智能”向“具身智能”拓展,構(gòu)建更完整的AI生態(tài)系統(tǒng)。

結(jié)語(yǔ):

盤古大模型5.5的問(wèn)世,彰顯了華為“扎根產(chǎn)業(yè),務(wù)實(shí)創(chuàng)新”的AI路徑。其秉持“不作詩(shī),只做事”理念,將7180億參數(shù)的Ultra MoE架構(gòu)、自適應(yīng)快慢思考及世界模型等落地應(yīng)用,把大模型從實(shí)驗(yàn)室變?yōu)楫a(chǎn)業(yè)升級(jí)引擎。此外隨著CloudRobo具身智能平臺(tái)和R2C開(kāi)放協(xié)議推出,華為AI版圖邁向“云端+具身智能”融合生態(tài)。此次華為開(kāi)發(fā)者大會(huì)是中國(guó)AI大模型自主研發(fā)能力的檢閱,標(biāo)志著AI進(jìn)入新階段,致力于改變世界。

分享到

lixiangjing

算力豹主編

相關(guān)推薦