▲CloudMatrix384超級(jí)節(jié)點(diǎn)的點(diǎn)對(duì)點(diǎn)硬件架構(gòu)
零距離通信:UB網(wǎng)絡(luò)提供392GB/s/芯片的跨節(jié)點(diǎn)帶寬,跨節(jié)點(diǎn)通信效率損耗不足3%,將傳統(tǒng)集群的”孤島式計(jì)算”升級(jí)為邏輯統(tǒng)一的超級(jí)節(jié)點(diǎn);
異構(gòu)資源池化:CPU內(nèi)存、NPU顯存與SSD存儲(chǔ)通過UB網(wǎng)絡(luò)形成統(tǒng)一資源池,KV緩存訪問延遲降低86%,有效支撐百萬級(jí)Token長上下文處理;
彈性擴(kuò)展能力:支持從32路到320路的專家并行度動(dòng)態(tài)調(diào)整,單芯片專家獨(dú)占模式使MoE層延遲壓縮至傳統(tǒng)方案的1/3。
▲華為CloudMatrix架構(gòu)愿景概述
CloudMatrix-Infer:LLM服務(wù)的新范式
此外為了充分發(fā)揮CloudMatrix384的潛力,華為提出了CloudMatrix-Infer,這是一個(gè)全面的LLM服務(wù)解決方案。CloudMatrix-Infer采用了去中心化的服務(wù)架構(gòu),將LLM推理系統(tǒng)分解為預(yù)填充(prefill)、解碼(decode)和緩存(caching)三個(gè)獨(dú)立的子系統(tǒng)。這種設(shè)計(jì)不僅簡化了任務(wù)調(diào)度,還提高了緩存效率,優(yōu)化了資源利用率。
2
性能實(shí)測:
雙指標(biāo)超越英偉達(dá),低延遲場景優(yōu)勢顯著
對(duì)DeepSeek-R1模型的廣泛評(píng)估表明,CloudMatrix-Infer實(shí)現(xiàn)了卓越的吞吐量。
其在預(yù)填充階段為每個(gè)NPU提供6688tokens/s,在解碼期間為每個(gè)NPU提供1943tokens/s,同時(shí)始終保持每個(gè)輸出token低于50ms的低延遲。這些結(jié)果對(duì)應(yīng)的計(jì)算效率為:預(yù)填充階段計(jì)算效率達(dá)4.45 tokens/s/TFLOPS,解碼階段1.29 tokens/s/TFLOPS,這兩者都超過了NVIDIA H100上的SGLang和H800上的DeepSeek等領(lǐng)先框架的公布效率。
此外,CloudMatrix-Infer有效地管理了吞吐量-延遲的權(quán)衡,即使在更嚴(yán)格的低于15ms的TPOT約束下,也能夠維持538tokens/s的吞吐量。
INT8量化策略在各種基準(zhǔn)測試中進(jìn)一步保持了與DeepSeek的官方API相當(dāng)?shù)臏?zhǔn)確性。
在6710億參數(shù)DeepSeek-R1 MoE模型測試中,CloudMatrix384展現(xiàn)壓倒性優(yōu)勢:
指標(biāo) | CloudMatrix384 | NVIDIA H800 | 優(yōu)勢幅度 |
預(yù)填充吞吐量 | 6,688 tokens/s/芯片 | 約5,060 tokens/s/芯片 | +32% |
解碼能效 | 1.29 tokens/TFLOPS | 0.98 tokens/TFLOPS | +32% |
15ms延遲下吞吐量 | 538 tokens/s | <400 tokens/s | >34% |
實(shí)踐落地六大優(yōu)勢:
重構(gòu)AI算力架構(gòu)的關(guān)鍵所在
目前,基于CloudMatrix的超節(jié)點(diǎn)集群已經(jīng)在蕪湖、貴安、內(nèi)蒙規(guī)模上線,其六大技術(shù)創(chuàng)新點(diǎn)更是為AI算力架構(gòu)的重構(gòu)注入了強(qiáng)大動(dòng)力。
在5月16日的華為云AI峰會(huì)上,華為云副總裁黃瑾在峰會(huì)上發(fā)表了主題演講,深入介紹了CloudMatrix 384超節(jié)點(diǎn)的技術(shù)優(yōu)勢與細(xì)節(jié)。黃瑾在演講中指出,隨著大模型訓(xùn)練和推理對(duì)算力需求的爆炸式增長,傳統(tǒng)計(jì)算架構(gòu)已難以支撐AI技術(shù)的代際躍遷。在此背景下,華為云推出的CloudMatrix 384超節(jié)點(diǎn)架構(gòu)應(yīng)運(yùn)而生,它不僅是技術(shù)的突破,更是以工程化創(chuàng)新開辟了AI產(chǎn)業(yè)的新路徑。CloudMatrix 384超節(jié)點(diǎn)具備六大領(lǐng)先技術(shù)優(yōu)勢,包括MoE親和、以網(wǎng)強(qiáng)算、以存強(qiáng)算、長穩(wěn)可靠、朝推夜訓(xùn)以及即開即用。這些優(yōu)勢共同構(gòu)成了新一代AI基礎(chǔ)設(shè)施的核心競爭力,重新定義了AI基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)。
▲華為副總裁黃瑾
MoE親和架構(gòu):從“小作坊”到“超級(jí)工廠”
在傳統(tǒng)架構(gòu)下,MoE模型訓(xùn)練容易因通信延遲導(dǎo)致算力浪費(fèi),而CloudMatrix 384超節(jié)點(diǎn)的分布式推理平臺(tái)專為MoE大模型而生。對(duì)比一卡多專家的“小作坊模式”,超節(jié)點(diǎn)更像“大工廠模式”,通過高速互聯(lián)總線,能夠?qū)崿F(xiàn)一卡一專家高效分布式推理,單卡的MoE計(jì)算和通信效率都大幅提升。這一優(yōu)勢使得政務(wù)、零售、醫(yī)療、保險(xiǎn)、制造、礦山、旅游等各行各業(yè)的客戶,能夠基于華為云昇騰AI云服務(wù)部署DeepSeek模型的創(chuàng)新應(yīng)用,在智能助手、智能客服、互聯(lián)網(wǎng)搜索、內(nèi)容創(chuàng)作等各種場景落地。
以網(wǎng)強(qiáng)算:雙層網(wǎng)絡(luò)破解“數(shù)據(jù)堵車”
當(dāng)AI算力走向規(guī)?;渴?,如何由點(diǎn)及面地激活算力矩陣的共振效應(yīng)成為關(guān)鍵。CloudMatrix 384構(gòu)建了AI專屬高架橋,通過MatrixLink服務(wù)將單層網(wǎng)絡(luò)升級(jí)為兩層高速網(wǎng)絡(luò)。一層是超節(jié)點(diǎn)內(nèi)部的ScaleUp總線網(wǎng)絡(luò),確保超節(jié)點(diǎn)內(nèi)384卡全對(duì)等高速無阻塞互聯(lián),卡間超大帶寬2.8T,納秒級(jí)時(shí)延;另一層是跨超節(jié)點(diǎn)間的ScaleOut網(wǎng)絡(luò),可支持微秒級(jí)時(shí)延,資源彈性擴(kuò)展;同時(shí),基于全局拓?fù)涓兄闹悄苷{(diào)度算法,保障客戶任務(wù)長穩(wěn)運(yùn)行。這一雙層網(wǎng)絡(luò)架構(gòu)有效破解了“數(shù)據(jù)堵車”問題,提升了算力的整體效能。
以存強(qiáng)算:彈性內(nèi)存改寫“算存綁定”
華為云首創(chuàng)的EMS彈性內(nèi)存存儲(chǔ),打破了傳統(tǒng)GPU算力與顯存綁定的關(guān)鍵障礙,通過內(nèi)存池化技術(shù),實(shí)現(xiàn)顯存和算力解綁。一方面,用EMS替代NPU中的顯存,可使得首Token時(shí)延降低,最高降幅可達(dá)80%;另一方面,當(dāng)NPU的顯存不足時(shí),EMS獨(dú)立擴(kuò)容,不必再通過堆NPU以獲得更多內(nèi)存。同時(shí),EMS還支持算力卸載,使得系統(tǒng)吞吐量提升,有的場景達(dá)100%的提升。這一技術(shù)創(chuàng)新大幅提升了資源利用率、性能和吞吐量,為AI大模型的訓(xùn)練和推理提供了更加高效的存儲(chǔ)支持。
長穩(wěn)可靠:故障自愈的“AI醫(yī)生”
隨著模型訓(xùn)練需求的不斷接入,大集群的運(yùn)維難度大、復(fù)雜性高的問題日益凸顯。華為云開發(fā)了昇騰云腦運(yùn)維“1-3-10”標(biāo)準(zhǔn),即1分鐘感知、3分鐘定界、10分鐘內(nèi)恢復(fù)。通過5層壓測、靜默故障感知技術(shù),昇騰云腦可將硬件故障感知率從40%提升至90%。同時(shí),覆蓋計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、軟件四大種類故障模式庫也打通了全棧故障場景,這一全棧故障知識(shí)庫能夠覆蓋95%常見問題以實(shí)現(xiàn)故障快速定界;在恢復(fù)機(jī)制上,3層快恢技術(shù)、快速建鏈技術(shù)、圖編譯緩存等技術(shù)能夠?qū)崿F(xiàn)萬卡故障快速恢復(fù)。這一故障自愈能力為AI大模型的穩(wěn)定訓(xùn)練提供了有力保障。
朝推夜訓(xùn):算力資源“錯(cuò)峰用電”
在大模型訓(xùn)練中,提升算力利用率,避免算力閑置是企業(yè)關(guān)心的重點(diǎn)之一。CloudMatrix 384超節(jié)點(diǎn)通過“訓(xùn)推共池”“靈活調(diào)度”兩大關(guān)鍵技術(shù)實(shí)現(xiàn)朝推夜訓(xùn),白天進(jìn)行模型推理,晚上閑時(shí)進(jìn)行模型訓(xùn)練,算力資源利用率可提升30%以上。這一“錯(cuò)峰用電”模式不僅提高了算力資源的利用率,還降低了企業(yè)的運(yùn)營成本。
即開即用:“算力水電”普惠模式
為助力客戶更好地專注業(yè)務(wù)模型開發(fā),華為云已經(jīng)在全國三大樞紐數(shù)據(jù)中心——烏蘭察布、貴安和蕪湖完成了超節(jié)點(diǎn)規(guī)模布局,支持百TB級(jí)的帶寬互聯(lián),10毫秒時(shí)延圈覆蓋全國19個(gè)城市群,讓客戶能夠第一時(shí)間享受到即開即用的AI算力資源。同時(shí),華為云擁有專業(yè)的超節(jié)點(diǎn)運(yùn)維團(tuán)隊(duì),在為客戶免去繁瑣的管理和維護(hù)的同時(shí),保障資源的穩(wěn)定運(yùn)行。這一“算力水電”普惠模式為AI技術(shù)的廣泛應(yīng)用提供了有力支持。
結(jié)語:
CloudMatrix384的顛覆性在于:它以通信效率革命替代傳統(tǒng)算力堆砌,用架構(gòu)創(chuàng)新將摩爾定律延伸至集群維度。當(dāng)英偉達(dá)受制于“通用GPU路徑依賴”,華為以超節(jié)點(diǎn)證明——在萬億參數(shù)時(shí)代,決勝關(guān)鍵不是單顆芯片的制程,而是整個(gè)系統(tǒng)的“腦神經(jīng)網(wǎng)絡(luò)”效率。這場勝利不僅屬于技術(shù),更屬于千行百業(yè)即將爆發(fā)的AI普惠浪潮。