華為云AI 原生云基礎(chǔ)設(shè)施架構(gòu) CloudMatrix 正式發(fā)布

如今,AI算力需求高速增長,正在超越對通用算力的需求。構(gòu)建彈性、高效的多元算力基礎(chǔ)設(shè)施是AI發(fā)展的關(guān)鍵。

為了進(jìn)一步提升AI原生基礎(chǔ)設(shè)施的效能,華為云推出AI原生云基礎(chǔ)設(shè)施CloudMatrix,將CPU、NPU、DPU、存儲和內(nèi)存等資源全部互聯(lián)和池化,構(gòu)建“一切可池化、一切皆對等、一切可組合”的分布式對等全互聯(lián)架構(gòu),實現(xiàn)了單體算力向矩陣算力的演進(jìn),為客戶提供澎湃的AI算力。

一切可池化:華為通過CPU、NPU為客戶提供強(qiáng)大的通用計算和智能計算。同時,華為云分布式 QingTian技術(shù)幫助突破單服務(wù)器的能力邊界,將服務(wù)器內(nèi)的CPU、NPU、DPU、存儲和內(nèi)存等多樣資源的統(tǒng)一池化并靈活配置,以此形成大規(guī)模、緊耦合的多元算力池化架構(gòu),算力得到大幅提升。

一切皆對等:CloudMatrix通過超高帶寬ScaleUp網(wǎng)絡(luò)從“傳統(tǒng)以太網(wǎng)”向“共享總線以太網(wǎng)”演進(jìn),實現(xiàn)池化算力的高速互聯(lián),同時通過自適應(yīng)拓?fù)涓兄蚱萍壕€性度瓶頸。華為云在傳統(tǒng)算力集群ScaleOut網(wǎng)絡(luò)基礎(chǔ)上,結(jié)合ScaleUp超高帶寬網(wǎng)絡(luò),將資源互聯(lián)帶寬提升了一個數(shù)量級。新的網(wǎng)絡(luò)協(xié)議實現(xiàn)跨物理服務(wù)器的統(tǒng)一標(biāo)識、統(tǒng)一的訪問和消息通信機(jī)制。從而實現(xiàn)CPU、NPU、存儲 內(nèi)存等多樣資源的跨服務(wù)器統(tǒng)一池化。通過資源全部對等連接,既可以水平擴(kuò)展,更可以垂直擴(kuò)展,打破計算集群線性度的瓶頸,能夠降大模型訓(xùn)練集群的線性度提升至95%,網(wǎng)絡(luò)故障分鐘級恢復(fù)。

一切可組合:CloudMatrix可以按需組合多樣化算力資源,并且根據(jù)應(yīng)用需求靈活調(diào)整。在統(tǒng)一多元算力邏輯池化、高速全對等互聯(lián)的基礎(chǔ)上,通過瑤光智能云腦對云上資源進(jìn)行多元算力統(tǒng)一建模、靈活調(diào)度組合,按需提供給應(yīng)用。覆蓋大模型和小模型的訓(xùn)練和推理,同時,還能夠用在數(shù)據(jù)分析、媒體內(nèi)容生成等更多應(yīng)用場景。

華為云宣布,基于CloudMatrix的新一代昇騰AI云服務(wù)將于年底上線。

分享到

xiesc

相關(guān)推薦