萬(wàn)卡集群主要應(yīng)用于需要大規(guī)模計(jì)算能力的場(chǎng)景,如人工智能模型的訓(xùn)練和推理、大數(shù)據(jù)分析、科學(xué)研究等。它們能夠顯著加速AI技術(shù)的研發(fā)和應(yīng)用,推動(dòng)AI技術(shù)的創(chuàng)新和發(fā)展,并促進(jìn)AI技術(shù)的普及和推廣。

一、萬(wàn)卡集群的相關(guān)企業(yè)布局

在當(dāng)今的人工智能時(shí)代,萬(wàn)卡集群已成為各大科技企業(yè)競(jìng)爭(zhēng)的重要領(lǐng)域,眾多企業(yè)紛紛投入到萬(wàn)卡集群的建設(shè)與布局中。

國(guó)際科技巨頭

Google:推出了超級(jí)計(jì)算機(jī)A3 Virtual Machines,擁有26000塊Nvidia H100 GPU,同時(shí)基于自研芯片搭建TPUv5 p8960卡集群,在人工智能的基礎(chǔ)研究和應(yīng)用開(kāi)發(fā)方面擁有強(qiáng)大的算力支持。

Meta:早在2022年就推出了擁有16000塊Nvidia A100的AI研究超級(jí)集群(AI Research Super Cluster),2024年初又公布了2個(gè)24576塊Nvidia H100集群,為其下一代生成式AI模型的訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ),有力地推動(dòng)了Meta在人工智能領(lǐng)域的研究和應(yīng)用。

微軟:作為全球軟件巨頭,微軟也在積極布局萬(wàn)卡集群,將其應(yīng)用于人工智能的研發(fā)和應(yīng)用中,為其旗下的人工智能產(chǎn)品和服務(wù)提供強(qiáng)大的算力支持。

亞馬遜:亞馬遜的AWS云服務(wù)在全球范圍內(nèi)擁有廣泛的用戶基礎(chǔ),為了滿足用戶對(duì)人工智能算力的需求,亞馬遜也在不斷加強(qiáng)其在萬(wàn)卡集群方面的建設(shè)和投入。

特斯拉:馬斯克的xAI宣布了2024年最大的一筆60億美元B輪融資,計(jì)劃建造一個(gè)名為“超級(jí)算力工廠”的設(shè)施,為下一版本Grok提供強(qiáng)大的算力支持,這個(gè)計(jì)劃使用多達(dá)10萬(wàn)個(gè)GPU來(lái)訓(xùn)練,預(yù)計(jì)2025年秋天之前投入運(yùn)行。

國(guó)內(nèi)企業(yè)

通信運(yùn)營(yíng)商

中國(guó)移動(dòng):今年將商用哈爾濱、呼和浩特、貴陽(yáng)三個(gè)自主可控萬(wàn)卡集群,總規(guī)模近6萬(wàn)張GPU卡,作為國(guó)家算力基礎(chǔ)設(shè)施建設(shè)的重要力量,中國(guó)移動(dòng)積極推動(dòng)萬(wàn)卡集群的建設(shè),為我國(guó)人工智能產(chǎn)業(yè)的發(fā)展提供了強(qiáng)大的算力支持。

中國(guó)電信:上半年在上海規(guī)劃建設(shè)到達(dá)15000卡、總算力超4500P的國(guó)產(chǎn)萬(wàn)卡算力池,是國(guó)內(nèi)首個(gè)超大規(guī)模國(guó)產(chǎn)算力液冷集群,也是業(yè)內(nèi)領(lǐng)先的全國(guó)產(chǎn)化云智一體公共智算中心。此外,中國(guó)電信京津冀萬(wàn)卡液冷智算集群還入選了全國(guó)一體化算力網(wǎng)應(yīng)用優(yōu)秀案例。

中國(guó)聯(lián)通:上海臨港國(guó)際云數(shù)據(jù)中心在今年內(nèi)將建成中國(guó)聯(lián)通首個(gè)萬(wàn)卡集群。

互聯(lián)網(wǎng)企業(yè)

字節(jié)跳動(dòng):搭建了一個(gè)12288卡Ampere架構(gòu)訓(xùn)練集群,并研發(fā)了Megascale生產(chǎn)系統(tǒng)用于訓(xùn)練大語(yǔ)言模型,該系統(tǒng)在提高算力利用率和訓(xùn)練效率方面取得了顯著成果。

螞蟻集團(tuán):在去年透露已建成萬(wàn)卡異構(gòu)算力集群,為其在人工智能領(lǐng)域的業(yè)務(wù)發(fā)展提供了有力的支持。

騰訊:推出的高性能網(wǎng)絡(luò)星脈,具備業(yè)界最高的3.2T通信帶寬,為AI大模型帶來(lái)10倍通信性能提升?;隍v訊云新一代算力集群HCC,可支持10萬(wàn)卡GPU的超大計(jì)算規(guī)模。

AI初創(chuàng)企業(yè)和硬件廠商

摩爾線程:發(fā)布了一款兼具“超大規(guī)模+高通用性+生態(tài)兼容”的國(guó)產(chǎn)GPU萬(wàn)卡集群解決方案——“夸娥萬(wàn)卡智算集群”,標(biāo)志著國(guó)產(chǎn)GPU正式邁入萬(wàn)卡時(shí)代。

華為:2023年宣布昇騰AI集群全面升級(jí),集群規(guī)模從4000卡集群擴(kuò)展至16000卡,是業(yè)界首個(gè)萬(wàn)卡AI集群,擁有更快的訓(xùn)練速度和30天以上的穩(wěn)定訓(xùn)練周期。

二、萬(wàn)卡集群的技術(shù)挑戰(zhàn)

萬(wàn)卡集群的構(gòu)建并非簡(jiǎn)單地將大量GPU卡堆疊在一起,而是面臨著諸多技術(shù)挑戰(zhàn):

1、效率問(wèn)題

通信開(kāi)銷:訓(xùn)練大語(yǔ)言模型并非簡(jiǎn)單的并行任務(wù),在萬(wàn)卡集群中,GPU之間需要頻繁通信以協(xié)同推進(jìn)訓(xùn)練進(jìn)程。大量的通信數(shù)據(jù)在網(wǎng)絡(luò)中傳輸會(huì)帶來(lái)較大的延遲和開(kāi)銷,影響訓(xùn)練效率。例如,在張量并行和流水線并行的過(guò)程中,設(shè)備間需要頻繁地交換數(shù)據(jù)和同步參數(shù),這對(duì)網(wǎng)絡(luò)帶寬和延遲提出了極高的要求。

計(jì)算與存儲(chǔ)平衡:大模型的訓(xùn)練需要大量的計(jì)算資源和存儲(chǔ)資源。在萬(wàn)卡集群中,如何合理地分配計(jì)算任務(wù)和存儲(chǔ)資源,使得GPU在進(jìn)行計(jì)算時(shí)能夠快速地獲取所需的數(shù)據(jù),避免因數(shù)據(jù)傳輸和存儲(chǔ)瓶頸導(dǎo)致的計(jì)算等待,是一個(gè)需要解決的問(wèn)題。此外,隨著模型規(guī)模的不斷增大,模型參數(shù)的存儲(chǔ)需求也會(huì)急劇增加,如何有效地管理和利用GPU的顯存以及外部存儲(chǔ)設(shè)備,也是提高效率的關(guān)鍵。

操作符優(yōu)化:操作符是構(gòu)成模型計(jì)算的基本單元,對(duì)操作符的優(yōu)化能夠提高計(jì)算效率。在萬(wàn)卡集群中,需要對(duì)諸如矩陣乘法、卷積等常用操作符進(jìn)行優(yōu)化,減少計(jì)算過(guò)程中的冗余操作和內(nèi)存訪問(wèn),提高GPU的利用率。同時(shí),對(duì)于一些復(fù)雜的操作符,如LayerNorm和Gelu等,需要進(jìn)行融合操作,以減少內(nèi)核啟動(dòng)的開(kāi)銷。

2、穩(wěn)定性問(wèn)題

硬件故障:萬(wàn)卡集群由大量的硬件設(shè)備組成,硬件故障的概率較高。在訓(xùn)練過(guò)程中,單個(gè)GPU卡、服務(wù)器、網(wǎng)絡(luò)設(shè)備等的故障都可能導(dǎo)致訓(xùn)練任務(wù)的中斷或失敗。而且,由于集群規(guī)模龐大,故障的定位和排查也變得非常困難,需要耗費(fèi)大量的時(shí)間和精力。

軟件兼容性:萬(wàn)卡集群涉及到多個(gè)層次的軟件系統(tǒng),包括操作系統(tǒng)、驅(qū)動(dòng)程序、訓(xùn)練框架、分布式通信庫(kù)等。這些軟件之間的兼容性問(wèn)題可能會(huì)導(dǎo)致系統(tǒng)的不穩(wěn)定,例如驅(qū)動(dòng)程序與訓(xùn)練框架的不兼容可能會(huì)導(dǎo)致GPU無(wú)法正常工作,分布式通信庫(kù)的版本不兼容可能會(huì)導(dǎo)致通信異常。

數(shù)據(jù)一致性:在分布式訓(xùn)練中,多個(gè)GPU同時(shí)對(duì)模型參數(shù)進(jìn)行更新,需要保證數(shù)據(jù)的一致性。如果數(shù)據(jù)同步不及時(shí)或出現(xiàn)錯(cuò)誤,可能會(huì)導(dǎo)致模型的訓(xùn)練結(jié)果不準(zhǔn)確,甚至使訓(xùn)練過(guò)程無(wú)法收斂。因此,需要設(shè)計(jì)有效的數(shù)據(jù)同步機(jī)制和一致性校驗(yàn)算法,確保數(shù)據(jù)的正確性和一致性。

3、可擴(kuò)展性問(wèn)題

網(wǎng)絡(luò)拓?fù)洌弘S著集群規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的設(shè)計(jì)變得至關(guān)重要。傳統(tǒng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可能無(wú)法滿足萬(wàn)卡集群的需求,需要設(shè)計(jì)更加高效、靈活的網(wǎng)絡(luò)拓?fù)洌越档途W(wǎng)絡(luò)延遲和通信開(kāi)銷,提高網(wǎng)絡(luò)的可擴(kuò)展性。例如,胖樹(shù)拓?fù)浣Y(jié)構(gòu)在小規(guī)模集群中應(yīng)用廣泛,但在萬(wàn)卡集群中,需要對(duì)其進(jìn)行改進(jìn)和優(yōu)化,以降低成本和提高性能。

資源管理:萬(wàn)卡集群中的資源管理非常復(fù)雜,需要對(duì)GPU、CPU、內(nèi)存、網(wǎng)絡(luò)等資源進(jìn)行統(tǒng)一的管理和調(diào)度。如何根據(jù)訓(xùn)練任務(wù)的需求,動(dòng)態(tài)地分配和調(diào)整資源,提高資源的利用率,同時(shí)保證各個(gè)任務(wù)之間的隔離性和安全性,是一個(gè)具有挑戰(zhàn)性的問(wèn)題。

系統(tǒng)升級(jí):隨著技術(shù)的不斷發(fā)展,萬(wàn)卡集群需要不斷地進(jìn)行升級(jí)和維護(hù)。如何在不影響現(xiàn)有訓(xùn)練任務(wù)的情況下,對(duì)系統(tǒng)進(jìn)行升級(jí)和擴(kuò)展,是一個(gè)需要解決的問(wèn)題。例如,在添加新的GPU卡或更新軟件系統(tǒng)時(shí),需要確保系統(tǒng)的穩(wěn)定性和兼容性。

三、萬(wàn)卡集群的技術(shù)探索

為了應(yīng)對(duì)萬(wàn)卡集群的技術(shù)挑戰(zhàn),企業(yè)和研究機(jī)構(gòu)在不斷地進(jìn)行技術(shù)探索和創(chuàng)新:

1、算法優(yōu)化

并行算法改進(jìn):研究人員不斷探索新的并行算法和策略,以提高模型訓(xùn)練的效率和可擴(kuò)展性。例如,采用自適應(yīng)的混合并行策略,根據(jù)模型的特點(diǎn)和硬件資源的情況,自動(dòng)地選擇數(shù)據(jù)并行、張量并行和流水線并行的比例,以達(dá)到最佳的訓(xùn)練效果。

模型壓縮:為了減少模型的存儲(chǔ)需求和計(jì)算量,研究人員采用模型壓縮技術(shù),如量化、剪枝等。量化技術(shù)將模型參數(shù)的精度降低,減少存儲(chǔ)和計(jì)算開(kāi)銷;剪枝技術(shù)則去除模型中的冗余參數(shù),提高模型的計(jì)算效率。

優(yōu)化器改進(jìn):優(yōu)化器是模型訓(xùn)練中的重要組成部分,對(duì)訓(xùn)練速度和模型性能有著重要的影響。研究人員不斷改進(jìn)優(yōu)化器算法,如采用更高效的自適應(yīng)學(xué)習(xí)率算法、引入二階優(yōu)化算法等,提高模型的訓(xùn)練速度和收斂性。

2、系統(tǒng)架構(gòu)優(yōu)化

分布式通信優(yōu)化:通過(guò)對(duì)分布式通信框架的優(yōu)化,減少通信延遲和開(kāi)銷。例如,優(yōu)化集體通信群的初始化過(guò)程,縮短通信初始化的時(shí)間;采用高效的通信協(xié)議和算法,提高通信的效率和可靠性。

硬件加速:利用硬件加速技術(shù),如FPGA、ASIC等,對(duì)模型的計(jì)算過(guò)程進(jìn)行加速。這些硬件加速器具有較高的并行度和計(jì)算效率,能夠有效地提高模型的訓(xùn)練速度。同時(shí),與GPU相比,它們的功耗更低,能夠降低系統(tǒng)的能耗。

液冷技術(shù):萬(wàn)卡集群的能耗非常高,散熱問(wèn)題是一個(gè)關(guān)鍵的挑戰(zhàn)。液冷技術(shù)能夠有效地降低服務(wù)器的溫度,提高系統(tǒng)的穩(wěn)定性和可靠性。同時(shí),液冷技術(shù)還能夠降低數(shù)據(jù)中心的能耗,減少運(yùn)營(yíng)成本。

3、智能化運(yùn)維

故障預(yù)測(cè)和自動(dòng)恢復(fù):利用機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析技術(shù),對(duì)萬(wàn)卡集群的運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)測(cè)和分析,預(yù)測(cè)潛在的故障,并提前采取措施進(jìn)行預(yù)防。同時(shí),當(dāng)故障發(fā)生時(shí),能夠自動(dòng)地進(jìn)行故障定位和恢復(fù),縮短故障恢復(fù)的時(shí)間,提高系統(tǒng)的可用性。

資源智能調(diào)度:通過(guò)對(duì)訓(xùn)練任務(wù)的特點(diǎn)和資源需求的分析,實(shí)現(xiàn)資源的智能調(diào)度和分配。例如,根據(jù)任務(wù)的優(yōu)先級(jí)、計(jì)算量、所需資源等因素,自動(dòng)地將任務(wù)分配到合適的GPU上進(jìn)行計(jì)算,提高資源的利用率和系統(tǒng)的整體性能。

性能優(yōu)化建議:基于對(duì)系統(tǒng)運(yùn)行數(shù)據(jù)的分析,為用戶提供性能優(yōu)化建議,幫助用戶調(diào)整模型參數(shù)、訓(xùn)練策略等,以提高模型的訓(xùn)練效率和性能。

結(jié)語(yǔ)

總之,萬(wàn)卡集群是人工智能領(lǐng)域的重要發(fā)展方向,具有巨大的應(yīng)用潛力。然而,萬(wàn)卡集群的構(gòu)建和應(yīng)用面臨著諸多技術(shù)挑戰(zhàn),需要企業(yè)和研究機(jī)構(gòu)不斷地進(jìn)行技術(shù)探索和創(chuàng)新,以推動(dòng)萬(wàn)卡集群技術(shù)的不斷發(fā)展和應(yīng)用。

分享到

lixiangjing

算力豹主編

相關(guān)推薦