破解大模型時代的算力挑戰(zhàn)

大模型火爆的同時,對于計算、存儲、網(wǎng)絡的需求也在逐漸增加。從三維度看大模型的三大特征:

(1)數(shù)據(jù)量大。海量優(yōu)質(zhì)數(shù)據(jù)才是大模型能夠訓練的基石,數(shù)據(jù)量巨大的情況下對于存儲的需求也是急劇增加的狀態(tài)。

(2)參數(shù)量大。大家一直在說大模型,什么是大模型?大模型其實就是參數(shù)量大,參數(shù)量大帶來什么樣的好處?模型泛化和表達能力越強,對于GPU算力的要求也會更大。

(3)通信量大。參數(shù)量越來越大的時候,對于模型訓練、模型推理其實在單臺機器里沒有辦法完成,需要多臺機器完成,多機多卡的通信也成為了大模型時代的主流,對于網(wǎng)絡需求也會更加大一些。

面對這些挑戰(zhàn),單純堆砌硬件已非正解。騰訊云以“全局最優(yōu)”思維重構(gòu)基礎設施:從計算、存儲、網(wǎng)絡的單點性能突破,到軟硬協(xié)同的全棧優(yōu)化,再到跨集群的資源調(diào)度與故障自愈,讓算力效率與穩(wěn)定性實現(xiàn)指數(shù)級提升。

深耕智算底座 能千行百業(yè)

正是由于計算、存儲、網(wǎng)絡帶來的需求,騰訊云一直在高性能AI基礎設施方面深耕,在基礎平臺研發(fā)和生態(tài)建設上也投入了很多精力。AI底座發(fā)展經(jīng)過了三個階段:

1.探索期。在2019年左右,對于像英偉達非常老舊的V100機器已經(jīng)搭配了RDMA網(wǎng)絡,同時能助力科學計算、仿真等場景。在2021年A100 GPU搭配了RDMA網(wǎng)絡,獲得了信通院的高度認可,在探索期的時候網(wǎng)絡帶寬也只有100G的RDMA網(wǎng)絡。

2.技術(shù)迭代期。發(fā)展跟自動駕駛、大模型發(fā)展是強相關(guān)的狀態(tài),這個時間點技術(shù)不斷在進行迭代演進,像在硬件上騰訊引入了自研的星星海AI訓練服務器,以及基于白盒交換機所做的星脈網(wǎng)絡交換機。在網(wǎng)絡上,RDMA網(wǎng)絡從800G不斷迭代到最先進的3.2T。騰訊云的集群也有搭配華為910高性能智算集群。

3.規(guī)模化應用期。在這個階段提供了基于計算、存儲、網(wǎng)絡全方面的智能高性能智算底座,助力大模型發(fā)展。

王竹兵表示,騰訊云智算底座有三大特征:云原生、同源同構(gòu)、場景驅(qū)動。

對于整體的規(guī)劃,騰訊云的愿景和使命包括:

一是,希望依托于騰訊自研的軟硬件優(yōu)勢,性能在業(yè)界做到領先。

二是,多芯兼容,騰訊云所使用的交換機、GPU卡,有用英偉達和華為910的GPU卡,也有騰訊自研的“紫霄”GPU,做到多芯兼容使用。

三是,在使用上更加靈活,因為騰訊云是做公有云,很多企業(yè)數(shù)據(jù)聚焦在公有云上,但對于這塊有很多其他客戶數(shù)據(jù)沒辦法上到公有云上使用,就可以提供分布式云、專有云等場景,能對AI底座做靈活的部署。

騰訊云一直在持續(xù)打造AI Infra的品牌影響力,引領算力發(fā)展。Gartner評估騰訊云在未來潛力上位列亞太廠商第一,同時在很多技術(shù)委員會上也獲得了獎項。

前面介紹了對于大模型發(fā)展,而對于計算、存儲、網(wǎng)絡的需求,具體而言:

第一,計算層面。對于騰訊云來說推出了高性能計算集群HCC,訓練穩(wěn)定性在業(yè)界比較領先,有三個優(yōu)勢:

1.啟動時間短,很多客戶更多聚焦在自己的模型層面,不需要做基礎設施建設,這樣用到騰訊高性能計算集群的時候能夠保證在設備到位的時候,訓練時間從30天縮短到1天。

2.故障率低,有自研的星星海服務器,不僅軟硬件和硬件上都有做到相應的優(yōu)化,千卡單日故障率能跌到0.16。

3.故障恢復快,為什么把故障作為一個點來講?因為在大模型訓練過程中,每一次的訓練過程花費的精力、金錢投入是非常巨大的,希望以最大的速度發(fā)現(xiàn)故障,并且能夠快速剔除,做到集群一致性,快速發(fā)現(xiàn)故障的機器。同時通過熱備機直接把對應的故障機器替換掉,整體故障恢復的時間就會很短。

第二,網(wǎng)絡。

騰訊自研的星脈網(wǎng)絡依托自研的硬件白盒交換機,網(wǎng)絡帶寬做到了3.2T RDMA網(wǎng)絡,在業(yè)界比較領先。

結(jié)合通信,像英偉達一直說結(jié)合通信最好的是用IB的網(wǎng)絡,騰訊云是用的Rocky的網(wǎng)絡,在性能上能和IB網(wǎng)絡持平,但成本能大大降低。

全局監(jiān)控,星脈網(wǎng)絡可以理解為類似每個機器、交換機上都有對應的Agent,能從全局的角度感知網(wǎng)絡拓撲結(jié)構(gòu)的變化,監(jiān)控集群,不僅在運營上更加高效,也在運維上更加高效。

第三,存儲。

騰訊云有自研高性能的計算存儲引擎Histor,對外能提供高性能的存儲解決方案,尤其在大模型訓練的時候,訓練過程中Checkpoint的寫入時間大大降低,數(shù)據(jù)的讀取速率大大提升,打造更適合大模型的存儲方式。

第四,數(shù)據(jù)平臺。

騰訊云所有數(shù)據(jù)都存儲在對象存儲的數(shù)據(jù)湖里,但有兩個加速方案:一是GooseFS是基于本地盤加速緩存的方案,能加速數(shù)據(jù)的讀取,二是MetaInsight做智能檢索,幫助騰訊云提升整體數(shù)據(jù)的管理效率,釋放數(shù)據(jù)價值。

前面介紹的都是在基礎設施方面的投入,在基礎之外軟件層面也做了很多工作。比如說TACO加速套件,是對于訓練和推理做加速的引擎,客戶在使用的時候只需要做plug in的方式插入,簡單的配置就能使用了,能提升訓練、推理的過程。

qGPU是稍微傳統(tǒng)一些的,在GPU層面能做到更細粒度的切分,不管是算力或顯存上的切分,能提升GPU的利用率。Tione是部署的平臺,幫助客戶很簡單快捷地部署模型,幫助他們做對應的調(diào)度。

前面所有的介紹,不管是基于基礎設施還是軟件層面的,不僅僅在騰訊云公有云上做,在分布式云、專有云、私有云場景下都可以部署,傳統(tǒng)行業(yè)數(shù)據(jù)沒有辦法搬遷上云,通過分布式云的方式把公有云的能力延伸到客戶機房里,保證客戶能夠使用公有云能力的前提下,同時數(shù)據(jù)能夠依然放在他們自己的機房里,讓他們在使用AI更加簡便。

此外,結(jié)合DeepSeek,騰訊云推出了推理服務,即高性能應用服務,以非常低的門檻幫助客戶做到一站式模型快速部署,能幫助很多開發(fā)者、中小企業(yè)快速部署模型。

在普惠AI的趨勢下,騰訊云憑借技術(shù)優(yōu)勢以一系列智算解決方案賦能千行百業(yè),期待看到騰訊云在AI基礎設施領域更多的創(chuàng)新成果。

分享到

nina

相關(guān)推薦