對此,西云算力CTO梁峰表示,在AI發(fā)展的現(xiàn)階段,更大的模型依然是驅(qū)動AI生態(tài)的基石,而更大的參數(shù)、算力和數(shù)據(jù)是關(guān)鍵因素。我們需要更大的集群能力,從千卡走向萬卡甚至更大,堅定致力于為大模型公司提供最佳集群服務(wù),并在能源、算力和網(wǎng)絡(luò)方面持續(xù)優(yōu)化,面向應(yīng)用,構(gòu)建高效、綠色、安全的算力平臺,滿足各類應(yīng)用的需求。
此外與英偉達(dá)類似,我們還要關(guān)注AI應(yīng)用生態(tài)。西云算力在RAG和Agent方面加大研究投入,提高應(yīng)用開發(fā)在平臺上的質(zhì)量和效率,提供更好的工具鏈支持。另一方面還關(guān)注小型MoE模型的發(fā)展,為應(yīng)用場景的推理提供更具性價比的算力方案。
西云算力正式推出丹摩智算平臺
2024年4月,西云算力正式推出了丹摩智算平臺,面向應(yīng)用,打造全系列全場景的智算基礎(chǔ)設(shè)施。它不僅支持大模型的高效訓(xùn)練,實(shí)現(xiàn)分鐘級斷點(diǎn)續(xù)訓(xùn),而且在并行效率上也進(jìn)行了深度優(yōu)化,確保開發(fā)者可以在一個高度集成的環(huán)境中構(gòu)建、測試和部署AI模型。
丹摩智算平臺通過西云智渲、西云智訓(xùn)和西云智推三大核心組件,為各種專業(yè)場景提供強(qiáng)大高效的服務(wù)支持提供一站式服務(wù)。這些組件協(xié)同工作,支持AI項(xiàng)目從原型到生產(chǎn)的全生命周期。
其主要應(yīng)用場景包括:
AI訓(xùn)練。提供豐富的用于AI訓(xùn)練的計算資源及訓(xùn)練軟件,使得用戶可以快速構(gòu)建、訓(xùn)練和部署自己的人工智能模型。平臺支持 TensorFlow、PyTorch、Caffe等主流工具和框架,用戶可以根據(jù)具體需要選擇合適的工具來開發(fā)AI模型。
AI推理。平臺基于高性能算力集群為用戶AI推理服務(wù)提供強(qiáng)大的算力支持, 為AI推理服務(wù)的部署和發(fā)布提供便利的工具支持。具有針對AIGC、圖像識別、語音識別等多應(yīng)用場景的解決方案。
高性能計算。專為AI、深度學(xué)習(xí)推出GPU云容器服務(wù),提供專業(yè)、高效、經(jīng)濟(jì)的 GPU加速云計算服務(wù)。無需復(fù)雜配置,快速接入強(qiáng)大的GPU資源,簡 化開發(fā)流程,即插即用。
圖像/視頻渲染。針對特效制作、影視動畫、建筑效果圖等場景的離線算力服務(wù);通過高性能GPU服務(wù)器提供的實(shí)時渲染服務(wù)可用于直播渲染、游戲娛樂、 產(chǎn)品展示等場景。
通過丹摩智算平臺的發(fā)布,西云算力不僅強(qiáng)化了其在AI領(lǐng)域的技術(shù)領(lǐng)先地位,還為各行各業(yè)的企業(yè)提供強(qiáng)大的算力支持,使他們能夠更有效地利用AI技術(shù)推動業(yè)務(wù)發(fā)展和創(chuàng)新。
提升MFU,專注綠色節(jié)能
丹摩平臺的發(fā)布我認(rèn)為有兩個點(diǎn)值得關(guān)注,一個是前面提到的最大限度降低能耗,另一個就是提升MFU(大模型浮點(diǎn)運(yùn)算利用率)。
在綠色節(jié)能方面。西云算力在寧夏打造的智算中心是寧夏首個采用全自然風(fēng)冷技術(shù)的30KW機(jī)柜人工智能數(shù)據(jù)中心(AIDC),建成于2023年12月,坐標(biāo)中衛(wèi)市沙坡頭區(qū)。
該項(xiàng)目占地70畝,建筑面積近2.8萬平方米,包含三棟高規(guī)格自然風(fēng)冷高密度機(jī)房,專業(yè)為支撐人工智能大模型產(chǎn)業(yè)的發(fā)展,構(gòu)建綠色安全的算力基礎(chǔ)設(shè)施。西云算力還通過優(yōu)化選址和創(chuàng)新制冷、變配電技術(shù),實(shí)現(xiàn)了綠色低碳和PUE、WUE的極致優(yōu)化,這是西云算力在實(shí)踐中的綠色節(jié)能。
另外就是大模型的訓(xùn)練與推理場景,大模型開源加速了應(yīng)用端以推理能力為中心的需求。在2024AIGC創(chuàng)新創(chuàng)業(yè)新趨勢專場技術(shù)沙龍上,算力專家黃新平在演講中稱訓(xùn)練階段是建立模型的基礎(chǔ),我們可以用訓(xùn)練建立整個AI生態(tài),這種從源頭開始建立的生態(tài)可以確保數(shù)據(jù)的私密性、模型的定制化和業(yè)務(wù)的獨(dú)立性。
推理是使用已訓(xùn)練好的模型進(jìn)行預(yù)測的過程,可以快速上市,快速響應(yīng)市場需求,但會依賴于預(yù)訓(xùn)練模型的提供者。
這讓人聯(lián)想起劉慈欣科幻小說《贍養(yǎng)上帝》中提到的人類文明與上帝文明的差異,“你們只要花上一個世紀(jì)的時間,就可以應(yīng)用我們最基礎(chǔ)的知識部分了。”底層差距往往需要更大的時間差去彌補(bǔ),因此,在AI領(lǐng)域,雖然技術(shù)發(fā)展迅速,但能力的培養(yǎng)仍需從基礎(chǔ)做起。
對于AI訓(xùn)練則要關(guān)注MFU的提升。西云算力CTO梁峰在DOIT采訪中表示
計算資源購買后,軟件優(yōu)化方面,特別是MFU(大模型浮點(diǎn)運(yùn)算利用率)指標(biāo)尤為重要。
MFU代表訓(xùn)練過程中算力的整體利用率。以千張卡組成的集群為例,如果一個月的訓(xùn)練中算力利用率僅為30%,則意味著大部分時間資源處于閑置狀態(tài)。如果提升至60%,要么可以訓(xùn)練更大的模型,要么可以讓訓(xùn)練時間減半,從而提升產(chǎn)品迭代速度并降低單位訓(xùn)練成本。而且MFU對推理階段的性能和效率也有影響,高效的浮點(diǎn)運(yùn)算可以加快單次推理的處理速度。
提升MFU的方法多種多樣,國內(nèi)已有優(yōu)秀團(tuán)隊(duì)進(jìn)行相關(guān)研究。首先,算法層面的優(yōu)化是關(guān)鍵,如改進(jìn)Transformer等基礎(chǔ)算法模型,提升張量并行、數(shù)據(jù)并行或pipeline并行的效率。
其次,通過算子層面的優(yōu)化來提升MFU,通過優(yōu)化底層算子或引入新命令,提高計算效率并契合芯片能力。此外,通信層面的優(yōu)化同樣重要,針對現(xiàn)有算法和訓(xùn)練框架中的大數(shù)據(jù)量傳輸問題,可以優(yōu)化交換設(shè)備和網(wǎng)絡(luò)設(shè)備中的路由協(xié)議,以應(yīng)對單體單次大流量的數(shù)據(jù)傳輸,避免網(wǎng)絡(luò)擁堵導(dǎo)致的算力閑置。
第三、第四則聚焦整體運(yùn)營與容災(zāi)。在千卡乃至萬卡的大規(guī)模集群中,長期訓(xùn)練過程中難免會出現(xiàn)設(shè)備單點(diǎn)故障,尤其是復(fù)雜的GPU設(shè)備。單點(diǎn)故障對集群訓(xùn)練的影響顯著,可能導(dǎo)致整個集群訓(xùn)練停止。修復(fù)故障無論耗時多久,都會降低算力利用率,造成資源浪費(fèi)。
因此,我們需要在框架層面和維護(hù)層面探索規(guī)避或減少單點(diǎn)故障對集群影響的方法。一方面,提升故障自愈能力,提高M(jìn)FU效率。另一方面,預(yù)測故障產(chǎn)生,通過經(jīng)驗(yàn)和AI預(yù)測能力,在預(yù)感到可能出現(xiàn)故障時提前規(guī)避,避免訓(xùn)練中斷導(dǎo)致的效率下降。
這些問題正是制約我們算力利用率達(dá)到更高水平的瓶頸,特別是在大規(guī)模集群中,算力利用率往往只能達(dá)到50%左右。這也要求我們未來要進(jìn)一步研究提升MFU的方法。
最后
西云算力的智算平臺發(fā)體現(xiàn)了一種前瞻性,不僅加強(qiáng)了其在技術(shù)上的領(lǐng)先地位,更為各行各業(yè)的企業(yè)開辟了利用AI技術(shù)進(jìn)行創(chuàng)新的快速通道,這些企業(yè)得以在西云算力的幫助下,更有效地推動業(yè)務(wù)的發(fā)展和創(chuàng)新。在大模型和AI技術(shù)不斷進(jìn)步的今天,這種平臺和服務(wù)的出現(xiàn)無疑為整個行業(yè)的發(fā)展注入了新的活力。