客戶需求多樣化

隨著客戶群體范圍不斷拓展,既有需要借助外部推理服務(wù)和應(yīng)用使用AI的用戶,也有擁有自己AI團(tuán)隊(duì)、用自有數(shù)據(jù)訓(xùn)練大模型的大型企業(yè)。許多用戶利用天云融創(chuàng)軟件的SkyForm算力調(diào)度平臺管理GPU算例進(jìn)行應(yīng)用開發(fā),需要連接本地IDE與算力池中的資源;生物信息行業(yè)不僅需要GPU資源運(yùn)行如AlphaFold這樣的AI應(yīng)用,還需要CPU資源進(jìn)行基因分析。算力的多樣性可以大大提高資源利用率,降低算力運(yùn)營者的成本。

容器集群方案的局限性

由于大部分AI用戶習(xí)慣使用容器的方式進(jìn)行模型訓(xùn)練和推理,天云融創(chuàng)軟件起初也像其他算力運(yùn)營平臺一樣,重點(diǎn)支持單個和多個容器組合的應(yīng)用。然而,隨著客戶群體的擴(kuò)大和應(yīng)用形態(tài)及算力需求的多樣化,我們發(fā)現(xiàn)現(xiàn)有的容器集群方案存在許多局限性:

1.模型訓(xùn)練中調(diào)整依賴組件:每次都需重新制作鏡像,對于需要頻繁調(diào)整庫和方法的開發(fā)人員來說,調(diào)試周期長,效率低。

2.多機(jī)訓(xùn)練鏡像瓶頸:多機(jī)訓(xùn)練時,從鏡像庫下拉鏡像效率低,啟動時間長,鏡像倉庫容易成為瓶頸。

3.GPU故障處理復(fù)雜:在大規(guī)模GPU集群中,故障處理復(fù)雜,需自動判斷和處理故障GPU,并重新調(diào)度任務(wù)。

4.復(fù)雜任務(wù)調(diào)度能力不足:AI和大數(shù)據(jù)任務(wù)需要高并發(fā)、低延遲的調(diào)度能力,Kubernetes缺乏復(fù)雜任務(wù)調(diào)度能力。

5.存算分離架構(gòu)延遲:Kubernetes的存算分離架構(gòu)增加了數(shù)據(jù)訪問延遲,影響計(jì)算效率,特別是在AI和大數(shù)據(jù)場景下。

6.本地IDE開發(fā)限制:許多開發(fā)者希望使用本地IDE(如VSCode),通過SSH遠(yuǎn)程連接算力池開發(fā)模型和應(yīng)用,現(xiàn)有方案需要提供復(fù)雜的網(wǎng)絡(luò)轉(zhuǎn)發(fā)功能。

天云融創(chuàng)軟件的解決方案

基于上述問題,天云融創(chuàng)軟件開發(fā)了同時支持裸金屬(HPC)和容器應(yīng)用的SkyForm算力調(diào)度系統(tǒng)。這一系統(tǒng)不僅能調(diào)度多容器應(yīng)用,還能同時調(diào)度和運(yùn)行裸金屬HPC應(yīng)用。

在裸金屬上使用Conda建立個人的用戶空間,既能達(dá)到與容器類似的固化軟件組件和庫的功能,還能避免下拉容器鏡像的動作,將大型分布式模型的啟動時間從幾十分鐘縮短到十幾分鐘。

天云融創(chuàng)軟件的SkyForm調(diào)度器每15秒鐘監(jiān)視一次GPU的健康狀況,自動處理故障GPU,重新調(diào)度任務(wù),實(shí)現(xiàn)模型的斷點(diǎn)續(xù)訓(xùn)或推理的自動恢復(fù)。

通過我們產(chǎn)品自帶的4層和7層網(wǎng)絡(luò)協(xié)議轉(zhuǎn)發(fā),用戶可以動態(tài)申請GPU資源,然后使用自己桌面上的VSCode,安裝遠(yuǎn)程連接插件,通過SSH與分配的容器資源聯(lián)通,實(shí)現(xiàn)遠(yuǎn)程開發(fā)功能。

最后

天云融創(chuàng)軟件的SkyForm算力調(diào)度管理平臺已經(jīng)在國內(nèi)多家智算/超算中心、多個行業(yè)領(lǐng)域部署應(yīng)用,為AI訓(xùn)練和推理提供安全可靠的算力服務(wù)。我們堅(jiān)持裸金屬和容器混合算力調(diào)度和管理,以滿足多樣化的客戶需求,提高算力資源利用率,降低運(yùn)營成本。

分享到

崔歡歡

相關(guān)推薦