中文字幕亚洲无线码,亚洲欧美自拍色综合图

客戶需求多樣化

隨著客戶群體范圍不斷拓展，既有需要借助外部推理服務(wù)和應(yīng)用使用AI的用戶，也有擁有自己AI團隊、用自有數(shù)據(jù)訓(xùn)練大模型的大型企業(yè)。許多用戶利用天云融創(chuàng)軟件的SkyForm算力調(diào)度平臺管理GPU算例進行應(yīng)用開發(fā)，需要連接本地IDE與算力池中的資源；生物信息行業(yè)不僅需要GPU資源運行如AlphaFold這樣的AI應(yīng)用，還需要CPU資源進行基因分析。算力的多樣性可以大大提高資源利用率，降低算力運營者的成本。

容器集群方案的局限性

由于大部分AI用戶習(xí)慣使用容器的方式進行模型訓(xùn)練和推理，天云融創(chuàng)軟件起初也像其他算力運營平臺一樣，重點支持單個和多個容器組合的應(yīng)用。然而，隨著客戶群體的擴大和應(yīng)用形態(tài)及算力需求的多樣化，我們發(fā)現(xiàn)現(xiàn)有的容器集群方案存在許多局限性：

1.模型訓(xùn)練中調(diào)整依賴組件：每次都需重新制作鏡像，對于需要頻繁調(diào)整庫和方法的開發(fā)人員來說，調(diào)試周期長，效率低。

2.多機訓(xùn)練鏡像瓶頸：多機訓(xùn)練時，從鏡像庫下拉鏡像效率低，啟動時間長，鏡像倉庫容易成為瓶頸。

3.GPU故障處理復(fù)雜：在大規(guī)模GPU集群中，故障處理復(fù)雜，需自動判斷和處理故障GPU，并重新調(diào)度任務(wù)。

4.復(fù)雜任務(wù)調(diào)度能力不足：AI和大數(shù)據(jù)任務(wù)需要高并發(fā)、低延遲的調(diào)度能力，Kubernetes缺乏復(fù)雜任務(wù)調(diào)度能力。

5.存算分離架構(gòu)延遲：Kubernetes的存算分離架構(gòu)增加了數(shù)據(jù)訪問延遲，影響計算效率，特別是在AI和大數(shù)據(jù)場景下。

6.本地IDE開發(fā)限制：許多開發(fā)者希望使用本地IDE（如VSCode），通過SSH遠程連接算力池開發(fā)模型和應(yīng)用，現(xiàn)有方案需要提供復(fù)雜的網(wǎng)絡(luò)轉(zhuǎn)發(fā)功能。

天云融創(chuàng)軟件的解決方案

基于上述問題，天云融創(chuàng)軟件開發(fā)了同時支持裸金屬（HPC）和容器應(yīng)用的SkyForm算力調(diào)度系統(tǒng)。這一系統(tǒng)不僅能調(diào)度多容器應(yīng)用，還能同時調(diào)度和運行裸金屬HPC應(yīng)用。

在裸金屬上使用Conda建立個人的用戶空間，既能達到與容器類似的固化軟件組件和庫的功能，還能避免下拉容器鏡像的動作，將大型分布式模型的啟動時間從幾十分鐘縮短到十幾分鐘。

天云融創(chuàng)軟件的SkyForm調(diào)度器每15秒鐘監(jiān)視一次GPU的健康狀況，自動處理故障GPU，重新調(diào)度任務(wù)，實現(xiàn)模型的斷點續(xù)訓(xùn)或推理的自動恢復(fù)。

通過我們產(chǎn)品自帶的4層和7層網(wǎng)絡(luò)協(xié)議轉(zhuǎn)發(fā)，用戶可以動態(tài)申請GPU資源，然后使用自己桌面上的VSCode，安裝遠程連接插件，通過SSH與分配的容器資源聯(lián)通，實現(xiàn)遠程開發(fā)功能。

最后

天云融創(chuàng)軟件的SkyForm算力調(diào)度管理平臺已經(jīng)在國內(nèi)多家智算/超算中心、多個行業(yè)領(lǐng)域部署應(yīng)用，為AI訓(xùn)練和推理提供安全可靠的算力服務(wù)。我們堅持裸金屬和容器混合算力調(diào)度和管理，以滿足多樣化的客戶需求，提高算力資源利用率，降低運營成本。

分享到

崔歡歡

相關(guān)推薦

近期文章

熱門標簽