當前,以大模型為基礎特征的AI 2.0時代已經(jīng)到來,“大模型+大算力+大數(shù)據(jù)”成為新一代人工智能發(fā)展的基本范式。然而,智能計算較通用計算的投入成本、技術門檻更高,廣大用戶需要一個新的計算開發(fā)和管理平臺,能夠集成算力管理與調度,數(shù)據(jù)治理與模型優(yōu)化、訓練精調和推理應用開發(fā)等多層次的能力,為使用者提供更簡單、更高效、更穩(wěn)定的算力體驗。
聯(lián)想萬全異構智算平臺應運而生,其差異化價值在于能夠以創(chuàng)新技術突破計算效率瓶頸。對于用戶而言,異構智算平臺能夠幫助用戶提高應用部署速度,降低業(yè)務TCO(全周期使用成本)。在基礎設施層面,它能夠提升算力利用率和可用性。
據(jù)介紹,聯(lián)想萬全異構智算平臺是一個能高度自動化完成AI全流程開發(fā)的平臺,可輸出高可用算力并不斷突破計算效率瓶頸的利器。用戶可自動完成AI計算并發(fā)布模型或發(fā)布推理服務。此外,平臺也為專業(yè)的AI開發(fā)用戶留有手動深入調整計算過程的空間,包括工具和模型的選擇,算力配置的調整,對任務的定制化監(jiān)控等。
此外,聯(lián)想萬全異構智算平臺集成了算力匹配魔方、GPU內核態(tài)虛擬化、聯(lián)想集合通信算法庫、AI高效斷點續(xù)訓技術、AI與HPC集群超級調度器,這五大創(chuàng)新技術,這五大技術從不同方面幫助用戶解決問題。
算力匹配魔方:為用戶跳過繁雜的算力選擇和驗證。
基于海量的硬件評測和AI算子算法集成工作,聯(lián)想構建了AI場景與算法與集群硬件三者匹配關系的算力魔方知識庫,來標識AI場景、算法、集群配置這三者的匹配關系。針對不同場景,可以全自動規(guī)劃和調度最佳算法和集群配置,用戶只需輸入場景和數(shù)據(jù),即可自動加載最優(yōu)算法和調度最佳集群配置。
GPU內核態(tài)虛擬化:挖掘處理器潛力,讓vGPU利用率從80%提升到95%。
在AI推理和中小訓練中,子任務通常以虛擬GPU進行承載,業(yè)界目前普遍在操作系統(tǒng)層以用戶態(tài)對GPU做虛擬化,而用戶態(tài)虛擬化因不能對GPU做深層控制,會造成虛擬算力不穩(wěn)定,調度開銷大等問題,從而造成近20%的算力損耗。
為此,聯(lián)想研究院開發(fā)了在GPU驅動層的內核態(tài)虛擬化算法。該算法具備三大革新:一是對算力和顯存精準隔離的算法能以<3%的誤差精準控制容器資源。二是在GPU驅動層做資源調度,去掉在驅動之上不必要的操作。三是在GPU驅動層將虛擬GPU的顆粒度精細到1%。新算法可以將虛擬化造成的GPU算力損耗降到5%以下,極致情況可以降到1%以下,大幅提升GPU利用率。
聯(lián)想集合通信算法庫:突破集群計算瓶頸,使訓練效率提升10%—15%。
在大規(guī)模的AI集群中,性能釋放的最大瓶頸受制于網(wǎng)絡通信慢。網(wǎng)絡通信慢會導致GPU空閑等待,計算效率降低。針對大規(guī)模集群網(wǎng)絡通信瓶頸的挑戰(zhàn),聯(lián)想萬全異構智算平臺能自動感知集群網(wǎng)絡拓撲,并選擇和采用經(jīng)聯(lián)想增強的集合通信算法使數(shù)據(jù)傳輸在最佳路徑。以千卡規(guī)模集群為例,采用集成了聯(lián)想集合通信庫的聯(lián)想萬全異構智算平臺做管理調度,可使網(wǎng)絡通信效率提升超10%,并且集群規(guī)模越大,效果越顯著。
AI高效斷點續(xù)訓技術:實現(xiàn)分鐘級AI斷點續(xù)訓,讓AI集群持續(xù)可用。
據(jù)統(tǒng)計,目前千卡集群每月至少有15次的故障斷點。在常規(guī)的斷點續(xù)訓手段下,每次恢復訓練需要幾個小時,產(chǎn)生的額外費用超過百萬元。聯(lián)想萬全異構智算平臺針對故障特征來對數(shù)據(jù)做多級備份,大幅精簡了備份數(shù)據(jù)量,同時令備份數(shù)據(jù)從最佳路徑被提取。同時,對大量的AI訓練故障進行了特征采樣,基于AI故障特征庫,開發(fā)了預測AI訓練故障的AI模型,實現(xiàn)“用AI來預測AI”。此外,聯(lián)想萬全異構智算平臺集成了從服務器BMC,存儲管理,網(wǎng)絡OS的硬件監(jiān)控,到調度器故障監(jiān)控,再到對AI訓練收斂程度的監(jiān)控,對AI故障的抓取能夠做到萬無一失。
由此三大革新,聯(lián)想能將斷點續(xù)訓恢復時間縮減到分鐘級,大幅提升了訓練效率。以千卡集群為例,聯(lián)想每月可節(jié)約上百萬元算力費用支出,讓寶貴的AI算力持續(xù)可用。
AI與HPC集群超級調度器:破局算力孤島,1小時內自動完成跨集群資源調度和共享。
對于有些同時擁有AI和HPC算力的用戶,希望能在不同集群間,根據(jù)任務優(yōu)先級和資源狀況,充分共享利用GPU節(jié)點。然而,由于AI和HPC集群的調度方式完全不同,用戶在不同集群間共享資源時,既要通曉兩種調度方法,又要付出大量操作,導致無法實現(xiàn)資源共享。
聯(lián)想AI與HPC超級調度器架構的精髓之處就是做出能指揮雙類型調度的最精簡架構,在AI的K8S調度和HPC的Slurm調度之上,能夠切換AI和HPC的調度溝通,能全局監(jiān)控任務和動態(tài)共享資源,使得用戶可以充分利用基礎設施的每一分算力。
聯(lián)想集團副總裁、中國基礎設施業(yè)務群總經(jīng)理陳振寬表示,“聯(lián)想萬全異構智算平臺”是AI 2.0時代聯(lián)想中國基礎設施戰(zhàn)略框架的核心。未來聯(lián)想將挑戰(zhàn)超過萬卡規(guī)模集群的通信算法優(yōu)化,挑戰(zhàn)秒級的斷點續(xù)訓,深入研究相變式液冷技術,布局模塊化液冷數(shù)據(jù)中心,助力聯(lián)想AI算力朝著更強大、更穩(wěn)定、更高效和更綠色的方向實現(xiàn)高質量發(fā)展。