近日,由DOIT傳媒主辦的2024數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)峰會(huì)在成都圓滿(mǎn)舉行。在“智算中心技術(shù)創(chuàng)新論壇”上,九章云極DataCanvas高級(jí)產(chǎn)品總監(jiān)侯飛冰分享了主題為《DATACANVAS AIDC OS定義新AI時(shí)代的智算操作系統(tǒng)》主題演講。
算力作為新質(zhì)生產(chǎn)力,已成為挖掘數(shù)據(jù)要素價(jià)值,推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展的重要驅(qū)動(dòng)力,智算中心的戰(zhàn)略性地位愈發(fā)凸顯。DATACANVAS AIDC OS智算操作系統(tǒng),作為智算中心的“中樞神經(jīng)”,有效管理、調(diào)度各種算力資源,提供智算服務(wù),落地各類(lèi)智算應(yīng)用。
以下是侯飛冰的演講實(shí)錄:
回顧一下2022年11月,OpenAI發(fā)布了全新的對(duì)話式生成式大模型ChatGPT,去年3月,OpenAI又發(fā)布了ChatGPT4多模態(tài)大模型。ChatGPT4不僅可以閱讀文本,同時(shí)還可以閱讀圖像,并且將結(jié)果輸出,以文字形式輸出給用戶(hù),體驗(yàn)非常好。今年2月,OpenAI更厲害了,發(fā)布了文生視頻大模型Sora,Sora一經(jīng)發(fā)布就帶來(lái)AI圈的轟動(dòng),從中 大模型越來(lái)越聰明了!
我們也發(fā)現(xiàn)大模型的參數(shù)量正在與日俱增,且為指數(shù)級(jí)地增長(zhǎng)。我們有一個(gè)公式,可以預(yù)測(cè)出來(lái)大模型訓(xùn)練的算力需求:
訓(xùn)練算力=訓(xùn)練Token數(shù)×大模型參數(shù)×6
推理算力=調(diào)用大模型的次數(shù)×每人平均查詢(xún)Token數(shù)×大模型參數(shù)×2
隨著大模型參數(shù)的指數(shù)級(jí)增長(zhǎng),包括訓(xùn)練語(yǔ)料的增長(zhǎng),大模型帶來(lái)對(duì)算力資源需求的井噴,通過(guò)預(yù)測(cè)全球大模型云端推理的算力需求量從2023年到2027年年復(fù)合增長(zhǎng)率在13%。先看美國(guó)的情況,根據(jù)美國(guó)安全與新興技術(shù)中心的預(yù)測(cè),預(yù)計(jì)2026年6月至11月訓(xùn)練大體量高智能的大語(yǔ)言模型的成本將超過(guò)美國(guó)的總GPU。在中國(guó),根據(jù)IDC預(yù)測(cè),到2026年智能算力規(guī)模將進(jìn)入ZFLOPS級(jí)別,達(dá)到1271.4EFLOPS。
算力已經(jīng)成為了新質(zhì)生產(chǎn)力,成為挖掘數(shù)據(jù)要素價(jià)值,推動(dòng)數(shù)字經(jīng)濟(jì)增長(zhǎng)的驅(qū)動(dòng)力,中國(guó)已經(jīng)進(jìn)入大規(guī)模的算力建設(shè)時(shí)代,各個(gè)地方政府和國(guó)家都出臺(tái)了各種政策,對(duì)人工智能產(chǎn)業(yè)提出了更高的要求。
智算中心成為了中國(guó)經(jīng)濟(jì)發(fā)展的重要新型基礎(chǔ)設(shè)施,智算中心建設(shè)也已經(jīng)為了數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的重要支撐,我國(guó)的數(shù)字經(jīng)濟(jì)蓬勃發(fā)展。算力作為一種關(guān)鍵技術(shù)力量,將帶來(lái)巨大的技術(shù)變革和賦能效應(yīng);智算中心也已經(jīng)成為了提升國(guó)際競(jìng)爭(zhēng)力的關(guān)鍵基礎(chǔ)設(shè)施,也是衡量綜合國(guó)力的重要指標(biāo)。智算中心也已經(jīng)成為了智慧城市的必然選擇,智算中心作為公共算力基礎(chǔ)設(shè)施,面向政府、企業(yè)、個(gè)人用戶(hù)等多用戶(hù)群體,提供圍繞智慧城市的管理、運(yùn)行的相關(guān)人工智能所需要的算力服務(wù)、數(shù)據(jù)服務(wù)以及算法服務(wù),整個(gè)智算中心地位這么重要,它承載的任務(wù)有哪些。
這個(gè)是我在《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》摘錄的4條,第一個(gè)是完善算力綜合供給體系,第二條第四條講的都是算力相關(guān)的東西,提升算力高效的運(yùn)載能力,深化算力賦能行業(yè)應(yīng)用,從這個(gè)四點(diǎn)任務(wù)來(lái)看有三點(diǎn)和算力相關(guān)。
智算中心的核心價(jià)值取決于兩點(diǎn):算力資源和算力水平。作為智算中心,首先必須要提供比較穩(wěn)定高效的算力資源,并不是說(shuō)我擁有一堆硬件資源就可以,并不是說(shuō)一堆GPU服務(wù)器堆砌在一起就能形成有效的算力。英偉達(dá)的發(fā)展非???,整個(gè)硬件資源的PK最終會(huì)延展到軟件領(lǐng)域的PK,最終會(huì)迎來(lái)軟件定義算力的新時(shí)代,那么智算操作系統(tǒng)應(yīng)運(yùn)而生了。
近日,九章云極DataCanvas AIDC OS正式發(fā)布了,我們認(rèn)為可用、好用、經(jīng)濟(jì)的算力才是用戶(hù)最終需要的算力,這是國(guó)家信息中心發(fā)布的智算中心架構(gòu)圖,它展示了DataCanvas AIDC OS提供的能力范圍。我們是基于底層的硬件資源生產(chǎn)算力、聚合算力,我們提供異構(gòu)算力的納管和調(diào)度,并且向上提供釋放算力、提供AI服務(wù),DataCanvas AIDC OS智算操作系統(tǒng)作為智算中心的中樞神經(jīng),主要核心功能是對(duì)底層硬件資源的納管,還有軟件協(xié)同,最大化地提升GPU算力資源的利用率。我們面向于下沉智算基礎(chǔ)資源,能夠高速高效的調(diào)度算力資源、存儲(chǔ)以及網(wǎng)絡(luò)資源,向上針對(duì)于智算中心的終端用戶(hù)提供人工智能大模型的工具鏈,包括大模型需要的數(shù)據(jù)準(zhǔn)備,以及模型開(kāi)發(fā)訓(xùn)練微調(diào)推理等過(guò)程。
AIDC OS不僅支持九章云極DataCanvas自研的“通識(shí)+產(chǎn)業(yè)”白盒大模型矩陣Alaya,同時(shí)支持開(kāi)源大模型的框架,同時(shí)歡迎業(yè)界的生態(tài)伙伴加入到行業(yè)里面來(lái),能把自己的大模型以及應(yīng)用部署到智算操作系統(tǒng)之上,一起提供AI對(duì)外服務(wù)。
DataCanvas AIDC OS主要是用來(lái)做底層硬件資源的納管,軟件的協(xié)同,同時(shí)為智算中心的業(yè)務(wù)提供支撐,并且能夠提供大模型加小模型低門(mén)檻的訓(xùn)練和推理,大家都知道在智算中心的建設(shè)過(guò)程中,有比較大的兩個(gè)難題,第一個(gè)是成本非常高。舉一個(gè)例子,比如建設(shè)1000P的計(jì)算資源,大家猜需要多少成本,我們做過(guò)一個(gè)粗略估計(jì),大概建設(shè)1000P的智算中心需要5.5億,運(yùn)維成本在1000-1500萬(wàn)之間,所以建設(shè)一個(gè)智算中心成本非常高昂,在這種情況下只有不斷提高算力資源利用率,并且把AI大模型落地到千行百業(yè),給我們帶來(lái)經(jīng)濟(jì)回報(bào)才行。第二個(gè)難點(diǎn)是剛剛并行科技的嘉賓說(shuō)到了,在大模型訓(xùn)練過(guò)程中,由于規(guī)模非常巨大,需要大規(guī)模的算力,這樣對(duì)集群的穩(wěn)定性要求也是非常高,基于這兩個(gè)痛點(diǎn),DataCanvas AIDC OS操作系統(tǒng)提出了五大核心價(jià)值,下面我為大家一一介紹五大核心價(jià)值。
第一個(gè)價(jià)值是告別裸金屬,這里告別裸金屬并不是不用裸金屬,告別裸金屬的意思是在裸金屬之上能夠做得更好,能夠提供更加豐富的算力資源。首先能夠最大化地利用GPU資源,提高GPU的使用效率,能夠最小顆粒度地調(diào)度GPU資源。比如說(shuō)能夠做一些內(nèi)存分享,然后還可以分享計(jì)算單元等等。另外對(duì)于這種大規(guī)模的大模型訓(xùn)練來(lái)講,九章基于自己的最佳實(shí)踐,以集群為優(yōu)先來(lái)調(diào)度GPU資源,甚至跨計(jì)算中心的調(diào)度,做集群之間的聯(lián)合調(diào)度,DataCanvas AIDC OS做到開(kāi)箱即用、靈活適配。
第二個(gè)價(jià)值是為AI而生,經(jīng)常有人問(wèn)我,我們的DataCanvas AIDC OS的核心價(jià)值是什么,和其他廠商的差一點(diǎn)和競(jìng)品優(yōu)勢(shì)是什么,九章云極DataCanvas一直是深耕在AI領(lǐng)域,我們從產(chǎn)品設(shè)計(jì)之初,我們的理念是以終為始,我們就是為AI而生,DataCanvas AIDC OS是先列出整個(gè)大模型訓(xùn)練生命周期過(guò)程當(dāng)中的各個(gè)環(huán)節(jié),比如說(shuō)數(shù)據(jù)準(zhǔn)備,模型訓(xùn)練、微調(diào)、部署推理等等,我們針對(duì)每個(gè)環(huán)節(jié)都做了一個(gè)全局的加速優(yōu)化。
第三個(gè)價(jià)值點(diǎn)做了全局加速優(yōu)化,在生命周期當(dāng)中做了通信加速,比如我們采用了梯度壓縮的方法,將通信量降低了2到3倍,這樣讓訓(xùn)練效率提升了15%左右,還用了內(nèi)存優(yōu)化,其中有一個(gè)用的是算法,這個(gè)算法在多GPU訓(xùn)練的時(shí)候降低內(nèi)存的冗余,將有限的資源訓(xùn)練更大的模型,來(lái)提高計(jì)算資源的使用率。還采用算法加速,比如我們采用混合精度,將16位還有32位的計(jì)算揉合在一起,這樣也是可以加速,還采用了內(nèi)核加速,變異優(yōu)化、并行加速、三級(jí)緩存等等,全局加速優(yōu)化下來(lái),可以講集群的訓(xùn)練效率提升100%,GPU單卡的利用率提升50%,模型的推理速度提升4倍,吞吐量提升5倍。舉一個(gè)例子,以九章自己的大模型訓(xùn)練為例,剛開(kāi)始大模型訓(xùn)練用了62天左右,后來(lái)在不斷加速優(yōu)化,還有優(yōu)化AIDC OS之后,同樣規(guī)模的模型,用同樣的Token,時(shí)間縮短到39天,這樣把訓(xùn)練成本降到原來(lái)的62%,所以這些都是基于九章云極DataCanvas的最佳實(shí)踐。
第四個(gè)價(jià)值點(diǎn)是異構(gòu)算力的納管與調(diào)度。大家都知道我們訓(xùn)練大模型是處于計(jì)算密集型,對(duì)算力要求非常高,所以這時(shí)候需要比較高性能的GPU,比如像HC的GPU,當(dāng)我們做推理的時(shí)候,相對(duì)來(lái)說(shuō)不需要那么高的GPU,比如可以用4090這些芯片做推理,當(dāng)然還有現(xiàn)在的國(guó)產(chǎn)信創(chuàng)加速卡有很多,基于這種情況AIDC OS是能支持海量的異構(gòu)算力的納管和調(diào)度,從訓(xùn)練到推理。我們的調(diào)度采用很多種調(diào)度的算法,包括優(yōu)先級(jí)調(diào)度,優(yōu)先級(jí)調(diào)度不是先到先得的原則,優(yōu)先級(jí)調(diào)度會(huì)參考很多的因素,包括任務(wù)提交的時(shí)間,以及資源申請(qǐng)量等等各種因素綜合起來(lái),做智能化的優(yōu)先級(jí)調(diào)度,我們也支持分時(shí)分片GANG調(diào)度,還有分屏調(diào)度,不僅僅基于當(dāng)前作業(yè)的情況,還會(huì)基于歷史作業(yè)的運(yùn)行情況做公平的調(diào)度,從長(zhǎng)期來(lái)看會(huì)更加公平一些,我們支持基于物理網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的調(diào)度,還有故障感知調(diào)度。
第五個(gè)價(jià)值點(diǎn)是1度算力,這個(gè)概念可能比較新一些,這是九章在發(fā)布會(huì)當(dāng)天發(fā)布的一個(gè)新概念,叫1 DataCanvas Unit,簡(jiǎn)稱(chēng)就是1度算力,最近國(guó)家都在說(shuō)我們要像水和電一樣地用算力,讓算力成為一個(gè)基礎(chǔ)設(shè)施。基于這種情況,當(dāng)我們講到電的時(shí)候,我們計(jì)量計(jì)價(jià)單位會(huì)講1度電,水是1噸水,煤氣也是,這個(gè)是全國(guó)統(tǒng)一的,可能每個(gè)地方的定價(jià)不大一樣,甚至?xí)须A梯定價(jià),但是都是一度電、一噸水,這個(gè)標(biāo)準(zhǔn)不是變的,針對(duì)算力來(lái)講也需要這樣一個(gè)標(biāo)準(zhǔn)的計(jì)量計(jì)費(fèi)單位,所以九章云極DataCanvas提出了1度算力的概念。
當(dāng)全國(guó)各地都在建計(jì)算中心的時(shí)候,最終會(huì)組成一個(gè)算網(wǎng),算網(wǎng)就意味著要做到算力的互聯(lián)互通,算力的互聯(lián)互通怎么樣方便算力的流通和算網(wǎng)內(nèi)部的結(jié)算,這個(gè)就比較重要,當(dāng)我們有DCU之后,方便于各個(gè)計(jì)算中心之間網(wǎng)絡(luò)內(nèi)部的結(jié)算。這個(gè)1度算力有一個(gè)重要意義,當(dāng)我們訓(xùn)練大模型和做模型推理的時(shí)候,經(jīng)常遇到程序有8個(gè)會(huì)停下來(lái),可能要調(diào)試代碼等等,在調(diào)試代碼的過(guò)程中其實(shí)沒(méi)有用到算力資源,是不是還要付費(fèi)呢?理論上是不行的。我們希望真正用到這個(gè)算力,然后才去付錢(qián),沒(méi)有用這個(gè)算力就不應(yīng)該付錢(qián)。
九章云極DataCanvas提出買(mǎi)到即用到,也就是說(shuō)根據(jù)實(shí)際使用算力資源的情況收費(fèi)。九章云極DataCanvas不光提供算力,還提供算力的標(biāo)準(zhǔn)度量,甚至你買(mǎi)了算力之后,對(duì)外提供AI服務(wù),我們會(huì)確保對(duì)外AI服務(wù)的質(zhì)量,真正做到買(mǎi)到即用到。
九章云極DataCanvas的優(yōu)勢(shì)在AI領(lǐng)域,我們的優(yōu)勢(shì)是在算法的基建化、服務(wù)的智能化,我們的目標(biāo)是為算力中心賦予“智芯”,構(gòu)建高效的智算操作系統(tǒng),提供更多更便捷高效的智算服務(wù),我們非常歡迎伙伴們一起加入到這個(gè)智算操作系統(tǒng)平臺(tái),共建AI新生態(tài)。謝謝大家!
以上是侯飛冰演講的完整整理。