天翼云云網(wǎng)產(chǎn)品事業(yè)部研發(fā)專家 黃堅(jiān)
隨著大模型風(fēng)潮來襲,加快建設(shè)超大規(guī)模智算集群,已成為增強(qiáng)多元算力供給的重要措施。與傳統(tǒng)云原生大規(guī)模場景相比,超大規(guī)模智算集群的管理復(fù)雜度和難度更高。黃堅(jiān)表示,當(dāng)前,在充分發(fā)揮超大規(guī)模智算集群的算力方面,整個(gè)行業(yè)還面臨著諸多挑戰(zhàn):
● 首先,智算業(yè)務(wù)與底層算力高耦合。在基于transformer衍生出來的智算生態(tài)中,要求最大化使用底層算力,這就要求從業(yè)者既要懂算法,又要懂算力,同時(shí)需要具備結(jié)合算法算力的工程化思維,從算子優(yōu)化、算子融合、并行計(jì)算等多個(gè)方向提升算力的使用效率。
● 其次,硬件無明確異常指標(biāo),定位難度大。雖然通過監(jiān)控可以覆蓋一些明顯的軟硬件問題,但更多類似于光模塊故障等問題,需要綜合光衰、溫度、功耗等多個(gè)維度,并結(jié)合業(yè)務(wù)異常,才能實(shí)現(xiàn)準(zhǔn)確定位。
● 再次,日常管理復(fù)雜度高。超大規(guī)模智算集群規(guī)模大、數(shù)量多,如何實(shí)現(xiàn)百萬量級(jí)元器件的系統(tǒng)化、模塊化、周期化管理,并與業(yè)務(wù)方進(jìn)行有效協(xié)同,是運(yùn)維的難點(diǎn)。
作為云服務(wù)國家隊(duì),天翼云加強(qiáng)核心技術(shù)自主研發(fā),積極探索超大規(guī)模智算集群運(yùn)維之道,不斷升級(jí)產(chǎn)品和生態(tài)矩陣,為AI開發(fā)者提供“供得上、用得起、用得好”的智算服務(wù)。
在平臺(tái)層面,天翼云全新升級(jí)一體化計(jì)算加速平臺(tái)“云驍”,“云驍”具備超大規(guī)模集群管理、運(yùn)營和算力加速能力,可提供通智超一體化服務(wù),集“異構(gòu)計(jì)算+高速存儲(chǔ)+無損網(wǎng)絡(luò)+算力加速+高效運(yùn)營”五大能力于一體,讓智算更快、更穩(wěn)。
在算力層面,天翼云加速推進(jìn)多層次智算算力布局,打造萬卡級(jí)超大規(guī)模智算中心,滿足快速增長的智算算力需求。目前,天翼云上海臨港國產(chǎn)萬卡算力池已正式啟用,這不僅是國內(nèi)首個(gè)投入正式運(yùn)營的國產(chǎn)單池萬卡液冷算力集群,也是業(yè)內(nèi)領(lǐng)先的全國產(chǎn)化云智一體公共智算中心,創(chuàng)新性采用網(wǎng)絡(luò)中置、算力分層的“魔方”型組網(wǎng),實(shí)現(xiàn)了單一集群內(nèi)萬卡高速互聯(lián),滿足萬億級(jí)參數(shù)大模型訓(xùn)練所需的多機(jī)多卡并行、高吞吐無損通信等需求。
未來,天翼云將持續(xù)堅(jiān)持科技創(chuàng)新,深耕云智一體,不斷夯實(shí)國云智算底座,為數(shù)字經(jīng)濟(jì)發(fā)展與數(shù)字中國建設(shè)注入澎湃動(dòng)能。