2023年是大模型高速發(fā)展的一年,大模型不斷擴(kuò)大的參數(shù)規(guī)模和快速迭代的技術(shù)路線跨越式地提升了模型的能力,但是同時(shí)也為大模型的訓(xùn)練和應(yīng)用帶來了很多挑戰(zhàn)。比如算力利用率的瓶頸日益凸顯、算力成本壓力進(jìn)一步增大、模型的構(gòu)建難度不斷提升、模型的行業(yè)落地更加復(fù)雜。
胡志強(qiáng)表示,為順應(yīng)大模型時(shí)代對(duì)于云服務(wù)商的新要求,天翼云全面升級(jí),構(gòu)建了全棧大模型智算服務(wù),包括打造智算數(shù)據(jù)中心AIDC、升級(jí)云智超一體化基礎(chǔ)設(shè)施平臺(tái)“云驍”、推出一站式智算服務(wù)平臺(tái)“慧聚”、構(gòu)建國云大模型生態(tài),形成云智一體的智算服務(wù)體系。
整個(gè)體系的基石是智算基礎(chǔ)設(shè)施。針對(duì)AI高強(qiáng)度運(yùn)算帶來的散熱問題,天翼云推出了液冷DC艙,融合定制化液冷智算服務(wù)器,實(shí)現(xiàn)低至1.12的PUE。與此同時(shí),天翼云也將“云驍”升級(jí)成為云智超一體化基礎(chǔ)設(shè)施服務(wù)平臺(tái),構(gòu)建了高性能RoCE網(wǎng)絡(luò)、并行文件存儲(chǔ)等服務(wù);重點(diǎn)提升訓(xùn)練加速、網(wǎng)絡(luò)加速等核心能力,同時(shí)升級(jí)了運(yùn)維體系,實(shí)現(xiàn)對(duì)基礎(chǔ)設(shè)施的全面故障預(yù)測(cè)和感知。在國產(chǎn)化方面,“云驍”平臺(tái)率先在公有云加載天翼云RoCE網(wǎng)絡(luò)+國產(chǎn)GPU方案并實(shí)現(xiàn)商用。
在平臺(tái)層,天翼云發(fā)布大模型的一站式智算服務(wù)平臺(tái)“慧聚”?!盎劬邸逼脚_(tái)將大模型開發(fā)訓(xùn)練過程中的關(guān)鍵流程、復(fù)雜技術(shù)和寶貴實(shí)踐經(jīng)驗(yàn)進(jìn)行總結(jié)和抽取,構(gòu)建出一站式全鏈路的大模型生產(chǎn)應(yīng)用的流水線,大幅降低大模型訓(xùn)練、微調(diào)、部署、推理的門檻,讓客戶能夠更專注于模型升級(jí)和應(yīng)用落地。
在技術(shù)上,“慧聚”平臺(tái)成功突破了算子加速、模型并行、斷點(diǎn)續(xù)訓(xùn)等技術(shù)難點(diǎn),將高性能計(jì)算能力、分布式算力調(diào)度能力、訓(xùn)練和推理多環(huán)節(jié)加速技術(shù)、高性能數(shù)據(jù)存儲(chǔ)技術(shù)進(jìn)行封裝,穩(wěn)定性、訓(xùn)練推理速度等核心指標(biāo)大幅提升。
在功能上,“慧聚”平臺(tái)基于數(shù)據(jù)平臺(tái)、模型開發(fā)平臺(tái)、模型服務(wù)平臺(tái)和應(yīng)用服務(wù)平臺(tái)四大平臺(tái),提供數(shù)據(jù)準(zhǔn)備、模型開發(fā)、任務(wù)管理、模型優(yōu)化等多個(gè)產(chǎn)品功能模塊,每個(gè)功能模塊又包含多級(jí)組件。功能與組件之間可以靈活組裝,幫助用戶打造針對(duì)不同場(chǎng)景的專屬工具集。
基于全新的基礎(chǔ)設(shè)施服務(wù)平臺(tái)“云驍”和智算服務(wù)平臺(tái)“慧聚”,天翼云已經(jīng)為大模型開發(fā)者、大模型提供者、應(yīng)用廠商、政府與科研機(jī)構(gòu)、行業(yè)協(xié)會(huì)等合作伙伴提供多種生態(tài)模式支持。
依托國云智算底座,發(fā)揮國云安全優(yōu)勢(shì),天翼云將與產(chǎn)業(yè)各方合作伙伴緊密協(xié)作,廣泛匯聚國內(nèi)外AI芯片伙伴、各類通用大模型及行業(yè)大模型伙伴及廣大開發(fā)者,共建繁榮的大模型創(chuàng)新生態(tài),攜手打造先進(jìn)的智算生產(chǎn)力,全面賦能經(jīng)濟(jì)社會(huì)的數(shù)字化和智能化。