今年以來,大模型應(yīng)用的深入推進為人工智能產(chǎn)業(yè)帶來新機遇,人工智能產(chǎn)業(yè)呈現(xiàn)出應(yīng)用場景多元化拓展、數(shù)據(jù)體量爆發(fā)式增長等態(tài)勢,這對支撐大規(guī)模智能計算的基礎(chǔ)設(shè)施提出更高要求。天翼云推出的智算基礎(chǔ)設(shè)施平臺“云驍”,依托天翼分布式架構(gòu)云底座和海量計算、存儲、網(wǎng)絡(luò)資源,基于天翼云操作系統(tǒng)TeleCloudOS4.0,為用戶提供軟硬一體的解決方案,可實現(xiàn)高階算力供給、資源高效利用、多種計算能力服務(wù)一站式提供,大幅提升數(shù)據(jù)加載、訓(xùn)練和推理效率,滿足智算、超算、通算多樣化算力服務(wù)需求。

“云驍”構(gòu)建了高性能存儲與網(wǎng)絡(luò)服務(wù)。在存儲方面,“云驍”基于塊存儲服務(wù)、并行文件服務(wù)、分布式文件服務(wù)以及對象存儲服務(wù),為客戶提供端到端的存儲解決方案。在網(wǎng)絡(luò)方面,“云驍”提供百GB帶寬RDMA無損網(wǎng)絡(luò),實現(xiàn)計算節(jié)點以及計算存儲之間數(shù)據(jù)的快速傳遞;支持存算分離高速網(wǎng)絡(luò)自動化部署以及多租戶網(wǎng)絡(luò)隔離技術(shù),實現(xiàn)數(shù)據(jù)安全隔離,保障用戶數(shù)據(jù)安全;支持多場景存儲訪問,滿足用戶對高速訪問并行文件存儲、云上對象存儲等多種應(yīng)用場景的綜合需求。

整體來看,“云驍”具有算力整合、算力調(diào)度加速、算力運營管理等能力。在算力整合方面,“云驍”為模型開發(fā)、訓(xùn)練、推理、算力加速、算力運維等場景提供軟硬一體解決方案;在算力調(diào)度加速方面,實現(xiàn)基于硬件網(wǎng)絡(luò)的拓撲感知調(diào)度、故障感知調(diào)度,從而提高通信效率和訓(xùn)練效率,同時通過數(shù)據(jù)加速、單機計算加速和顯存優(yōu)化、分布式并行加速、通信優(yōu)化等加速技術(shù),加速AI訓(xùn)練推理效率,降低客戶成本;在算力運營管理方面,支持訓(xùn)練和推理過程中的效率分析和優(yōu)化,提供全面的日志和監(jiān)控,方便用戶運維和全流程觀測。

為提升智算服務(wù)能力,“云驍”打造了先進的服務(wù)架構(gòu),可實現(xiàn)微服務(wù)拆分,滿足用戶便捷部署、高可用、負載均衡等需求;具備Region、AZ、集群、多租戶等多層級資源管理、供給能力,便于用戶調(diào)用資源;支持通過Web UI以及API等多樣化方式接入,提供個性化接入服務(wù)。此外,“云驍”內(nèi)置全自研任務(wù)管理、調(diào)度系統(tǒng),便于用戶進行統(tǒng)一管理和調(diào)度。其中,自研任務(wù)系統(tǒng)兼具多場景、全流程任務(wù)管理能力;自研任務(wù)控制器支持常用智算任務(wù)的編排控制;自研調(diào)度器支持多種調(diào)度策略,支撐用戶便捷化調(diào)用智算能力,賦能各類智慧應(yīng)用建設(shè)。

目前,“云驍”已在多個行業(yè)場景落地應(yīng)用,推動企業(yè)快速發(fā)展。在大模型行業(yè),“云驍”為思必馳提供AI基礎(chǔ)設(shè)施層服務(wù),賦能思必馳進一步縮短語音識別訓(xùn)練時間周期并降低算力成本。此外,“云驍”還為人工智能研究機構(gòu)、汽車等客戶進行大模型訓(xùn)練和微調(diào),助力降低科研創(chuàng)新成本。

分享到

xiesc

相關(guān)推薦