在峰會智能算力前沿技術(shù)論壇上,清程極智技術(shù)專家李浩瑞進(jìn)行了《開源赤兔引擎推動算力生態(tài),賦能多場景的大模型私有化部署及其應(yīng)用》的主題分享,介紹了清程極智在算力基礎(chǔ)軟件方面的技術(shù)積累,并深入解析了其最新開源的赤兔(Chitu)推理引擎技術(shù)優(yōu)勢及其在實(shí)際場景中的應(yīng)用成果。
赤兔推理引擎突破了FP8與英偉達(dá)H系列硬件的綁定,在大部分國產(chǎn)顯卡、英偉達(dá)非Hopper卡設(shè)備上即可部署DeepSeek-R1滿血版性能,Token輸出速度超越國際主流推理引擎,GPU用量在減半的情況下仍能有3.15倍的提速。同時(shí)他分享了清程極智在算力服務(wù)方面的軟件能力,包括底層編譯器、并行計(jì)算系統(tǒng)及大模型應(yīng)用等全棧技術(shù)方案。
清華基因,孕育硬核科技
清程極智孵化自清華大學(xué)計(jì)算機(jī)系,由翟季冬教授擔(dān)任首席科學(xué)家。依托團(tuán)隊(duì)成員在實(shí)驗(yàn)室里積攢的在基礎(chǔ)設(shè)施、算力優(yōu)化領(lǐng)域的深厚積累,公司構(gòu)建了全棧技術(shù)體系,技術(shù)能力覆蓋從底層編譯器到上層大模型應(yīng)用的各個環(huán)節(jié)。中國工程院院士鄭緯民曾提出了10個關(guān)鍵基礎(chǔ)軟件的核心技術(shù),包括并行系統(tǒng)、計(jì)算框架、通信庫、算子庫、AI編譯器、編程語言、調(diào)度系統(tǒng)、存儲系統(tǒng)、內(nèi)存管理、容錯系統(tǒng)等,清程極智在其中過半數(shù)已擁有自研產(chǎn)品,基于此形成的解決方案覆蓋大模型落地全棧技術(shù)要求。
清程極智依托基礎(chǔ)軟件全棧技術(shù)積累,提供智能算力建設(shè)全流程解決方案:從國產(chǎn)生態(tài)算力適配、大規(guī)模預(yù)訓(xùn)練、大模型微調(diào)、到大模型推理效率提升、云端服務(wù)平臺MaaS以及RAG服務(wù)。實(shí)現(xiàn)智能算力能力從無到有、降本增效、個性化定制等。。
在李浩瑞現(xiàn)場展示的案例中,在給某視頻生成大模型客戶做算力效率提升時(shí),清程極智可將單卡推理速度提升1.3倍,,四卡環(huán)境下視頻生成時(shí)間從190秒縮短至58秒。
赤兔引擎:突破部署瓶頸,促進(jìn)國產(chǎn)生態(tài)建設(shè)
李浩瑞重點(diǎn)介紹了清程極智開源的赤兔引擎。在部署DeepSeek–R1滿血版時(shí),傳統(tǒng)方案面臨顯存需求高、多卡通信瓶頸以及芯片適配難題。赤兔推理引擎突破了FP8與英偉達(dá)H系列硬件的綁定,使大部分國產(chǎn)芯片、英偉達(dá)老顯卡也能部署DeepSeek-R1滿血版。在A100集群測試中,與國外領(lǐng)先的推理引擎相比,赤兔引擎在GPU數(shù)量減半的情況下,輸出Token速度還能提升3.15倍。
李浩瑞進(jìn)一步介紹道:赤兔引擎具備多源算力適配、多場景伸縮、運(yùn)行穩(wěn)定、兼容能力強(qiáng)等特性,支持多種主流模型和多模態(tài)模型,適配國內(nèi)外芯片及多種接口格式,顯著縮短請求耗時(shí),提升并發(fā)吞吐效率,實(shí)現(xiàn)顯存優(yōu)化。在2024AIPerF–Inference吞吐性能榜單中,清程極智與合作伙伴搭建的推理系統(tǒng)榮獲性能排行第一名。
近期,基于赤兔引擎,清程極智推出了大模型本地化部署、私有云部署、推理一體機(jī)等產(chǎn)品形式,滿足不同客戶的多場景需求。清程極智大模型私有化部署方案具備多類型多版本大模型選擇、小顯存占用、異構(gòu)芯片適配等優(yōu)勢,并提供開箱即用的AI應(yīng)用服務(wù)及定制化開發(fā)服務(wù)。
目前赤兔引擎已在GitHub全面開源,新華社評論其”為自主可控AI生態(tài)提供新支點(diǎn)”。清程極智正與多家國產(chǎn)芯片廠商進(jìn)行深化合作,致力于打造完全自主的國產(chǎn)智能算力生態(tài)。
結(jié)語
當(dāng)開源生態(tài)遇上全棧自研,中國AI產(chǎn)業(yè)正迎來屬于自己的”赤兔時(shí)刻”。清程極智也將持續(xù)致力推動智能算力生態(tài)建設(shè),為行業(yè)提供功能完備、高效率低成本的大模型落地全棧解決方案。