亚洲中文字幕精品一区二区三区,日本中文一二区有码在线

在峰會智能算力前沿技術(shù)論壇上，清程極智技術(shù)專家李浩瑞進行了《開源赤兔引擎推動算力生態(tài)，賦能多場景的大模型私有化部署及其應(yīng)用》的主題分享，介紹了清程極智在算力基礎(chǔ)軟件方面的技術(shù)積累，并深入解析了其最新開源的赤兔（Chitu）推理引擎技術(shù)優(yōu)勢及其在實際場景中的應(yīng)用成果。

赤兔推理引擎突破了FP8與英偉達H系列硬件的綁定，在大部分國產(chǎn)顯卡、英偉達非Hopper卡設(shè)備上即可部署DeepSeek-R1滿血版性能，Token輸出速度超越國際主流推理引擎，GPU用量在減半的情況下仍能有3.15倍的提速。同時他分享了清程極智在算力服務(wù)方面的軟件能力，包括底層編譯器、并行計算系統(tǒng)及大模型應(yīng)用等全棧技術(shù)方案。

清華基因，孕育硬核科技

清程極智孵化自清華大學(xué)計算機系，由翟季冬教授擔(dān)任首席科學(xué)家。依托團隊成員在實驗室里積攢的在基礎(chǔ)設(shè)施、算力優(yōu)化領(lǐng)域的深厚積累，公司構(gòu)建了全棧技術(shù)體系，技術(shù)能力覆蓋從底層編譯器到上層大模型應(yīng)用的各個環(huán)節(jié)。中國工程院院士鄭緯民曾提出了10個關(guān)鍵基礎(chǔ)軟件的核心技術(shù)，包括并行系統(tǒng)、計算框架、通信庫、算子庫、AI編譯器、編程語言、調(diào)度系統(tǒng)、存儲系統(tǒng)、內(nèi)存管理、容錯系統(tǒng)等，清程極智在其中過半數(shù)已擁有自研產(chǎn)品，基于此形成的解決方案覆蓋大模型落地全棧技術(shù)要求。

清程極智依托基礎(chǔ)軟件全棧技術(shù)積累，提供智能算力建設(shè)全流程解決方案：從國產(chǎn)生態(tài)算力適配、大規(guī)模預(yù)訓(xùn)練、大模型微調(diào)、到大模型推理效率提升、云端服務(wù)平臺MaaS以及RAG服務(wù)。實現(xiàn)智能算力能力從無到有、降本增效、個性化定制等。。

在李浩瑞現(xiàn)場展示的案例中，在給某視頻生成大模型客戶做算力效率提升時，清程極智可將單卡推理速度提升1.3倍，，四卡環(huán)境下視頻生成時間從190秒縮短至58秒。

赤兔引擎：突破部署瓶頸，促進國產(chǎn)生態(tài)建設(shè)

李浩瑞重點介紹了清程極智開源的赤兔引擎。在部署DeepSeek–R1滿血版時，傳統(tǒng)方案面臨顯存需求高、多卡通信瓶頸以及芯片適配難題。赤兔推理引擎突破了FP8與英偉達H系列硬件的綁定，使大部分國產(chǎn)芯片、英偉達老顯卡也能部署DeepSeek-R1滿血版。在A100集群測試中，與國外領(lǐng)先的推理引擎相比，赤兔引擎在GPU數(shù)量減半的情況下，輸出Token速度還能提升3.15倍。

李浩瑞進一步介紹道：赤兔引擎具備多源算力適配、多場景伸縮、運行穩(wěn)定、兼容能力強等特性，支持多種主流模型和多模態(tài)模型，適配國內(nèi)外芯片及多種接口格式，顯著縮短請求耗時，提升并發(fā)吞吐效率，實現(xiàn)顯存優(yōu)化。在2024AIPerF–Inference吞吐性能榜單中，清程極智與合作伙伴搭建的推理系統(tǒng)榮獲性能排行第一名。

近期，基于赤兔引擎，清程極智推出了大模型本地化部署、私有云部署、推理一體機等產(chǎn)品形式，滿足不同客戶的多場景需求。清程極智大模型私有化部署方案具備多類型多版本大模型選擇、小顯存占用、異構(gòu)芯片適配等優(yōu)勢，并提供開箱即用的AI應(yīng)用服務(wù)及定制化開發(fā)服務(wù)。

目前赤兔引擎已在GitHub全面開源，新華社評論其”為自主可控AI生態(tài)提供新支點”。清程極智正與多家國產(chǎn)芯片廠商進行深化合作，致力于打造完全自主的國產(chǎn)智能算力生態(tài)。

結(jié)語

當(dāng)開源生態(tài)遇上全棧自研，中國AI產(chǎn)業(yè)正迎來屬于自己的”赤兔時刻”。清程極智也將持續(xù)致力推動智能算力生態(tài)建設(shè)，為行業(yè)提供功能完備、高效率低成本的大模型落地全棧解決方案。