DeepSeek開(kāi)源周期間,連續(xù)五天發(fā)布了六個(gè)核心技術(shù)項(xiàng)目,涵蓋了AI底層算力優(yōu)化、通信效率提升、數(shù)據(jù)處理加速等關(guān)鍵環(huán)節(jié)。這些開(kāi)源項(xiàng)目旨在降低技術(shù)門(mén)檻和成本,提高模型訓(xùn)練與推理效率,推動(dòng)AI技術(shù)的革新與行業(yè)合作。通過(guò)開(kāi)源,DeepSeek展示了其在AI技術(shù)領(lǐng)域的深厚積累,并為全球開(kāi)發(fā)者提供了開(kāi)放共享的平臺(tái)。

DeepSeek開(kāi)源周都發(fā)布了什么?

日期開(kāi)源項(xiàng)目項(xiàng)目簡(jiǎn)介主要特點(diǎn)與優(yōu)勢(shì)
2月24日FlashMLA針對(duì)NVIDIA Hopper架構(gòu)GPU優(yōu)化的高效多層注意力(MLA)解碼內(nèi)核動(dòng)態(tài)資源分配:根據(jù)輸入序列長(zhǎng)度實(shí)時(shí)調(diào)整GPU算力分配,避免算力浪費(fèi)。
分頁(yè)KV緩存管理:降低顯存占用至傳統(tǒng)方法的1/4,支持BF16格式,內(nèi)存帶寬高達(dá)3000 GB/s。
低秩分解技術(shù):適配邊緣設(shè)備部署,壓縮多頭注意力的顯存需求。
性能卓越:在H800 GPU上算力峰值可達(dá)580 TFLOPS,接近理論極限。
2月25日DeepEP首個(gè)用于MoE(混合專家)模型訓(xùn)練和推理的專家并行(EP)通信庫(kù)硬件級(jí)通信優(yōu)化:利用NVLink(160 GB/s)與RDMA跨節(jié)點(diǎn)傳輸技術(shù),壓縮GPU等待時(shí)間至163微秒級(jí)。
FP8智能壓縮技術(shù):原生支持低精度計(jì)算,減少帶寬需求。
通信計(jì)算重疊策略:實(shí)現(xiàn)通信與計(jì)算的重疊,無(wú)需占用流式多處理器資源。
性能優(yōu)勢(shì):千億參數(shù)模型訓(xùn)練成本降低30%,MoE訓(xùn)練吞吐量提升1.2倍。
2月26日DeepGEMM面向Hopper GPU的高效FP8矩陣計(jì)算庫(kù)FP8精度適配機(jī)制:平衡計(jì)算速度與精度,顯存占用降低至FP16的1/4。
即時(shí)編譯(JIT)技術(shù):動(dòng)態(tài)生成適配不同GPU架構(gòu)的內(nèi)核,核心代碼僅300行。
高性能:在Hopper GPU上實(shí)現(xiàn)高達(dá)1350+ TFLOPS的算力,小批量場(chǎng)景下加速比達(dá)2.7倍。
2月27日DualPipe用于解決流水線并行中的“等待時(shí)間”問(wèn)題的雙向流水線并行機(jī)制雙向流水線并行:同步調(diào)度前向與反向計(jì)算,消除傳統(tǒng)流水線90%的“氣泡”閑置時(shí)間,GPU利用率提升至92%。
顯存優(yōu)化:通過(guò)共享梯度傳輸機(jī)制,降低顯存占用30%。
2月27日EPLB針對(duì)MoE模型的專家并行負(fù)載均衡器動(dòng)態(tài)冗余專家分配:實(shí)時(shí)監(jiān)測(cè)專家負(fù)載,將高負(fù)載專家復(fù)制至空閑GPU,閑置率接近0%。
分層負(fù)載均衡策略:結(jié)合節(jié)點(diǎn)內(nèi)局部?jī)?yōu)化與跨節(jié)點(diǎn)全局調(diào)度,減少通信流量50%。
2月28日3FSFire-Flyer File System專為AI訓(xùn)練和大數(shù)據(jù)處理設(shè)計(jì)的高性能并行分布式文件系統(tǒng)高速數(shù)據(jù)訪問(wèn):利用SSD和RDMA網(wǎng)絡(luò),數(shù)據(jù)讀取速度達(dá)到每秒6.6TB。
分布式文件系統(tǒng):適合海量數(shù)據(jù)訓(xùn)練,提升AI模型訓(xùn)練和推理的效率。

此前算力豹盤(pán)點(diǎn)此前三天DeepSeek開(kāi)源內(nèi)容,了解詳情請(qǐng)點(diǎn)擊下方鏈接:

“源神啟動(dòng)”?!重磅開(kāi)源周,來(lái)看看DeepSeek這幾天都發(fā)布了些什么內(nèi)容

接下來(lái)讓我們看看后兩天都發(fā)布了些什么內(nèi)容吧:

1

連發(fā)重磅項(xiàng)目

DeepSeek第四天放出了雙響炮:開(kāi)源DualPipe和EPLB

今天DeepSeek發(fā)布了DualPipe(雙向管道并行算法)和EPLB(專家并行負(fù)載均衡器)。

據(jù)DeepSeek介紹,DualPipe是一項(xiàng)在DeepSeek-V3技術(shù)報(bào)告中引入的雙向管道等值算法,它實(shí)現(xiàn)了向后和向后計(jì)算通信階段的雙向重疊,顯著減少訓(xùn)練空閑時(shí)間。

同時(shí),流水線氣泡優(yōu)化這一創(chuàng)新調(diào)度策略,降低傳統(tǒng)管道并行中的氣泡”問(wèn)題,有效提升硬件資源利用率。在GitHub上,目前該算法已經(jīng)獲得544個(gè)Star收藏。

另外,在此談一談EPLB(專家并行負(fù)載均衡器)。

EPLB(專家并行負(fù)載均衡器)具有動(dòng)態(tài)負(fù)載均衡、分層與全局平衡結(jié)合、流量?jī)?yōu)化的特點(diǎn)。

具體來(lái)看,動(dòng)態(tài)負(fù)載均衡是基于混合專家(MoE)架構(gòu),通過(guò)冗余專家策略復(fù)制高負(fù)載專家,并采用啟發(fā)式分配算法優(yōu)化GPU間的負(fù)載均衡;

另外在分層與全局平衡結(jié)合方面,它既支持單個(gè)節(jié)點(diǎn)的分層負(fù)載管理,也實(shí)現(xiàn)跨節(jié)點(diǎn)的全局負(fù)載平衡,減少GPU閑置。

此外在流量?jī)?yōu)化上,可在平衡負(fù)載的同時(shí),通過(guò)調(diào)整專家分布降低節(jié)點(diǎn)間通信數(shù)據(jù)量,提升整體訓(xùn)練效率。

開(kāi)源勞苦功高的3FS!

最后一天DeepSeek開(kāi)源的項(xiàng)目是:Fire-Flyer文件系統(tǒng),即3FS。

據(jù)了解,3FS是一個(gè)高性能并行文件系統(tǒng),它是所有Deepseek數(shù)據(jù)訪問(wèn)的助推器,能應(yīng)對(duì)AI訓(xùn)練和推理工作負(fù)載的挑戰(zhàn)。

它利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)提供共享存儲(chǔ)層,能簡(jiǎn)化分布式應(yīng)用程序的開(kāi)發(fā),具有以下主要特性:

1、分離式架構(gòu):結(jié)合了數(shù)千個(gè)SSD和數(shù)百個(gè)存儲(chǔ)節(jié)點(diǎn)的網(wǎng)絡(luò)帶寬,使應(yīng)用程序可以不受位置限制地訪問(wèn)存儲(chǔ)資源

2、強(qiáng)一致性:實(shí)現(xiàn)了鏈?zhǔn)綇?fù)制與分配查詢(CRAQ)協(xié)議,確保數(shù)據(jù)的強(qiáng)一致性,簡(jiǎn)化應(yīng)用程序開(kāi)發(fā)

3、文件接口:提供基于事務(wù)性鍵值存儲(chǔ)(如FoundationDB)支持的無(wú)狀態(tài)元數(shù)據(jù)服務(wù),使用通用的文件接口,無(wú)需學(xué)習(xí)新的存儲(chǔ)API

4、多樣化工作負(fù)載支持

4.1 數(shù)據(jù)準(zhǔn)備:高效組織數(shù)據(jù)分析管道的輸出和管理大量中間結(jié)果

4.2 數(shù)據(jù)加載:支持計(jì)算節(jié)點(diǎn)間的訓(xùn)練樣本隨機(jī)訪問(wèn),消除預(yù)取或打亂數(shù)據(jù)集的需求

4.3 檢查點(diǎn)保存:支持大規(guī)模訓(xùn)練的高吞吐并行檢查點(diǎn)保存

4.4 推理KVCache:提供比基于內(nèi)存緩存更具成本效益的替代方案,同時(shí)提供高吞吐量和更大容量

另外,3FS的核心性能指標(biāo)表現(xiàn)在聚合讀取吞吐量上,具體體現(xiàn)就是在由180個(gè)存儲(chǔ)節(jié)點(diǎn)組成的集群中,可實(shí)現(xiàn)6.6 TiB/s 的聚合讀取吞吐量。

在基準(zhǔn)測(cè)試表現(xiàn)中,在25節(jié)點(diǎn)集群的GraySort基準(zhǔn)測(cè)試中,吞吐量可達(dá) 3.66 TiB/分鐘;在單客戶端節(jié)點(diǎn)的KVCache查找峰值吞吐量超過(guò)40 GiB/s。

尤其值得一提的是,3FS對(duì)于V3和R1中訓(xùn)練數(shù)據(jù)預(yù)處理、數(shù)據(jù)集加載、嵌入向量搜索和KV Cache查找等工作,都立下了汗馬功勞,可謂功高蓋主!

2

重塑大模型世界

國(guó)產(chǎn)顯卡動(dòng)作神速!摩爾線程全面支持DeepSeek開(kāi)源周成果

摩爾線程宣布,DeepSeek開(kāi)源周收官后,短時(shí)間內(nèi)成功全面支持DeepSeek各開(kāi)源項(xiàng)目,包括FlashMLA、DeepEP、DeepGEMM、DualPipe及3FS文件系統(tǒng)。

此成果驗(yàn)證了MUSA架構(gòu)和全功能GPU在生態(tài)兼容與快速適配上的優(yōu)勢(shì)。

支持項(xiàng)目簡(jiǎn)介:

FlashMLA:高效MLA推理內(nèi)核開(kāi)源倉(cāng)庫(kù),加速M(fèi)LA機(jī)制計(jì)算,適用于DeepSeek系列模型。摩爾線程基于MUSA Compute Capability 3.1架構(gòu),提供FP8計(jì)算能力,升級(jí)MUTLASS庫(kù),發(fā)布MT-FlashMLA開(kāi)源倉(cāng)庫(kù),兼容部署DeepSeek FlashMLA。開(kāi)源地址見(jiàn)鏈接。

DeepEP:用于MoE模型訓(xùn)練和推理的開(kāi)源EP通信庫(kù),提升大模型訓(xùn)練效率。摩爾線程基于MUSA架構(gòu)第一時(shí)間適配DeepEP。開(kāi)源地址見(jiàn)鏈接。

DeepGEMM:支持密集矩陣與MoE矩陣乘法的FP8 GEMM庫(kù),為V3/R1提供動(dòng)力。摩爾線程基于MUTLASS優(yōu)化實(shí)現(xiàn)FP8矩陣乘法,支持DeepGEMM。開(kāi)源地址見(jiàn)鏈接。

DualPipe:DeepSeek-V3提出的雙向流水線并行算法,減少流水線氣泡,提升資源利用率與訓(xùn)練效率。摩爾線程依托Torch-MUSA框架和MUSA軟件棧兼容性,實(shí)現(xiàn)高效支持。MT-DualPipe可接入MT-Megatron和MT-TransformerEngine框架。開(kāi)源地址見(jiàn)鏈接。

3FS:利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)帶寬的并行文件系統(tǒng),極致利用固態(tài)硬盤(pán)帶寬性能。摩爾線程一天內(nèi)完成3FS搭建,開(kāi)發(fā)存儲(chǔ)插件,實(shí)現(xiàn)與夸娥智算集群無(wú)縫集成,為AI訓(xùn)練、推理、科學(xué)計(jì)算等提供全棧存儲(chǔ)加速方案。

阿里萬(wàn)相大模型登上全球開(kāi)源榜首

Hugging Face最新榜單顯示,開(kāi)源6天的阿里萬(wàn)相大模型已反超DeepSeekR1,登頂熱榜、空間榜,成全球最受歡迎大模型。萬(wàn)相2.1在Hugging Face及魔搭社區(qū)下載量超百萬(wàn),Github Star數(shù)超6K。

第二名是Microsoft的The Ultra-Scale playbook,DeepSeekR1暫列第三。2月25日深夜,阿里云宣布萬(wàn)相2.1開(kāi)源。

萬(wàn)相2.1采用Apache2.0協(xié)議,14B和1.3B參數(shù)規(guī)格推理代碼和權(quán)重全開(kāi)源,支持文生視頻和圖生視頻任務(wù)。14B版本在指令遵循、復(fù)雜運(yùn)動(dòng)生成等方面表現(xiàn)突出。

在Vbench中,萬(wàn)相2.1總分86.22%大幅超越國(guó)內(nèi)外模型,穩(wěn)居榜首。1.3B版本不僅超更大尺寸開(kāi)源模型,還與部分閉源模型結(jié)果接近,能在消費(fèi)級(jí)顯卡運(yùn)行,8.2GB顯存即可生成480P視頻,適用于二次開(kāi)發(fā)和學(xué)術(shù)研究。

寫(xiě)在最后

DeepSeek創(chuàng)始人梁文鋒在開(kāi)源項(xiàng)目署名中親自參與研發(fā),強(qiáng)調(diào)“AGI不應(yīng)是象牙塔”,需與社區(qū)共建生態(tài)。此次開(kāi)源周以“透明化”打破技術(shù)壟斷,推動(dòng)AI普惠化。正如行業(yè)觀察者所言:“DeepSeek開(kāi)源的不僅是代碼,更是通往AGI的‘通關(guān)秘鑰’?!?/p>

隨著R2模型加速研發(fā),DeepSeek或進(jìn)一步改寫(xiě)全球AI競(jìng)爭(zhēng)格局。開(kāi)發(fā)者與企業(yè)的共同期待已明確:開(kāi)源大模型時(shí)代已來(lái),誰(shuí)將率先抵達(dá)AGI彼岸?

分享到

lixiangjing

算力豹主編

相關(guān)推薦