截至2025年2月26日,DeepSeek在“開源周”活動的前三天(2月24日-26日)已發(fā)布以下三項重要開源項目,覆蓋AI底層算力優(yōu)化與通信技術(shù),具體內(nèi)容如下:

FlashMLA(2月24日)

功能定位:

針對NVIDIA Hopper架構(gòu)GPU(如H800)優(yōu)化的高效多層注意力(MLA)解碼內(nèi)核,專為處理可變長度序列設(shè)計,適用于大語言模型的推理加速。

核心優(yōu)勢:

在H800 GPU上實現(xiàn)內(nèi)存帶寬超3000 GB/s,BF16精度下算力達580 TFLOPS,對比傳統(tǒng)方案效率顯著提升。

支持動態(tài)批處理,兼容CUDA 12.3+和PyTorch 2.0+,已投入生產(chǎn)環(huán)境驗證。

三步完成安裝與性能測試,開發(fā)者可快速集成至實時生成任務(wù)(如聊天機器人、文本生成)。

DeepEP(2月25日)

DeepSeek開源周第二日(2月25日),DeepSeek官宣開源DeepEP,第一個用于MoE模型訓(xùn)練和推理的開源EP通信庫。特點有:高效、優(yōu)化的全員溝通;節(jié)點內(nèi)和節(jié)點間均支持NVLink和RDMA;用于訓(xùn)練和推理預(yù)填充的高吞吐量內(nèi)核;用于推理解碼的低延遲內(nèi)核;原生FP8調(diào)度支持;靈活的GPU資源控制,實現(xiàn)計算-通信重疊。

DeepGEMM(2月26日)

據(jù)了解,DeepGEMM是一個專注于為FP8高效通用矩陣乘法(GEMM)庫,支持普通及混合專家(MoE)分組的矩陣計算需求,可動態(tài)優(yōu)化資源分配以提升算力效率。

該庫基于CUDA開發(fā),采用輕量級即時編譯(JIT)模塊,在運行時動態(tài)編譯內(nèi)核,無需預(yù)先編譯安裝。

值得一提的是,DeepGEMM設(shè)計目標(biāo)是為DeepSeek-V3/R1模型的訓(xùn)練與推理提供簡潔高效的底層支持,尤其針對Hopper架構(gòu)GPU(如H800)優(yōu)化,兼顧高性能與低成本。

作為開源周的第三項成果,DeepGEMM的發(fā)布延續(xù)了DeepSeek此前開源模型與工具(如FlashMLA)的策略,進一步降低高性能計算技術(shù)的應(yīng)用門檻。

開源周的意義與后續(xù)計劃

據(jù)介紹,DeepSeek的目標(biāo)是通過開源透明化團隊在通用人工智能(AGI)領(lǐng)域的探索進展,推動技術(shù)共享與行業(yè)應(yīng)用加速。這個“開源周”已經(jīng)吸引了全球開發(fā)者極大關(guān)注。

據(jù)悉,DeepSeek的橫空出世及開源策略正在牽動大模型賽道的分化,以及各國不同的AI發(fā)展路徑之爭。

最初,開源指“開放源代碼”,在人工智能和數(shù)字時代,開源更指的是“開放資源”。有業(yè)內(nèi)人士告訴記者,其實在DeepSeek-R1發(fā)布之前,o1模型已經(jīng)具備了深度思考的能力,只是OpenAI秉持閉源策略,并未公布o(jì)1的技術(shù)方案,而DeepSeek則是自主探索出了背后的技術(shù),并對此進行了全面開源,引發(fā)全球熱潮。

今年,在DeepSeek的帶動下,越來越多的AI廠商開始擁抱開源。

天使投資人、資深人工智能專家郭濤表示,越來越多AI企業(yè)選擇開源,一方面將促使各企業(yè)更加注重打造差異化的生態(tài)體系,圍繞開源模型衍生出不同的服務(wù)、插件、工具等產(chǎn)品;另一方面,為了在生態(tài)競爭中勝出,企業(yè)會聯(lián)合起來制定統(tǒng)一的接口規(guī)范、數(shù)據(jù)格式等標(biāo)準(zhǔn),提高整個行業(yè)的協(xié)同效率和兼容性。

“AI這個領(lǐng)域本身就是由開源推動的?!鼻迦A大學(xué)計算機科學(xué)與技術(shù)系長聘副教授、面壁智能創(chuàng)始人劉知遠認(rèn)為,開源不僅是一種技術(shù)選擇,更是一種信任機制。當(dāng)一個項目開源,意味著它向全世界證明自身的可信度——我說它能做到什么,任何人都可以去驗證,這種機制將極大地提升現(xiàn)代社會的運作效率?!拔磥?,開源會得到更深入、更廣泛的應(yīng)用,它是一種不可逆的趨勢?!?/p>

劉知遠也表示,不能簡單地將開源視作一種無條件的共享,而是要注重如何在開源的基礎(chǔ)上,構(gòu)建更深層次的技術(shù)優(yōu)勢,“真正的競爭力,不在于某一個具體的開源模型,而在于如何高效、穩(wěn)定、可持續(xù)地生產(chǎn)更先進的模型。這才是決定一家AI公司能否保持領(lǐng)先的關(guān)鍵?!?/p>

分享到

lixiangjing

算力豹主編

相關(guān)推薦