2025年3月25日,當(dāng)全球AI巨頭還在為發(fā)布會排期時,中國團(tuán)隊DeepSeek已悄然在Hugging Face上線了DeepSeek-V3-0324版本。這個沒有預(yù)熱、沒有宣傳的“深夜更新”,不僅以6850億參數(shù)刷新國產(chǎn)模型紀(jì)錄,更在代碼生成、數(shù)學(xué)推理等領(lǐng)域?qū)崿F(xiàn)“降維打擊”,被開發(fā)者稱為“Claude 3.7 Sonnet的隱形殺手”。
文字編輯|宋雨涵
1
數(shù)據(jù)說話
看看V3和V3-0324有啥不一樣
指標(biāo) | DeepSeek V3(2024.12) | DeepSeek V3-0324(2025.03) | 變化/說明 |
總參數(shù) | 6710億 | 6850億 | 增加140億參數(shù),可能用于擴展模型深度或增強特定模塊(如多任務(wù)處理層MTP) |
每token激活參數(shù) | 370億 | 370億 | 保持相同激活規(guī)模,推測未調(diào)整稀疏激活機制或?qū)<一旌喜呗?/td> |
訓(xùn)練數(shù)據(jù) | 14.8萬億token | 14.8萬億token | 數(shù)據(jù)量未變,可能復(fù)用原有數(shù)據(jù)集或通過數(shù)據(jù)蒸餾技術(shù)優(yōu)化訓(xùn)練效率 |
訓(xùn)練成本 | 550萬美元 | 550萬美元(預(yù)估) | 成本控制仍是亮點,可能通過優(yōu)化訓(xùn)練流程或硬件利用率維持成本不變 |
推理速度 | – | “X上稱更快,未實錘” | 社區(qū)傳聞速度提升,需官方數(shù)據(jù)驗證(可能涉及算子優(yōu)化或硬件加速) |
代碼能力 | – | 超越Llama 3.1 405B | 代碼生成能力顯著增強,接近更大模型(如Sonnet 3.5)表現(xiàn) |
數(shù)學(xué)水平(MATH 500) | 強 | “用戶稱進(jìn)步顯著” | 數(shù)學(xué)推理能力大幅提升,可能優(yōu)化數(shù)學(xué)邏輯模塊或增加數(shù)學(xué)領(lǐng)域預(yù)訓(xùn)練數(shù)據(jù) |
上下文窗口 | 128K token | 128K token | 保持長文本處理能力,未擴展窗口長度 |
再來看看具體有哪些升級
相較于上一版,從一個球在超立方體彈跳的Python腳本,即可看出V3代碼性能的改善。
甚至,它還能解鎖Claude 3.7 Sonnet很多玩法,代碼可以與之正面較量。
值得一提的是,DeepSeek V3另一大亮點在于采用MIT開源協(xié)議,上個版本還是自定義許可證。
這不僅可以自由修改、分發(fā)模型,還支持模型蒸餾、商業(yè)化應(yīng)用。
網(wǎng)友讓模型設(shè)計的天氣頁面(左由新版DeepSeek-V3生成;右由初代DeepSeek-V3生成)
2
開源普惠 VS 閉源壁壘
中國 AI 的 “非對稱優(yōu)勢”
維度 | 中國路徑(DeepSeek) | 西方路徑(OpenAI) |
硬件依賴 | 優(yōu)化有限算力,適配昇騰910B等國產(chǎn)芯片 | 依賴英偉達(dá)GPU集群 |
商業(yè)策略 | 開源普惠,降低技術(shù)使用門檻 | 閉源付費,構(gòu)建生態(tài)壁壘 |
技術(shù)路線 | 混合架構(gòu)+動態(tài)負(fù)載均衡 | 純Transformer架構(gòu) |
DeepSeek 的突破揭示了中美AI競爭的新范式。在芯片受限背景下,中國團(tuán)隊通過算法優(yōu)化實現(xiàn)反超。清華大學(xué)劉知遠(yuǎn)教授指出:“這種‘系統(tǒng)級創(chuàng)新效率’,正是中國 AI 的隱形競爭力?!?nbsp;與西方純Transformer架構(gòu)不同,DeepSeek采用混合架構(gòu),結(jié)合動態(tài)負(fù)載均衡技術(shù),在有限算力下實現(xiàn)性能突破。
將開源貫徹到底
DeepSeek此次以MIT許可證開源模型權(quán)重,允許免費商用與二次開發(fā),與Claude 3.7 Sonnet等閉源模型的付費模式形成鮮明對比。這一策略直接沖擊了OpenAI的盈利模式——后者GPT-5雖宣布免費開放,但仍依賴訂閱制構(gòu)建護(hù)城河。
此外GitHub上已涌現(xiàn)127個衍生工具,涵蓋代碼審查、網(wǎng)頁生成等領(lǐng)域,某智能網(wǎng)頁校對工具下載量突破5000次。
邊緣計算崛起:IDC預(yù)測,到2026年,適配DeepSeek的邊緣AI服務(wù)器市場規(guī)模將突破200億美元。
R2蓄勢待發(fā),直指GPT-5
DeepSeek-V3-0324的發(fā)布被視為R2系列的前哨戰(zhàn)。根據(jù)行業(yè)規(guī)律,R2或于 2025年4月推出,直接對標(biāo)OpenAI的GPT-5。其技術(shù)路線聚焦三大方向:領(lǐng)域知識蒸餾(金融、醫(yī)療垂直優(yōu)化)、多模態(tài)融合(Q3推出圖文增強版)、推理能力升級(目標(biāo)響應(yīng)時間壓縮至500ms以內(nèi))。