中文字幕在线日亚州9,亚洲日本中文字幕在线四区

2025年3月25日，當(dāng)全球AI巨頭還在為發(fā)布會排期時，中國團隊DeepSeek已悄然在Hugging Face上線了DeepSeek-V3-0324版本。這個沒有預(yù)熱、沒有宣傳的“深夜更新”，不僅以6850億參數(shù)刷新國產(chǎn)模型紀(jì)錄，更在代碼生成、數(shù)學(xué)推理等領(lǐng)域?qū)崿F(xiàn)“降維打擊”，被開發(fā)者稱為“Claude 3.7 Sonnet的隱形殺手”。

指標(biāo)	DeepSeek V3（2024.12）	DeepSeek V3-0324（2025.03）	變化/說明
總參數(shù)	6710億	6850億	增加140億參數(shù)，可能用于擴展模型深度或增強特定模塊（如多任務(wù)處理層MTP）
每token激活參數(shù)	370億	370億	保持相同激活規(guī)模，推測未調(diào)整稀疏激活機制或?qū)＜一旌喜呗?/td>
訓(xùn)練數(shù)據(jù)	14.8萬億token	14.8萬億token	數(shù)據(jù)量未變，可能復(fù)用原有數(shù)據(jù)集或通過數(shù)據(jù)蒸餾技術(shù)優(yōu)化訓(xùn)練效率
訓(xùn)練成本	550萬美元	550萬美元（預(yù)估）	成本控制仍是亮點，可能通過優(yōu)化訓(xùn)練流程或硬件利用率維持成本不變
推理速度	–	“X上稱更快，未實錘”	社區(qū)傳聞速度提升，需官方數(shù)據(jù)驗證（可能涉及算子優(yōu)化或硬件加速）
代碼能力	–	超越Llama 3.1 405B	代碼生成能力顯著增強，接近更大模型（如Sonnet 3.5）表現(xiàn)
數(shù)學(xué)水平（MATH 500）	強	“用戶稱進步顯著”	數(shù)學(xué)推理能力大幅提升，可能優(yōu)化數(shù)學(xué)邏輯模塊或增加數(shù)學(xué)領(lǐng)域預(yù)訓(xùn)練數(shù)據(jù)
上下文窗口	128K token	128K token	保持長文本處理能力，未擴展窗口長度

指標(biāo)

DeepSeek V3（2024.12）

DeepSeek V3-0324（2025.03）

變化/說明

總參數(shù)

6710億

6850億

增加140億參數(shù)，可能用于擴展模型深度或增強特定模塊（如多任務(wù)處理層MTP）

每token激活參數(shù)

370億

保持相同激活規(guī)模，推測未調(diào)整稀疏激活機制或?qū)＜一旌喜呗?/td>

訓(xùn)練數(shù)據(jù)

14.8萬億token

數(shù)據(jù)量未變，可能復(fù)用原有數(shù)據(jù)集或通過數(shù)據(jù)蒸餾技術(shù)優(yōu)化訓(xùn)練效率

訓(xùn)練成本

550萬美元

550萬美元（預(yù)估）

成本控制仍是亮點，可能通過優(yōu)化訓(xùn)練流程或硬件利用率維持成本不變

推理速度

–

“X上稱更快，未實錘”

社區(qū)傳聞速度提升，需官方數(shù)據(jù)驗證（可能涉及算子優(yōu)化或硬件加速）

代碼能力

–

超越Llama 3.1 405B

代碼生成能力顯著增強，接近更大模型（如Sonnet 3.5）表現(xiàn)

數(shù)學(xué)水平（MATH 500）

強

“用戶稱進步顯著”

數(shù)學(xué)推理能力大幅提升，可能優(yōu)化數(shù)學(xué)邏輯模塊或增加數(shù)學(xué)領(lǐng)域預(yù)訓(xùn)練數(shù)據(jù)

上下文窗口

128K token

保持長文本處理能力，未擴展窗口長度

相較于上一版，從一個球在超立方體彈跳的Python腳本，即可看出V3代碼性能的改善。

甚至，它還能解鎖Claude 3.7 Sonnet很多玩法，代碼可以與之正面較量。

值得一提的是，DeepSeek V3另一大亮點在于采用MIT開源協(xié)議，上個版本還是自定義許可證。

這不僅可以自由修改、分發(fā)模型，還支持模型蒸餾、商業(yè)化應(yīng)用。

網(wǎng)友讓模型設(shè)計的天氣頁面（左由新版DeepSeek-V3生成；右由初代DeepSeek-V3生成）

維度	中國路徑（DeepSeek）	西方路徑（OpenAI）
硬件依賴	優(yōu)化有限算力，適配昇騰910B等國產(chǎn)芯片	依賴英偉達GPU集群
商業(yè)策略	開源普惠，降低技術(shù)使用門檻	閉源付費，構(gòu)建生態(tài)壁壘
技術(shù)路線	混合架構(gòu)+動態(tài)負(fù)載均衡	純Transformer架構(gòu)

維度

中國路徑（DeepSeek）

西方路徑（OpenAI）

硬件依賴

優(yōu)化有限算力，適配昇騰910B等國產(chǎn)芯片

依賴英偉達GPU集群

商業(yè)策略

開源普惠，降低技術(shù)使用門檻

閉源付費，構(gòu)建生態(tài)壁壘

技術(shù)路線

混合架構(gòu)+動態(tài)負(fù)載均衡

純Transformer架構(gòu)

DeepSeek 的突破揭示了中美AI競爭的新范式。在芯片受限背景下，中國團隊通過算法優(yōu)化實現(xiàn)反超。清華大學(xué)劉知遠教授指出：“這種‘系統(tǒng)級創(chuàng)新效率’，正是中國 AI 的隱形競爭力。” 與西方純Transformer架構(gòu)不同，DeepSeek采用混合架構(gòu)，結(jié)合動態(tài)負(fù)載均衡技術(shù)，在有限算力下實現(xiàn)性能突破。

DeepSeek此次以MIT許可證開源模型權(quán)重，允許免費商用與二次開發(fā)，與Claude 3.7 Sonnet等閉源模型的付費模式形成鮮明對比。這一策略直接沖擊了OpenAI的盈利模式——后者GPT-5雖宣布免費開放，但仍依賴訂閱制構(gòu)建護城河。

此外GitHub上已涌現(xiàn)127個衍生工具，涵蓋代碼審查、網(wǎng)頁生成等領(lǐng)域，某智能網(wǎng)頁校對工具下載量突破5000次。

邊緣計算崛起：IDC預(yù)測，到2026年，適配DeepSeek的邊緣AI服務(wù)器市場規(guī)模將突破200億美元。

DeepSeek-V3-0324的發(fā)布被視為R2系列的前哨戰(zhàn)。根據(jù)行業(yè)規(guī)律，R2或于 2025年4月推出，直接對標(biāo)OpenAI的GPT-5。其技術(shù)路線聚焦三大方向：領(lǐng)域知識蒸餾（金融、醫(yī)療垂直優(yōu)化）、多模態(tài)融合（Q3推出圖文增強版）、推理能力升級（目標(biāo)響應(yīng)時間壓縮至500ms以內(nèi)）。

^{<blockquote id="ee653"></blockquote>}

lixiangjing

相關(guān)推薦

近期文章

熱門標(biāo)簽