在代碼生成測試平臺LiveCodeBench上,DeepSeek-R1-0528的表現(xiàn)堪稱驚艷,幾乎與o3的高版本不相上下,甚至在某些任務(wù)中超越了Claude 4 Sonnet。開發(fā)者們在測試后紛紛驚嘆不已,直呼其“編程能力強(qiáng)大得超乎想象”。
沒有盛大的發(fā)布會,沒有鋪天蓋地的宣傳,一家中國AI企業(yè)用一行行代碼再次改寫了全球大模型競爭格局。
文字編輯| 宋雨涵
1
中國大模型迎來“o3時刻”
性能飛躍
目前,DeepSeek尚未針對DeepSeek-R1-0528發(fā)布詳細(xì)的模型卡來介紹其更多功能。然而,這一新版本已在開發(fā)者群體中引發(fā)了熱烈反響,眾多開發(fā)者在體驗后紛紛表示,DeepSeek-R1-0528在編程、邏輯推理以及交互能力等方面均展現(xiàn)出了顯著的提升。
已有開發(fā)者對DeepSeek-R1-0528進(jìn)行了基準(zhǔn)測試,并稱這是開源領(lǐng)域的一次重大突破。代碼測試平臺Live CodeBench的數(shù)據(jù)顯示,其性能已接近OpenAI在4月中旬發(fā)布的o4 mini和o3模型的高版本。
同時,文本召回測試的結(jié)果也表明,在32k以內(nèi)的文本處理上,DeepSeek-R1-0528相較于之前的R1版本有了顯著提升,但在60k時性能則有所下降。這意味著,在32k以內(nèi)的文本范圍內(nèi),使用新R1模型根據(jù)給定材料進(jìn)行提問并獲取回答時,其準(zhǔn)確度會更高。
多位開發(fā)者通過實際案例體驗后表示,DeepSeek-R1-0528的效果已基本與Claude 4持平,甚至在某些情況下表現(xiàn)更佳?!皬膶嶋H效果來看,我注意到平面的橙色漫反射以及控制面板的美觀程度。這兩者都是使用同一個提示詞一次性生成的,Claude 4 sonnet生成了542行代碼,而DeepSeek-R1-0528則生成了728行。此外,幀率和運(yùn)動角度的細(xì)節(jié)也值得關(guān)注?!币晃婚_發(fā)者在X平臺上分享道。
還有開發(fā)者讓DeepSeek-R1-0528、Claude 4和DeepSeek-V3-0324在飛機(jī)大戰(zhàn)游戲中生成對比效果。結(jié)果顯示,新版R1在之前的基礎(chǔ)上新增了許多道具,畫面質(zhì)量也有了顯著提升。
2
技術(shù)亮點(diǎn)
128K上下文與推理能力雙重突破
本次升級不僅體現(xiàn)在性能指標(biāo)上,更在核心架構(gòu)上實現(xiàn)了創(chuàng)新突破。
模型支持高達(dá)128K token的超長上下文窗口,使其能夠流暢處理整本技術(shù)手冊、復(fù)雜項目代碼庫等長文檔任務(wù)。測試顯示,在32K token內(nèi)的召回準(zhǔn)確度大幅優(yōu)于前代。
推理能力實現(xiàn)結(jié)構(gòu)化升級。用戶明顯感受到新版R1的思維鏈(Chain-of-Thought)更加清晰、邏輯更加嚴(yán)密。在解決“農(nóng)夫過河”等經(jīng)典邏輯難題時,模型能夠逐步拆解問題,展示出接近人類專家的推理路徑。
“它是唯一能夠持續(xù)正確回答‘9.9減9.11是多少’的模型,這種看似簡單但容易混淆的問題最能考驗?zāi)P偷膰?yán)謹(jǐn)性?!遍_發(fā)者Yuchen Jin在社交平臺上指出。
DeepSeek團(tuán)隊延續(xù)了其一貫的“加量不加價”策略,在實現(xiàn)性能躍升的同時,保持了模型的開源屬性和免費(fèi)API策略。
未來展望
R2模型引發(fā)業(yè)界期待:
盡管R1-0528表現(xiàn)出色,行業(yè)更期待的是DeepSeek的下一代R2模型。
參數(shù)規(guī)模革命性躍遷方面,從當(dāng)前R1的67億(6.7B)參數(shù)躍升至預(yù)期的1.2萬億(1.2T),實現(xiàn)近180倍的量級突破,這不僅是簡單的規(guī)模擴(kuò)張,更是通過MoE(專家混合)與稀疏激活技術(shù)的深度整合,在萬億參數(shù)層級維持可控推理成本的核心創(chuàng)新,其目標(biāo)直指GPT-5與Claude 4 Opus等下一代閉源旗艦。
推理能力質(zhì)變臨界點(diǎn)上,基于Scaling Law的預(yù)測,萬億參數(shù)突破或?qū)⒂|發(fā)三大能力涌現(xiàn)——解決跨學(xué)科復(fù)雜科學(xué)推導(dǎo)、構(gòu)建物理規(guī)則認(rèn)知的世界模型(如流體力學(xué)仿真與機(jī)械設(shè)計)、實現(xiàn)代碼生成→測試→優(yōu)化的全閉環(huán)自我迭代,推動AI從工具向協(xié)作伙伴進(jìn)化;國產(chǎn)算力里程碑維度,結(jié)合華為昇騰910B芯片已實現(xiàn)R1模型90%推理效率的實測表現(xiàn),R2有望成為全球首個完全運(yùn)行于國產(chǎn)算力生態(tài)的萬億模型,并將推理成本壓縮至OpenAI API的1/5(當(dāng)前R1成本僅為GPT-4-turbo的17%),形成“性能躍升+成本斷崖”的雙重勢能。
結(jié)語:
DeepSeek-R1-0528的發(fā)布,不僅是對自身技術(shù)實力的展示,也為全球AI行業(yè)注入了新的活力。作為一款性能直逼OpenAI o3的開源模型,R1-0528以更低的成本和更高的靈活性挑戰(zhàn)了傳統(tǒng)閉源模型的霸主地位。業(yè)內(nèi)人士認(rèn)為,DeepSeek的持續(xù)創(chuàng)新將進(jìn)一步推動開源AI生態(tài)的發(fā)展,促使更多企業(yè)與開發(fā)者擁抱開源技術(shù)。
與此同時,R1-0528的免費(fèi)API策略也為中小型企業(yè)和獨(dú)立開發(fā)者提供了寶貴機(jī)會,使其能夠以較低成本構(gòu)建高質(zhì)量的AI應(yīng)用。這無疑將加速AI技術(shù)的普及,助力全球AI生態(tài)的繁榮。