DeepSeek:中國AI的黑馬:

DeepSeek,這家成立不久的AI初創(chuàng)公司,卻以驚人的速度在AI領域嶄露頭角。從DeepSeek-V3到DeepSeek-R1,DeepSeek在短短一個月內相繼推出了兩款性能卓越的大模型,不僅性能與OpenAI的頂尖模型相媲美,更在成本上實現(xiàn)了極致的優(yōu)化。DeepSeek-V3的訓練成本僅為558萬美元,而DeepSeek-R1更是以極低的API調用成本,提供了與OpenAI o1相當?shù)耐评砟芰Α?/p>

這種“四兩撥千斤”的模式,徹底顛覆了人們對AI技術高投入、高產(chǎn)出的固有認知。DeepSeek用實際行動證明,即使在沒有尖端芯片和巨額投資的情況下,也能訓練出世界一流的AI模型。

文字編輯| 宋雨涵

1

從當初的默默無聞到如今的火出圈

DeepSeek的發(fā)展歷程

DeepSeek,全稱杭州深度求索人工智能基礎技術研究有限公司,自2023年7月17日成立以來,便以創(chuàng)新型科技公司的姿態(tài),專注于先進大語言模型(LLM)及相關技術的研發(fā)。去年12月,DeepSeek-V3的橫空出世,引起了全球科技界的廣泛關注。AI數(shù)據(jù)服務公司Scale AI的創(chuàng)始人Alexander Wang更是直言,DeepSeek-V3是中國科技界給美國帶來的一次深刻反思,他感嘆道:“當美國稍作休憩之時,中國(科技界)卻馬不停蹄,以更低的成本、更快的步伐和更強大的實力迅速崛起。”

緊接著,今年1月20日,DeepSeek又宣布了一個重大消息——正式開源其R1推理模型。據(jù)DeepSeek介紹,DeepSeek-R1在后訓練階段創(chuàng)新性地大規(guī)模應用了強化學習技術,即便在標注數(shù)據(jù)極為有限的情況下,也極大地提升了模型的推理能力。在數(shù)學、代碼編寫、自然語言推理等多個領域,其性能已與OpenAI的o1正式版并駕齊驅。

這一模型的發(fā)布,迅速在海外AI圈內引起了軒然大波,眾多科技界大佬紛紛加入討論。英偉達高級研究科學家Jim Fan就在其個人社交平臺上公開表示:“我們正站在一個歷史性的轉折點上:一家非美國的公司,正在繼續(xù)踐行OpenAI的初衷——通過真正開放的前沿研究,為全人類帶來福祉。這看似不合常理,但往往最引人入勝的結局,正是那些最出乎意料的?!?/p>

不斷引發(fā)業(yè)界關注

真正讓Deepseek在AI界出圈的,是其在2024年5月開源的第二代MoE大模型DeepSeek-V2。該模型在性能上比肩GPT-4 Turbo,價格卻只有GPT-4的百分之一,DeepSeek由此被稱作“價格屠夫”、“AI界的拼多多”。

隨后的2024年下半年,這家公司還先后發(fā)布了DeepSeek R1-lite-preview和DeepSeek-V3。到了2025年推出的R1模型,在數(shù)學能力測試中,該模型在MATH基準測試上達到了77.5%的準確率,與OpenAI的o1不相上下;在編程領域,R1在Codeforces評測中達到了2441分的水平,高于96.3%的人類參與者。而這一切,是在不到600萬美元的投入和2048塊低性能的H800芯片的條件下完成的,訓練時間僅用兩個月。這種“四兩撥千斤”的模式,顛覆了人們對OpenAI“大力出奇跡”式的固有認知,結果令全球側目。

2

為什么是Deepseek?

純粹強化學習,也許才是通向AGI的意外捷徑

和上次不同的是,這次推出的新模型DeepSeek-R1不僅成本低,更是在技術上有了大福提升。

而且,它還是一個開源模型。

這款新模型延續(xù)了其高性價比的優(yōu)勢,僅用十分之一的成本就達到了GPT-o1級別的表現(xiàn)。

所以,很多業(yè)內人士甚至喊出了“DeepSeek接班OpenAI”的口號。

比如,前Meta AI工作人員、知名AI論文推特作者Elvis就強調,DeepSeek-R1的論文堪稱瑰寶,因為它探索了提升大語言模型推理能力的多種方法,并發(fā)現(xiàn)了其中更明確的涌現(xiàn)特性。


另一位AI圈大V Yuchen Jin則認為,DeepSeek-R1論文中提出的,模型利用純RL方法引導其自主學習和反思推理這一發(fā)現(xiàn),意義非常重大。

英偉達GEAR Lab項目負責人Jim Fan在推特中也提到了,DeepSeek-R1用通過硬編碼規(guī)則計算出的真實獎勵,而避免使用任何 RL 容易破解的學習獎勵模型。這使得模型產(chǎn)生了自我反思與探索行為的涌現(xiàn)。
Jim Fan 甚至認為,它們做了OpenAI本來應該做的事,開源。

3

開源吸引全球頂尖專家,共建共創(chuàng)

技術專家的加入

Deepseek的技術團隊匯聚了眾多頂尖的技術專家。他們不僅在模型架構、算法優(yōu)化等方面具有深厚的造詣,更在推動技術創(chuàng)新和應用落地方面發(fā)揮著關鍵作用。例如,高華佐、曾旺丁等專家在DeepSeek-V2的MLA架構創(chuàng)新上做出了重要貢獻,為模型的性能提升奠定了堅實基礎。

學術界的支持

Deepseek的開源戰(zhàn)略也得到了學術界的廣泛支持。斯坦福、MIT等頂尖學府將Deepseek列為首選研究工具,吸引了大量學術研究者參與其中。他們通過發(fā)表論文、分享研究成果等方式,為Deepseek的技術發(fā)展和應用推廣提供了有力支持。

產(chǎn)業(yè)界的合作

此外,Deepseek還與眾多產(chǎn)業(yè)界伙伴建立了緊密的合作關系。這些合作伙伴不僅為Deepseek提供了豐富的應用場景和測試環(huán)境,還通過共同研發(fā)、市場推廣等方式,推動了Deepseek技術的商業(yè)化進程。

結語

1月27日,DeepSeek應用成功登頂蘋果中國區(qū)免費榜第一,這一成就不僅是對DeepSeek技術實力的認可,更是對其市場影響力的肯定。在短短的時間內,DeepSeek憑借其出色的性能和親民的價格,贏得了大量用戶的青睞。

這一成就的背后,是DeepSeek團隊對技術的極致追求和對用戶體驗的深刻理解。DeepSeek不僅提供了強大的AI功能,更在用戶體驗上做到了極致。無論是簡潔明了的界面設計,還是流暢高效的操作體驗,都讓DeepSeek成為了用戶心中的首選。

展望未來,DeepSeek將繼續(xù)秉承“硬核技術創(chuàng)新”的理念,不斷推出更多性能卓越、成本親民的AI產(chǎn)品。同時,DeepSeek也將積極擁抱開源文化,與全球開發(fā)者共同推動AI技術的進步和發(fā)展。

分享到

lixiangjing

算力豹主編

相關推薦