DeepSeek-V3 架構(gòu)圖
DeepSeek-V3還引入了兩項(xiàng)創(chuàng)新
除了延續(xù)基礎(chǔ)架構(gòu)保證強(qiáng)大性能外,DeepSeek-V3還引入了兩項(xiàng)創(chuàng)新:
這一創(chuàng)新不僅提高了訓(xùn)練效率,還讓模型的生成速度提升了三倍,從20TPS大幅提高至60TPS,每秒能生成60個(gè)token。
成本被壓縮到1%
總體而言,在預(yù)訓(xùn)練階段,DeepSeek-V3處理1萬(wàn)億個(gè)詞元所需的H800 GPU時(shí)間為18萬(wàn)小時(shí),若采用配備2048塊H800 GPU的集群進(jìn)行加速,則整個(gè)預(yù)訓(xùn)練過(guò)程可在短短3.7天內(nèi)完成。這一階段的總耗時(shí)不超過(guò)兩個(gè)月,累計(jì)消耗了266.4萬(wàn)GPU小時(shí)。
此外,上下文長(zhǎng)度的擴(kuò)展額外耗費(fèi)了11.9萬(wàn)GPU小時(shí),而后期的訓(xùn)練工作(包括監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)等)則消耗5000GPU小時(shí)。因此,DeepSeek-V3的總訓(xùn)練時(shí)長(zhǎng)達(dá)到了278.8萬(wàn)GPU小時(shí)。
若以每GPU小時(shí)2美元的成本計(jì)算,該模型的整體訓(xùn)練費(fèi)用約為557.6萬(wàn)美元。需要注意的是,這一費(fèi)用僅涵蓋了正式訓(xùn)練階段的開(kāi)支,并未包括前期在模型架構(gòu)設(shè)計(jì)、算法開(kāi)發(fā)以及數(shù)據(jù)處理等方面的研究與消融實(shí)驗(yàn)費(fèi)用。然而,相較于通常訓(xùn)練大型語(yǔ)言模型所需的數(shù)億美元成本,DeepSeek-V3的訓(xùn)練成本顯得相對(duì)較低。例如,據(jù)估計(jì),Llama-3.1的訓(xùn)練成本超過(guò)了5億美元。
2
一經(jīng)開(kāi)源發(fā)布,引發(fā)熱烈關(guān)注
AI圈激烈討論,眾說(shuō)紛紜
AI科學(xué)家Andrej Karpathy,作為OpenAI的初創(chuàng)成員之一,對(duì)DeepSeek-V3的超低訓(xùn)練成本感到震驚,他指出:“在資源有限的情況下,這無(wú)疑是一項(xiàng)令人矚目的研究與工程壯舉?!盞arpathy認(rèn)為,實(shí)現(xiàn)這種級(jí)別的能力原本預(yù)計(jì)需要接近16K GPU的集群,而現(xiàn)在DeepSeek-V3所提出的集群規(guī)模卻接近100K GPU。這是否預(yù)示著前沿大型語(yǔ)言模型(LLM)不再依賴于超大規(guī)模的GPU集群?
在AI領(lǐng)域激烈的競(jìng)爭(zhēng)中,資源約束被視作一種積極的驅(qū)動(dòng)力。領(lǐng)導(dǎo)英偉達(dá)具身AI團(tuán)隊(duì)的高級(jí)研究科學(xué)家Jim Fan,曾師從李飛飛教授,他對(duì)此表示贊同:“資源限制實(shí)際上是一件好事。在競(jìng)爭(zhēng)激烈的AI領(lǐng)域,生存的本能是推動(dòng)我們?nèi)〉猛黄频年P(guān)鍵動(dòng)力。”
此外,關(guān)于DeepSeek-V3采用H800 GPU實(shí)現(xiàn)低訓(xùn)練成本的話題,也引發(fā)了網(wǎng)友對(duì)美國(guó)芯片出口管制的討論。數(shù)據(jù)科學(xué)家、Kaggle知名用戶Bojan Tunguz評(píng)論道:“對(duì)所有高端半導(dǎo)體實(shí)施的出口禁令,可能會(huì)以最糟糕的方式適得其反。這些禁令似乎促使中國(guó)研究人員變得更加聰明和節(jié)儉。這也似乎印證了我的猜想,即我們離掌握AI機(jī)器學(xué)習(xí)領(lǐng)域的最佳算法還有很長(zhǎng)的路要走?!?/p>
12月27日,奧特曼在推特上突然發(fā)表言論,稱(chēng)“創(chuàng)新和冒險(xiǎn)的行為遠(yuǎn)比復(fù)制已知的成功要艱難得多”。
鑒于發(fā)布時(shí)間和DeepSeek-V3的討論熱度,不少人解讀這是在陰陽(yáng)DeepSeek。
全網(wǎng)熱烈實(shí)測(cè)中
盡管DeepSeek-V3的訓(xùn)練成本相對(duì)較低,但它卻迅速崛起,成為了當(dāng)前市場(chǎng)上性能最強(qiáng)的開(kāi)源大型模型之一。為了驗(yàn)證其AI性能,該公司進(jìn)行了一系列基準(zhǔn)測(cè)試,并將DeepSeek-V3與其他領(lǐng)先的開(kāi)源模型,如Llama-3.1-405B和通義千問(wèn)的Qwen 2.5-72B,進(jìn)行了對(duì)比。結(jié)果顯示,DeepSeek-V3在多數(shù)基準(zhǔn)測(cè)試中均展現(xiàn)出了優(yōu)于這些模型的表現(xiàn),甚至在某些測(cè)試中,它的表現(xiàn)還超過(guò)了閉源的GPT-4o模型。僅在以英語(yǔ)為主要考察內(nèi)容的SimpleQA和FRAMES測(cè)試中,DeepSeek-V3的成績(jī)略低于OpenAI模型,分別為24.9分和73.3分,而OpenAI模型則分別獲得了38.2分和80.5分。
然而,DeepSeek-V3在以中文和數(shù)學(xué)為主要考察內(nèi)容的基準(zhǔn)測(cè)試中表現(xiàn)尤為突出,其得分高于所有同類(lèi)大型模型。特別是在Math-500測(cè)試中,DeepSeek-V3以90.2分的高分遠(yuǎn)超第二名Qwen的80分。
目前,能夠與DeepSeek-V3一較高下的模型可能僅有Anthropic的o1和Claude 3.5 Sonnet。據(jù)悉,在GPQA Diamond(博士級(jí)科學(xué)問(wèn)題)基準(zhǔn)測(cè)試中,o1以76%的分?jǐn)?shù)領(lǐng)先,而DeepSeek則以59.1%的分?jǐn)?shù)緊隨其后。此外,o1的完整版在多項(xiàng)基準(zhǔn)測(cè)試中均擊敗了DeepSeek。同樣,Claude 3.5 Sonnet也在MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified和Aider-Edit等測(cè)試中,以更高的分?jǐn)?shù)超越了DeepSeek-V3。
寫(xiě)在最后
在中國(guó)眾多致力于大模型創(chuàng)新的初創(chuàng)企業(yè)中,Deepseek展現(xiàn)了一條獨(dú)樹(shù)一幟的發(fā)展路徑。這家企業(yè)以“深度求索”為中文名,是由知名私募機(jī)構(gòu)幻方量化孕育出的子公司。2023年4月,幻方宣布組建新團(tuán)隊(duì),集中優(yōu)勢(shì)資源,全力探索通用人工智能(AGI)的本質(zhì),并在短短一年多時(shí)間內(nèi)取得了顯著進(jìn)展?;梅阶猿闪⒅醣惚砻鳎溟L(zhǎng)期將營(yíng)業(yè)收入的大部分投入到人工智能領(lǐng)域,旨在構(gòu)建頂尖的AI硬件基礎(chǔ)設(shè)施,開(kāi)展大規(guī)模研究,以揭開(kāi)人類(lèi)尚未觸及的智慧面紗。
與那些獲得大型科技公司投資的AI初創(chuàng)企業(yè),如月之暗面、智譜AI、Minimax、百川智能等相比,DeepSeek并未直接依附于任何科技巨頭。然而,在算力儲(chǔ)備方面,DeepSeek卻毫不遜色于這些大廠。有云計(jì)算領(lǐng)域的專(zhuān)家指出,擁有1萬(wàn)枚英偉達(dá)A100芯片是構(gòu)建AI大模型的算力基準(zhǔn)。當(dāng)中國(guó)的云服務(wù)商因GPU芯片供應(yīng)緊張而受限時(shí),幻方卻早已預(yù)見(jiàn)性地布局了大模型賽道。據(jù)報(bào)道,除了商湯科技、百度、騰訊、字節(jié)跳動(dòng)、阿里巴巴等科技巨擘外,幻方也掌握了超過(guò)1萬(wàn)枚GPU。
幻方量化和Deepseek的創(chuàng)始人梁文鋒在接受媒體采訪時(shí)透露,幻方對(duì)算力的積累并非一蹴而就。早在2019年,幻方便已斥資2億元自主研發(fā)深度學(xué)習(xí)訓(xùn)練平臺(tái)“螢火一號(hào)”,該平臺(tái)配備了1100塊GPU。至2021年,“螢火二號(hào)”的投資額更是飆升至10億元,搭載了大約1萬(wàn)張英偉達(dá)A100顯卡。就在這一年后,OpenAI推出了ChatGPT的公開(kāi)測(cè)試版,從而在全球范圍內(nèi)掀起了一股新的AI熱潮。