在國(guó)內(nèi)外互聯(lián)網(wǎng)巨頭接連提出“All in AI”,花高價(jià)買(mǎi)顯卡、堆算力之際,他帶領(lǐng)的DeepSeek卻憑借對(duì)訓(xùn)練方法和模型架構(gòu)的創(chuàng)新,使得訓(xùn)練出的模型在大幅度降低算力成本的同時(shí),性能上直接趕超美國(guó)AI巨頭OpenAI投入超百倍的頂級(jí)模型GPT-4o,也引得雷軍拿出千萬(wàn)年薪招攬?jiān)擁?xiàng)目團(tuán)隊(duì)的核心參與者。
在外界的關(guān)切之下,梁文鋒卻格外低調(diào),這兩年,他很少接受媒體的采訪,也鮮少公開(kāi)露面參加活動(dòng)。昨天《新聞聯(lián)播》播出的總理座談會(huì)的畫(huà)面,讓許多人第一次看到了他的真實(shí)面孔。
一位“80后”的深度求索之路
梁文鋒,1985年出生于廣東省湛江市。2002年,這位對(duì)數(shù)學(xué)建模充滿熱情的年輕人考入浙江大學(xué)電子信息工程專業(yè),并在隨后的幾年里繼續(xù)深造,最終于2010年獲得信息與通信工程碩士學(xué)位。
在校期間,他對(duì)金融市場(chǎng)產(chǎn)生了濃厚的興趣。特別在2008年全球金融危機(jī)之際,他帶領(lǐng)團(tuán)隊(duì)探索了機(jī)器學(xué)習(xí)技術(shù)在全自動(dòng)量化交易中的應(yīng)用潛力,這一經(jīng)歷為他日后的職業(yè)生涯奠定了堅(jiān)實(shí)的基礎(chǔ)。
畢業(yè)后,梁文鋒將目光轉(zhuǎn)向更廣闊的金融市場(chǎng)。
2013年,他與浙大同學(xué)徐進(jìn)共同創(chuàng)立了杭州雅克比投資管理有限公司,兩年后又成立了杭州幻方科技有限公司,致力于通過(guò)數(shù)學(xué)和人工智能進(jìn)行量化投資。2015年的市場(chǎng)波動(dòng)中,幻方依靠先進(jìn)的高頻量化策略取得了令人矚目的成績(jī)。
2016年是幻方的重要轉(zhuǎn)折點(diǎn)。這一年,公司推出了首個(gè)基于深度學(xué)習(xí)的交易模型,并實(shí)現(xiàn)了所有量化策略的AI化轉(zhuǎn)型。2018年,幻方正式確立了以AI為核心的發(fā)展戰(zhàn)略。然而,隨著業(yè)務(wù)的快速擴(kuò)展,算力瓶頸逐漸顯現(xiàn)。
為解決計(jì)算資源不足的問(wèn)題,2019年,梁文鋒帶領(lǐng)團(tuán)隊(duì)自主研發(fā)了“螢火一號(hào)”訓(xùn)練平臺(tái),總投資近2億元,搭載了1100塊GPU。兩年后,“螢火二號(hào)”的投入增加到10億元,搭載了約1萬(wàn)張英偉達(dá)A100顯卡。
2021年,幻方的資產(chǎn)管理規(guī)模突破千億大關(guān),躋身國(guó)內(nèi)量化私募領(lǐng)域的“四大天王”之列。2023年,他宣布將正式進(jìn)軍通用人工智能領(lǐng)域,并創(chuàng)辦了深度求索DeepSeek,專注于做真正人類級(jí)別的人工智能。
2024年5月,DeepSeek發(fā)布混合專家語(yǔ)言模型DeepSeek-V2。同年12月,DeepSeek-V3問(wèn)世,這款性能優(yōu)越且性價(jià)比極高的大語(yǔ)言模型,被硅谷同行譽(yù)為“來(lái)自東方的神秘力量”。
“我們只是不小心成了一條鯰魚(yú)”
DeekSeek的走紅,源于業(yè)內(nèi)一場(chǎng)殘酷的大模型價(jià)格戰(zhàn)。
2024年5月初,DeekSeek對(duì)外宣布,其開(kāi)源模型DeepSeek-V2的推理成本被降到每百萬(wàn)token僅 1塊錢(qián),約等于GPT-4 Turbo的七十分之一。隨后,智譜、豆包、通義千問(wèn)、文心一言等國(guó)內(nèi)排名靠前的大模型先后跟進(jìn),最高降幅甚至高達(dá)97%經(jīng)此一役,DeepSeek解鎖了一個(gè)新綽號(hào)——AI界的拼多多。
對(duì)于這場(chǎng)由自己掀起的價(jià)格戰(zhàn),梁文鋒的回復(fù)云淡風(fēng)輕。他說(shuō):“我們不是有意成為一條鯰魚(yú),只是不小心成了一條鯰魚(yú)?!彼硎?,沒(méi)想到價(jià)格讓大家這么敏感。我們的原則是不貼錢(qián),也不賺取暴利。這個(gè)價(jià)格也是在成本之上稍微有點(diǎn)利潤(rùn)。
一家初創(chuàng)企業(yè),為何能將大模型昂貴的推理價(jià)格極限壓低?
這源自于DeepSeek對(duì)模型架構(gòu)進(jìn)行了全方位的創(chuàng)新。有研究者指出,它提出的一種嶄新的機(jī)制架構(gòu),把顯存占用降到了過(guò)去最常用架構(gòu)的5%-13%,再加上獨(dú)創(chuàng)的結(jié)構(gòu)創(chuàng)新,最終促成了成本的下降。
對(duì)此,有位知名的科技博主打了一個(gè)形象的比喻:OpenAI的訓(xùn)練方法是“大水漫灌式”,拿來(lái)的數(shù)據(jù)放到“黑盒”里訓(xùn)練,反復(fù)訓(xùn)練直至成功,因此很燒錢(qián);而DeepSeek是先一步利用算法,對(duì)數(shù)據(jù)進(jìn)行總結(jié)和分類,然后輸送給大模型。這意味著大模型的訓(xùn)練相比“黑盒”變得更加規(guī)律和透明化。
但是,DeepSeek出色的成就與其團(tuán)隊(duì)規(guī)模形成了鮮明的對(duì)比。根據(jù)公開(kāi)報(bào)道,DeepSeek的員工規(guī)模不及OpenAI的1/5,百人出頭的公司中,算子、推理框架、多模態(tài)等研發(fā)工程師以及深度學(xué)習(xí)方面的研究人員共有約70人,主要在北京分部,其余30多人在杭州總部,多為前端、產(chǎn)品以及商務(wù)人員。
讓人驚奇的是,這家公司內(nèi)并沒(méi)有外界推論的高深莫測(cè)的奇才。梁文鋒曾透露,員工都是一些Top高校的應(yīng)屆畢業(yè)生、沒(méi)畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人。他說(shuō),在人工智能領(lǐng)域,“前50名頂尖人才可能不在中國(guó),但也許我們能自己打造這樣的人?!?/p>
在梁文鋒看來(lái),在這一波人工智能的浪潮中,DeepSeek的出發(fā)點(diǎn),不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展。他說(shuō):“過(guò)去很多年,中國(guó)公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過(guò)來(lái)做應(yīng)用變現(xiàn),但這并非是一種理所當(dāng)然。”
“用最長(zhǎng)期的眼光去回答最大的問(wèn)題”
進(jìn)入DeepSeek的官方微信公眾號(hào),一段簡(jiǎn)潔但有力的介紹語(yǔ)映入眼簾:
“投身于探索AGI的本質(zhì),不做中庸的事,帶著好奇心,用最長(zhǎng)期的眼光去回答最大的問(wèn)題?!?/p>
從2023年11月2日開(kāi)始更新以來(lái),DeepSeek的公眾號(hào)在1年多的時(shí)間里只更新了38篇文章,且大多數(shù)為新模型發(fā)布、升級(jí)以及招募各類人員的信息。從2024年12月底開(kāi)始,公眾號(hào)發(fā)出的三篇文章的閱讀量均在10萬(wàn)+以上。
這也從側(cè)面反映,外界對(duì)這家神秘的公司產(chǎn)生了強(qiáng)烈的好奇心。
一家量化基金為什么要做大模型?為什么給自己的定位是“做研究、做探索”?研究經(jīng)費(fèi)哪里來(lái)?對(duì)商業(yè)模式做了哪些推演和設(shè)想?2023年5月下旬,創(chuàng)業(yè)十余年后第一次公開(kāi)接受“暗涌Waves”采訪的梁文鋒,集中回答了這些問(wèn)題。
他說(shuō),通用人工智能可能是下一個(gè)最難的事之一。因此,“對(duì)我們來(lái)說(shuō),這是一個(gè)怎么做的問(wèn)題,而不是為什么做的問(wèn)題?!绷何匿h表示,團(tuán)隊(duì)成員的研發(fā)激情源自于一種好奇心驅(qū)動(dòng)。
對(duì)于企業(yè)的商業(yè)回報(bào)和盈利模式,他坦言道,“如果一定要找一個(gè)商業(yè)上的理由,它可能是找不到的,因?yàn)閯澆粊?lái)。但現(xiàn)在比較確定的是,既然我們想做這個(gè)事,又有這個(gè)能力,這個(gè)時(shí)間點(diǎn)上我們就是最合適人選之一?!?/p>
最近一段時(shí)間,DeepSeek的動(dòng)作不斷。1月20日晚,它正式發(fā)布DeepSeek-R1,并同步開(kāi)源模型權(quán)重。文中對(duì)產(chǎn)品的介紹如下:該模型在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩 OpenAI o1 正式版。
后文還寫(xiě)道:在此,我們將DeepSeek-R1 訓(xùn)練技術(shù)全部公開(kāi),以期促進(jìn)技術(shù)社區(qū)的充分交流與創(chuàng)新協(xié)作。
此前,有媒體在采訪過(guò)梁文鋒之后,將這個(gè)團(tuán)隊(duì)的行為總結(jié)為“一個(gè)更極致的中國(guó)技術(shù)理想主義故事”。
但在極致的技術(shù)理想主義之外,低調(diào)少言的梁文鋒也是一位冷靜的現(xiàn)實(shí)主義者。他曾表示,英偉達(dá)的領(lǐng)先,不只是一個(gè)公司的努力,而是整個(gè)西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果。因?yàn)?,他們能看到下一代的技術(shù)趨勢(shì),手里有路線圖。中國(guó)AI的發(fā)展,同樣需要這樣的生態(tài)。(潮新聞客戶端 胡淼)