亚洲AV无码久久精品色无码蜜桃,久久国产精品久久久久久小说,欧美亚洲国产日韩一区二区

在國內(nèi)外互聯(lián)網(wǎng)巨頭接連提出“All in AI”，花高價買顯卡、堆算力之際，他帶領(lǐng)的DeepSeek卻憑借對訓(xùn)練方法和模型架構(gòu)的創(chuàng)新，使得訓(xùn)練出的模型在大幅度降低算力成本的同時，性能上直接趕超美國AI巨頭OpenAI投入超百倍的頂級模型GPT-4o，也引得雷軍拿出千萬年薪招攬該項目團隊的核心參與者。

在外界的關(guān)切之下，梁文鋒卻格外低調(diào)，這兩年，他很少接受媒體的采訪，也鮮少公開露面參加活動。昨天《新聞聯(lián)播》播出的總理座談會的畫面，讓許多人第一次看到了他的真實面孔。

梁文鋒，1985年出生于廣東省湛江市。2002年，這位對數(shù)學(xué)建模充滿熱情的年輕人考入浙江大學(xué)電子信息工程專業(yè)，并在隨后的幾年里繼續(xù)深造，最終于2010年獲得信息與通信工程碩士學(xué)位。

在校期間，他對金融市場產(chǎn)生了濃厚的興趣。特別在2008年全球金融危機之際，他帶領(lǐng)團隊探索了機器學(xué)習(xí)技術(shù)在全自動量化交易中的應(yīng)用潛力，這一經(jīng)歷為他日后的職業(yè)生涯奠定了堅實的基礎(chǔ)。

2013年，他與浙大同學(xué)徐進共同創(chuàng)立了杭州雅克比投資管理有限公司，兩年后又成立了杭州幻方科技有限公司，致力于通過數(shù)學(xué)和人工智能進行量化投資。2015年的市場波動中，幻方依靠先進的高頻量化策略取得了令人矚目的成績。

2016年是幻方的重要轉(zhuǎn)折點。這一年，公司推出了首個基于深度學(xué)習(xí)的交易模型，并實現(xiàn)了所有量化策略的AI化轉(zhuǎn)型。2018年，幻方正式確立了以AI為核心的發(fā)展戰(zhàn)略。然而，隨著業(yè)務(wù)的快速擴展，算力瓶頸逐漸顯現(xiàn)。

為解決計算資源不足的問題，2019年，梁文鋒帶領(lǐng)團隊自主研發(fā)了“螢火一號”訓(xùn)練平臺，總投資近2億元，搭載了1100塊GPU。兩年后，“螢火二號”的投入增加到10億元，搭載了約1萬張英偉達(dá)A100顯卡。

2021年，幻方的資產(chǎn)管理規(guī)模突破千億大關(guān)，躋身國內(nèi)量化私募領(lǐng)域的“四大天王”之列。2023年，他宣布將正式進軍通用人工智能領(lǐng)域，并創(chuàng)辦了深度求索DeepSeek，專注于做真正人類級別的人工智能。

2024年5月，DeepSeek發(fā)布混合專家語言模型DeepSeek-V2。同年12月，DeepSeek-V3問世，這款性能優(yōu)越且性價比極高的大語言模型，被硅谷同行譽為“來自東方的神秘力量”。

DeekSeek的走紅，源于業(yè)內(nèi)一場殘酷的大模型價格戰(zhàn)。

2024年5月初，DeekSeek對外宣布，其開源模型DeepSeek-V2的推理成本被降到每百萬token僅 1塊錢，約等于GPT-4 Turbo的七十分之一。隨后，智譜、豆包、通義千問、文心一言等國內(nèi)排名靠前的大模型先后跟進，最高降幅甚至高達(dá)97%經(jīng)此一役，DeepSeek解鎖了一個新綽號——AI界的拼多多。

對于這場由自己掀起的價格戰(zhàn)，梁文鋒的回復(fù)云淡風(fēng)輕。他說：“我們不是有意成為一條鯰魚，只是不小心成了一條鯰魚?！彼硎?，沒想到價格讓大家這么敏感。我們的原則是不貼錢，也不賺取暴利。這個價格也是在成本之上稍微有點利潤。

一家初創(chuàng)企業(yè)，為何能將大模型昂貴的推理價格極限壓低？

這源自于DeepSeek對模型架構(gòu)進行了全方位的創(chuàng)新。有研究者指出，它提出的一種嶄新的機制架構(gòu)，把顯存占用降到了過去最常用架構(gòu)的5%-13%，再加上獨創(chuàng)的結(jié)構(gòu)創(chuàng)新，最終促成了成本的下降。

對此，有位知名的科技博主打了一個形象的比喻：OpenAI的訓(xùn)練方法是“大水漫灌式”，拿來的數(shù)據(jù)放到“黑盒”里訓(xùn)練，反復(fù)訓(xùn)練直至成功，因此很燒錢；而DeepSeek是先一步利用算法，對數(shù)據(jù)進行總結(jié)和分類，然后輸送給大模型。這意味著大模型的訓(xùn)練相比“黑盒”變得更加規(guī)律和透明化。

但是，DeepSeek出色的成就與其團隊規(guī)模形成了鮮明的對比。根據(jù)公開報道，DeepSeek的員工規(guī)模不及OpenAI的1/5，百人出頭的公司中，算子、推理框架、多模態(tài)等研發(fā)工程師以及深度學(xué)習(xí)方面的研究人員共有約70人，主要在北京分部，其余30多人在杭州總部，多為前端、產(chǎn)品以及商務(wù)人員。

讓人驚奇的是，這家公司內(nèi)并沒有外界推論的高深莫測的奇才。梁文鋒曾透露，員工都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實習(xí)生，還有一些畢業(yè)才幾年的年輕人。他說，在人工智能領(lǐng)域，“前50名頂尖人才可能不在中國，但也許我們能自己打造這樣的人?！?/p>

在梁文鋒看來，在這一波人工智能的浪潮中，DeepSeek的出發(fā)點，不是趁機賺一筆，而是走到技術(shù)的前沿，去推動整個生態(tài)發(fā)展。他說：“過去很多年，中國公司習(xí)慣了別人做技術(shù)創(chuàng)新，我們拿過來做應(yīng)用變現(xiàn)，但這并非是一種理所當(dāng)然?！?/p>

進入DeepSeek的官方微信公眾號，一段簡潔但有力的介紹語映入眼簾：

“投身于探索AGI的本質(zhì)，不做中庸的事，帶著好奇心，用最長期的眼光去回答最大的問題?！?/p>

從2023年11月2日開始更新以來，DeepSeek的公眾號在1年多的時間里只更新了38篇文章，且大多數(shù)為新模型發(fā)布、升級以及招募各類人員的信息。從2024年12月底開始，公眾號發(fā)出的三篇文章的閱讀量均在10萬+以上。

這也從側(cè)面反映，外界對這家神秘的公司產(chǎn)生了強烈的好奇心。

一家量化基金為什么要做大模型？為什么給自己的定位是“做研究、做探索”？研究經(jīng)費哪里來？對商業(yè)模式做了哪些推演和設(shè)想？2023年5月下旬，創(chuàng)業(yè)十余年后第一次公開接受“暗涌Waves”采訪的梁文鋒，集中回答了這些問題。

他說，通用人工智能可能是下一個最難的事之一。因此，“對我們來說，這是一個怎么做的問題，而不是為什么做的問題。”梁文鋒表示，團隊成員的研發(fā)激情源自于一種好奇心驅(qū)動。

對于企業(yè)的商業(yè)回報和盈利模式，他坦言道，“如果一定要找一個商業(yè)上的理由，它可能是找不到的，因為劃不來。但現(xiàn)在比較確定的是，既然我們想做這個事，又有這個能力，這個時間點上我們就是最合適人選之一?！?/p>

最近一段時間，DeepSeek的動作不斷。1月20日晚，它正式發(fā)布DeepSeek-R1，并同步開源模型權(quán)重。文中對產(chǎn)品的介紹如下：該模型在后訓(xùn)練階段大規(guī)模使用了強化學(xué)習(xí)技術(shù)，在僅有極少標(biāo)注數(shù)據(jù)的情況下，極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上，性能比肩 OpenAI o1 正式版。

后文還寫道：在此，我們將DeepSeek-R1 訓(xùn)練技術(shù)全部公開，以期促進技術(shù)社區(qū)的充分交流與創(chuàng)新協(xié)作。

此前，有媒體在采訪過梁文鋒之后，將這個團隊的行為總結(jié)為“一個更極致的中國技術(shù)理想主義故事”。

但在極致的技術(shù)理想主義之外，低調(diào)少言的梁文鋒也是一位冷靜的現(xiàn)實主義者。他曾表示，英偉達(dá)的領(lǐng)先，不只是一個公司的努力，而是整個西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果。因為，他們能看到下一代的技術(shù)趨勢，手里有路線圖。中國AI的發(fā)展，同樣需要這樣的生態(tài)。（潮新聞客戶端胡淼）

^{<sub id="ekadv"></sub>}

zhupb

相關(guān)推薦

近期文章

熱門標(biāo)簽