国产成人久久av免费看,久久精品国产99国产精2020丨

2023年談到AI，最熱的話題是OpenAI帶來的ChatGPT。從GPT-3的1750億計算參數(shù)，到谷歌的PaLM-1，到今年推出的PaLM-2參數(shù)達到5620億，再到GPT-4的幾萬億，后面會有更多。

再加上國內(nèi)大模型亦如雨后春筍，當(dāng)然已知的40多家，且都是行業(yè)內(nèi)頭部企業(yè)，不管互聯(lián)網(wǎng)企業(yè)還是垂直應(yīng)用領(lǐng)域頭部公司全都磨刀霍霍要做大模型。雖然世界充滿了喧囂，但英偉達的世界卻是安靜而美好，這就是AI算力在大模型時代所處的位置。

大模型+AI應(yīng)用2.0對算力意味著什么？

?以ChatGPT為代表的大模型，我們稱為三超大戶——超聰明、超費錢、超費電。

ChatGPT有多聰明？GPT-4在美國做了各種專業(yè)測試，其表現(xiàn)與人類水平相當(dāng)。在各大考試包括GRE幾乎取得了滿分成績，并橫掃各種benchmark。OpenAI更稱ChatGPT為一項通用技術(shù)。一旦技術(shù)被冠上“通用”，就意味著更多行業(yè)，更多應(yīng)用場景會與其產(chǎn)生連接，AI應(yīng)用發(fā)展進入2.0時代——從小模型的1.0弱AI時代轉(zhuǎn)向大模型的強AI時代。

這對算力芯片公司來說，最直接的就是收獲巨量市場需求，這個需求可以從微軟投資OpenAI實際案例中看出算力有多費錢——投資的100億美元，其中65億都用于購買AI算力硬件。

除了算力狂飆，還有能耗狂飆和成本狂飆。現(xiàn)在訓(xùn)練大模型，投入2.5億美元是服務(wù)器硬件的最低要求，如果做到GPT-5的規(guī)模訓(xùn)練，至少可能要3萬臺服務(wù)器，甚至5萬臺H100都不奇怪。如果訓(xùn)練都要用那么多計算板卡，那么進入大模型的部署階段其對算力的需求只會更多。

ChatGPT為代表的大模型對算力帶來的狂飆，我們這里用數(shù)字證明。大家看一下這個框，ChatGPT當(dāng)日運營算力的消耗可以占到2021年中國智能算力總規(guī)模的3%，這個ChatGPT不是GPT4，而是GPT3，可見大模型時代對于算力的需求非常巨大。

針對GPT3，假設(shè)每天有2.5億次咨詢量，每個問題平均30字，要花多少錢呢？首先是用到3萬多張英偉達的板卡，每天電費是2.3萬美元，這個只是根據(jù)板卡的功耗計算出來的電費，還不算服務(wù)器級別，以及數(shù)據(jù)中心運維、制冷整體耗電數(shù)字。

谷歌的訪問量公開數(shù)據(jù)是一天30億次，國內(nèi)的百度對外宣稱一天可以被訪問700億次，假設(shè)是700億次，大家可以在這個數(shù)字上持續(xù)乘上倍數(shù)，數(shù)字非常驚人，這只是每天的電費，如果乘以365天……因此，大模型是有錢人的游戲。

AI大算力技術(shù)發(fā)展現(xiàn)狀與未來

AI大算力技術(shù)現(xiàn)在已經(jīng)發(fā)展到急需算力性能實現(xiàn)第二增長曲線的階段。AI技術(shù)離不開三大要素，第一數(shù)據(jù)，第二算法，第三算力。數(shù)據(jù)越多，計算參數(shù)越多，算法越復(fù)雜，而底層算力卻面臨摩爾定律終結(jié)，算力性能發(fā)展高度依賴工藝制程的演進，從40nm到28nm，再到22nm，往下16、14、17到現(xiàn)在的5nm，甚至英偉達說要做的2nm工藝。

當(dāng)摩爾定律走向終結(jié)，這個巨大的剪刀差如何彌合？在今年5月份的2023年TOP60國產(chǎn)AI芯片廠商調(diào)研分析報告中提出了AI大算力第一和第二增長曲線，第一增長曲線耗盡了九牛二虎之力，啟用了5nm的工藝加上2.5D工藝封裝，才把AI大算力芯片的性能做到75瓦左右，輸出到400T算力。但相較存算一體架構(gòu)，第一增長曲線的終點只是第二增長曲線起點的一半。億鑄可以做到28nm的傳統(tǒng)工藝，實現(xiàn)75瓦輸出將近1P的算力。

中國AI大算力芯片創(chuàng)業(yè)的第一波浪潮，大家走的是ASIC和DSA的計算路徑。第二代就是走英偉達，即GPGPU的路徑。到2023年我們要嘗試換道發(fā)展，這里徐總強調(diào)三個技術(shù)彼此之間并非此消彼長的關(guān)系，某種程度上，在企業(yè)之間是的，但回歸到技術(shù)宏觀角度，這三個技術(shù)都是非常有價值的，因此億鑄科技的觀點是同一個世界，同一個夢想，不同的技術(shù)各有所長，如果能夠競合得當(dāng)，可以相得益彰，共同為中國整個產(chǎn)業(yè)的AI智能化提供價值和動能。

接下來介紹——存算一體+超異構(gòu)，先來講超異構(gòu)，現(xiàn)在做GPU的頭部企業(yè)，一個是英偉達，一個是AMD，英偉達說從GPU架構(gòu)出發(fā)，走向“GPU+DPU的超異構(gòu)”，而AMD說“基于3D封裝用CPU+GPU異構(gòu)并行走向系統(tǒng)級創(chuàng)新”。

當(dāng)AI芯片技術(shù)從CPU做AI計算到GPU做AI計算，再發(fā)展到ASIC、GPGPU專用的AI加速器芯片產(chǎn)品，技術(shù)已經(jīng)發(fā)展到較大瓶頸的階段，以至于頭部公司的leader都思考不能單個維度來推動發(fā)展，需要系統(tǒng)級創(chuàng)新尋求下一步發(fā)展的動力。

再看存算一體，存算一體的第一性原理是什么呢？我們叫阿姆達爾定律，這個公式的變量有兩個，第一加速器的規(guī)模，就是α值，還有一個就是加速比，在這兩個變量當(dāng)中，其中有一個很重要的維度就是訪存所占用的參數(shù)時間，這個公式點中的問題所在就是F值的訪存，傳統(tǒng)計算芯片的結(jié)構(gòu)存、算分開，當(dāng)你只需算幾個數(shù)據(jù)時，存和算之間搬運數(shù)據(jù)非常簡單。但當(dāng)你有成千上萬的數(shù)據(jù)在存和算之間不斷進行搬運，訪問存儲占整個計算的比重就會越來越大，大到一定程度，整個計算最終加速結(jié)果不再跟加速器規(guī)模多少相關(guān)，更多是在說整個能耗，芯片面積都在被訪存的過程消耗。

就是左邊是存，右邊是算，80%-90%的功耗都用來在兩者之間進行大量的數(shù)據(jù)搬運，而不是計算。所以現(xiàn)在影響AI加速計算最大的問題就是存儲墻，以及由此帶來的能耗墻。顧名思義，存、算一體不需要存和算之間不斷地做數(shù)據(jù)搬運，那么這80%-90%的能耗就可以節(jié)省出來用于計算。

包括AMD、特斯拉以及三星都在公開場合談過下一代技術(shù)的儲備和演進的方向就是往存算一體的技術(shù)架構(gòu)找新的發(fā)展動能。因為存算一體的技術(shù)可以跟CMOS工藝兼容，又能快速實現(xiàn)量產(chǎn)，突破AI算力困境。所以任何技術(shù)的價值都是在既定的歷史時空內(nèi)論定，而存算一體變成當(dāng)下非常熱門的AI加速計算新發(fā)展路徑。

億鑄科技存算一體超異構(gòu)芯片能夠做到更大的算力，前面講了1000T，常規(guī)的AI大算力芯片板卡是250T左右，最新的是400T，至少是它的三到四倍。更高的能效比，能夠做到8-10倍的能效比，兼顧軟件通用性。

關(guān)于存算一體超異構(gòu)的幾點思考

1、存算一體架構(gòu)天然非常適合AI并行計算，可以說就是為AI計算而生的計算架構(gòu)。

2、可落地性極強，希望通過存算一體的架構(gòu)可以為產(chǎn)業(yè)界貢獻更具性價比、更高能效比和更大算力空間的發(fā)展技術(shù)。

3、億鑄科技作為一家AI大算力芯片的上游公司，對于當(dāng)前大模型時代的算力格局的競爭要素思考：

一是我們認(rèn)為強AI，就是大模型將在一定范圍內(nèi)替代AI，甚至催生新的AI應(yīng)用場景。

二是強AI將會以IAAS的產(chǎn)品形式賦能千行百業(yè)，這就意味著你有極高的研發(fā)投入進一步帶來通用智能寡頭的格局，或者是垂直行業(yè)通用智能寡頭的格局，這是和數(shù)據(jù)資源息息相關(guān)的。

三是AI大算力芯片競爭核心會逐漸從“軟件生態(tài)”轉(zhuǎn)向“能效比、算力密度、性價比、算力發(fā)展空間”，不是說軟件生態(tài)不重要，而是后者的權(quán)重會進一步加重。

億鑄科技存算一體超異構(gòu)AI大算力芯片特點就是有效算力更大、放置參數(shù)更多、能效比更高、軟件兼容性好，發(fā)展天花板更高，我們目前只是基于28nm工藝就可以做到1P算力。

采用了CMOS傳統(tǒng)工藝，結(jié)合新型憶阻器技術(shù)、存算一體架構(gòu)，用Chiplet技術(shù)以及3D封裝，希望為中國產(chǎn)業(yè)界貢獻一顆更高能效比、更大算力的存算一體超異構(gòu)AI大算力芯片。

（文章根據(jù)速記稿整理，未經(jīng)演講人確認(rèn)）

分享到

崔歡歡

相關(guān)推薦

近期文章

熱門標(biāo)簽