2023年8月,印度媒體Analytics India Magazine刊載了一份報道,宣稱OpenAI有可能在2024年底破產(chǎn),理由有三:用戶量見頂后快速流失,日均70萬美元的高昂運營成本和開源對手如Llama2的強大壓力。(110億的微軟投資應(yīng)該能夠粉碎這一流言,以2.5億的年運營成本算,還能支撐40年,但前提是微軟投資的確已到賬且沒有業(yè)績考核等撤出條件)。同時,“ChatGPT變笨”的說法也在網(wǎng)上有所流傳,一些用戶說AI給出的反饋并不像一開始那么驚艷,有時答案里埋藏了一些謬誤,有時甚至會嚴重到行業(yè)用戶認為“不可用”。另外,相比GPT-3.5,有觀點認為GPT-4并沒有帶來準確率上面質(zhì)的提升,按照監(jiān)管評估機構(gòu)News Guard專家的說法,反而有所下降,尤其是識別虛假信息能力變低。最后,無論是GPT-3.5還是GPT-4,隱私保護的技術(shù)也一直沒有明顯進展,而這也是大規(guī)模應(yīng)用不可回避的重要問題。

圖1:OpenAI每月用戶訪問量

2. 大模型到天花板了嗎?

一部分業(yè)界專家認為到GPT-4為止,當前的大模型也許已經(jīng)成長到頭了。技術(shù)上而言,有兩個問題已經(jīng)不可回避:首先,語料用盡是一個重要原因,“人類歷史上創(chuàng)造出的優(yōu)秀資源就這些了”雖然現(xiàn)在各種UGC,MGC網(wǎng)絡(luò)數(shù)據(jù)總量仍在時刻增加,但是大多都沒有帶來新的信息量,反而大量無用甚至是誤導的謬誤信息充斥其中,真知灼見難覓。無論OpenAI也好,Google或是Meta也好,用于訓練大模型的數(shù)據(jù)語料沒有量或者質(zhì)上的根本差別。其次是模型本身的技術(shù)限制,一味單純追求規(guī)模提升似乎效用在遞減,Meta首席人工智能科學家Yann LeCun(楊樂春)提出:“ChatGPT背后的生成式人工智能技術(shù)已進入了死胡同,有太多局限性無法突破”。即使GPT-5出現(xiàn),也不會帶來顛覆性的進化。這位來自法國的圖靈獎得主是CNN之父和深度學習三巨頭之一,同時也可能是地球上最懂AI的人之一。但也有不乏繼續(xù)堅持在規(guī)模上做大的參與者,例如Google計劃在秋季發(fā)布的下一代大模型Gemini,據(jù)說參數(shù)量還會翻倍。

3.競爭格局如何激烈?

通用大模型的頭部競爭是非常激烈的,先是Google以LaMDA、PaLM 、PaLM 2發(fā)起挑戰(zhàn),然后是Meta的Llama 2,OpenAI的強勁競爭對手一直都在,并且在各方面性能上沒有出現(xiàn)明顯差距。雖然公司名字里有Open,但是迫于各種壓力,OpenAI選擇閉源并收費的方式提供服務(wù),而Meta很快用開源和可定制兩大利器進行了有效的進攻,這迫使OpenAI不得不在8月宣布? GPT-3.5支持定制,有測試表明,經(jīng)過微調(diào)的GPT-3.5 Turbo版本在某些任務(wù)中甚至可以超越GPT-4。

23年5月,Google內(nèi)部文件泄露,“我們沒有護城河,OpenAI也沒有”,而兩月后,23年7月的一份分析材料指出,GPT-4在技術(shù)上是可復制的,未來中美兩國的互聯(lián)網(wǎng)大廠和AI頭部企業(yè),都會有能力構(gòu)建出和GPT-4一樣,甚至是超過GPT-4的模型。OpenAI訓練GPT-4的FLOPS約為2.15e25,在大約25000個A100上訓練了三個月(之后又微調(diào)了6個月),利用率在32%到36%之間。

OpenAI用于訓練的云基礎(chǔ)設(shè)施成本約1美元/每A100小時,以此計算,僅訓練成本大約是6300萬美元。這對于小公司是一個不低的門檻,還不考慮是否能夠搭建如此巨大規(guī)模的硬件設(shè)施,包括持續(xù)緊缺的GPU卡和數(shù)據(jù)中心資源。

然而,IT行業(yè)的摩爾定律并未完全失效,時間流逝仍然會帶來更高的性能和更低的成本,在2023年下半年,以性能更好的H100作為主力的云基礎(chǔ)設(shè)施已經(jīng)有更高性價比,以2美元/每H100小時計算,同樣規(guī)模的預(yù)訓練可以在約8,192個H100上進行,只需要55天完成,如此一來,費用降為2150萬美元,約為先行者OpenAI的1/3。

到23年底,估計至少有9家公司將擁有同等規(guī)模或以上的集群(如Meta到12月底將擁有100,000個以上的H100),競爭對手已經(jīng)在虎視眈眈。如果非要尋找OpenAI的護城河,或許有三點可以考慮,真實用戶的使用反饋,業(yè)內(nèi)最頂尖的工程人才,以及目前業(yè)界公認的領(lǐng)先地位。

個人分析而言,我認為通用大模型的競爭態(tài)勢將非常類似于多年前的搜索引擎,雖說不一定出現(xiàn)嚴格的贏者通吃局面,但也相距不遠。市場最后剩下的通用大模型玩家多半只剩幾家巨頭:包括一個能給出最準確答案,能力最強的領(lǐng)先者和不超過3家的追趕者,后者對用戶的更大意義可能只是多個備選而已。當然,行業(yè)大模型或者垂直大模型又是另外一回事,這里暫且不做討論。

4. AI發(fā)展軌跡:十年磨三劍

從2012年的計算機圖形識別技術(shù)的突破算起,中間2016年的Alpha GO再到2022年底ChatGPT的橫空出世,AI技術(shù)從小數(shù)據(jù)小模型走到了大數(shù)據(jù)大模型大算力的時代。

歷經(jīng)10年,我們從只能完成特定任務(wù)的弱人工智能出發(fā),越來越接近強人工智能,從深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)到深度強化學習到大模型,從感知到?jīng)Q策到生成與行動,業(yè)界如今開始以一個新術(shù)語“智能體”來代指AI。現(xiàn)在的大模型已經(jīng)非常接近強人工智能(又叫通用人工智能、AGI),它具備多種能力甚至接近理論上的全能力。假設(shè)能夠繼續(xù)順利往下發(fā)展,下一階段的超人工智能理論上能夠全面超越人類現(xiàn)有水平,到達從未觸及到邊界,未知會帶來恐懼,到時候人類如何與之相處?2019年我參加世界人工智能大會時,在現(xiàn)場聽到另一個圖靈獎獲得者,CMU的Raj Reddy教授提出一個模式:GAT(全面智慧助理)。他的這個設(shè)想是讓超人工智能去輔助前沿科學的突破,再轉(zhuǎn)而教授我們新的知識,從而輔助人類文明進步,希望最終的發(fā)展能如他所愿。

5. 大模型框架和基本流程

大模型需要三個要素,軟件算法,巨大的GPU集群和用于訓練的數(shù)據(jù)集,之后是大量的工程工作。如果不考慮前期預(yù)備階段的數(shù)據(jù)歸集和數(shù)據(jù)清洗,打造一個大模型可以粗略地分為訓練和推理(工作)兩步:通過有效訓練形成綜合能力,然后在推理階段提供出來給用戶(包括以聊天應(yīng)用ChatGPT答復的各種問題和提供的各種幫助)。

以能力的復雜度從易到難排序,大模型具備的能力包括理解,對話,搜索,文本內(nèi)容生成,圖像和視頻的生成,多模態(tài)圖文理解,以及學科考試,編程、復雜任務(wù)完成以及協(xié)助人類復雜創(chuàng)作等各類型。

第一步訓練階段通常又分為預(yù)訓練和其后的微調(diào)階段,以O(shè)penAI為觀察對象,到GPT-4為止,預(yù)訓練階段的所使用的數(shù)據(jù)都是以大量的文本信息為主,通過無監(jiān)督學習的方式,輸入高達1.8萬億參數(shù)的模型中進行訓練,如前所述,OpenAI使用了25000張A100卡和3個月的時間完成訓練,隨后后還有長達的6個月微調(diào)工作需要完成。

微調(diào)階段大多使用Fine-tuning技術(shù),其中一個重要環(huán)節(jié)是RLHF(Reinforcement Learning with Human Feedback),即基于人類反饋的強化學習。RLHF解決了生成模型的一個核心問題,如何讓人工智能模型的產(chǎn)出和人類的常識、認知、需求、價值觀保持一致。簡單地說就是對AI三觀進行糾偏,杜絕離經(jīng)叛道,解決所謂的“大模型幻象”問題。

以上訓練階段完成基本算大功告成80%,接下來就要考慮不同的部署方式以及后期的用戶反饋持續(xù)優(yōu)化。OpenAI采用的是云端部署,同時提供ChatGPT的用戶直接訪問應(yīng)用接口和可集成API接口,其他第三方例如微軟可以通過API集成,在自己的軟件或云服務(wù)中調(diào)用大模型,提供給用戶不同的能力和應(yīng)用如Copilot(最近“知名網(wǎng)紅數(shù)學家”陶哲軒就安利了一下VSCode插件+Copilot如何好用,之前GPT4幫助自己編程也很棒),而國內(nèi)百度等布局云端通用大模型的廠商也提供API集成模式。除此之外,國內(nèi)一些廠商更愿意選擇面向垂直行業(yè)的私有化部署,通常在幾十個節(jié)點規(guī)模以下,面向特定行業(yè)提供僅一兩類AI輔助能力,這樣模型可以簡化,不必大而全。因此你會看見國內(nèi)不少廠商宣稱自己發(fā)布了很多個大模型,通常實際就是面向垂直行業(yè)的“小模型”,嚴格地講還是屬于弱人工智能范疇。這類應(yīng)用不僅體量規(guī)模小,還可以實現(xiàn)軟硬件結(jié)合,部署到邊緣端,是更容易落地的AI 賦能行業(yè)模式,也是當前大量創(chuàng)業(yè)公司瞄準的細分賽道。

6. 生成式AI技術(shù)前沿動向

了解完基本框架,我們來看看業(yè)界最新的動向。

本輪的AI技術(shù)發(fā)展脈絡(luò)基本如下:CNN –> RNN->LSTM->RNN/LSTM +Attention -> Transformer(例如在典型AI應(yīng)用機器翻譯領(lǐng)域,幾個比較重要的階段分別是: Simple RNN -> Contextualize RNN -> Contextualized RNN with attention -> Transformer)。

目前業(yè)界的主流大模型基本都是在Transformer框架下發(fā)展而來。它是2017年提出的技術(shù),而當前大火的GPT是Generative Pre-traning Transformer的簡稱,從名字就能看出來在技術(shù)上已經(jīng)又演進了一步。除了增加預(yù)訓練技術(shù), 我觀察到的另一個突出的特點就是“橫向擴展”。

經(jīng)過這些年的發(fā)展,模型規(guī)模急劇膨脹,深度計算已經(jīng)漸漸快要成為“寬度計算”,回看2016年業(yè)界流行的ResNet-50模型,僅采用了約50層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)并輔以2000萬參數(shù)進行訓練和推理;而2023年的業(yè)界公認最好大模型 GPT-4使用了1.8萬億參數(shù),而神經(jīng)網(wǎng)絡(luò)層數(shù)僅僅增加到120層。從層數(shù)(深度)上看僅僅是翻倍多一點點,但參數(shù)量增加了90萬倍,這直接導致了集群節(jié)點數(shù)量(寬度)的急劇膨脹。GPT-4已經(jīng)使用2萬多張GPU卡才能完成進行訓練所需計算,所以業(yè)界戲稱深度計算已經(jīng)膨脹成了寬度計算。(注:B是10億,因此Transformer使用了1.1億參數(shù),GPT-3使用了1750億參數(shù),國內(nèi)兩個流行模型65B和130B分別是650億和1300億參數(shù))

7. 2023年大模型的五個關(guān)注問題

第一是模型的規(guī)模。

當你考慮大模型的規(guī)模,會看到不同的衡量方法:參數(shù)量,token數(shù),數(shù)據(jù)量和訓練集群大小,這幾個概念互有關(guān)聯(lián)。首先參數(shù)量的增加是出于軟件算法的演進,這導致了架構(gòu)的橫向擴展,訓練集群的節(jié)點數(shù)量自然大幅上漲。而架構(gòu)拓展后,就可以用更多的數(shù)據(jù)集投入訓練;token是對訓練數(shù)據(jù)的元切分,當訓練數(shù)據(jù)量越多,token數(shù)也會增加,但不一定是線性關(guān)系。所以,這四個元素都能從不同的維度對模型規(guī)模做一定的衡量和反映。

時間來到2023年下半年,如前面所提及的那樣,業(yè)界對于一味增加規(guī)模所能夠帶來的效果已經(jīng)有兩種看法:一部分專家和企業(yè)認為邊際效用的遞減很明顯,例如Meta認為自己的LLaMA130億參數(shù)版本表現(xiàn)已經(jīng)優(yōu)于GPT-3(1750 億參數(shù)),而業(yè)界一些小一點的模型,基于數(shù)百億甚至是數(shù)十億參數(shù)的模型表現(xiàn)良好,不必非要膨脹到千億和萬億那個規(guī)模。在7月針對GPT-4的分析文檔中也指出,相比GPT-3膨脹了10倍以上參數(shù)規(guī)模之后,出現(xiàn)了大集群利用率顯著下降的問題,業(yè)界用“bubble”這個術(shù)語來描述部分GPU沒能全力工作摸魚的現(xiàn)象,由于部分計算能力“空轉(zhuǎn)”現(xiàn)象的出現(xiàn),推理成本上升了約3倍,這同時給以馬斯克為代表的AI高能耗批評者提供了新的素材。

第二個關(guān)注點是如何實現(xiàn)更好的多維并行。

生成式AI是一個典型的并行計算應(yīng)用,并行度越高越有利。所以要從多個維度增加并行度,目前多維并行包括三種并行技術(shù):數(shù)據(jù)并行,張量并行和流水線并行。

數(shù)據(jù)并行相對簡單,數(shù)據(jù)一份太大,因此分割成多份,放到多個計算節(jié)點,讓多個GPU同時進行并行計算。

而張量并行可以簡單理解為一個大模型單卡放不下,所以將其切開放,多個GPU一起算加快速度。張量并行的弊端是中間的通信開銷太大,目前廣泛采用二維、三維張量并行的核心思想是用更多的局部序列化替換全局序列化,用更多局部通信換取全局通信,從而降低通信成本,提高效率。Nvidia的黃仁勛在GTC 2021 年演講里也提到把所有張量并行都放在服務(wù)器內(nèi),避免跨服務(wù)器的通信開銷太大,得不償失。(注:張量計算是大模型的重要運算特色,張量(Tensor)是多重線性代數(shù)中會接觸的數(shù)學概念,在物理中和工程中都有應(yīng)用,它可以執(zhí)行一些數(shù)學運算,例如內(nèi)積,縮并和與矩陣的相乘(矩陣就是二階張量,向量是一階張量,而零階張量就是標量)還可以執(zhí)行切片抽取矩陣等)。

張量的好處就在于它是多維的,能夠在一個張量里包含更多數(shù)據(jù),如此計算效率更高。

流水線并行需要一點巧妙權(quán)衡,它需要考慮層數(shù)和 GPU 數(shù)量之間關(guān)系,有專家提過一個比喻,GPU就像工程隊,任務(wù)是蓋很多樓房,每棟樓有很多層,流水線層數(shù)相當于樓層數(shù)。15 個工程隊蓋 1000棟樓,理論并行度可達到15,讓每個GPU都忙起來,杜絕摸魚。因此提高并行效率的訣竅在于增加batch size,提高流水線層數(shù)和 GPU 之間的比值。

在7月的GPT-4分析資料里指出,GPT-4采用了8路張量并行+15路流水線并行,一個原因是受限于GPU卡最大8路NVlink的現(xiàn)狀,另一個原因可能是A100的40GB顯存數(shù)量。

三種并行技術(shù)中,張量并行是當前業(yè)界關(guān)注的一個重點,若能有所提升,會帶來更大的幫助。2023年7月,Google宣布開源張量計算庫TensorNetwork及其API,宣稱對GPU的加速效果百倍于CPU。相信業(yè)界已經(jīng)很多人在試用,實際效果如何我還沒看到分析或報告。

第三個關(guān)注點是混合專家模型(MoE)。

不同于單個的大模型,包括OpenAI,Google和微軟都使用了這種新的架構(gòu)。MoE的基本思想是用多個相對小一些的模型組合起來,各自成為某一部分的專家,共同向外提供推理服務(wù)。每次推理時僅使用一到兩個模型,如此能夠有效降低推理時的參數(shù)量以及資源。例如Google的GlaM模型一共使用了1.2萬億參數(shù),內(nèi)部是64個小神經(jīng)網(wǎng)絡(luò),推理時僅使用2個,8%的參數(shù),8%能耗。七月的分析材料顯示,GPT-4使用了16個專家模型,每個擁有1.1萬億參數(shù)。之所以它專家模型數(shù)量遠小于理論最優(yōu)值64~128, 是因為OpenAI的專家認為太多的專家模型會阻礙泛化,也很難收斂,對于打造一個通用大模型的目標實現(xiàn)是不利的。

除了通用大模型的領(lǐng)域,一些垂直大模型也在使用同樣的思想,只不過使用了另一個術(shù)語“大模型路由”,例如低代碼應(yīng)用大模型時,會參照Web編程引入“路由”概念,事先按不同場景和能力打造出眾多“小模型”,例如有的模型只做表單table,有的模型做圖表,把功能分拆下去。當使用時,會根據(jù)用戶的需求決定哪些“小模型”被調(diào)用,按何種順序調(diào)用,最后完成整個任務(wù)。雖然使用的名詞不同,但其中的設(shè)計思想是非常近似的。

提到推理,“低延遲推理”已經(jīng)作為一個術(shù)語概念被明確提出,它要求輸入輸出響應(yīng)時間限制在可接受范圍,模型必須以每秒輸出一定數(shù)量的token,作為使用者,人類需要30 tokens/s方可接受。另外考慮到調(diào)用一次就是一次推理,成本也必須受控。推理優(yōu)化的最新實踐是“投機采樣(Speculative sampling/decoding)”利用小模型先“打草稿”生成N個token,之后讓大模型評判,可以接受的就直接用,不接受再修改。這個方法能夠獲得成倍的加速效果,并降低推理成本。據(jù)說GPT-4和預(yù)計今年秋季發(fā)布的Google下一代大模型Gemini都使用該方法,Google已經(jīng)發(fā)表了相關(guān)論文。

第四是內(nèi)存管理優(yōu)化問題。

大模型是非常吃內(nèi)存的,大模型的演進基礎(chǔ)技術(shù)是Transformer框架,首先參數(shù),梯度都需要放到內(nèi)存里進行計算。以訓練GPT為例,如果按照 10000 億參數(shù)量計算,即使采用單精度,每個參數(shù)占4字節(jié),僅參數(shù)就要占 4T內(nèi)存,同時梯度也要占 4T內(nèi)存。再加上這一著名框架里的核心機制attention,會在此基數(shù)上產(chǎn)生指數(shù)級的放大,總和的內(nèi)存理論需求會到達PB級別。

目前內(nèi)存優(yōu)化業(yè)界已經(jīng)有一些方案,基本思路通常有兩個方向,一是盡量在軟件算法上降低內(nèi)存開銷,二是盡量減少數(shù)據(jù)的移動,包括CPU和GPU之間,以及CPU和NVme硬件之間。

第五個關(guān)注點是視覺多模態(tài)。

據(jù)材料分析,OpenAI本想在GPT-4就采用從零開始的視覺模型訓練,但由于種種原因,最終還是退了一步,先采用文本預(yù)訓練之后,又用大約2萬億token進?了微調(diào),形成了GPT-4的多模態(tài)能力。

而下一代模型“GPT-5”,計劃從零開始訓練視覺模型,用來訓練多模態(tài)模型的數(shù)據(jù)包括:「聯(lián)合數(shù)據(jù)」(LaTeX/文本)、網(wǎng)頁屏幕截圖、YouTube視頻(采樣幀,以及運行Whisper獲取字幕),訓練數(shù)據(jù)將出現(xiàn)大量非結(jié)構(gòu)化數(shù)據(jù),粗略估算以每token數(shù)600字節(jié)記,規(guī)模將是文本的150倍。

OpenAI期望下一代訓練成功的“自主智能體”在具備GPT4的能力之外,還能夠閱讀網(wǎng)頁,轉(zhuǎn)錄圖像視頻中的內(nèi)容,也能自主生成圖像和音頻。(這下豈止好萊塢編劇,連編輯剪輯,后期制作也要加入抗議的隊伍了)。

除了應(yīng)用前景外,利用視覺數(shù)據(jù)進行訓練還有可能產(chǎn)生一個根本性的改變。

到目前為止,語言和文本還是訓練通用大模型的基礎(chǔ)語料,GPT所獲得的所有信息仍然受困于“語言的邊界”,按照哲學家維特根斯坦的著名論斷,“語言的邊界就是思想的邊界”,對于大模型來說,語言類的信息將其局限在邏輯和文本的世界之中,無法感知客觀事實,有可能出現(xiàn)“缸中之腦”的哲學幻覺。相比而言,靜態(tài)圖片數(shù)據(jù)可以提供空間結(jié)構(gòu)信息,而視頻數(shù)據(jù)本身還包含了時間結(jié)構(gòu)信息,這些信息能夠幫助GPT進一步學習更深層的基礎(chǔ)規(guī)律例如因果率等,打開更大的可能性空間。

當然現(xiàn)在基于文本類語料已經(jīng)有“模型幻象”的問題,也就是所謂“一本正經(jīng)胡說八道”的情況無法徹底杜絕,而從目前的研究發(fā)現(xiàn),視覺多模態(tài)的幻象問題似乎更加嚴重,并且參數(shù)更大的模型諸如Lalma2比諸如7B這樣的小模型更嚴重。如何更有效地減少幻象,仍是業(yè)界的一個待解決問題。

分享到

nina

相關(guān)推薦