不過,相較于新模型和新產(chǎn)品迭代,業(yè)界更關注的是DCFormer架構在效率層面的大幅提升,彩云科技CEO袁行遠介紹,彩云科技團隊在基于DCFormer打造的模型DCPythia-6.9B上,實現(xiàn)了在預訓練困惑度和下游任務評估上都優(yōu)于開源Pythia-12B。這意味著,DCFormer模型在性能上,實現(xiàn)了對Transformer模型1.7-2倍的性能提升,這是在大模型基礎技術層領域近年來少有的突破。

目前大模型訓練的主要成本由三部分構成,即訓練成本、推理成本和儲存成本。其中,訓練成本是其中的主要構成,例如,GPT-3的單次訓練成本據(jù)估算高達140萬美元,這些成本主要由兩部分構成,GPU的使用和大量的電力消耗,電力消耗方面,GPT-3的訓練耗電量高達1287兆瓦時。而據(jù)《華爾街見聞》對GPT-4的細節(jié)披露顯示,GPT-4總共包含了1.8萬億參數(shù)(GPT-3只有約1750億個參數(shù)),相對應的,專家測算,Open AI在25000個A100 GPU上訓練,單次訓練成本則達到6300萬美元,即便是在當下,利用8192個H100 GPU進行訓練,也需要2150萬美元。

“在Scaling Law失效,真正、徹底的人工智能實現(xiàn)之前,可能僅僅是能源消耗,我們的地球都無法支撐?!痹羞h介紹,“優(yōu)化模型架構,提升大模型的效率,從而有效地降低能耗,就成為必由之路。”

彩云科技的DCFormer架構即是基于模型架構優(yōu)化的思路而誕生。在今年舉辦的ICML(國際機器學習大會)上,彩云科技團隊正式向公眾介紹了DCFormer架構,提出可動態(tài)組合的多頭注意力(DCMHA),替換Transformer核心組件多頭注意力模塊(MHA),解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據(jù)輸入動態(tài)組合,從根本上提升了模型的表達能力,實現(xiàn)在DCPythia-6.9B模型上,在預訓練困惑度和下游任務評估上都優(yōu)于開源Pythia-12B模型的表現(xiàn)。

1.7-2倍的性能提升,意味著同樣的訓練任務,在同等GPU的情況下,效率的同級別提升,之前如果預訓練需要消耗100兆瓦時的耗電量,現(xiàn)在僅需要50兆瓦時,成本將大幅縮減。

與此同時,對于很多致力于開發(fā)大模型的中小型人工智能公司而言,模型的效率提升也給他們參與AI浪潮提供了全新的機遇。袁行遠介紹,譬如Open AI做的是通用大模型,它可能有3萬張A100卡,但只有十分之一的算力集中在故事創(chuàng)作上,那就是3000張卡,如果我們能在模型結構上具備優(yōu)勢,利用DCFormer架構實現(xiàn)2倍的訓練效率提升,那么只需要1500張卡就能實現(xiàn)與Open AI同樣的效果,如果模型架構的效率優(yōu)勢達到4倍,那就只需要750張卡就可以實現(xiàn)。

這一點,似乎已經(jīng)在彩云科技自己的產(chǎn)品,彩云小夢V3.5上實現(xiàn)了印證。這款基于DCFormer架構應用的故事續(xù)寫、陪伴類型的人工智能產(chǎn)品,在訪問深度、交互長度上都實現(xiàn)了同類型產(chǎn)品的領先,平均150分鐘的交流時長,超過400+句的深度對話,遠超當前業(yè)內(nèi)平均20分鐘左右的交互時長。這背后,正是基于DCFormer架構帶來的革新?!坝脩粼趯υ挸^400句后,彩云小夢依然能夠記得之前對話里的細節(jié),甚至記得對話中各個NPC的愛好、習慣,超長記憶和一致的邏輯,使得彩云小夢成為真正的‘指尖伴侶’?!?/p>

“將DCFormer架構的模型效率再次提升一倍,是我們接下來一年的目標?!痹羞h介紹,“只有模型效率和智能度提升,才能實現(xiàn)真正的AGI。”

分享到

xiesc

相關推薦