(圖片來源/Meta Research)

繼OpenAI、微軟及谷歌的文本生成式AI(generative AI)模型,Meta也公布了能產(chǎn)生文本的最新AI模型,并準(zhǔn)備將其開源。

Meta CEO Mark Zuckerberg在本周通過Facebook公布了AI大型語言模型LLaMA(Large Language Model Meta AI)。并表示,大型語言模型已顯示產(chǎn)生文本、對(duì)話、為文章做摘要、以及其它更復(fù)雜的任務(wù)如解決數(shù)學(xué)定理或預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的潛能。Meta將把LLaMA模型開放給AI研究社群,供研究人員進(jìn)行不同領(lǐng)域研究。

與openAI的聊天機(jī)器人ChatGPT或谷歌應(yīng)對(duì)“策略”Bard 不同,LLaMA不是聊天機(jī)器人,而是類似于GPT-3.5和LaMDA的LLM(大型語言模型)匯編,這些LLM 支持對(duì)話式AI應(yīng)用。LLaMA 目前是Meta進(jìn)行的一項(xiàng)非創(chuàng)收嘗試,并未積極整合到公司現(xiàn)有的業(yè)務(wù)組合中。

與OpenAI的GPT-3.5(多達(dá)1750億個(gè)參數(shù))、谷歌的LaMDA(多達(dá)1370億個(gè)參數(shù))和PaLM(5400億個(gè)參數(shù))以及微軟的Megatron-Turing自然語言生成模型(5300億個(gè)參數(shù))等LLM相比 ), Meta對(duì)LLaMA 模型的匯編明顯更小,但可用作訓(xùn)練更大語言模型。這些模型以大量未標(biāo)注的資料訓(xùn)練而成,很適合微調(diào)后用于多種任務(wù),減少后續(xù)大型模型測(cè)試、驗(yàn)證及探索新使用情境的計(jì)算資源需求。

Meta稱,過去數(shù)十億參數(shù)的大型自然語言處理(natural language processing,NLP)模型發(fā)展出產(chǎn)生創(chuàng)意文本、解決數(shù)學(xué)定理問題、回答閱讀理解問題等能力。

但訓(xùn)練和執(zhí)行這類大型模型的成本和資源不是所有人都有的,也限制了研究的進(jìn)展,并造成語言模型的偏見、毒性(toxicity)和產(chǎn)生錯(cuò)誤信息。相對(duì)的,小型模型是以更多token(小段字詞)訓(xùn)練,比較容易為特定使用情境重訓(xùn)練及微調(diào)。

Meta最小的模型LLaMA 7B以一萬億token訓(xùn)練、LLaMA 65B及33B則以1.4萬億訓(xùn)練。此外他們選擇從20種使用人口最多的語言的文字字詞為訓(xùn)練輸入,以拉丁和西里爾(Cyrillic,一種斯拉夫語)字母為主。

按參數(shù)來說,Meta的LLaMA有多種規(guī)模,分成70億、130億、330億及650億參數(shù)。最大的LLaMA-65b模型相比一些世界級(jí)知名LLM,如DeepMind的Chinchilla(700 億個(gè)參數(shù))和谷歌的PaLM也極具競(jìng)爭(zhēng)力。Meta也提供了LLaMA模型卡(model card)透明度工具,像是標(biāo)桿測(cè)試模型對(duì)模型偏差和毒性的評(píng)估值,供研究人員了解模型的限制。

最后

當(dāng)前LLM 應(yīng)用范圍已經(jīng)遠(yuǎn)超出聊天機(jī)器人,涵蓋了從游戲到生產(chǎn)力軟件的無限范圍用例,并且在為生成式AI的需求帶來增長機(jī)會(huì),預(yù)計(jì)其將年復(fù)合增長率將超過30%,并有可能成為一個(gè)價(jià)值50+億美元規(guī)模的市場(chǎng)。

分享到

崔歡歡

相關(guān)推薦