榜單最新冠軍是來(lái)自技術(shù)創(chuàng)新研究院TII(Technology Innovation Institute)的Falcon-40B-instruct,它基于排名第三的Falcon-40B微調(diào)得來(lái)。

前者是指令優(yōu)化的模型,類(lèi)似ChatGPT,可以聊天對(duì)話(huà)和問(wèn)答。后者是一個(gè)沒(méi)有微調(diào)過(guò)的基礎(chǔ)模型,可用于進(jìn)一步訓(xùn)練或者微調(diào),就像GPT-3.5和GPT-4那樣。

Falcon-40B在Apache 2.0許可下提供,這是一個(gè)自由和開(kāi)源的軟件許可協(xié)議,允許用戶(hù)自由地使用、修改和分發(fā)軟件,支持在商業(yè)環(huán)境中使用。

所以,F(xiàn)alcon-40B是目前最強(qiáng)開(kāi)源可商用的大語(yǔ)言模型。

技術(shù)創(chuàng)新研究院TII來(lái)自阿聯(lián)酋首都阿布扎比,研究院最初七個(gè)專(zhuān)門(mén)的研究中心的研究?jī)?nèi)容就有人工智能相關(guān)領(lǐng)域。

技術(shù)創(chuàng)新研究院TII

TII 跨AI研究中心執(zhí)行總監(jiān)、代理首席AI研究員兼大語(yǔ)言模型項(xiàng)目負(fù)責(zé)人Ebtesam Almazrouei博士表示,“通過(guò)發(fā)布Falcon 40B開(kāi)源模型,我們?yōu)檠芯繂T、企業(yè)和組織提供了在各個(gè)行業(yè)領(lǐng)域利用Falcon 40B強(qiáng)大能力的機(jī)會(huì)。

作為一個(gè)有40B(400億)參數(shù)大大語(yǔ)言模型,它的表現(xiàn)超過(guò)了有650億參數(shù)的LLaMA。

有如此表現(xiàn)大致原因有兩方面,一個(gè)是訓(xùn)練數(shù)據(jù)質(zhì)量更高,另一個(gè)是訓(xùn)練方法在不斷優(yōu)化的效果。

Falcon-40B基于一萬(wàn)億個(gè)字符(token)訓(xùn)練而來(lái),上圖展示了Falcon-40B的訓(xùn)練數(shù)據(jù)構(gòu)成,大部分是由技術(shù)創(chuàng)新研究院TII創(chuàng)建的數(shù)據(jù)集RefinedWeb,該數(shù)據(jù)集是從網(wǎng)絡(luò)上抓取后整理而來(lái)的,任何人都可以基于ODC-By 1.0來(lái)使用和修改。

Falcon-40B在亞馬遜云科技的Amazon SageMaker上完成的訓(xùn)練,使用了384塊40GB顯存的A100顯卡,使用的是P4d實(shí)例。訓(xùn)練是從2022年12月開(kāi)始的,歷經(jīng)了兩個(gè)月的時(shí)間。

Falcon-40B的訓(xùn)練過(guò)程使用了優(yōu)化的并行計(jì)算和內(nèi)存管理策略,這使得它可以在大規(guī)模的硬件設(shè)備上進(jìn)行訓(xùn)練,更高效地處理大型的數(shù)據(jù)集和模型。

Falcon-40B與來(lái)自DeepMind的Chinchilla和來(lái)自谷歌的PaLM-62B的性能相當(dāng),相比之下訓(xùn)練成本要低得多。據(jù)了解,訓(xùn)練Falcon-40B的計(jì)算量是GPT-3的 75%、Chinchilla的40%,占 PaLM-62B 的 80%。

除了400億參數(shù)的Falcon 40B,同時(shí)發(fā)布的還有70億參數(shù)的Falcon 7B。前者部署大概需要90GB顯存的顯卡,后者可降低使用門(mén)檻,需要大概15GB顯存的顯卡。

雖說(shuō)后者15GB顯存就可以運(yùn)行,但目前大部分顯卡還是只有8GB顯存。目前較新的顯卡,只有RTX 4090/RTX 4080以及RTX 3090Ti和RTX 3090可以滿(mǎn)足要求,門(mén)檻還是很高。

當(dāng)然,也可以不買(mǎi)顯卡直接用。

從6月7日起,兩個(gè)開(kāi)源Falcon大語(yǔ)言模型也將在Amazon SageMaker JumpStart中可用。Amazon SageMaker JumpStar提供了包括Falcon-40B在內(nèi)的多種預(yù)訓(xùn)練模型、內(nèi)置算法和預(yù)構(gòu)建的解決方案模板,可以幫助用戶(hù)快速上手機(jī)器學(xué)習(xí)。

用戶(hù)可以在Hugging Face網(wǎng)站上直接點(diǎn)擊部署按鈕即可部署在Amazon SageMaker上,可以選擇SageMaker Python SDK、Amazon SageMaker JumpStart以及Cloudformation三種方式中的任意一種。

用戶(hù)也可以在Amazon SageMaker?Studio中輕點(diǎn)鼠標(biāo)就可以部署和使用Falcon模型,或者通過(guò)SageMaker?Python?SDK以編程方式使用。

Amazon SageMaker是一個(gè)托管API集合,用于開(kāi)發(fā)、訓(xùn)練、調(diào)優(yōu)和托管機(jī)器學(xué)習(xí)(ML)模型,包括大語(yǔ)言模型。許多客戶(hù)使用SageMaker處理其大語(yǔ)言模型工作負(fù)載,例如Stability?AI,?AI21?Labs和LG?AI。

此外,Amazon SageMaker?Training提供了具有用戶(hù)自定義硬件配置和代碼的計(jì)算集群。計(jì)算作業(yè)按運(yùn)行次數(shù)計(jì)費(fèi),按秒分配任務(wù),這意味著用戶(hù)在未使用服務(wù)時(shí)無(wú)需為GPU資源付費(fèi)。

Gartner在《2023 云 AI 開(kāi)發(fā)者服務(wù)魔力象限》報(bào)告,亞馬遜云科技被評(píng)為“領(lǐng)導(dǎo)者”,且在執(zhí)行能力軸上排名最高,很多企業(yè)都選擇用Amazon SageMaker來(lái)訓(xùn)練和推理機(jī)器學(xué)習(xí)模型。

現(xiàn)在,TII正在訓(xùn)練下一代Falcon大語(yǔ)言模型,將在Amazon SageMaker上擴(kuò)展到3136個(gè)A100 GPU(392個(gè)ml.p4d實(shí)例,每個(gè)實(shí)例有8個(gè)A100)來(lái)做訓(xùn)練。

分享到

zhupb

相關(guān)推薦