全新升級(jí),CPM-Ant 蝶變 CPM-Bee
CPM(Chinese Pretrained Model) 系列大模型是我們團(tuán)隊(duì)自研模型,其中包括國(guó)內(nèi)首個(gè)中文大模型 CPM-1、高效易用大模型 CPM-2、可控持續(xù)大模型 CPM-3 等。最新的百億大模型訓(xùn)練直播項(xiàng)目 CPM-Live 的計(jì)劃書在2022年5月26日發(fā)布,第一期模型 CPM-Ant 的訓(xùn)練在2022年5月29日正式啟動(dòng),并于2022年9月16日?qǐng)A滿發(fā)布報(bào)告。
作為 CPM-Live 的第二期模型,CPM-Bee 在2022年10月13日開啟訓(xùn)練,在基礎(chǔ)能力和性能表現(xiàn)上都在 CPM-Ant 的基礎(chǔ)上進(jìn)行了全新升級(jí)。CPM-Bee 一網(wǎng)打盡多種能力,可以準(zhǔn)確地進(jìn)行語(yǔ)義理解,高效完成各類基礎(chǔ)任務(wù),包括:文字填空、文本生成、翻譯、問(wèn)答、評(píng)分預(yù)測(cè)、文本選擇題 等等??紤]到用戶使用模型的易用性,我們?cè)陬A(yù)訓(xùn)練階段將模型的輸入輸出設(shè)計(jì)成了 JSON 結(jié)構(gòu)化形式,用戶只需調(diào)整不同任務(wù)字段,就可以完成各類任務(wù)。
"文本生成": {"input": "今天天氣很好,我和媽媽一起去公園,<mask>", "prompt": "往后寫兩句話", "<ans>": ""}
"翻譯": {"input": "北京是中國(guó)的首都", "prompt": "中翻英", "<ans>": ""}
"評(píng)分預(yù)測(cè)": {"input":"之前多次聚餐都選擇這里,有各種大小的包房同時(shí)能容納很多人,環(huán)境好有特色還有表演,整體聚餐氛圍一下被帶動(dòng)起來(lái)。現(xiàn)在由于炭火改成了電烤羊,口感真的不如從前,不過(guò)其他菜品都還是不錯(cuò),烤羊剩下的拆骨肉最后還能再加工一下椒鹽的也很好吃。","question":"評(píng)分是多少?(1-5)","<ans>":""}
"選擇題": {"input": "父母都希望自己的孩子誠(chéng)實(shí)、勇敢、有禮貌。要想讓孩子成為這樣的人,父母首先得從自己做起,要是連自己都做不到,又怎能要求孩子做到呢?", "options": {"<option_0>": "少提要求", "<option_1>": "降低標(biāo)準(zhǔn)", "<option_2>": "自己先做好", "<option_3>": "讓孩子拿主意"}, "question": "教育孩子時(shí),父母應(yīng)該:", "<ans>": ""}
CPM-Bee 是一個(gè) 完全開源、允許商用 的百億參數(shù)中英文基座模型。它采用 Transformer 自回歸架構(gòu)(auto-regressive),使用萬(wàn)億級(jí)高質(zhì)量語(yǔ)料進(jìn)行預(yù)訓(xùn)練,擁有強(qiáng)大的基礎(chǔ)能力。CPM-Bee 的特點(diǎn)可以總結(jié)如下:
?? Github地址 https://github.com/OpenBMB/CPM-Bee
?? Hugging Face地址 https://huggingface.co/openbmb/cpm-bee-10b
百煉千錘 ,零樣本評(píng)測(cè)獨(dú)占鰲頭
我們對(duì) CPM-Bee 基座模型進(jìn)行了全方位的中英文能力評(píng)測(cè)。在中文的 Zero-CLUE 評(píng)測(cè)基準(zhǔn)上,CPM-Bee 可以大幅超越其他模型,穩(wěn)居中文大模型第一。
在英文評(píng)測(cè)基準(zhǔn)上,CPM-Bee 也 展現(xiàn)出了和開源模型 LLaMA 相當(dāng)?shù)男?/strong>果。
使用CPM-Bee提供的API 與 OpenBMB 和 THUNLP聯(lián)合自研的Decoder Tuning(ACL 2023)技術(shù),可以在 不訪問(wèn)和修改模型參數(shù)的情況下大幅提高下游任務(wù)的性能!
生態(tài)支持 ? 微調(diào)壓縮部署一應(yīng)俱全
—基于 OpenBMB 的大模型生態(tài)系統(tǒng),我們?cè)谟?xùn)練 CPM-Bee 的過(guò)程中實(shí)現(xiàn)了全流程高效。同時(shí)提供了訓(xùn)練(基于 BMTrain)、微調(diào)(基于 OpenPrompt 和 OpenDelta)、外部工具使用(基于 BMTools)、模型壓縮(基于 BMCook)低資源推理(基于 BMInf)的全套腳本,可以協(xié)助開發(fā)者快速上手和使用 CPM-Bee。
基于高效微調(diào)工具 OpenDelta,我們給出了兩種微調(diào)方案:全參數(shù)微調(diào)和增量微調(diào),可以將 CPM-Bee 適配到各類下游場(chǎng)景中。
基于高效壓縮工具 BMCook,我們對(duì)原始的 CPM-Bee 基座模型進(jìn)行壓縮,提供了 10B、5B、2B、1B 四種大小的 CPM-Bee 模型來(lái)適應(yīng)各種不同的場(chǎng)景:
模型 | #Attn.層 | #FFN層 | Attn隱狀態(tài)維度 | FFN隱狀態(tài)維度 |
CPM-Bee-10B | 48 | 48 | 4096 | 10240 |
CPM-Bee-5B | 19 | 24 | 4096 | 10240 |
CPM-Bee-2B | 19 | 24 | 2048 | 5120 |
CPM-Bee-1B | 19 | 24 | 1280 | 1024 |
對(duì)于壓縮后的 CPM-Bee,普通的消費(fèi)級(jí)顯卡即可完成快速推理,不同大小的模型所占用的推理資源如下:
模型 | 推理內(nèi)存占用 | 硬件需求 |
CPM-Bee-10B | 20GB | RTX3090(24 GB) |
CPM-Bee-5B | 11 GB | RTX3090(24 GB) |
CPM-Bee-2B | 6.7 GB | GTX 1080(8 GB) |
CPM-Bee-1B | 4.1 GB | GTX 1660(6 GB) |
OpenBMB 始終堅(jiān)守初衷,致力于打造卓越的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型庫(kù)和相關(guān)工具。基于工具平臺(tái)和模型庫(kù),我們?cè)诮ㄔO(shè)大模型開源生態(tài)的同時(shí),也積極促進(jìn)大模型的落地與廣泛應(yīng)用。
依托強(qiáng)大的開源基座模型 CPM-Bee,我們期待世界上涌現(xiàn)出更多精彩的大模型和大模型驅(qū)動(dòng)的產(chǎn)品應(yīng)用。人工智能的大模型時(shí)代正在加速行進(jìn)!