圖1 本次開源行業(yè)數(shù)據(jù)量與其他開源數(shù)據(jù)量的部分對比(GB)
IndustryCorpus 1.0覆蓋了18類行業(yè)的預(yù)訓(xùn)練數(shù)據(jù)集,其中科技類334GB,法律類275GB,醫(yī)學(xué)類189GB,金融類198GB,新聞類564GB。除此之外,還包含教育、旅游、體育、汽車等,未來將進一步擴展至30類行業(yè)。同步發(fā)布的還有醫(yī)療和教育兩個領(lǐng)域的指令微調(diào)數(shù)據(jù)集。IndustryCorpus 1.0的發(fā)布,有望大幅提升模型在專業(yè)領(lǐng)域的知識性,助力大模型的行業(yè)落地應(yīng)用。
圖2 本次開源行業(yè)數(shù)據(jù)集按行業(yè)分布情況
為驗證行業(yè)數(shù)據(jù)集應(yīng)用效果,智源選取醫(yī)療行業(yè)數(shù)據(jù)集進行示范模型訓(xùn)練。智源基于Aquila通用模型完成繼續(xù)預(yù)訓(xùn)練、SFT訓(xùn)練和RLHF訓(xùn)練,取得了優(yōu)異的模型行業(yè)能力提升。對比繼續(xù)預(yù)訓(xùn)練前的模型,在客觀指標方面,采用醫(yī)療行業(yè)數(shù)據(jù)集經(jīng)過繼續(xù)預(yù)訓(xùn)練、SFT和DPO之后的示范醫(yī)療模型總體醫(yī)療能力提升20.1%(見圖3)。在主觀評測方面,在經(jīng)過醫(yī)療行業(yè)SFT數(shù)據(jù)和DPO數(shù)據(jù)的訓(xùn)練后,示范醫(yī)療對話模型能力勝率達到82.2%,5分制多輪對話能力CMTMedQA評分達到4.45(見圖4)。綜上,行業(yè)數(shù)據(jù)集在一定程度上解決了用戶行業(yè)數(shù)據(jù)獲取難、訓(xùn)練效果不佳的難題。
圖3 客觀指標方面,采用醫(yī)療行業(yè)預(yù)訓(xùn)練數(shù)據(jù)集繼續(xù)預(yù)訓(xùn)練、SFT和DPO之后的示范醫(yī)療模型總體醫(yī)療能力提升20.1%
圖4 主觀評測方面,經(jīng)過醫(yī)療行業(yè)SFT數(shù)據(jù)和DPO數(shù)據(jù)訓(xùn)練后,示范醫(yī)療對話模型能力勝率達到82.2%
2、啟動千萬級指令微調(diào)數(shù)據(jù)集 InfinityInstruct 的開源項目
高質(zhì)量的指令數(shù)據(jù)是大模型性能的“養(yǎng)料”。本次論壇上,智源研究院發(fā)布的千萬級高質(zhì)量指令微調(diào)數(shù)據(jù)集開源項目,包括基于開源數(shù)據(jù)集進行高質(zhì)量篩選的數(shù)據(jù),和通過數(shù)據(jù)合成方法構(gòu)造的高質(zhì)量指令數(shù)據(jù)。智源對現(xiàn)有開源數(shù)據(jù)進行領(lǐng)域分析確保合理類型分布,對大規(guī)模數(shù)據(jù)進行質(zhì)量篩選保留高價值數(shù)據(jù),針對開源數(shù)據(jù)缺乏的領(lǐng)域和任務(wù),進行數(shù)據(jù)增廣,并結(jié)合人工標注對數(shù)據(jù)質(zhì)量進行控制,避免合成數(shù)據(jù)分布偏差。本次大會開源首批300萬條經(jīng)過模型驗證的高質(zhì)量中英文指令數(shù)據(jù)InfInstruct-3M,并將在未來一個月內(nèi)完成 InfinityInstruct 千萬條指令數(shù)據(jù)的全部驗證和開源。為了驗證InfInstruct-3M的質(zhì)量,我們在Mistral-7B上面進行微調(diào)訓(xùn)練得到對話模型InfInstruct-3M-Mistral-7B。在ApacheEval的評測中,該模型明顯優(yōu)于其它同量級的對話模型(見圖5)。這意味著,用戶可以使用InfInstruct數(shù)據(jù)集,再加以自有應(yīng)用數(shù)據(jù),對基礎(chǔ)模型進行微調(diào),輕松獲得專有的高質(zhì)量中英雙語對話模型。
圖5 使用ApacheEval評測對比多個對話模型的能力
3、構(gòu)建通用數(shù)據(jù)集和行業(yè)數(shù)據(jù)集兩大專區(qū),滿足用戶不同需求
今年以來,智源匯聚了海量可直接用于算法訓(xùn)練的通用數(shù)據(jù)集和行業(yè)數(shù)據(jù)集。本次論壇上,智源發(fā)布通用數(shù)據(jù)集和行業(yè)數(shù)據(jù)集兩大專區(qū)。
通用數(shù)據(jù)集為用于通用基礎(chǔ)模型訓(xùn)練的多種模態(tài)數(shù)據(jù)。當前已經(jīng)匯聚在數(shù)據(jù)運營平臺的通用數(shù)據(jù)集有116個,總數(shù)據(jù)量700.27TB,其中文本數(shù)據(jù)9.76TB,多模態(tài)圖文數(shù)據(jù)量75.31TB,視頻數(shù)據(jù)量615TB,音頻數(shù)據(jù)0.2TB。
行業(yè)數(shù)據(jù)集包含了行業(yè)領(lǐng)域特有的知識和信息,用于訓(xùn)練各種行業(yè)模型,推動人工智能從通用向?qū)I(yè)化、精細化持續(xù)發(fā)展。目前行業(yè)專區(qū)數(shù)據(jù)集28個,數(shù)據(jù)量4.33TB,其中文本數(shù)據(jù)集22個,數(shù)據(jù)量4.3TB,多模態(tài)圖文行業(yè)數(shù)據(jù)集6個,數(shù)據(jù)量0.03TB。
4、全面升級數(shù)據(jù)處理工具FlagData3.0,助力數(shù)據(jù)高質(zhì)量發(fā)展
數(shù)據(jù)質(zhì)量直接決定了大模型的輸出能力,使用數(shù)據(jù)處理工具不斷提升數(shù)據(jù)質(zhì)量變得日益重要。智源研究院長期投入數(shù)據(jù)建設(shè)工作,開發(fā)了一批數(shù)據(jù)處理的高效工具。FlagData數(shù)據(jù)工具·開源項目包含清洗、標注、壓縮、統(tǒng)計分析等功能在內(nèi)的多個數(shù)據(jù)處理工具與算法,為提升數(shù)據(jù)質(zhì)量帶來直接的便利。
本次論壇上,F(xiàn)lagaData2.0全面升級為FlagData 3.0,一方面提供了傻瓜式語言數(shù)據(jù)處理工具,支持一鍵式搭建數(shù)據(jù)處理工作流。另一方面,為專業(yè)的進階用戶提供數(shù)十種數(shù)據(jù)加工算子,支持自定義數(shù)據(jù)處理流程。
三、“行業(yè)數(shù)據(jù)集—場景應(yīng)用創(chuàng)新計劃”啟動,加速千行百業(yè)大模型落地
為推動人工智能在各行業(yè)深入應(yīng)用、為大模型行業(yè)落地提供數(shù)據(jù)支撐,本次論壇上,智源研究院和中國互聯(lián)網(wǎng)協(xié)會、中國互聯(lián)網(wǎng)協(xié)會人工智能工作委員會聯(lián)合發(fā)布“行業(yè)數(shù)據(jù)集—場景應(yīng)用創(chuàng)新計劃”。向全國企業(yè)征集場景應(yīng)用模型需求,定向提供高質(zhì)量行業(yè)數(shù)據(jù)集,助力一批場景應(yīng)用模型的創(chuàng)新。最后,將依據(jù)模型應(yīng)用成果組織評選優(yōu)秀案例。
同時,該計劃還將開展“行業(yè)數(shù)據(jù)愿望清單”征集項目,旨在調(diào)研和收集更多的人工智能行業(yè)數(shù)據(jù)集需求,以推動打造更多高需求的數(shù)據(jù)集,通過北京人工智能數(shù)據(jù)運營平臺向社會提供。