近日,浪潮信息發(fā)布 “源”Yuan-EB(Yuan-embedding-1.0,嵌入模型),在C-MTEB榜單中斬獲檢索任務(wù)第一名,以78.41的平均精度刷新大模型RAG檢索最高成績(jī),將基于元腦企智EPAI為構(gòu)建企業(yè)知識(shí)庫提供更高效、精準(zhǔn)的知識(shí)向量化能力支撐,助力用戶使用領(lǐng)先的RAG技術(shù)加速企業(yè)知識(shí)資產(chǎn)的價(jià)值釋放。

Yuan-EB(版本號(hào)Yuan-embedding-1.0)是專為增強(qiáng)中文文本檢索能力而設(shè)計(jì)的嵌入模型(也稱Embedding模型),在 “源2.0”大模型的工作基礎(chǔ)上,創(chuàng)新性地采用了“源2.0-M32”大模型進(jìn)行數(shù)據(jù)重寫與合成,并通過索引技術(shù)、樣本排序等系列方法完成高質(zhì)量微調(diào)數(shù)據(jù)集構(gòu)建,能夠有效提升RAG系統(tǒng)的檢索精度。

C-MTEB是目前業(yè)內(nèi)最權(quán)威的嵌入模型測(cè)試榜單。其中,檢索任務(wù)(Retrieval)是檢索增強(qiáng)生成(RAG)場(chǎng)景下最為重要、應(yīng)用最廣泛的任務(wù)能力,考察的是Embedding模型從大量的數(shù)據(jù)集中找到并返回與給定查詢最相關(guān)或最匹配的信息的過程?!霸础盰uan-EB基于該任務(wù)提供的醫(yī)療、新聞、電商、娛樂等8個(gè)中文文本數(shù)據(jù)集,實(shí)現(xiàn)了業(yè)界領(lǐng)先的海量文本檢索精度。

源”Yuan-EB 助力RAG檢索精度新高

嵌入模型在RAG流程中扮演著關(guān)鍵角色,它能夠?qū)?fù)雜的高維數(shù)據(jù)(例如文本、圖像或音頻)轉(zhuǎn)換為機(jī)器可理解的向量形式,直接決定了RAG檢索的精準(zhǔn)性和效率。

“源”Yuan-EB通過數(shù)據(jù)準(zhǔn)備與模型微調(diào)兩個(gè)方面的技術(shù)創(chuàng)新,實(shí)現(xiàn)了模型精度的大幅提升:

在數(shù)據(jù)方面,基于“源2.0”微調(diào)階段的問答數(shù)據(jù)進(jìn)行清洗與篩選,構(gòu)建問題(query)與文本(corpus)數(shù)據(jù)集;使用“源2.0-M32”對(duì)C-MTEB訓(xùn)練數(shù)據(jù)進(jìn)行重寫與合成,通過索引技術(shù)與排序模型進(jìn)行高效的難負(fù)樣本提取,完成大規(guī)模難負(fù)例樣本挖掘,形成高質(zhì)量微調(diào)數(shù)據(jù)集。

在微調(diào)方面,通過兩個(gè)階段的領(lǐng)先微調(diào)方法實(shí)現(xiàn)模型能力提升。第一階段,使用各個(gè)領(lǐng)域(醫(yī)療、新聞、長(zhǎng)文本、娛樂等方向)的大規(guī)模數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí)訓(xùn)練;第二階段,采用“源2.0-M32”生成的合成數(shù)據(jù)進(jìn)一步微調(diào),并使用MRL方法完成“源”Yuan-EB訓(xùn)練。

“源”Yuan-EB為用戶提供了大模型企業(yè)知識(shí)庫應(yīng)用開發(fā)的最優(yōu)模型選擇,能夠在RAG流程的多個(gè)方面起到顯著的精度提升,包括信息檢索的準(zhǔn)確性、處理大規(guī)模數(shù)據(jù)的效率、消除語義歧義、降低計(jì)算成本、增強(qiáng)對(duì)長(zhǎng)文檔的處理能力以及模型魯棒性等,最大化提升RAG流程的整體性能和應(yīng)用效果。

RAG檢索技術(shù)解析

RAG檢索即檢索增強(qiáng)生成(Retrieval-Augmented Generation),它將信息檢索與文本生成相結(jié)合。其核心思想是在生成文本時(shí),不僅依靠模型自身的參數(shù)化知識(shí),還通過檢索外部知識(shí)源來獲取更準(zhǔn)確、更豐富的信息,從而生成更符合用戶需求和更具質(zhì)量的文本內(nèi)容。

技術(shù)流程

檢索階段:當(dāng)接收到用戶輸入的查詢請(qǐng)求時(shí),系統(tǒng)首先會(huì)在預(yù)構(gòu)建的知識(shí)庫中進(jìn)行檢索。這個(gè)知識(shí)庫可以是大規(guī)模的文本數(shù)據(jù)庫、文檔集合等。檢索過程通常使用各種信息檢索技術(shù),如向量空間模型、倒排索引等,以找到與查詢請(qǐng)求相關(guān)的候選文檔或信息片段。

生成階段:在獲取到相關(guān)的檢索結(jié)果后,將這些結(jié)果作為額外的輸入信息提供給大模型。大模型會(huì)綜合自身的語言理解和生成能力以及檢索到的外部知識(shí),生成最終的文本響應(yīng)。

關(guān)鍵技術(shù)

嵌入表示學(xué)習(xí):為了能夠有效地在知識(shí)庫中進(jìn)行檢索,需要將文本轉(zhuǎn)換為向量空間中的嵌入表示。常用的方法包括詞向量模型、Transformer架構(gòu)中的編碼器等,通過將文本映射為低維向量,使得語義相近的文本在向量空間中距離相近,從而便于檢索。

檢索算法優(yōu)化:高效的檢索算法是RAG檢索的關(guān)鍵。除了傳統(tǒng)的檢索算法外,近年來還出現(xiàn)了基于深度學(xué)習(xí)的檢索方法,如神經(jīng)排序模型等,能夠更好地捕捉文本之間的語義相關(guān)性,提高檢索的準(zhǔn)確性和效率。

融合機(jī)制設(shè)計(jì):如何將檢索到的知識(shí)與大模型的生成過程進(jìn)行有效的融合也是一個(gè)重要的研究方向。常見的融合機(jī)制包括注意力機(jī)制、門控機(jī)制等,通過這些機(jī)制可以動(dòng)態(tài)地控制檢索知識(shí)在生成過程中的參與程度,使生成的文本更加自然流暢且符合邏輯。

RAG檢索應(yīng)用領(lǐng)域廣泛

智能客服:在客戶服務(wù)領(lǐng)域,RAG檢索技術(shù)被廣泛應(yīng)用于智能客服系統(tǒng)中。通過檢索知識(shí)庫中的常見問題解答、產(chǎn)品信息等,智能客服能夠更準(zhǔn)確地回答用戶的咨詢,提高客戶滿意度。例如,許多電商企業(yè)的智能客服利用RAG檢索為用戶提供關(guān)于商品詳情、訂單狀態(tài)等方面的快速查詢和解答。

內(nèi)容生成:在新聞報(bào)道、文案創(chuàng)作等內(nèi)容生成領(lǐng)域,RAG檢索能夠幫助作者快速獲取相關(guān)的背景知識(shí)和資料,從而提高創(chuàng)作效率和質(zhì)量。一些新媒體平臺(tái)利用RAG檢索為創(chuàng)作者提供素材和靈感,輔助生成更具吸引力和深度的內(nèi)容。

智能問答系統(tǒng):類似于智能客服,但更側(cè)重于一般性知識(shí)的問答。如百度知道、知乎等問答平臺(tái),借助RAG檢索技術(shù)可以更好地理解用戶問題,并從海量的知識(shí)中檢索出最相關(guān)的答案,為用戶提供更有價(jià)值的信息。

RAG檢索技術(shù)的挑戰(zhàn)與機(jī)遇

盡管RAG檢索技術(shù)取得了顯著進(jìn)展,但仍面臨一些挑戰(zhàn)。

其中包括知識(shí)庫的構(gòu)建和維護(hù)成本較高,需要大量的人力和物力來收集、整理和更新知識(shí);檢索結(jié)果的準(zhǔn)確性和相關(guān)性還有待進(jìn)一步提高,尤其是在處理復(fù)雜、模糊的查詢請(qǐng)求時(shí);以及如何保護(hù)知識(shí)庫中的數(shù)據(jù)隱私和安全等問題。

隨著人工智能技術(shù)的不斷創(chuàng)新和應(yīng)用場(chǎng)景的不斷拓展,RAG檢索技術(shù)也迎來了諸多機(jī)遇。例如,預(yù)訓(xùn)練語言模型的不斷發(fā)展為RAG檢索提供了更強(qiáng)大的語言理解和生成能力基礎(chǔ);多模態(tài)技術(shù)的融合將使RAG檢索能夠處理更豐富的信息類型,進(jìn)一步拓展其應(yīng)用范圍;此外,邊緣計(jì)算和分布式技術(shù)的發(fā)展也將為RAG檢索在資源受限的設(shè)備和場(chǎng)景中的應(yīng)用提供支持。

結(jié)語

大模型RAG檢索技術(shù)作為人工智能領(lǐng)域的重要組成部分,在提升大模型性能和拓展應(yīng)用場(chǎng)景方面具有重要意義。

從市場(chǎng)現(xiàn)狀來看,RAG檢索技術(shù)在多個(gè)領(lǐng)域得到了廣泛應(yīng)用,市場(chǎng)需求持續(xù)增長(zhǎng),競(jìng)爭(zhēng)格局日趨激烈。盡管面臨一些挑戰(zhàn),但隨著技術(shù)的不斷進(jìn)步和創(chuàng)新,RAG檢索技術(shù)有望在未來實(shí)現(xiàn)更大的突破和發(fā)展,為人工智能的廣泛應(yīng)用提供更有力的支持,推動(dòng)各行業(yè)的智能化升級(jí)。

相關(guān)鏈接:

Hugging Face C-MTEB榜單

https://huggingface.co/spaces/mteb/leaderboard

Yuan-embedding-1.0模型開源地址

HuggingFace鏈接:https://huggingface.co/IEITYuan/Yuan-embedding-1.0

ModelScop鏈接:https://modelscope.cn/models/IEITYuan/Yuan-embedding-1.0

始智AI鏈接:https://modelscope.cn/models/IEITYuan/Yuan-embedding-1.0

分享到

lixiangjing

算力豹主編

相關(guān)推薦