陳將來自于 Zilliz,現(xiàn)任 Towhee 開源項(xiàng)目負(fù)責(zé)人。擁有多年的大數(shù)據(jù)基礎(chǔ)架構(gòu)和數(shù)據(jù)安全開發(fā)經(jīng)歷,曾先后在谷歌云服務(wù)和搜索架構(gòu)部門擔(dān)任技術(shù)負(fù)責(zé)人和產(chǎn)品經(jīng)理,期間帶領(lǐng)團(tuán)隊(duì)開發(fā)了數(shù)據(jù)索引倉庫應(yīng)用于低延遲、高吞吐的短視頻搜索等場(chǎng)景。對(duì)處理海量非結(jié)構(gòu)化數(shù)據(jù)和多媒體內(nèi)容檢索有著豐富的行業(yè)經(jīng)驗(yàn)。陳將擁有密西根大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位。
視頻回放:https://juejin.cn/live/jpowermeetup24
一、大語言模型的局限性
大語言模型例如 ChatGPT 在通用能力上表現(xiàn)強(qiáng)勁,但也暴露了一定的局限性:
● 缺乏專業(yè)領(lǐng)域知識(shí):對(duì)通識(shí)知識(shí)了解廣泛,但無法回答專業(yè)領(lǐng)域的問題,如怎樣修復(fù)特定機(jī)械設(shè)備。這是由于訓(xùn)練數(shù)據(jù)沒有覆蓋這些專業(yè)領(lǐng)域。
● 容易產(chǎn)生幻覺:可能給出錯(cuò)誤或虛假的回答,但無法輕易判斷真?zhèn)?。在?yán)肅場(chǎng)景下可能產(chǎn)生嚴(yán)重后果。
● 信息過時(shí):訓(xùn)練數(shù)據(jù)是某一固定時(shí)間的快照,無法獲取更新后的信息。且無法頻繁重新訓(xùn)練。
● 預(yù)訓(xùn)練數(shù)據(jù)不可變:訓(xùn)練結(jié)束后很難刪除或糾正無效信息。
二、用知識(shí)庫改進(jìn)大模型
針對(duì)上述問題,主要的改進(jìn)思路有:
● 使用數(shù)據(jù)庫承載專業(yè)領(lǐng)域知識(shí),如向量數(shù)據(jù)庫構(gòu)建知識(shí)庫。
● 做微調(diào)(Fine-tuning),使用少量標(biāo)注數(shù)據(jù)增強(qiáng)特定領(lǐng)域能力。
● 做提示工程(Prompt Engineering),添加提示詞避免生成虛假信息。
● 使用外部數(shù)據(jù)庫存儲(chǔ)最新信息,實(shí)時(shí)更新大模型的外部記憶。
相比微調(diào),使用知識(shí)庫的優(yōu)點(diǎn)是:
● 易于知識(shí)管理,可以細(xì)化操作知識(shí)片段。
● 準(zhǔn)確度高,只要檢索相關(guān)度高就可提升回答質(zhì)量。
● 各種優(yōu)化手段靈活,可不斷迭代。
● 信息模糊匹配能力好,不需要嚴(yán)格匹配關(guān)鍵詞。
微調(diào)的優(yōu)點(diǎn)是可積累信息,逐步提升模型在某領(lǐng)域的能力,但也面臨其他領(lǐng)域能力下降、管理難度大、訓(xùn)練成本高等問題。
三、CVP技術(shù)棧詳解
CVP表示大語言模型(C)、向量數(shù)據(jù)庫(V)和提示詞工程(P)的結(jié)合。主要流程是:
離線索引:
● 對(duì)文檔分段;
● 用 embedding 模型生成向量;
● 將向量導(dǎo)入向量數(shù)據(jù)庫。
可以做各種優(yōu)化,如選擇不同的 embedding 模型等。
在線問答:
● 從數(shù)據(jù)庫檢索相關(guān)知識(shí)片段;
● 組裝提示詞,將知識(shí)片段插入提示詞中;
● 將提示詞發(fā)送給大語言模型,生成回答。
也可以做各種優(yōu)化,如多輪檢索、排序等。
四、動(dòng)手搭建知識(shí)庫增強(qiáng)問答
使用開源工具 Milvus(向量數(shù)據(jù)庫)、 Akcio(實(shí)現(xiàn)CVP邏輯)可以快速搭建一個(gè)示例:
● 導(dǎo)入文檔,切分生成文檔段;
● 用戶提問時(shí),從 Milvus 檢索相關(guān)文檔段;
● Akcio 組裝提示詞,插入檢索結(jié)果,詢問大語言模型;
● 大模型組織知識(shí)片段內(nèi)容,生成高質(zhì)量回答。
相比直接詢問大模型,引入外部知識(shí)庫可以顯著提升回答的相關(guān)性。這展示了向量檢索構(gòu)建知識(shí)庫在拓展大語言模型認(rèn)知邊界方面的潛力。
五、展望
向量檢索構(gòu)建知識(shí)庫還面臨如何高效管理知識(shí)變更等工程難題,需要持續(xù)的研究和開源社區(qū)努力。與智能體結(jié)合也值得期待,或許會(huì)帶來管理記憶的全新模式。
結(jié)語
通過陳將老師的分享,我們可以看到,在大語言模型風(fēng)靡的今天,識(shí)別和改進(jìn)其缺陷尤為關(guān)鍵。這場(chǎng)分享系統(tǒng)地剖析了大語言模型的局限性,并分析了現(xiàn)有的解決方案。文檔檢索增強(qiáng) (Retrieval Augmented Generation) 作為一種提升大預(yù)言模型能力的手段,被業(yè)內(nèi)普遍看好。本次分享中的 CVP 技術(shù)棧提供了一種簡(jiǎn)單可行的思路,也為我們進(jìn)一步深入研究提供了參考。當(dāng)然,要落地應(yīng)用仍需要處理好知識(shí)表示、持續(xù)迭代等問題。
相信在不斷升級(jí)的工具和算法支持下,知識(shí)庫必將發(fā)揮越來越大的作用,甚至有望真正解決大語言模型“無知”的問題。讓我們拭目以待吧!
掘力計(jì)劃
掘力計(jì)劃由稀土掘金技術(shù)社區(qū)發(fā)起,致力于打造一個(gè)高品質(zhì)的技術(shù)分享和交流的系列品牌。聚集國內(nèi)外頂尖的技術(shù)專家、開發(fā)者和實(shí)踐者,通過線下沙龍、閉門會(huì)、公開課等多種形式分享最前沿的技術(shù)動(dòng)態(tài)。