首先,我們來看企業(yè)數(shù)據(jù)技術(shù)的演進。這張圖總結(jié)了過去幾十年企業(yè)數(shù)據(jù)相關(guān)的技術(shù)演進過程。從最早的文件系統(tǒng)到現(xiàn)在的分布式圖和向量,我們可以看到技術(shù)的不斷創(chuàng)新和變革。最早出現(xiàn)的技術(shù)是計算機的文件系統(tǒng),上世紀(jì) 60 年代開始出現(xiàn)數(shù)據(jù)庫的概念,70 年代出現(xiàn)關(guān)系數(shù)據(jù)庫,80 年代出現(xiàn)數(shù)據(jù)倉庫的概念。90 年代進入到個人電腦時代,Excel 和Access 成為個人數(shù)據(jù)管理的標(biāo)準(zhǔn)。2000 年之后互聯(lián)網(wǎng)火爆,出現(xiàn)了云計算和大數(shù)據(jù)。2010 年移動互聯(lián)網(wǎng)的興起,出現(xiàn)了數(shù)據(jù)湖概念和云原生和分布式流處理,這些都是非常的熱門技術(shù)。2020 年之后是分布式圖和向量,目前應(yīng)該是比較熱的方向。

數(shù)據(jù)的發(fā)展趨勢

這張圖描述了未來幾年全球數(shù)據(jù)發(fā)展的趨勢,來源于 IDC 的統(tǒng)計和預(yù)測報告,藍色代表結(jié)構(gòu)化數(shù)據(jù)的總產(chǎn)量,紫色代表非結(jié)構(gòu)化數(shù)據(jù)的總產(chǎn)量。從這個圖中我們可以看到,今后幾年全球數(shù)據(jù)總產(chǎn)量年增長率在 21%左右,這遠超過 GDP 的增長,而且絕大部分是非結(jié)構(gòu)化的數(shù)據(jù),比如說文檔、圖片、語音、視頻等等。中國數(shù)據(jù)產(chǎn)量在全球居于第二位,而且增長率也很高。對于企業(yè)來說,這意味著我們需要更好的技術(shù)和方法來挖掘海量而且多模態(tài)的數(shù)據(jù)。

大語言模型相關(guān)概念

人工智能的發(fā)展歷程

我們再看目前人工智能相關(guān)的概念,這張圖是人工智能將近 70 年的發(fā)展歷程,先后經(jīng)歷了兩次高峰和兩次寒冬。自1956 年人工智能概念在達特茅斯的技術(shù)會議上首次提出以來,該領(lǐng)域迅速蓬勃發(fā)展。當(dāng)時人們普遍認(rèn)為計算機可以解決人類所有問題,并出現(xiàn)了多層級神經(jīng)網(wǎng)絡(luò)架構(gòu)。然而,十幾年后,人們發(fā)現(xiàn)人工智能的能力實際上非常有限,可能只能解決一些非常簡單的玩具問題。因此,當(dāng)時的人工智能在互聯(lián)網(wǎng)時代遭遇了第一次寒冬期。

到了上世紀(jì) 80 年代,專家系統(tǒng)出現(xiàn)了,它們能夠?qū)嶋H幫助人們解決一些問題,使用了一些符號推理的語言,比如Prolog。同時,日本推出了一個名為“五代機”的計劃,旨在讓計算機具備類似人類推理和解決生活中問題的能力。然而,幾年后證明,整體上人工智能的進展仍然緩慢。其中包括“五代機”計劃最終也以失敗告終,將人工智能帶入了第二次寒冬期。因此,直至 90 年代,若有人提及學(xué)習(xí)人工智能或神經(jīng)網(wǎng)絡(luò),往往會引來他人的嘲笑,認(rèn)為這條路不切實際或者沒有前途。

直到 2000 年之后,隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)、算力和算法的高速增長,人工智能的發(fā)展才達到了前所未有的快速發(fā)展。其中的幾個標(biāo)志性事件。比如,在 2016 年,AlphaGo 戰(zhàn)勝了圍棋世界冠軍;尤其是去年,OpenAI 發(fā)布了ChatGPT 大語言模型,使得整個人工智能領(lǐng)域的熱度達到了前所未有的高峰。我們認(rèn)為這種情況出現(xiàn)的主要原因有三個:

首先,數(shù)據(jù)經(jīng)歷了爆炸式增長。這種激增是由于互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的高速發(fā)展,使得大量數(shù)據(jù)在互聯(lián)網(wǎng)上積累。

第二個原因是計算能力的迅速增長,其增長呈指數(shù)級。我們采用了 GPU 這種高度并行的處理架構(gòu),其性能幾乎每兩年翻倍甚至更多。

第三個方面則是算法的突破,特別是深度學(xué)習(xí)算法的進步。在 2019 年,深度學(xué)習(xí)算法的三位研究專家獲得了圖靈獎,這是計算機領(lǐng)域中最高的獎項。

因此,我們認(rèn)為這三個方面——從數(shù)據(jù)到算力再到算法的高速發(fā)展——促成了過去十幾年人工智能領(lǐng)域的快速進步。

大語言模型簡介

大語言模型是一種自回歸的深度學(xué)習(xí)算法,通過大規(guī)模參數(shù)的訓(xùn)練和海量數(shù)據(jù)的學(xué)習(xí),能夠識別或生成文本及其他格式的內(nèi)容。其基本原理是依據(jù)之前輸入的字符或標(biāo)記(token)來預(yù)測下一個字符。大語言模型具有一個重要的屬性,即“規(guī)模法則”或稱為“Scaling Law”,它有多種表述。我們這里描述的 Chinchilla 規(guī)模法則,來源于去年 Google 的論文中提出的觀點,目前已被廣泛地接受和認(rèn)可。它認(rèn)為大語言模型的性能表現(xiàn)與其模型參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)集規(guī)模之間存在可預(yù)測的函數(shù)關(guān)系,并且沒有上限限制。他們提出的公式描述了這一關(guān)系。若有興趣,可以查閱他們的論文以獲取更多細節(jié)。

通俗地來講,這意味著模型參數(shù)規(guī)模越大,需要的訓(xùn)練數(shù)據(jù)集規(guī)模也越大,而模型的表現(xiàn)也會更好。而且當(dāng)模型規(guī)模超過某個閾值時,將發(fā)生質(zhì)的變化,即出現(xiàn)所謂的智能涌現(xiàn)現(xiàn)象。這意味著在小型模型中未曾出現(xiàn)的一些智能特征,在大模型中突然出現(xiàn)。上圖顯示了近年來模型規(guī)模的對數(shù)刻度情況。在去年,ChatGPT 的模型規(guī)模大約是 1000 多億個參數(shù),而今年的 GPT-4 已經(jīng)達到了 1 萬多億個參數(shù)。據(jù)說明年推出的 GPT-5,規(guī)??赡軙U展到 10 萬億級別。

大語言模型的訓(xùn)練推理和發(fā)展趨勢

大模型訓(xùn)練通常分為三個階段:首先是預(yù)訓(xùn)練階段,利用海量數(shù)據(jù)和大規(guī)模 GPU 運算,花費數(shù)月時間來建立一個基礎(chǔ)模型;第二階段是微調(diào)或稱為對齊,這時會使用人工標(biāo)注的高質(zhì)量問答等數(shù)據(jù)來進一步訓(xùn)練模型;第三階段稱為人類反饋的強化學(xué)習(xí),模型會被賦予人工打分的問答數(shù)據(jù)以生成一個獎勵模型。接著,采用強化學(xué)習(xí)方法對大模型進行微調(diào),最終得到我們自己的模型。在推理階段,延時和吞吐量通常被視為關(guān)鍵指標(biāo),可以利用一些優(yōu)化手段,比如 VLLM 或者量化等技術(shù)進行優(yōu)化。

現(xiàn)在的發(fā)展趨勢主要集中在三個方面。第一個趨勢是智能體,即智能系統(tǒng)能夠自主地使用工具,完成交給它的任務(wù)。第二個趨勢是多模態(tài),即系統(tǒng)能夠理解和生成多種形式的內(nèi)容,比如圖片、視頻和語音等。這包括對內(nèi)容的生成理解,例如能夠理解圖片中的內(nèi)容并作出相關(guān)回答。

第三個趨勢是通用人工智能(AGI。通用人工智能的定義是要在絕大多數(shù)有經(jīng)濟價值的任務(wù)上超越人類的高度自主系統(tǒng),這些任務(wù)包括諸如駕駛等有經(jīng)濟價值的工作。實現(xiàn) AGI 被認(rèn)為是人類最終的目標(biāo)之一,但一直以來一直被視為遙不可及的。最近兩年大型模型的突破似乎為通往 AGI 的道路開辟了一條途徑,似乎為我們找到了一條道路。雖然有些人可能會說,實現(xiàn)通用人工智能需要 10 年或者 20 年。但一旦達到這個目標(biāo)狀態(tài),將會對人類的倫理將產(chǎn)生根本性的影響。

大語言模型在企業(yè)場景應(yīng)用的問題

目前在實際應(yīng)用中,我們在企業(yè)場景中遇到了很多挑戰(zhàn),其中一個是數(shù)據(jù)時效性的問題,比如最近發(fā)布的 GPT-4 Turbo 模型,它的訓(xùn)練數(shù)據(jù)截止到今年 4 月份。大模型面臨的另一個問題是所謂的模型幻覺問題,由于模型的參數(shù)眾多,在回答問題時,有時會編造出似乎非常正確的答案,即使是對于不懂的人來說,這種答案也會容易誤導(dǎo)他們。這種情況下,模型可能會表現(xiàn)得似乎十分可信,但實際上是錯誤的。第三個問題是可解釋性問題。由于模型參數(shù)的復(fù)雜性,目前無法對其進行數(shù)學(xué)上的全面解釋。例如,無法清楚地解釋模型中的部分神經(jīng)元起到了什么作用。第四個挑戰(zhàn)是推理能力的不足,包括數(shù)學(xué)和邏輯推理能力相對較弱。

Fabarta——一家 AI 數(shù)據(jù)基礎(chǔ)設(shè)施公司

我們作為一家 AI 數(shù)據(jù)基礎(chǔ)設(shè)施公司,提供以數(shù)據(jù)為中心的 LLM 架構(gòu)(Data-Centric LLM),通過圖和向量融合的多模態(tài)智能引擎及低代碼企業(yè)智能分析平臺的復(fù)合產(chǎn)品,結(jié)合包括大模型在內(nèi)的各種智能化技術(shù),助力企業(yè)實現(xiàn)創(chuàng)新驅(qū)動的轉(zhuǎn)型升級。Fabarta 構(gòu)建以數(shù)據(jù)為中心的智能化應(yīng)用架構(gòu),通過打造堅實的智能化時代數(shù)據(jù)基礎(chǔ)設(shè)施,助力企業(yè)在智能化應(yīng)用方面的創(chuàng)新落地。

在最底層,我們打造面向 AI 的技術(shù)基礎(chǔ)設(shè)施——ArcNeural 多模態(tài)智能引擎,它包含圖引擎、向量引擎、GPU 調(diào)度以及 AI 模型的推理加速和訓(xùn)練支持,支持圖、向量和 AI 推理能力融合 ,提供記憶和推理能力,減少大模型幻覺;同時支持模糊知識向確定性知識的轉(zhuǎn)換, 提供大模型時代的數(shù)據(jù)基礎(chǔ)設(shè)施。

在平臺層左側(cè),是我們的 ArcFabric 多模態(tài)智能數(shù)據(jù)編織平臺,基于圖和大模型的智能化方式,讓數(shù)據(jù)為 AI 做好準(zhǔn)備(Data ready for AI )。我們著重于數(shù)據(jù)治理和數(shù)據(jù)盤點等功能,致力于將數(shù)據(jù)管理從傳統(tǒng)治理向智能數(shù)據(jù)資產(chǎn)管理邁進。

在平臺層右側(cè),是對業(yè)務(wù)人員友好的 Arcpolit 企業(yè)智能分析平臺,基于多模態(tài)引擎能力,打造面向業(yè)務(wù)人員友好的企業(yè)智能平臺,其中包括低代碼分析平臺。我們通過低代碼方式將引擎的能力暴露給客戶應(yīng)用端。此外,還有一個大模型AI 工作平臺,可用于模型微調(diào)等功能。

總體而言,數(shù)據(jù)編織平臺將數(shù)據(jù)導(dǎo)入我們的引擎進行處理、記憶和推理。企業(yè)智能分析平臺則涉及數(shù)據(jù)消費的過程。作為一家初創(chuàng)公司,所有產(chǎn)品系統(tǒng)均由我們自主研發(fā),并與國產(chǎn)軟硬件進行綁定。對于大型模型所面臨的問題,我們致力于尋找解決方案。例如,對于大型模型幻覺問題,我們通過增加確定性知識來補充和校驗?zāi)P托Ч?。我們還利用向量數(shù)據(jù)庫中的本地知識來約束知識,并使用專業(yè)知識進行模型微調(diào)。針對數(shù)據(jù)時效性的問題,我們將本地知識整合到向量數(shù)據(jù)庫中,讓大型模型從中獲得價值。此外,我們還運用圖能力來增強召回、校驗和補充。

大語言模型企業(yè)場景應(yīng)用案例

大模型企業(yè)場景應(yīng)用案例 1——制造業(yè)

下面這個制造業(yè)案例很有趣。在這個案例中,我們與一家大型信息設(shè)備制造企業(yè)合作,解決了他們設(shè)備管理系統(tǒng)中的一項核心問題:生產(chǎn)設(shè)備的報修工單流轉(zhuǎn)。

在以前,當(dāng)設(shè)備出現(xiàn)故障時,處理方式可能包括打電話或發(fā)短信給服務(wù)中心,然后由維修主管分派維修人員前去查看、分析和解決問題。然而,存在幾個問題。首先,報賬流程繁瑣,需要填寫大量表單。其次,維修人員的經(jīng)驗與故障匹配困難。第三,故障現(xiàn)象與原因難以快速判定。第四,維修經(jīng)驗難以積累和分享。

我們的解決方案是開發(fā)了一個手機 APP,通過語音匯報設(shè)備故障,然后我們的大語言模型理解語音數(shù)據(jù),引導(dǎo)用戶逐步輸入信息,形成結(jié)構(gòu)化工單,并作為資產(chǎn)沉淀。接著,根據(jù)工單信息結(jié)合圖和向量推薦相應(yīng)的維修工和操作流程。維修完成后,維修員通過語音發(fā)送維修總結(jié),我們的大語言模型將其結(jié)構(gòu)化并形成新的維修標(biāo)準(zhǔn)操作流程。我們還對設(shè)備工單的現(xiàn)象和原因進行建模,并提出改進建議。

結(jié)果顯示,我們的解決方案大幅減少了填寫成本,填報效率提升了 70%,知識沉淀增加了 80%,設(shè)備故障減少。我們提供了推薦方案,減少了人工診斷成本。我們的自動對話系統(tǒng)使維修工能夠?qū)崟r獲得服務(wù),減少了人工服務(wù)和支持成本。

大模型企業(yè)場景應(yīng)用案例 2——金融業(yè)

第二個案例涉及金融行業(yè),我們合作的客戶是一家商業(yè)銀行,其合規(guī)部門扮演著核心角色。了解銀行運作的人都知道,合規(guī)部門對于銀行來說至關(guān)重要。該部門的員工需要了解數(shù)以萬計的合規(guī)法規(guī),包括刑法、商業(yè)銀行法以及銀監(jiān)會規(guī)章等外部法規(guī),同時也需要遵守銀行內(nèi)部制定的規(guī)章制度。他們還有一個重要需求,即確保內(nèi)外部規(guī)定的一致性,以避免不一致的情況。

另一個需求是希望在合規(guī)問答過程中,能夠關(guān)聯(lián)到一些相關(guān)的行政處罰案例和司法判決。我們的解決方案包括以下幾個步驟:首先,我們利用大語言模型構(gòu)建了生成相關(guān)法規(guī)知識標(biāo)簽的系統(tǒng),并以此為中心構(gòu)建了一個法規(guī)知識圖譜,儲存在我們的圖數(shù)據(jù)庫中。此外,我們將法規(guī)條款存儲在向量數(shù)據(jù)庫中,并采用多種 Embedding 算法進行多路召回,結(jié)合圖中的關(guān)系構(gòu)建精準(zhǔn)的合規(guī)回答。

另外,我們通過向量的相似性比較和大型模型的過濾,成功地實現(xiàn)了內(nèi)外部規(guī)定的匹配。我們的解決方案顯著提高了合規(guī)問答的準(zhǔn)確率,至少比之前的老系統(tǒng)提高了 80%以上。這種準(zhǔn)確率提升也激發(fā)了員工對合規(guī)學(xué)習(xí)的積極性,進而降低了銀行合規(guī)方面的風(fēng)險。

大模型企業(yè)場景應(yīng)用案例 3—— IT 業(yè)

第三個案例是我們在 IT 領(lǐng)域的案例,以我們 Fabarta 為例。我們的員工需要大量時間閱讀內(nèi)部專業(yè)技術(shù)文檔和浩瀚的代碼庫。因此,我們希望能夠有一個智能系統(tǒng),能夠檢索這些內(nèi)容并為員工提供準(zhǔn)確的答案。

我們的解決方案可以看作是一個整體系統(tǒng)。首先,我們將私有數(shù)據(jù),例如文檔關(guān)系圖、內(nèi)部組織結(jié)構(gòu)圖和代碼關(guān)系圖進行轉(zhuǎn)換,并存儲到圖數(shù)據(jù)庫中。同時,我們對各種技術(shù)文檔進行向量化處理,并存儲到向量數(shù)據(jù)庫中。代碼庫和提交日志也進行了向量化處理并存儲到向量庫中。最重要的是我們實現(xiàn)了一種類似 Agent 的機制,能夠查詢圖和向量數(shù)據(jù)庫。這些數(shù)據(jù)庫是異構(gòu)的多數(shù)據(jù)源,因此需要自主生成查詢計劃。

另一個亮點是我們支持多種格式,例如 PDF、Excel 等各種格式,能夠處理表格和圖片等內(nèi)容。在我們的 IT 系統(tǒng)中,我們獲得了一些顯著的好處:員工的技術(shù)能力得到了提升,新員工的學(xué)習(xí)速度明顯加快,員工的滿意度也得到了提升。

Fabarta Arc42 企業(yè)智能助手——演示 1

接下來,讓我演示一下我們所稱之為 Arc42 企業(yè)智能助手。

首先,我想演示的是我們?nèi)绾卫脠D和向量的融合,來避免一些大型模型可能出現(xiàn)的幻覺問題。在上圖左側(cè),如果僅使用向量召回的方法,假設(shè)我們提出一個問題,比如詢問我們的 Fabarta v2.0 數(shù)據(jù)庫是否包含區(qū)塊鏈相關(guān)的功能。使用純向量召回的方式,它可能會錯誤地回答說我們支持區(qū)塊鏈相關(guān)的功能。這是因為在我們的代碼庫中存在一些關(guān)鍵字,例如 ‘block’等詞匯,并且這些關(guān)鍵字可能導(dǎo)致大型模型產(chǎn)生幻覺,使其認(rèn)為我們有這樣的功能。

正確的實現(xiàn)方式是通過圖和向量的融合來解決。在上圖右側(cè)展示的結(jié)果中,您會看到它的回答更加準(zhǔn)確,返回的結(jié)果會直接顯示“我們實際上并沒有這樣的功能”。這是通過一個查詢計劃實現(xiàn)的,首先確定這是一個混合查詢,然后從代碼庫中查詢與區(qū)塊鏈相關(guān)的代碼提交,發(fā)現(xiàn)存在這樣的提交,這是和左側(cè)一樣的原因由大模型幻覺引起的。接著,我們從文檔庫中搜索與區(qū)塊鏈相關(guān)的文檔,并且確實找到了。但隨后發(fā)現(xiàn)這些文檔是由銷售部門的員工編寫的,而非研發(fā)部門的員工。綜合考慮這兩個結(jié)果,我們得出結(jié)論:在研發(fā)部門并沒有關(guān)于區(qū)塊鏈設(shè)計的相關(guān)文檔。盡管似乎存在區(qū)塊鏈相關(guān)的代碼提交,但在將這些信息提交給大模型后,大模型給出正確的回答,指出我們的數(shù)據(jù)庫產(chǎn)品實際上沒有與區(qū)塊鏈相關(guān)的功能。這是一個正確的回答。因此,在這個過程中,我們使用了查詢計劃,并結(jié)合了圖和向量的查詢,從而避免了大型模型可能產(chǎn)生的幻覺。

Fabarta Arc42 企業(yè)智能助手——演示 2

讓我們來看一下第二個演示,這個演示旨在展示我們?nèi)绾谓Y(jié)合圖和向量,并利用大型模型的能力來生成精準(zhǔn)的答案。

在這個演示中,我們提出一個問題,是關(guān)于我們的數(shù)據(jù)庫 2.0 中與編譯器相關(guān)的問題,在公司內(nèi)應(yīng)該向誰咨詢。這里我們再次生成了一個查詢計劃,通過圖和向量查詢,我們在右側(cè)查詢了與編譯器設(shè)計相關(guān)的代碼提交,以及哪些員工負責(zé)這些代碼提交。而在左側(cè),我們進行了與編譯器設(shè)計相關(guān)的文檔查詢,找出了負責(zé)編寫這類文檔的員工。然后,將這兩方面的結(jié)果綜合,我們得出了一個名字,就是“喬 XX”。這個結(jié)論包括他的設(shè)計文檔以及相關(guān)的代碼提交記錄。

我對“喬XX”并不熟悉,但把這個結(jié)果告訴了我們的 CTO,他很滿意這個答案,因為這與他對團隊成員的認(rèn)知一致。因此,通過圖和向量的融合,再結(jié)合大模型的能力,我們得到了一個非常精準(zhǔn)的答案。

總結(jié)

讓我們來總結(jié)一下今天的分享。首先,大型模型是一項顛覆性的技術(shù),其發(fā)展非常迅速。目前整個行業(yè)都在向這個方向投入了大量資源,相信它在企業(yè)場景中有著廣闊的應(yīng)用前景。其次,F(xiàn)abarta 提供的圖和向量融合的 AI 基礎(chǔ)設(shè)施,將幫助企業(yè)更好地應(yīng)用先進的大模型技術(shù)。我的分享到此結(jié)束,感謝大家的聆聽!

關(guān)于作者

邱道明

Fabarta AI 算法專家

作者介紹:Fabarta AI 算法專家,主要關(guān)注大語言模型企業(yè)場景中的應(yīng)用、多模態(tài)大模型等領(lǐng)域。曾在 Oracle 和 Intel 中國公司擔(dān)任技術(shù)負責(zé)人等職位,在語言虛擬機、云原生、人工智能等方面具有較豐富的實踐經(jīng)驗。

分享到

nina

相關(guān)推薦