我想演講的是《企業(yè)場(chǎng)景中大語(yǔ)言模型的應(yīng)用實(shí)踐探索》。分幾部分來(lái)探討:企業(yè)數(shù)據(jù)的演進(jìn)、大語(yǔ)言模型相關(guān)概念、大語(yǔ)言模型企業(yè)場(chǎng)景應(yīng)用的問(wèn)題、Fabarta產(chǎn)品和解決方案、大語(yǔ)言模型企業(yè)場(chǎng)景應(yīng)用案例。

這張圖中總結(jié)過(guò)去幾十年企業(yè)數(shù)據(jù)相關(guān)的技術(shù),最早技術(shù)出現(xiàn)在文件系統(tǒng),60年代開(kāi)始出現(xiàn)數(shù)據(jù)庫(kù),70年代出現(xiàn)關(guān)系數(shù)據(jù)庫(kù),80年代出現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的概念,90年代出現(xiàn)個(gè)人電腦的時(shí)代,2000年是互聯(lián)網(wǎng)火爆,所以當(dāng)時(shí)出現(xiàn)云計(jì)算和大數(shù)據(jù)。2010年移動(dòng)互聯(lián)網(wǎng)的興起,當(dāng)時(shí)也出現(xiàn)數(shù)據(jù)服務(wù)的概念和云原生和分布式流處理,這些都非常的熱門(mén)。2020年之后是分布式圖和向量,應(yīng)該是比較熱的方向。

這張圖描述今后幾年數(shù)據(jù)發(fā)展的趨勢(shì),來(lái)源于IDC預(yù)測(cè)。藍(lán)色表示結(jié)構(gòu)化的數(shù)據(jù)總量,單位是EB,紫色是非結(jié)構(gòu)化數(shù)據(jù)的總量,所以從這個(gè)圖中可以看到今后幾年全球數(shù)據(jù)總量年增長(zhǎng)率在21%左右,這個(gè)遠(yuǎn)超過(guò)GDP的總量。

在結(jié)構(gòu)的總量中,90%都是非結(jié)構(gòu)化的數(shù)據(jù),比如說(shuō)文檔、圖片、語(yǔ)音、視頻等等。在這里面去年中國(guó)數(shù)據(jù)產(chǎn)量,大概在全球居于第二位,而且預(yù)測(cè)相關(guān)的增長(zhǎng)率與全球增長(zhǎng)率也在20%多。對(duì)于企業(yè)來(lái)說(shuō),我們現(xiàn)在有海量而且多模態(tài)數(shù)據(jù)的需求。

我們?cè)倏茨壳叭斯ぶ悄芟嚓P(guān)的概念,這張圖中是人工智能將近70年的發(fā)展歷程。1956年人工智能的概念被提出后,當(dāng)時(shí)迅速走向一個(gè)高峰,大家認(rèn)為技術(shù)能夠解決所有人類(lèi)的問(wèn)題,其實(shí)也出現(xiàn)多層神經(jīng)網(wǎng)絡(luò)的架構(gòu)。但是過(guò)了十幾年發(fā)現(xiàn),計(jì)算機(jī)、人工智能的能力非常弱,可能只能解決很簡(jiǎn)單的問(wèn)題,所以當(dāng)時(shí)人工智能遭遇到第一次的寒冬。

80年代確實(shí)能夠幫助解決一些問(wèn)題,包括日本推出一個(gè)計(jì)劃,相當(dāng)計(jì)算像人一樣推理計(jì)算,能夠解決生活的很多問(wèn)題。但是過(guò)了幾年之后,人工智能的進(jìn)展還是非常的緩慢,包括五代機(jī)后來(lái)計(jì)劃也是失敗,所以人工智能到第二次的寒冬。80年代如果有人要去讀人工智能或者神經(jīng)網(wǎng)絡(luò),都會(huì)被人家笑話的,覺(jué)得這條路遙遙無(wú)期,或者沒(méi)有什么前途。

后來(lái)2000年之后隨著互聯(lián)網(wǎng)的發(fā)展,包括2016年阿爾法狗戰(zhàn)勝人類(lèi)圍棋冠軍,特別是去年GPT的出現(xiàn),使得人工智能大模型達(dá)到前所未有的高峰,為什么會(huì)出現(xiàn)這種情況?

一是數(shù)據(jù)出現(xiàn)爆發(fā)式的增長(zhǎng),互聯(lián)網(wǎng)和物聯(lián)網(wǎng)高速發(fā)展,互聯(lián)網(wǎng)積累大量的數(shù)據(jù)。

二是算力的增長(zhǎng),我們采用GPU高度并行的架構(gòu)。

三是算法上的突破,包括深度學(xué)習(xí)算法的突破,所以2019年研究深度學(xué)習(xí)算法的專(zhuān)家獲得當(dāng)時(shí)的圖靈獎(jiǎng)。

我們覺(jué)得從數(shù)據(jù)到算力和算法的高速增長(zhǎng),所以導(dǎo)致這十幾年來(lái)人工智能的高速發(fā)展。大語(yǔ)言模型是自回歸的深度學(xué)習(xí)算法,經(jīng)過(guò)海量數(shù)據(jù)訓(xùn)練能夠識(shí)別和生成文本和內(nèi)容。它基本的原理就是根據(jù)前面竄入到后面的token,它有重要的屬性是規(guī)模法則,它有幾種說(shuō)法,這是相對(duì)比較認(rèn)可的說(shuō)法,它認(rèn)為大語(yǔ)言模型的能力表現(xiàn)是關(guān)于它模型的參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)集規(guī)模的可預(yù)測(cè)函數(shù),而且沒(méi)有上限的限制。

通俗來(lái)講,模型的參數(shù)規(guī)模越大,那么它需要訓(xùn)練的數(shù)據(jù)集數(shù)量規(guī)模也就會(huì)越大,而且這樣會(huì)導(dǎo)致模型的表現(xiàn)就會(huì)更好。當(dāng)模型規(guī)模超過(guò)一定的閾值就會(huì)出現(xiàn)智能涌現(xiàn)的現(xiàn)象,有一些小模型中沒(méi)有大模型中突然出現(xiàn),所以右邊的圖是這幾年參數(shù)模型規(guī)模的情況,所以在去年是1000多億,GPT4大概是1萬(wàn)多億,明年據(jù)說(shuō)到10萬(wàn)億的規(guī)模。

它的訓(xùn)練和推理一般會(huì)分為三個(gè)階段,預(yù)訓(xùn)練是用海量的數(shù)據(jù),大量的GPU運(yùn)行四五個(gè)月得到基礎(chǔ)的模型,以及用微調(diào)使用人工標(biāo)注的高質(zhì)量問(wèn)答進(jìn)行訓(xùn)練。人類(lèi)反饋的強(qiáng)化學(xué)習(xí)用對(duì)模型的很多問(wèn)答進(jìn)行打分聲稱獎(jiǎng)勵(lì)的模型,用強(qiáng)化學(xué)習(xí)方式微調(diào)大模型,最后得到自己的模型。

推理階段吞吐量是關(guān)鍵的指標(biāo),可以用優(yōu)化的手段進(jìn)行優(yōu)化,一個(gè)是智能體希望智能系統(tǒng)自主的使用工具完成人交給他的任務(wù),以及多模態(tài)理解和生成圖片、視頻、語(yǔ)音的內(nèi)容,這不僅僅是文生圖,也要圖生文。

AGI通用人工智能,把它定義為絕大多數(shù)有經(jīng)濟(jì)價(jià)值的任務(wù)上能夠超越人類(lèi)的高度自治系統(tǒng),比如說(shuō)開(kāi)車(chē)就有經(jīng)濟(jì)價(jià)值,而且要在絕大多數(shù)上超越人類(lèi)。AGI是人類(lèi)最終極的目標(biāo)之一,而且我們一直覺(jué)得是遙遙無(wú)期,根本不知道到底往哪一個(gè)方向去做,這兩年大模型突破能使得人們發(fā)現(xiàn)好像這是一條通往AGI的一條路,所以有些人可能說(shuō)過(guò)十年或者二十年。而且一旦這個(gè)任務(wù)達(dá)到這個(gè)狀態(tài)的話,可能會(huì)對(duì)人類(lèi)的倫理產(chǎn)生根本性的動(dòng)搖,比如說(shuō)人類(lèi)并不是地球上最聰明的物種。

我們碰到的實(shí)際問(wèn)題,包括大模型訓(xùn)練當(dāng)中達(dá)到的截至到今年的四月份,以及模型回答問(wèn)題的時(shí)候會(huì)胡編亂造,如果像不懂的人會(huì)被它欺騙。

不可解釋性,模型中的參數(shù)太多,無(wú)法從數(shù)學(xué)上對(duì)它進(jìn)行證明。比如哪一部分的神經(jīng)原在起著哪部分的作用,以及數(shù)學(xué)邏輯推理能力弱。

我們是一家AI基礎(chǔ)設(shè)施公司,通過(guò)探索和連接數(shù)據(jù)資源,助力企業(yè)實(shí)現(xiàn)智能驅(qū)動(dòng)創(chuàng)新。產(chǎn)品矩陣稱為是一體兩翼的,底下是多模態(tài)的智能引擎,包括圖的引擎、圖數(shù)引擎和向量引擎,以及AI模型的推理加速和訓(xùn)練,左邊是多模態(tài)的數(shù)據(jù)平臺(tái),通過(guò)數(shù)據(jù)治理和盤(pán)點(diǎn)的功能,使得傳統(tǒng)的數(shù)據(jù)治理向智能的數(shù)據(jù)資產(chǎn)管理邁進(jìn)。

右邊是企業(yè)的智能分析平臺(tái),包括低代碼分析平臺(tái),把低代碼的方式暴露給客戶應(yīng)用端,以及大模型工作平臺(tái)進(jìn)行調(diào)優(yōu)。

整體上來(lái)說(shuō),左邊編制品牌主要是把數(shù)據(jù)進(jìn)入到引擎當(dāng)中去,由引擎進(jìn)行推理。右邊是以智能分析平臺(tái),我們也是一個(gè)創(chuàng)業(yè)公司,也是純自主研發(fā)的產(chǎn)品系統(tǒng),我們也和國(guó)產(chǎn)進(jìn)行綁定。

剛才說(shuō)的大模型,在產(chǎn)品解決方案上做了一些解決,當(dāng)然無(wú)法從根據(jù)上解決問(wèn)題,我們通過(guò)把圖中的確定知識(shí)補(bǔ)充和校大模型,能夠做約束,比如說(shuō)數(shù)據(jù)時(shí)效的問(wèn)題,把本地支持裝數(shù)據(jù)庫(kù)當(dāng)中,讓大模型從本地支持中產(chǎn)生價(jià)值,利用圖的能力做更好的召回、校驗(yàn)、補(bǔ)充。

幾個(gè)實(shí)際的應(yīng)用案例。制造業(yè)方面項(xiàng)目背景是某一個(gè)大型的信息制造企業(yè)的管理系統(tǒng),核心場(chǎng)景是生產(chǎn)設(shè)備報(bào)修工單的流轉(zhuǎn),以前在生產(chǎn)線上的設(shè)備一旦壞了,工人要打電話或者發(fā)短信給服務(wù)中心,說(shuō)這個(gè)設(shè)備怎么壞了?維修的主管就會(huì)分派維修工人過(guò)去察看分析,解決之后這個(gè)問(wèn)題就解決了。

功能報(bào)帳非常的煩瑣,維修人員的經(jīng)驗(yàn)和故障匹配很困難,以及故障的現(xiàn)象無(wú)法判定,維修人員經(jīng)驗(yàn)無(wú)法提供支持。我們的解決方案通過(guò)大語(yǔ)言模型,開(kāi)發(fā)一個(gè)手機(jī)的APP,功能把語(yǔ)言的方式匯報(bào)故障,我們通過(guò)大語(yǔ)言的模型理解語(yǔ)言數(shù)據(jù),引導(dǎo)用戶一步步進(jìn)行信息的輸入,形成一個(gè)結(jié)構(gòu)化的工單,作為資產(chǎn)沉淀下來(lái)。

根據(jù)工單的信息推薦相應(yīng)的維修工,以及相應(yīng)操作的流程。當(dāng)維修好了之后,他的維修工可以通過(guò)語(yǔ)音的方式把維修的總結(jié)發(fā)送過(guò)來(lái),通過(guò)大語(yǔ)言模型進(jìn)行結(jié)構(gòu)化,并且形成新的維修標(biāo)準(zhǔn)操作流程。對(duì)于設(shè)備工單進(jìn)行建模和分析異常,對(duì)今后的設(shè)備整改提出建議。

經(jīng)過(guò)我們用了這些方案之后,人工填寫(xiě)效率提升70%,減少人工的成本,通過(guò)自動(dòng)對(duì)話的系統(tǒng)使維修工實(shí)時(shí)得到我們的服務(wù)。

第二個(gè)案例是金融業(yè),這個(gè)客戶是合規(guī)部門(mén),合規(guī)部門(mén)其實(shí)是非常核心的部分,他們的員工需要學(xué)習(xí)上萬(wàn)個(gè)法規(guī),比如說(shuō)刑法、商業(yè)銀行法,他們自己銀行的內(nèi)部也會(huì)制定規(guī)則,他們需要把內(nèi)規(guī)和外規(guī)對(duì)立匹配,避免有不一致的情況。

希望能夠在關(guān)聯(lián)到行政處罰和司法判定,我們的解決方案是通過(guò)大語(yǔ)言模型構(gòu)建生成相關(guān)法規(guī)標(biāo)簽,以標(biāo)簽為中心構(gòu)建法規(guī)知識(shí)圖譜,存在圖數(shù)據(jù)庫(kù)當(dāng)中。把法規(guī)的條款,存在向量的數(shù)據(jù)庫(kù)當(dāng)中,我們使用多種的算法,結(jié)合圖中關(guān)系構(gòu)建精準(zhǔn)合規(guī)的領(lǐng)導(dǎo)。

對(duì)內(nèi)外的匹配,通過(guò)向量的比較以及大的語(yǔ)言模型,來(lái)很好的進(jìn)行內(nèi)外部的匹配,經(jīng)過(guò)我們的解決方案,相應(yīng)合規(guī)問(wèn)答的準(zhǔn)確性比以前老的至少提升80%以上,員工積極性也顯著的提升,同時(shí)減少銀行合規(guī)的風(fēng)險(xiǎn)。

第三個(gè)案例IT業(yè)案例,以我們自己作為一個(gè)背景,員工需要花大量的時(shí)間閱讀自己內(nèi)部文檔,所以我們希望有一個(gè)智能系統(tǒng)能夠檢索自己的內(nèi)容,而且給員工提供回答,我們的解決方案首先把私有的數(shù)據(jù),文檔的關(guān)系圖和內(nèi)部的組織架構(gòu)圖轉(zhuǎn)換并且存儲(chǔ)數(shù)據(jù)庫(kù),把技術(shù)文檔存入到向量數(shù)據(jù)庫(kù),把代碼也要相應(yīng)的提交也存儲(chǔ)向量庫(kù),機(jī)制能夠自主的去查詢圖和向量數(shù)據(jù)庫(kù),這里面有好幾個(gè)向量庫(kù),所以你要自主的生成查詢計(jì)劃去查詢。

亮點(diǎn)是支持多種格式,通過(guò)這一套系統(tǒng)把員工技術(shù)能力有很好的提升,員工的滿意度也會(huì)提高,我們把它叫做Arc42企業(yè)智能助手,我想演示一下和向量的融合能夠避免一些問(wèn)題,比如說(shuō)問(wèn)一個(gè)問(wèn)題2.0數(shù)據(jù)庫(kù)是否有切換的功能?它的回答是在當(dāng)中做單純的向量召回會(huì)回答說(shuō)是的,我們支持相關(guān)的功能。為什么呢?代碼的提交當(dāng)中有關(guān)鍵字,把這個(gè)提交給大模型產(chǎn)生幻覺(jué)。

這里是查詢計(jì)劃,首先判斷是宏觀查詢,從代碼庫(kù)當(dāng)中照相館的代碼提交。也同文檔庫(kù)當(dāng)中去找區(qū)塊鏈相關(guān)的文檔,而且確實(shí)也發(fā)現(xiàn)了,發(fā)現(xiàn)寫(xiě)作文檔的人是銷(xiāo)售部門(mén)的員工,我們?cè)侔堰@兩個(gè)結(jié)果匯總一下,得出來(lái)一個(gè)結(jié)論說(shuō)在研發(fā)部門(mén)中沒(méi)有區(qū)塊鏈相關(guān)的設(shè)計(jì)文檔,雖然有區(qū)塊鏈相關(guān)的代碼提交。我們把這個(gè)信息提交給大模型,會(huì)說(shuō)對(duì)不起我們并沒(méi)有區(qū)塊鏈的模型,這里面進(jìn)行圖文向量融合查詢,得到避免大模型幻覺(jué)。

總結(jié)一下,大語(yǔ)言模型是顛覆性技術(shù),正在快速發(fā)展,在企業(yè)場(chǎng)景中有極大的應(yīng)用空間。Fabarta公司提供圖和向量融合的AI基礎(chǔ)設(shè)施,幫助企業(yè)更好的實(shí)現(xiàn)大語(yǔ)言模型的應(yīng)用。

分享到

nina

相關(guān)推薦