智領(lǐng)云CEO 彭鋒

只不過,這家公司的技術(shù)也是基于傳統(tǒng)機器學(xué)習(xí)的技術(shù),而非神經(jīng)網(wǎng)絡(luò)技術(shù),實際效果可想而知。而后,以谷歌為代表的公司取得了搜索引擎市場的勝利。而這位博士生負責(zé)處理Ask.com的數(shù)據(jù)相關(guān)工作,管理著有1000個節(jié)點的分布式集群,陰差陽錯成了硅谷最早一批做大數(shù)據(jù)的人。

十幾年后,他憑借在大數(shù)據(jù)領(lǐng)域的積累,與志同道合的幾位大數(shù)據(jù)專家成立了智領(lǐng)云,并出任CEO,他就是彭鋒?;叵肫餉sk.com的工作經(jīng)歷時,他認(rèn)為,用自然語言問問題符合用戶的習(xí)慣,但當(dāng)用大數(shù)據(jù)分析出用戶感興趣的熱點問題后,卻苦惱于無法做出回答。

在成立智領(lǐng)云之前,彭鋒還一度就職于著名的社交媒體網(wǎng)站Twitter,負責(zé)Twitter大數(shù)據(jù)平臺的建設(shè)工作,這段經(jīng)歷讓他意識到云原生架構(gòu)的重要性,在容器云原生技術(shù)方興未艾時,用云原生DataOps為核心理念成立智領(lǐng)云。

2017年,智領(lǐng)云成為國內(nèi)最早提出DataOps概念并有落地方案的公司,2018年,美國才有了相關(guān)概念。而在國內(nèi),當(dāng)時國內(nèi)用戶對于Kubernetes的接受度遠沒有現(xiàn)在這么高,基于Kubernetes來提供大數(shù)據(jù)專業(yè)服務(wù)的公司更是屈指可數(shù),智領(lǐng)云是其中一個。

過去幾年中,智領(lǐng)云與國內(nèi)大部分頭部Kubernetes廠商,例如道客云、博云、青云等等,都展開了合作關(guān)系,在Kubernetes集群上提供云原生數(shù)據(jù)平臺產(chǎn)品。從彭鋒的介紹中了解到,目前客戶都是以行業(yè)頭部企業(yè)為主,這些企業(yè)對技術(shù)要求都比較高,其規(guī)模都比較大。

或許是因為過往的經(jīng)歷,2023年橫空出世的GPT-4讓彭鋒大受震撼。彭鋒表示,這是他編程30多年,從事IT行業(yè)以來對他震撼最大的一件事。在他看來,GPT-4的影響力甚至比互聯(lián)網(wǎng)對整個行業(yè)的影響更大。

智領(lǐng)云:以大模型重塑企業(yè)數(shù)據(jù)處理

震撼之余,彭鋒開始想一個問題:我們做數(shù)據(jù)相關(guān)的工作是為了什么?

問題的答案看起來也很明確,無非就是為了讓企業(yè)的運營和管理效率更高,能夠用來幫助企業(yè)降本增效,更好地服務(wù)客戶。

在沒有GPT-4這樣的大模型之前,經(jīng)常需要開發(fā)者寫出復(fù)雜的SQL語句,需要一套復(fù)雜的流程,需要專門的商業(yè)智能(BI)專家來深入分析,以便識別效率低下的環(huán)節(jié),提高客戶滿意度,精確地定位需求,并提供符合或定制化的產(chǎn)品解決方案。

在有了大模型之后,數(shù)據(jù)的使用方式將會發(fā)生巨大變化。彭鋒認(rèn)為,以后就很少需要寫SQL語句了,無論是企業(yè)領(lǐng)導(dǎo)、公司客戶、還是企業(yè)內(nèi)部任何部門的員工,所有人都可以直接用自然語言問問題,大模型可以直接給出問題的答案,讓數(shù)據(jù)說話。

大模型本身的能力很強,但只有大模型是遠遠不夠的。

在彭鋒看來,大模型負責(zé)決策,在決策之前,還需要與底層其他數(shù)據(jù)處理組件集成,以獲取所需的數(shù)據(jù)。同時,當(dāng)大模型完成決策后,還需要通過特定機制來執(zhí)行決策,將決策轉(zhuǎn)化為可執(zhí)行的代碼。其中,Kubernetes等容器相關(guān)技術(shù)可被用作執(zhí)行決策的“手和腳”。

彭鋒的介紹讓我們意識到,容器化技術(shù)是大模型在企業(yè)中落地的關(guān)鍵,大模型與容器技術(shù)的結(jié)合意味著更高的標(biāo)準(zhǔn)化、靈活性和效率,使得大模型應(yīng)用更加易于部署和管理,尤其在企業(yè)級應(yīng)用中。

彭鋒認(rèn)可比較新穎的“大模型操作系統(tǒng)”的概念。這個概念中,大模型是類似于CPU的存在,圍繞CPU需要建立一個包含數(shù)據(jù)處理、存儲和執(zhí)行等功能的完整生態(tài)系統(tǒng)。面對大模型這種新技術(shù)浪潮,智領(lǐng)云要基于Kubernetes技術(shù)生態(tài)做數(shù)據(jù)處理的部分,重塑數(shù)據(jù)處理流程。

大模型在企業(yè)落地的切入點

智領(lǐng)云在云原生技術(shù)和DataOps方面的積累,可以幫助企業(yè)構(gòu)建適合大模型的數(shù)據(jù)處理平臺??紤]到要將大模型在企業(yè)落地,不得不正視目前大模型技術(shù)存在一些局限性:

首先是輸出的標(biāo)準(zhǔn)化問題。大模型生成的結(jié)果是自然語言形式的,導(dǎo)致輸出格式可能不穩(wěn)定,今天的輸出格式可能與明天的不同。這在需要標(biāo)準(zhǔn)化輸出的商業(yè)邏輯中造成了困難。

第二,知識的邊界問題:大模型的核心原理是基于Token之間的距離來編碼知識,這意味著知識處理能力受限于模型的Token Space。如果所需知識不在模型的Token Space內(nèi),模型則無法處理這類問題。

第三,處理實時或最新數(shù)據(jù)的能力。大模型的訓(xùn)練過程復(fù)雜且耗時,導(dǎo)致它難以實時更新或處理最新數(shù)據(jù),模型本身有滯后性。

第四,知識來源的不透明性。大模型將大量數(shù)據(jù)壓縮為一個內(nèi)部的“世界模型”,但這個模型無法指明特定知識點的來源,導(dǎo)致所生成的回答沒有寫明出處,可能缺乏可驗證性。

第五,權(quán)限控制的缺失。在企業(yè)級應(yīng)用中,不同部門擁有的不同的知識可能需要不同的訪問權(quán)限。大模型本身缺乏實現(xiàn)細粒度權(quán)限控制的機制。

第六,幻覺問題。大模型可能生成錯誤或虛假的信息(即“幻覺”),在沒有確切知識來源驗證的情況下,這些信息可能導(dǎo)致誤解或錯誤決策。

對此,彭鋒認(rèn)為,Retrieval Augmented Generation (RAG) 技術(shù)可以用來解決大模型的一些局限性問題。

比如,通過導(dǎo)入一些文檔,可以立馬提高大模型的實時數(shù)據(jù)處理能力;基于文檔構(gòu)建知識庫之后,能追溯到知識點的來源,解決知識來源不透明的問題,同時也有助于解決“幻覺問題”;此外,如果將上傳給RAG的文檔按角色進行權(quán)限管理的話,也能解決大模型的權(quán)限控制問題。

RAG技術(shù)的基本原理很簡單,但想要做好還有很多問題要解決,比如,如何找到跟問題相關(guān)性最高的文檔,在技術(shù)實踐上還是頗有挑戰(zhàn)的一件事。

得益于原來在利用容器云原生技術(shù)構(gòu)建數(shù)據(jù)流水線方面的經(jīng)驗,智領(lǐng)云可以更輕松地圍繞大模型構(gòu)建新的文檔數(shù)據(jù)流水線。在云原生環(huán)境中,把企業(yè)的文檔生成知識庫,基于知識庫精準(zhǔn)回答各種問題。

彭鋒表示,智領(lǐng)云方案的主要優(yōu)勢在于文檔的預(yù)處理和結(jié)構(gòu)解析,它可以提高回答的準(zhǔn)確率,能更準(zhǔn)確地找到文件的出處,在一些場景的初步實驗中取得了不錯的效果?;谶@樣的文檔處理流水線可以高效支持類似于RAG,Agent的各種LLM應(yīng)用范式。

大模型帶來了很多新的機會,而智領(lǐng)云也將推出一款全新的產(chǎn)品,利用大模型技術(shù)來重塑文檔管理系統(tǒng),提高企業(yè)處理文檔的效率和準(zhǔn)確性。讓用戶用自然語言提出問題,得到具體的答案,獲得一種讓電腦來輔助思考的能力。

分享到

zhupb

相關(guān)推薦