以下是本次直播實錄“盤古NLP大模型”部分——
GenJi:請韓博士簡單介紹一下盤古Embedded模型的技術(shù)細節(jié),以及場景應(yīng)用?
韓博士:華為盤古Embedded模型,是基于人腦啟發(fā)的一個模型。人腦在思考的時候有兩種模式:系統(tǒng)一是快思考的模式,系統(tǒng)二是慢思考模式,這兩種模式通過人腦元認知做監(jiān)控和調(diào)節(jié),從而在系統(tǒng)一和系統(tǒng)二之間實現(xiàn)動態(tài)的調(diào)整,擁有更精準、更靈活的決策。
那么,有了元認知概念,如何將元認知真正賦能到盤古大模型當中,實現(xiàn)技術(shù)升級呢?其中有兩個非常關(guān)鍵的技術(shù):一個是難易感知的快慢思考數(shù)據(jù)融合技術(shù),一個是由慢到快的漸進式訓(xùn)練技術(shù)。
首先,可以針對訓(xùn)練數(shù)據(jù)做一個復(fù)雜度和難度的評估和標注,將問題分為簡單的適合快思考的,和復(fù)雜的適合慢思考的類型,并生成對應(yīng)格式的回答。其次,漸進式由慢到快的訓(xùn)練策略先通過復(fù)雜推理訓(xùn)練和強化學習,構(gòu)建強大的慢思考模型,再逐步引入快思考的數(shù)據(jù),進行融合訓(xùn)練。同時,動態(tài)調(diào)整訓(xùn)練樣本的難度,讓模型在慢思考能力不損失的情況下,逐步獲得快思考能力。
GenJi:根據(jù)韓博士介紹技術(shù)的細節(jié),讓我想起《人類簡史》書中提到過人類大腦的工作模式:盤古開天辟地后,最開始由男性狩獵,因其更擅長極短時間內(nèi)快速決策的能力,女性則負責采摘,需要判斷食物是否有毒。所以,大腦的左右腦分工,以及男性女性社會分工,與該技術(shù)是否存在一定關(guān)聯(lián)關(guān)系?
韓博士:快思考是系統(tǒng)一,是日常對話中,不需要復(fù)雜思考就可以啟動的模式;慢思考是人腦的系統(tǒng)二,比如在做一些數(shù)學題,或者編程的時候,需要深度思考接下來的步驟劃分,從而生成深度推理模式。這就是快思考和慢思考與之前所講的狩獵和采摘之間的關(guān)系。
GenJi:您所說的系統(tǒng)一、系統(tǒng)二,是出自于《思考,快與慢》嗎?
韓博士:是的。我們問了盤古Embedded兩個問題:第一個是如何做蒸蛋,這是個很簡單的問題,所以它直接給出了輸出,不需要深度思考。第二個是一道數(shù)學題,藍色的字,是它在做慢思考,面對復(fù)雜的問題,它會自動啟動慢思考,思考完成后,它會給出綠色的字,也是它最終的回答。當前,這兩種模式在行業(yè)中也是可以得到應(yīng)用的,比如,電商場景中,用戶咨詢快遞發(fā)貨時間,這是不需要深入思考的;但像快遞無法發(fā)貨的原因和給出建議這類問題,就需要深度分析后,再給出合適的回答。
GenJi:關(guān)于這項技術(shù)里的落地場景,您剛才提到的自適應(yīng)是什么概念?
韓博士:日常生活中人們經(jīng)常用到OpenAI ChatGPT中的不同模型,GPT4o是快思考模型,o3是慢思考模型,它是訓(xùn)練兩個模型做這兩件事情。而在盤古的模型中,它將快思考和慢思考能力合到同一個模型中,我們只需要訓(xùn)一個模型,且不需要另外點擊“深度思考”按鈕,就可以根據(jù)用戶輸入問題的復(fù)雜度,自動開啟快慢思考模式,因而更加靈活、高效。
GenJi:在工具調(diào)用模型方面,有哪些適配的工具類型?
糜博士:以韓博士的舉例來說,假設(shè)用戶需要查詢快遞信息和狀態(tài),一個語言模型是無法單獨完成這些任務(wù)的,因為這些信息是動態(tài)變化的,所以,為了完成復(fù)雜、動態(tài)或是工業(yè)場景當中較為復(fù)雜的任務(wù)時,模型需要借助外部工具完成,就像人一樣,不僅能說話,還能使用千行百業(yè)的工具,而對于盤古模型來說,對工具使用的能力是非常重要的,同時它也一定決定著應(yīng)用水平的競爭力。
之前有很多同事問,盤古模型究竟能夠使用多少種工具?對于這個問題的答案,它沒有確定性的數(shù)字,因為我們的目標是讓盤古模型學會使用任何工具,其次,盤古模型的定位是通用模型,它是基礎(chǔ)模型,不是某個單一行業(yè)定制的模型,它需要具備較好的開箱即用的能力。在訓(xùn)練階段,我們格外強調(diào)模型對整個不同規(guī)格或種類工具的泛化能力,最終讓模型提供開箱使用的能力。
在這個過程中,有兩項關(guān)鍵技術(shù):第一項是數(shù)據(jù)構(gòu)建方面,第二項是模型訓(xùn)練方面。首先,數(shù)據(jù)構(gòu)建方面,一個非常關(guān)鍵的點是,我們需要模擬和仿真海量高質(zhì)量的復(fù)雜工具調(diào)用數(shù)據(jù),在真實工業(yè)場景中會有成千上萬工具的可能性,并且各種工具之間會存在一些組合,甚至是交織并行、依賴非常多的復(fù)雜關(guān)系,所以我們在合成數(shù)據(jù)的時候需要考慮三個重要的關(guān)鍵點,一是在仿真數(shù)據(jù)時,整個數(shù)據(jù)和場景的多樣性;二是模型在使用工具過程中的復(fù)雜性,因為幫助用戶完成一個任務(wù),很多時候不只是調(diào)用單個工具就可以完成的,它需要調(diào)用多個工具,甚至進行多輪多步的交互,最終才能幫助用戶達成想要的結(jié)果。三是在數(shù)據(jù)合成或模擬過程中,需要幫助模型訓(xùn)練工具使用的質(zhì)量和正確性,所以在數(shù)據(jù)合成和仿真過程中,我們也做了大量工作,并且許多工作是在業(yè)界較為領(lǐng)先的。而在整個工具使用合成方面,對于模型使用工具,或模型與工具協(xié)同工作只是第一部分。
第二部分是關(guān)于訓(xùn)練。在模型訓(xùn)練過程中,第一步是借助仿真模擬數(shù)據(jù),用標準的蒸餾學習或監(jiān)督學習方式訓(xùn)練模型,但這一步遠遠不夠,因此,我們還會疊加一個模型能力感知的自演化迭代訓(xùn)練過程。在仿真數(shù)據(jù)訓(xùn)練完成之后,我們會讓模型跟各種各樣真實或模擬的工具進行再次交互,讓模型在訓(xùn)練的基礎(chǔ)上,還能不斷自我探索,這樣才能夠進一步提升模型使用工具的能力和準確性。
GenJi:請再具體介紹一下您剛才說的迭代和協(xié)同能力?
糜博士:總體來說,讓模型解決復(fù)雜的問題,一般分為所謂的冷啟動,再讓模型持續(xù)探索。比如下圍棋,首先需要讓其了解規(guī)則,知道怎么下,其次再與各種水平的選手交流,最后提升自己的水平。所以總體來說,訓(xùn)練模型在很多場景中的大致思路,都會有冷啟動的過程,這個過程一定程度上能夠讓模型具備了解游戲規(guī)則、任務(wù)執(zhí)行方式,以及和環(huán)境交互,從而持續(xù)提升自己的能力。
此外,大家也會思考,盤古模型做工具調(diào)用的時候,具體是什么樣子?我們準備了一個案例演示,例如,幫助用戶完成從北京到東莞參加HDC大會行程的規(guī)劃任務(wù):中間是聊天界面,右邊是幫助用戶做任務(wù)時的工具調(diào)用流程,左邊則是針對這一任務(wù)規(guī)劃場景定制的其他工具,如用戶咨詢天氣時,它會根據(jù)不同的天氣信息,為用戶推薦相應(yīng)商品等。在整個過程中,盤古模型可能會有非常多輪、多步的復(fù)雜工具調(diào)用,最終幫助用戶完成訂酒店、訂機票、查天氣,以及依據(jù)天氣推薦物品等一系列操作。
GenJi:請李博士也介紹下您這邊的案例。
李博士:關(guān)于大模型工具調(diào)用能力,信息獲取工具也是日常生活中常見的。比如搜索引擎,看起來是一個簡單的工具,但這個環(huán)節(jié)其實非常復(fù)雜。借助案例來說,一位高校老師想要尋求一個資助的項目,他介紹了自己的基本情況,以及對該項目的要求,如果由人來做這件事,需要在互聯(lián)網(wǎng)上不斷的尋找各種各樣的項目指南,并反復(fù)與申請人做條件匹配,這是非常漫長的。但如果將其交給模型處理,它將自動完成信息的校對、比對、推理,幫助申請人找到貼合的項目。這就很好的解釋了為什么信息獲取Agent是非常重要,且非常具有挑戰(zhàn)性的任務(wù)。
GenJi:在這個過程中,李博士認為信息獲取的挑戰(zhàn)在哪里?
李博士:我認為最大的挑戰(zhàn)是,信息世界是充滿噪聲的,我們稱之為它是非確定性工具,總是會存在各種各樣的異常情況。所以,這里最大的挑戰(zhàn)是要解決智能體問題,或者這個模型能夠在帶噪的、各種異常的情況中,仍然跳出陷井并實現(xiàn)最終目標任務(wù),這是最大的挑戰(zhàn)。
GenJi:關(guān)于幻覺,盤古模型是如何規(guī)避或盡可能減少這種情況發(fā)生的呢?
李博士:這就需要用到端到端的強化學習技術(shù),它解決幻覺問題思路的核心原則是,監(jiān)督最終任務(wù)的結(jié)果,如果結(jié)果是對的,給予正向激勵;如果是錯的,則給予負向激勵,而中間過程完全需要模型自己探索。只要通過充分結(jié)果監(jiān)督,它就可以學到如何處理這些情形,從而學到適合該模型自己能力的處理幻覺的一種方式,最終達成降低幻覺的目的。
GenJi:在整體使用過程中,有哪些比較有意思的發(fā)現(xiàn)?
李博士:我覺得最有意思的發(fā)現(xiàn),是我們提到了一個新的概念,即搜索強度自適應(yīng)擴增。在模型遇到各種情況的時候,會繼續(xù)增大強度和搜索頻率,我們通過蒸餾或人類解法時,并不一定能夠?qū)W到適合該模型自身的解法,而端到端的學習,能夠?qū)崿F(xiàn)自主探索,找到真正適合基座、模型本身的解法,從而更好解決問題。
可以類比于快思考模型中的慢思考,它的本質(zhì)是通過大模型生成更多的字符,而我們是與環(huán)境做更多輪的交互,這件事并不容易,因為太多的交互容易進入陷井,這就需要算法和工程方式保證。
GenJi:最后,各位對盤古大模型還有什么樣的展望?
韓博士:關(guān)于盤古大模型,我們也在演進它的下一代模型架構(gòu),目前市面上幾乎所有的模型都是基于Transformer結(jié)構(gòu),我們內(nèi)部正在研究和探索能夠超越Transformer的架構(gòu),包括注意力機制方面的改進、MoE新架構(gòu)以及擴散語言模型,我們認為,未來會有能夠超越Transformer的一種架構(gòu)出現(xiàn),為盤古大模型帶來更高的質(zhì)的飛躍。
糜博士:我從兩個方面和您交流這個問題。第一方面,針對剛才聊到的大模型使用工具這一場景,我們做了比較多的初步探索,也還有非常多未完成的工作。如在工業(yè)應(yīng)用時,我們需要不斷與客戶進行交流、接觸,了解他們的真實需求以及需要覆蓋的場景,從而補足和提升模型不同方面的能力。第二方面,從基礎(chǔ)模型角度出發(fā),我們需要繼續(xù)做包括工具在內(nèi)的基礎(chǔ)模型整體能力提升,以及像剛才說的幻覺、指令遵從等關(guān)鍵能力,仍有許多問題還沒有解決。
李博士:關(guān)于智能體方向,我個人的愿景是,希望它能夠逐步從副駕變成主駕,這有兩個很重要的思考方向,一是時間軸上,我們希望模型在長時間交互的情況下,仍然能夠防止過大的誤差積累,將任務(wù)端到端延續(xù)下去;二是空間上,希望它能夠真正將任務(wù)分解,以團隊的力量完成更為復(fù)雜的任務(wù),這也會影響到接下來的模型訓(xùn)練,所以這兩個方向是我非常期待的兩個愿景。
從快慢思考自適應(yīng),到信息收集、復(fù)雜場景下的工具調(diào)用,再到端到端的強化學習,盤古基礎(chǔ)大模型正不斷升級與完善自我能力,實現(xiàn)向更多場景、領(lǐng)域的探索和覆蓋,持續(xù)賦能工業(yè)生產(chǎn)。