由于目前大型語言模型的運(yùn)行主要依賴大量的訓(xùn)練計(jì)算資源,這種昂貴的成本模式,使得開發(fā)公司尋求替代方案。Hugging Face的研究顯示,通過測試階段計(jì)算擴(kuò)展(Test-Time Compute Scaling),小型模型在推理過程中給予足夠的計(jì)算時(shí)間,能針對復(fù)雜問題進(jìn)行多次嘗試或修正,效能不僅提升,甚至可在數(shù)學(xué)推理等特定任務(wù)中超越大型模型。這項(xiàng)成果挑戰(zhàn)了過去以模型規(guī)模作為效能提升主要依據(jù)的認(rèn)知,展現(xiàn)了小型模型在資源有效利用下的潛力。
測試階段計(jì)算擴(kuò)展成為許多研究機(jī)構(gòu)關(guān)注的技術(shù),其中DeepMind的研究顯示,借助動(dòng)態(tài)分配測試階段計(jì)算資源,可以讓模型在解決復(fù)雜問題時(shí)更有效率。DeepMind研究人員提出了使用驗(yàn)證搜索解答空間的策略,驗(yàn)證器能對模型的中間推理解答給出評分,并引導(dǎo)搜索過程朝正確方向推進(jìn)。DeepMind的實(shí)驗(yàn)證實(shí),測試階段計(jì)算策略能讓小型模型在部分復(fù)雜任務(wù)中超越其基礎(chǔ)效能。
而Hugging Face的研究更聚焦于開放模型與資源的應(yīng)用,并提出多樣性驗(yàn)證樹搜索(Diverse Verifier Tree Search,DVTS)這種改進(jìn)驗(yàn)證器搜索方法的技術(shù)。DVTS有效解決了搜索過程中的多樣性不足問題,特別是在高計(jì)算資源配置下,其生成的解答在準(zhǔn)確性和多樣性上表現(xiàn)更佳。通過這些測試階段計(jì)算擴(kuò)展技術(shù),Hugging Face展示小型模型在數(shù)學(xué)推理等特定任務(wù)中,足以挑戰(zhàn)甚至超越大型模型,顛覆過去依賴模型規(guī)模決定效能的傳統(tǒng)觀點(diǎn)。
簡單來說,DeepMind的研究主要說明,通過動(dòng)態(tài)分配測試階段的計(jì)算資源,小型模型可以在多一點(diǎn)計(jì)算時(shí)間下,提升效能并表現(xiàn)得更好。Hugging Face的研究則進(jìn)一步延伸,提出在某些特定任務(wù)中,給小型模型足夠的計(jì)算時(shí)間,不僅能提升效能,甚至可以超越參數(shù)數(shù)量更大的模型。
Hugging Face的DVTS針對搜索策略中的多樣性問題進(jìn)行優(yōu)化,借助分離多個(gè)搜索樹,提升生成答案的多樣性并避免單一路徑過度主導(dǎo)搜索過程的現(xiàn)象。在數(shù)學(xué)基準(zhǔn)測試中,小型模型如參數(shù)數(shù)量僅為10億的Llama模型,在應(yīng)用DVTS策略后,解題表現(xiàn)不僅超越了自身基礎(chǔ)能力,甚至在某些情境中超越了參數(shù)數(shù)量高達(dá)70億的大型模型。
不過目前這些技術(shù)的發(fā)展仍受限制,因?yàn)轵?yàn)證器的能力目前局限于數(shù)學(xué)和代碼等可驗(yàn)證領(lǐng)域,要將這些技術(shù)應(yīng)用于需要主觀判斷,或是難以量化的任務(wù),仍需要更多后續(xù)研究。不過從務(wù)實(shí)角度來看,測試階段集散擴(kuò)展的成功,對模型效能提升提供了更具成本效益的方法,讓企業(yè)能以更少的資源部署更高效的語言模型,特別是在計(jì)算能力受限的環(huán)境下,如邊緣計(jì)算或嵌入式系統(tǒng)等。