清華大學(xué)THUNLP實(shí)驗(yàn)室長(zhǎng)期致力于自然語(yǔ)言處理和人工智能領(lǐng)域的研究,而面壁智能則專注于大模型技術(shù)的創(chuàng)新與應(yīng)用。雙方此前已在多模態(tài)模型MiniCPM-V的開發(fā)上展開合作,取得了很多成果。此次聯(lián)合推出的AgentCPM-GUI,是雙方在移動(dòng)端智能體領(lǐng)域的一次重要嘗試,標(biāo)志著大模型技術(shù)在移動(dòng)設(shè)備上的進(jìn)一步落地。
高質(zhì)量的GUI理解能力:通過(guò)在大規(guī)模中英文安卓數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,模型對(duì)常見GUI控件(如按鈕、輸入框、標(biāo)簽、圖標(biāo)等)具備定位與理解能力,為精確操作打下基礎(chǔ)。
中文應(yīng)用深度適配:AgentCPM-GUI是首個(gè)針對(duì)中文應(yīng)用精細(xì)優(yōu)化的開源GUI智能體,支持高德地圖、大眾點(diǎn)評(píng)、嗶哩嗶哩、小紅書等30余個(gè)主流中文應(yīng)用,解決了中文界面交互的特殊挑戰(zhàn)。
增強(qiáng)的規(guī)劃與推理能力:通過(guò)強(qiáng)化微調(diào)技術(shù)(RFT),模型在輸出動(dòng)作前進(jìn)行詳細(xì)的推理思考,顯著提升復(fù)雜任務(wù)執(zhí)行的成功率,使操作更加智能化。
緊湊的動(dòng)作空間設(shè)計(jì):采用優(yōu)化的動(dòng)作空間和緊湊的JSON格式,將平均動(dòng)作長(zhǎng)度壓縮至9.7個(gè)token,提升了移動(dòng)端推理效率,降低了資源消耗。
AgentCPM-GUI的訓(xùn)練流程包括兩個(gè)階段:
監(jiān)督微調(diào)(SFT):使用包含屏幕截圖和相應(yīng)操作的大規(guī)模標(biāo)注數(shù)據(jù)集,訓(xùn)練模型理解界面元素并生成正確的操作行為。
強(qiáng)化微調(diào)(RFT):通過(guò)自我探索和反饋機(jī)制,優(yōu)化模型的思考能力和決策策略,提高復(fù)雜場(chǎng)景下的任務(wù)完成率。
此外,模型的動(dòng)作設(shè)計(jì)采用JSON結(jié)構(gòu)化輸出,支持多種操作類型,如點(diǎn)擊、滑動(dòng)、輸入文本、按鍵操作等,增強(qiáng)了模型的可解釋性和實(shí)用性。
應(yīng)用場(chǎng)景:
AgentCPM-GUI的應(yīng)用場(chǎng)景廣泛,包括:
智能手機(jī)自動(dòng)化:替代傳統(tǒng)腳本,通過(guò)自然語(yǔ)言指令完成日常操作任務(wù)。
無(wú)障礙輔助:幫助行動(dòng)不便用戶操控手機(jī)應(yīng)用。
應(yīng)用測(cè)試與質(zhì)量保證:自動(dòng)執(zhí)行應(yīng)用測(cè)試流程,發(fā)現(xiàn)潛在問(wèn)題。
智能助手集成:為現(xiàn)有智能助手提供視覺交互能力。
教育引導(dǎo):輔助新用戶學(xué)習(xí)復(fù)雜應(yīng)用的使用方法。
未來(lái),AgentCPM-GUI有望擴(kuò)展到更多應(yīng)用場(chǎng)景和平臺(tái),如iOS和桌面系統(tǒng),增強(qiáng)跨應(yīng)用任務(wù)規(guī)劃和執(zhí)行能力,降低模型參數(shù)量,提升端側(cè)部署效率,并增強(qiáng)個(gè)性化適應(yīng)能力,根據(jù)用戶習(xí)慣調(diào)整交互方式。
AgentCPM-GUI已在GitHub開源,可訪問(wèn):https://github.com/OpenBMB/AgentCPM-GUI