OpenAI官方介紹:

Operator是我們的首批智能體之一。這些AI能夠獨立為你完成工作——只需給它一個任務(wù),它就會執(zhí)行。

文字編輯| 宋雨涵

1

OpenAI讓AI學(xué)會“用電腦”了?

Operator:AI界的“電腦高手”

在人工智能領(lǐng)域,OpenAI再次邁出了重要的一步。其最新推出的AI助手Operator,不僅標(biāo)志著AI技術(shù)的一次重大飛躍,更被視為邁向通用人工智能(AGI)的重要里程碑。作為OpenAI首款真正模擬人類操作網(wǎng)頁瀏覽器的AI助手,Operator的出現(xiàn)徹底改變了我們對AI能力的認(rèn)知。

Operator的最大亮點在于其能夠像人類一樣自如地操作網(wǎng)頁瀏覽器,執(zhí)行各種復(fù)雜的在線任務(wù)。無論是預(yù)訂旅行住宿、餐廳預(yù)約,還是在線購物,Operator都能輕松應(yīng)對。用戶只需在多個類別中選擇所需的自動化任務(wù),Operator便能自動完成整個流程,從搜索、比較到下單,一氣呵成。這種能力不僅極大地提高了效率,更讓AI在數(shù)字生活中扮演了更加主動和智能的角色。

應(yīng)用場景廣泛:覆蓋多個生活領(lǐng)域

Operator的應(yīng)用場景非常廣泛,涵蓋了購物、配送、餐飲和旅行等多個生活領(lǐng)域。用戶可以根據(jù)自己的需求,選擇相應(yīng)的自動化任務(wù),讓Operator代為完成。例如,在旅行領(lǐng)域,Operator可以幫助用戶搜索并預(yù)訂酒店、機票,甚至規(guī)劃整個行程;在購物領(lǐng)域,Operator則能夠自動比較不同商品的價格和質(zhì)量,幫助用戶做出最優(yōu)選擇。

技術(shù)突破:從被動到主動

Operator的推出,是AI技術(shù)從被動工具向主動參與者轉(zhuǎn)變的重要體現(xiàn)。傳統(tǒng)上,AI往往作為輔助工具存在,需要人類提供明確的指令才能完成任務(wù)。而Operator則能夠主動分析用戶需求,模擬人類操作,實現(xiàn)真正的智能化服務(wù)。這種轉(zhuǎn)變不僅提高了AI的實用性和便捷性,更為未來AGI的發(fā)展奠定了堅實的基礎(chǔ)。

雖然Operator目前還只能執(zhí)行特定的在線任務(wù),但其背后的技術(shù)原理和實現(xiàn)方式卻為AGI的發(fā)展提供了寶貴的經(jīng)驗。AGI作為人工智能的最終目標(biāo),旨在讓機器具備像人類一樣的智能和學(xué)習(xí)能力,能夠處理各種復(fù)雜的問題和任務(wù)。而Operator的出現(xiàn),則展示了AI在模擬人類行為和思維方面的巨大潛力,為AGI的實現(xiàn)提供了重要的參考和借鑒。

2

Operator的工作原理

計算機使用代理?(Computer-Using Agent, CUA)

Operator的底層使用了一個全新的模型Computer-Using-Agent(CUA)。

通過將GPT-4o的視覺能力和高級推理強化學(xué)習(xí)相結(jié)合,CUA可以進(jìn)行GUI交互。Operator可以看到網(wǎng)頁界面的內(nèi)容,使用鼠標(biāo)、鍵盤允許的所有操作。由此它可以自動操作,而無需自定義的API集成。

如果遇到問題或者出現(xiàn)錯誤,Operator可以利用推理能力自我糾錯。并在它卡住需要幫助時,將控制權(quán)交還給用戶。CUA在WebArena和WebVoyager兩個基準(zhǔn)測試中都取得了SOTA。

與以往需要定制API集成的AI工具不同,Operator直接利用用戶每天使用的網(wǎng)頁界面,無需復(fù)雜的后臺對接,極大地擴展了AI的應(yīng)用場景。它能夠處理各種重復(fù)性的瀏覽器任務(wù),例如填寫表格、訂購食品雜貨,甚至制作表情包。

3

OpenAI的未來計劃

一、通過API使用CUA:揭示驅(qū)動Operator的模型

OpenAI表示,很快就會通過API揭示驅(qū)動Operator的模型,即計算機使用代理(CUA)。這一舉措將為開發(fā)者提供一個強大的工具,使他們能夠利用Operator的功能來構(gòu)建自己的computer use智能體。CUA結(jié)合了OpenAI的GPT-4o模型的視覺功能與更高級模型的推理能力,使其能夠在無需使用面向開發(fā)人員的API的情況下,與網(wǎng)站的前端進(jìn)行交互。這意味著開發(fā)者可以利用CUA來開發(fā)各種自動化任務(wù),如在線購物、預(yù)訂旅行等,從而極大地提高工作效率。

二、增強功能:提高處理更長、更復(fù)雜工作流程的能力

除了通過API揭示模型外,OpenAI還計劃繼續(xù)提高Operator處理更長、更復(fù)雜工作流程的能力。Operator的核心功能包括自動化任務(wù)執(zhí)行和自我學(xué)習(xí)能力,這使得它能夠理解用戶指令,并根據(jù)實時數(shù)據(jù)反饋調(diào)整工作策略。隨著技術(shù)的不斷進(jìn)步,Operator將能夠處理更加復(fù)雜和多步驟的任務(wù),如編寫報告、編輯文檔、編程等。這將為用戶帶來更加智能化、個性化的服務(wù)體驗。

三、讓更多人可用:擴展到Plus、Team和Enterprise用戶

OpenAI還計劃將Operator擴展到Plus、Team和Enterprise用戶。目前,Operator已通過ChatGPT的200美元Pro訂閱計劃向美國用戶推出。未來,隨著技術(shù)的不斷成熟和市場的不斷擴大,OpenAI將逐步將Operator推廣給更多層級的用戶。這將使得更多企業(yè)和個人能夠享受到Operator帶來的便捷和高效。

四、集成到ChatGPT中:實現(xiàn)無縫的實時和異步任務(wù)執(zhí)行

OpenAI還表示,一旦在安全性與大規(guī)??捎眯苑矫娼⑿判暮?,就會將Operator的功能直接集成到ChatGPT中。這一舉措將實現(xiàn)無縫的實時和異步任務(wù)執(zhí)行,使得用戶能夠在與ChatGPT進(jìn)行對話的同時,直接通過Operator完成各種任務(wù)。這將極大地提升用戶體驗和工作效率,使得ChatGPT成為一個更加全面、智能的助手。

結(jié)語

OpenAI推出的Operator,不僅是一款功能強大的AI助手,更是AI技術(shù)發(fā)展的一個重要里程碑。它的出現(xiàn)不僅提高了我們的數(shù)字生活體驗,更為未來AGI的發(fā)展開辟了新的道路。我們有理由相信,在不久的將來,AI將像人類一樣聰明、靈活,成為我們生活中不可或缺的一部分。

分享到

lixiangjing

算力豹主編

相關(guān)推薦