尤為令人矚目的是,谷歌同步推出了Gemini 2.0 Flash的實(shí)驗(yàn)版本,其驚人的運(yùn)行速度是1.5 Pro的兩倍,成為其首秀之作。

谷歌鄭重聲明,Gemini 2.0是專為AI Agent時(shí)代精心打造的,其核心精髓在于多模態(tài)與AI Agent的深度融合。依托Gemini 2.0 Flash的強(qiáng)大能力,谷歌推出了一系列創(chuàng)新AI Agent產(chǎn)品,包括在今年5月就已在業(yè)界引起轟動(dòng)的通用AI助手原型Project Astra,能夠在谷歌瀏覽器中靈活執(zhí)行多步驟復(fù)雜任務(wù)的實(shí)驗(yàn)性擴(kuò)展Project Mariner,以及充滿潛力的實(shí)驗(yàn)性AI編程Agent Jules和游戲Agent。

Gemini 2.0的發(fā)布,無(wú)疑標(biāo)志著谷歌在邁向AI Agent新時(shí)代的征途上邁出了至關(guān)重要的一步。

對(duì)于Gemini和Gemini Advanced的忠實(shí)用戶而言,他們現(xiàn)在可以在桌面端的模型下拉菜單中輕松選擇聊天優(yōu)化版的Gemini 2.0進(jìn)行率先體驗(yàn)。同時(shí),開(kāi)發(fā)人員也可以通過(guò)Google AI Studio和Vertex AI在Gemini API中迅速上手,充分利用此模型進(jìn)行構(gòu)建。本周,谷歌已在搜索的AI概覽中率先開(kāi)啟了Gemini 2.0的測(cè)試之旅。

此外,谷歌還透露了一個(gè)令人振奮的消息:Gemini 2.0 Flash將于1月份全面上市,并推出更多樣化的模型尺寸以滿足用戶的多元化需求。而到了明年年初,谷歌更是計(jì)劃將Gemini 2.0廣泛應(yīng)用于更多谷歌產(chǎn)品中,為用戶帶來(lái)更加智能、便捷、高效的全新體驗(yàn)。

滿足智能體基本需求的底層模型

如果說(shuō)Gemini 1.0是關(guān)于整理和理解信息,那么Gemini 2.0就是要讓這些信息真正變得有用。過(guò)去一年,我們一直在投資開(kāi)發(fā)更具主動(dòng)性的模型,”皮查伊對(duì)此解釋說(shuō),“這意味著它們可以更好地理解周圍的世界,提前思考多個(gè)步驟,并在你的監(jiān)督下采取行動(dòng)。——谷歌CEO桑達(dá)爾·皮查伊

這意味著,AI不再只是被動(dòng)地回答問(wèn)題,而是能夠理解用戶的需求,提前思考,并在用戶監(jiān)督下采取行動(dòng)。

想象一個(gè)既能幫你規(guī)劃旅行,又能實(shí)際幫你訂票的助手,這就是谷歌對(duì)未來(lái)AI的愿景。

Gemini 2.0 Flash的能力

谷歌的官方博客顯示,Gemini 2.0 Flash在關(guān)鍵基準(zhǔn)測(cè)試中的速度是1.5 Pro的兩倍。

除了支持圖像、視頻和音頻等多模式輸入外,Gemini 2.0 Flash現(xiàn)在還支持多模態(tài)輸出,例如與文本混合的原生生成的圖像和可操縱的文本轉(zhuǎn)語(yǔ)音(TTS)多語(yǔ)言音頻,還可以原生調(diào)用谷歌搜索、代碼執(zhí)行以及第三方用戶定義函數(shù)等工具。

為了幫助開(kāi)發(fā)人員構(gòu)建動(dòng)態(tài)和交互式應(yīng)用程序,在此基礎(chǔ)上,谷歌還發(fā)布了具有實(shí)時(shí)音頻、視頻流輸入以及使用多個(gè)組合工具的能力的Multimodal Live API。

在AI Agent方面,谷歌宣布了對(duì)實(shí)驗(yàn)性功能的更新,包括通用AI Agent Project Astra、多步驟任務(wù)AI Agent Project Mariner、AI編程Agent Jules、游戲Agent。

01

通用AI Agent Project Astra:記住10分鐘視頻,更強(qiáng)agent能力

由Gemini 2.0強(qiáng)力助陣的Project Astra最新版本,成功解鎖了Agent(代理)功能。此次迭代帶來(lái)了諸多顯著改進(jìn):

谷歌正在擴(kuò)大Project Astra的測(cè)試范疇,將新的反饋納入更新中,包括優(yōu)化其對(duì)各種口音及不常見(jiàn)單詞的理解、減少延遲、將其集成到一些谷歌產(chǎn)品(如搜索、Lens、地圖等)。

02

多步驟任務(wù)AI Agent Project Mariner:最佳工作結(jié)果83.5%,為保證安全目前需人類介入?

Project Mariner?是谷歌在Gemini 2.0模型基礎(chǔ)上發(fā)布的一個(gè)實(shí)驗(yàn)性功能,?其可以完成多步驟的復(fù)雜任務(wù)。

作為研究原型,Project Mariner?能夠理解和推理瀏覽器屏幕上的信息,包括像素和文本、編程、圖像和表單等網(wǎng)絡(luò)元素,然后通過(guò)實(shí)驗(yàn)性的谷歌擴(kuò)展程序使用這些信息完成任務(wù)。

谷歌官方博客顯示,根據(jù)WebVoyager基準(zhǔn)進(jìn)行評(píng)估,該基準(zhǔn)測(cè)試Agent在端到端真實(shí)世界網(wǎng)絡(luò)任務(wù)上的性能,Project Mariner作為單一Agent設(shè)置實(shí)現(xiàn)了83.5%的最佳工作結(jié)果。?

在演示中,Project Mariner可以同時(shí)完成獲取表單、找到公司官網(wǎng)、聯(lián)系方式等多步驟任務(wù),Agent會(huì)自動(dòng)執(zhí)行在谷歌搜索中查找電子郵件的過(guò)程,且這一過(guò)程中用戶可以隨時(shí)點(diǎn)擊暫停和停止。同時(shí),用戶可以看到Agent每一步行動(dòng)的推理步驟和計(jì)劃。

盡管目前?Project Mariner執(zhí)行任務(wù)時(shí)較慢且并不總是準(zhǔn)確,但從技術(shù)上講,這表明了在瀏覽器中導(dǎo)航已經(jīng)成為可能。

目前,該代理在完成任務(wù)時(shí)需要人類介入,如Project Mariner只能在瀏覽器的活動(dòng)選項(xiàng)卡中鍵入、滾動(dòng)或點(diǎn)擊,并且它會(huì)在用戶執(zhí)行某些購(gòu)買等敏感操作之前要求用戶進(jìn)行最終確認(rèn)。

03

AI編程Agent Jules:直接集成GitHub長(zhǎng)期目標(biāo)是構(gòu)建通用Agent

谷歌還在探索Agent Jules的更新。Jules是一種直接集成到GitHub工作流程中的實(shí)驗(yàn)性AI驅(qū)動(dòng)的編程Agent。

Jules可以解決問(wèn)題、制定計(jì)劃并執(zhí)行它,所有過(guò)程都在開(kāi)發(fā)人員的指導(dǎo)和監(jiān)督下進(jìn)行。在這一領(lǐng)域,谷歌的長(zhǎng)期目標(biāo)是構(gòu)建在所有領(lǐng)域(包括編程)都有幫助的AI Agent。

04

游戲Agent:視頻游戲?qū)Ш?,根?jù)游戲動(dòng)作推理實(shí)時(shí)對(duì)話充當(dāng)游戲交流

谷歌借助Gemini 2.0的強(qiáng)大功能,精心打造了一款游戲Agent,這款智能助手能夠引領(lǐng)用戶在視頻游戲的虛擬國(guó)度中自如穿梭。僅憑屏幕上的動(dòng)態(tài)變化,Agent便能洞悉游戲機(jī)制,并在實(shí)時(shí)互動(dòng)中為用戶提供精準(zhǔn)的下一步行動(dòng)指南。

展望未來(lái),谷歌正積極探索將Gemini 2.0的空間推理技術(shù)融入機(jī)器人領(lǐng)域,旨在創(chuàng)造出能在現(xiàn)實(shí)世界中提供切實(shí)幫助的Agent,開(kāi)啟智能生活的新篇章。

Project Astra 升級(jí)版:生活更生活

谷歌發(fā)布Project Astra新演示視頻,基于Gemini 2.0。測(cè)試者在倫敦用Pixel手機(jī)測(cè)試:通過(guò)AI助手獲取公寓門密碼、洗衣指導(dǎo),搜索推薦地點(diǎn)信息。街上掃描食物、雕塑等,AI助手即時(shí)解答。分享朋友讀書信息,AI推薦禮物并討論興趣點(diǎn)。詢問(wèn)公交車路線及路標(biāo),AI提供詳細(xì)解答。測(cè)試者還試用原型眼鏡查天氣、公園信息、騎行規(guī)定及超市位置。

但AI助手存在局限,如無(wú)法訪問(wèn)個(gè)人郵件、照片,嘈雜環(huán)境聲音識(shí)別難,無(wú)法設(shè)置計(jì)時(shí)器等。

Project Astra產(chǎn)品經(jīng)理Bibo Xu表示,該AI正融合最強(qiáng)大的信息檢索系統(tǒng)。

Gemini 2.0背后的硬件功臣:

谷歌今年推出了全新Gemini 2.0,該系統(tǒng)經(jīng)由其第六代TPU——Trillium訓(xùn)練而成。

Trillium TPU不僅代表了谷歌TPU技術(shù)的最新成就,而且在性能上實(shí)現(xiàn)了顯著提升。與前一代相比,Trillium TPU的訓(xùn)練性能提升了4倍以上,推理吞吐量高達(dá)3倍,能效提高了67%,峰值計(jì)算性能更是躍升了4.7倍。此外,其HBM容量也實(shí)現(xiàn)了翻倍。

如今,谷歌云客戶已能普遍使用Trillium TPU,它作為谷歌云AI超級(jí)計(jì)算機(jī)的核心組件,集成了高性能硬件、開(kāi)放軟件、前沿的機(jī)器學(xué)習(xí)框架以及靈活的消費(fèi)級(jí)模型。谷歌對(duì)開(kāi)放軟件層進(jìn)行了全面升級(jí),優(yōu)化了XLA編譯器和主流框架,從而在AI訓(xùn)練、調(diào)優(yōu)及服務(wù)方面提供了卓越的性價(jià)比。

值得一提的是,Trillium TPU還采用了主機(jī)DRAM卸載等先進(jìn)技術(shù),進(jìn)一步提升了工作效率。在架構(gòu)層面,每個(gè)Jupiter網(wǎng)絡(luò)由超過(guò)100,000顆Trillium芯片組成,具備13Pbps的對(duì)分帶寬,能夠輕松應(yīng)對(duì)數(shù)十萬(wàn)個(gè)加速器的分布式訓(xùn)練任務(wù)。這一創(chuàng)新設(shè)計(jì)使得Trillium TPU在性能和規(guī)模上均達(dá)到了前所未有的高度。

寫在最后

年末時(shí)分,通用人工智能(AGI)領(lǐng)域的競(jìng)爭(zhēng)愈發(fā)白熱化,亞馬遜、OpenAI、Meta及谷歌等科技巨頭競(jìng)相發(fā)布重量級(jí)產(chǎn)品,將大模型市場(chǎng)的競(jìng)爭(zhēng)推向了一個(gè)全新的高度。在這些企業(yè)中,谷歌憑借其在大模型技術(shù)、云端基礎(chǔ)設(shè)施以及端側(cè)智能領(lǐng)域的全面而深入的布局,顯得格外耀眼。

作為安卓操作系統(tǒng)的領(lǐng)航者,谷歌對(duì)端側(cè)智能的理解尤為深刻且獨(dú)到。今日,谷歌通過(guò)一系列新品發(fā)布,進(jìn)一步彰顯了Agent(代理)在智能手機(jī)、智能眼鏡等端側(cè)設(shè)備上的巨大潛力和廣闊前景。在更加強(qiáng)大、更加智能的模型支持下,Agent將能夠更廣泛、更深入地為用戶服務(wù),助力用戶更全面、更精準(zhǔn)地了解周圍環(huán)境,提前進(jìn)行多步驟、多維度的規(guī)劃,并在用戶的指導(dǎo)下執(zhí)行相應(yīng)操作,實(shí)現(xiàn)更加便捷、高效的智能生活。

然而,AI系統(tǒng)的不可控性依然是一個(gè)不容忽視的問(wèn)題。在推動(dòng)世界邁向Agent時(shí)代的過(guò)程中,包括谷歌在內(nèi)的大模型公司必須始終保持警惕,確保系統(tǒng)低風(fēng)險(xiǎn)運(yùn)行,牢牢把握安全的方向盤,為用戶帶來(lái)更加安心、可靠的智能體驗(yàn)。(文/宋雨涵)

分享到

lixiangjing

算力豹主編

相關(guān)推薦