近期,谷歌發(fā)表了專為agentic AI時代打造的多模態(tài)語言模型Gemini 2.0,并開放Gemini 2.0 Flash測試版,及三類智能體(agent)。
谷歌 CEO Sundar Pichai指出,去年年底及今年8月分別推出的Gemini 1.0和1.5,以Gemini模型發(fā)展出7種產(chǎn)品,包括多模態(tài)AI筆記應(yīng)用NotebookLM,用戶超過20億。今年以來谷歌投入研發(fā)智能體模型(agentic model),最新的Gemini 2.0是為新智能體AI時代所打造的模型。
Gemini 2.0具備多模態(tài)輸出,原生生成圖片及輸出音頻的功能,并整合在谷歌搜索及地圖里。
谷歌還公布了Gemini 2.0系列第一款模型,名為Gemini 2.0 Flash。它是以最受開發(fā)人員歡迎的1.5 Flash為基礎(chǔ)開發(fā),在理解、數(shù)學、推理、事實貼近、圖像辨識、語音辨識及影像分析等多個標準測試中,大幅超越前一代Flash模型,甚至1.5 Pro模型。
Gemini 2.0 Flash目前還是測試版。所有開發(fā)人員都能測試多模態(tài)輸入及文字輸出,部分合作伙伴已經(jīng)能試用語音生成及原生圖片生成功能。伴隨Gemini 2.0 Flash的公布,谷歌還發(fā)布了新的Multimodal Live API,后者具備即時音頻、影像串流輸入等工具。
谷歌預(yù)計2025年1月,會再推出更多參數(shù)量版本的Gemini 2.0模型。
此外,谷歌還公布了以Gemini 2.0為基礎(chǔ)的三個智能體研究原型。一是以Gemini 2.0升級的Project Astra,能在混合及多種語言環(huán)境下轉(zhuǎn)換語言,且能理解不同腔調(diào)和罕見字,可用于Google Search、Lens和Maps。
2個Gemini 2.0為基礎(chǔ)的新智能體,分別為Project Mariner和Jules。Project Mariner是可在瀏覽器運行的新智能體,以Gemini 2.0為基礎(chǔ)讓它能理解像素、或是Web元素如文字、代碼、圖片及表格,還能透過一款Chrome擴展程序來執(zhí)行任務(wù),像是讀取網(wǎng)頁、生成摘要。Jules則是可整合到GitHub工作流程的程序智能體,能處理問題、建立規(guī)劃或執(zhí)行,旨在加速開發(fā),但全可由開發(fā)人員控制和監(jiān)控。