對(duì)于苦苦追趕 OpenAI 幾個(gè)月的谷歌來(lái)說(shuō),這次在基準(zhǔn)測(cè)試上的勝利十分振奮人心。
可惜振奮的時(shí)間不長(zhǎng):昨天,GPT-4o一個(gè)更新,把第一名的位置搶回來(lái)了。
奧特曼慶功的話音剛落,Gemini-Exp-1121殺出來(lái),又把第一名搶走了。
風(fēng)流涌動(dòng),大模型更新迭代以周為單位
從官方發(fā)布的介紹來(lái)看,Gemini-Exp-1114的亮點(diǎn)主要在于質(zhì)量改進(jìn),而最新的 Gemini-Exp-1121重點(diǎn)改進(jìn)了編碼、推理和視覺(jué)能力。
這場(chǎng)爭(zhēng)奪戰(zhàn)的出現(xiàn),卻引出了另外一個(gè)角度的話題:當(dāng)前的人工智能基準(zhǔn)測(cè)試方法可能大大簡(jiǎn)化了模型評(píng)估。
就比如一周前,當(dāng)研究人員控制了響應(yīng)格式和長(zhǎng)度等表面因素時(shí),Gemini-Exp-1114的表現(xiàn)下降到第四位,因?yàn)閭鹘y(tǒng)指標(biāo)可能會(huì)夸大感知能力。
這種差異揭示了人工智能評(píng)估中的一個(gè)根本問(wèn)題:模型可以通過(guò)優(yōu)化表面特征而不是展示推理或可靠性的真正改進(jìn)來(lái)獲得高分。對(duì)定量基準(zhǔn)的關(guān)注引發(fā)了一場(chǎng)爭(zhēng)奪更高分?jǐn)?shù)的競(jìng)賽,行業(yè)對(duì)排行榜的依賴也會(huì)催生一些不良激勵(lì)方式,而這些都無(wú)關(guān)于人工智能的真正進(jìn)步。
各個(gè)廠商針對(duì)特定測(cè)試場(chǎng)景優(yōu)化模型,同時(shí)可能忽略安全性、可靠性和實(shí)用性等更廣泛的問(wèn)題。這種方法產(chǎn)生的AI系統(tǒng)擅長(zhǎng)完成狹隘的預(yù)定任務(wù),但在處理細(xì)微的現(xiàn)實(shí)世界互動(dòng)時(shí)卻舉步維艱。
比如有人就發(fā)現(xiàn)在LiveBench上,一周后更新的Gemini-Exp-1121版本,在數(shù)學(xué)和推理能力上反而比不上Gemini-Exp-1114,令人疑惑。
廠商之間為獲得更高的基準(zhǔn)分?jǐn)?shù)而展開(kāi)的競(jìng)爭(zhēng)并不會(huì)停止,但真正的競(jìng)爭(zhēng)可能在于如何開(kāi)發(fā)全新的框架來(lái)評(píng)估和確保人工智能系統(tǒng)的安全性和可靠性。
谷歌Gemini 2.0 將于12月第二周發(fā)布!
谷歌AI新王牌蓄勢(shì)待發(fā)!
就在今天,一條來(lái)自谷歌內(nèi)部的消息在科技圈掀起了波瀾。
谷歌云AI客戶工程區(qū)域主管Dambo Ren透露:新版Gemini 將在12月發(fā)布!
更為確切地,據(jù)傳,備受期待的Gemini 2.0 將于12月的第二周面世,并將帶來(lái)一系列令人矚目的新特性。
新特性令人矚目
據(jù)悉,作為AI技術(shù)的又一次飛躍,Gemini 2將帶來(lái)一系列令人矚目的新特性。
CoT(Chain of Thought)推理能力將成為Gemini 2的一大亮點(diǎn)。這意味著模型在處理復(fù)雜任務(wù)時(shí),將能夠更好地模擬人類的思維鏈條,從而提高解決問(wèn)題的效率和準(zhǔn)確性。
此外,多模態(tài)能力的增強(qiáng)也讓人期待不已。Gemini 2將在視覺(jué)、聽(tīng)覺(jué)等多種感知模式上實(shí)現(xiàn)更自然的交互,進(jìn)一步突破人機(jī)交互的界限。
上下文窗口的擴(kuò)展同樣引人注目。Gemini 2將支持3到5百萬(wàn)的上下文窗口,這將極大地提升模型在處理長(zhǎng)文本和復(fù)雜背景信息時(shí)的表現(xiàn)。
最令人興奮的是,”Project Jarvis”的泄露。這一項(xiàng)目據(jù)稱將打造一個(gè)類似于Claude 3.6的智能代理,深度整合于谷歌生態(tài)系統(tǒng)。此舉無(wú)疑將為用戶提供更為智能和無(wú)縫的體驗(yàn)。
谷歌的雄心還在于AI Agent
上周微軟在“Microsoft ignite 2024”大會(huì)上發(fā)布10多個(gè)商用AI Agent后,
科技巨頭谷歌也宣布全力推廣商用AI Agent,發(fā)布一系列激勵(lì)活動(dòng)和產(chǎn)品。谷歌云將提供從AI Agent的開(kāi)發(fā)、部署到應(yīng)用一站式商用生態(tài)。
此外,谷歌還特意發(fā)布了全球?yàn)閿?shù)不多的商用AI Agent市場(chǎng),有點(diǎn)類似蘋果的Store,只不過(guò)針對(duì)的是企業(yè)用戶。而開(kāi)發(fā)者也能通過(guò)用戶的購(gòu)買來(lái)賺取傭金。
谷歌全力推廣AI Agent
為了幫助合作伙伴、開(kāi)發(fā)者在商用AI Agent上取得成功,谷歌云發(fā)布了一系列激勵(lì)計(jì)劃。包括專門為AI Agent解決方案提供共同銷售機(jī)會(huì),擴(kuò)大市場(chǎng)覆蓋范圍,增加銷售機(jī)會(huì)。
谷歌云通過(guò)各種市場(chǎng)資源,例如,廣告和活動(dòng),提高合作伙伴AI Agent的知名度,并通過(guò)博客和專門的活動(dòng)展示合作伙伴的明星級(jí)產(chǎn)品,增加AI Agent的曝光率,幫助合作伙伴在競(jìng)爭(zhēng)激烈的AI Agent生態(tài)系統(tǒng)中脫穎而出。
AI Agent市場(chǎng)(Space)則是谷歌推廣計(jì)劃中非常重磅的一個(gè)產(chǎn)品,才剛剛上線幾天可用的產(chǎn)品并不多只有19款,還在持續(xù)更新中。但對(duì)于AI Agent的商業(yè)發(fā)展具有里程碑意義。
用戶可以在AI Agent市場(chǎng)中快速找到想要的AI Agent,極大簡(jiǎn)化了客戶的選擇和部署流程。同時(shí),還提供了免費(fèi)試用的機(jī)會(huì),新客戶可以獲得300美元的免費(fèi)信用額度,來(lái)體驗(yàn)選中的產(chǎn)品。
結(jié)語(yǔ)
谷歌在大模型領(lǐng)域的雄心顯而易見(jiàn),其通過(guò)不斷推出創(chuàng)新的人工智能模型來(lái)鞏固和擴(kuò)大其在該領(lǐng)域的領(lǐng)先地位。
AI領(lǐng)域的激烈競(jìng)爭(zhēng)態(tài)勢(shì),在OpenAI、谷歌等科技巨頭的角力中,每一次重要發(fā)布都可能改變行業(yè)格局。不過(guò)無(wú)論如何,谷歌選擇在年底這個(gè)時(shí)間點(diǎn)發(fā)布新版Gemini,必將為AI競(jìng)爭(zhēng)掀開(kāi)新的篇章。(文/宋雨涵)