在X平臺(tái)上發(fā)布的一篇文章中,Jeff Dean詳細(xì)介紹了Gemini 2.0 Flash Thinking。他指出,該模型經(jīng)過(guò)特殊訓(xùn)練,能夠通過(guò)“思考”來(lái)強(qiáng)化其推理能力,并且得益于Gemini Flash 2.0模型的速度優(yōu)勢(shì)。他還通過(guò)演示展示了模型如何通過(guò)一系列有序的“思考”步驟,最終解答物理問(wèn)題。
值得注意的是,Gemini 2.0 Flash Thinking在推理方式上借鑒了o1模型的慢思維策略,能夠深度展示整個(gè)思維鏈條,特別是在解決數(shù)學(xué)、編程等復(fù)雜問(wèn)題時(shí),能夠持續(xù)輸出完整的推理過(guò)程,而非直接給出答案。
此外,Gemini 2.0 Flash Thinking支持多模態(tài)推理,現(xiàn)已開(kāi)放使用。用戶(hù)可以在Google AI Studio和Vertex AI的Gemini API中體驗(yàn)該模型。
Google近期推出的Gemini 2.0 Flash不僅支持多模式輸入,如圖像、視頻和音頻,還具備多模式輸出能力,包括結(jié)合文本的原生圖像生成和可控的文本轉(zhuǎn)語(yǔ)音(TTS)多語(yǔ)言音頻。該模型還能原生調(diào)用Google搜索等工具,執(zhí)行代碼,并集成第三方用戶(hù)自定義函數(shù)。
更新內(nèi)容與產(chǎn)品實(shí)測(cè)
新的Thinking模型是以剛發(fā)布的2.0 Flash版本為基礎(chǔ),使用了類(lèi)似o1模型的慢思維思考方式,可以深度可視化展示整個(gè)思維鏈過(guò)程,尤其是在執(zhí)行數(shù)學(xué)、編程等復(fù)雜問(wèn)題方面,能持續(xù)輸出全部推理過(guò)程,而不是直接給出答案。
值得一提的是,Thinking是支持多模態(tài)推理的。
例如,讓Thinking模型解讀一道非常復(fù)雜的物理題:一個(gè)電子被困在一維無(wú)限勢(shì)阱中,其邊界位于\(x = -0.15 \) nm 和 \( x = +0.15 \) nm。求當(dāng)電子在勢(shì)阱中改變能級(jí)時(shí)發(fā)射出的四個(gè)最長(zhǎng)波長(zhǎng)的光子。
Thinking可以完完整整地展現(xiàn)出所有的推理過(guò)程。
也可以讓Thinking推理一下圖片:如何使用這些數(shù)字中的三個(gè),使其相加總和為 30 呢?
思考速度比所有模型快5倍
根據(jù)Chatbot Arena LLM Leaderboard最新評(píng)測(cè)數(shù)據(jù)顯示,Thinking模型在代碼、數(shù)學(xué)、指令遵循、多輪測(cè)試等基準(zhǔn)測(cè)試中,全部排名第一,超過(guò)了o1的預(yù)覽版。
“雙雄”爭(zhēng)霸,誰(shuí)將勝出
news
一、功能特點(diǎn)
模型 | 功能描述 |
OpenAI o1系列 | 1. 在回答問(wèn)題前會(huì)進(jìn)行深入思考,并生成一條內(nèi)部推理鏈,使其在嘗試解決問(wèn)題時(shí)可以識(shí)別并糾正錯(cuò)誤。 |
2. 能夠?qū)?fù)雜的步驟分解為更簡(jiǎn)單的部分,并在當(dāng)前方法無(wú)效時(shí)嘗試不同的途徑。 | |
3. 支持圖片輸入和高級(jí)視覺(jué)功能,并附帶全新的偏好微調(diào)方法。 | |
4. 包括o1-preview、o1和o1-mini三個(gè)型號(hào),其中o1-mini是一種更快、更便宜的推理模型,適用于需要推理但不需廣泛世界知識(shí)的應(yīng)用。 | |
谷歌Gemini 2.0 | 1. 支持32000個(gè)輸入標(biāo)記(大約50到60頁(yè)文本),輸出響應(yīng)可以達(dá)到8000個(gè)標(biāo)記。 |
2. 允許用戶(hù)通過(guò)下拉菜單訪問(wèn)模型的逐步推理過(guò)程,增強(qiáng)了透明性,有效解決了AI被視為“黑箱”的問(wèn)題。 | |
3. 具備原生圖像上傳與分析功能,支持原生圖像和多語(yǔ)言音頻輸出,以及原生工具使用,能夠理解和處理包括文本、圖像、視頻和音頻在內(nèi)的多種輸入類(lèi)型,并提供相應(yīng)的輸出結(jié)果。 | |
4. Flash Thinking模型比基礎(chǔ)版本的Gemini 2.0 Flash模型具備更強(qiáng)的推理能力。 |
二、性能指標(biāo)
模型 | 性能指標(biāo) |
OpenAI o1系列 | 數(shù)學(xué)水平與美國(guó)奧林匹克競(jìng)賽(AIME)前500名的選手相當(dāng),在物理、生物和化學(xué)領(lǐng)域超過(guò)了人類(lèi)博士的水平。 |
谷歌Gemini 2.0 | 1. 在關(guān)鍵基準(zhǔn)測(cè)試中,相較于前代Gemini 1.5 Pro性能大幅提升,速度至高提升兩倍。 |
2. 在SWE-bench Verified基準(zhǔn)上,Gemini 2.0 Flash表現(xiàn)出色,擊敗了完整版的o1。 | |
3. 在一些簡(jiǎn)單測(cè)試中,Gemini 2.0能夠快速(在一到三秒內(nèi))正確回答一些復(fù)雜問(wèn)題。 |
三、應(yīng)用前景
模型 | 應(yīng)用前景描述 |
OpenAI o1系列 | 適用于多個(gè)領(lǐng)域,特別是在需要復(fù)雜推理和科學(xué)計(jì)算的應(yīng)用場(chǎng)景中展現(xiàn)出強(qiáng)大的能力。 |
谷歌Gemini 2.0 | 1. 基于Gemini 2.0,谷歌推出了一系列AI Agent新品,包括通用大模型助手Project Astra、瀏覽器助手Project Mariner、編程助手Jules等,進(jìn)一步拓展了其應(yīng)用邊界。 |
2. 在智能家居、智能醫(yī)療、智能教育等領(lǐng)域具有廣泛的應(yīng)用前景,能夠通過(guò)多模態(tài)交互方式為用戶(hù)提供更加高效、便捷的服務(wù)。 |
OpenAI的o1系列和谷歌的Gemini 2.0,代表了當(dāng)前AI發(fā)展的兩大方向:安全與推理 vs 多模態(tài)與實(shí)用。它們各有千秋,難分伯仲。
OpenAI的o1系列在邏輯推理、數(shù)據(jù)安全和算法穩(wěn)定性方面表現(xiàn)出色,但其應(yīng)用場(chǎng)景相對(duì)有限,主要集中在一些需要高度安全性和準(zhǔn)確性的領(lǐng)域。相比之下,谷歌的Gemini 2.0在數(shù)據(jù)處理能力、實(shí)用性和靈活性方面更具優(yōu)勢(shì),能夠處理多種數(shù)據(jù)類(lèi)型,并快速生成實(shí)用的信息和決策。然而,Gemini 2.0在算法安全性和穩(wěn)定性方面可能存在一定的挑戰(zhàn)。
隨著AI技術(shù)的不斷發(fā)展,各行各業(yè)對(duì)AI系統(tǒng)的需求也在不斷增加。OpenAI的o1系列在金融、醫(yī)療等需要高度安全性和準(zhǔn)確性的領(lǐng)域具有廣闊的應(yīng)用前景。而谷歌的Gemini 2.0則在智能客服、智能家居、自動(dòng)駕駛等需要處理多種數(shù)據(jù)類(lèi)型并快速生成決策的場(chǎng)景中具有顯著優(yōu)勢(shì)。
未來(lái),隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展,OpenAI的o1系列和谷歌的Gemini 2.0都將在各自領(lǐng)域取得更大的發(fā)展。安全與推理和多模態(tài)與實(shí)用將不再是相互排斥的關(guān)系,而是相互融合、相互促進(jìn)的關(guān)系。未來(lái)的AI系統(tǒng)將更加注重算法的穩(wěn)定性、安全性和實(shí)用性,能夠處理更加復(fù)雜多變的數(shù)據(jù)和任務(wù)。
寫(xiě)在最后
隨著人工智能領(lǐng)域的競(jìng)爭(zhēng)愈演愈烈,Gemini 2.0 Flash Thinking或?qū)⒁I(lǐng)問(wèn)題解決模型邁入一個(gè)嶄新的紀(jì)元。它憑借對(duì)多元數(shù)據(jù)類(lèi)型的卓越處理能力、直觀的可視化推理展現(xiàn),以及大規(guī)模的執(zhí)行效率,在推理人工智能市場(chǎng)中嶄露頭角,成為一股不可小覷的力量,足以與OpenAI的o1系列等頂尖產(chǎn)品并駕齊驅(qū),一展風(fēng)采。(文/宋雨涵)