OpenAI新模型o3和o4-mini等在數(shù)學(xué)競賽、編程、指令遵循和工具調(diào)用方面的表現(xiàn)
與此同時,OpenAI推出的o4-mini是一款輕量級模型,專為追求快速響應(yīng)與成本效益的推理任務(wù)而設(shè)計。盡管體積小巧、成本低廉,o4-mini在數(shù)學(xué)、編程及視覺任務(wù)上的表現(xiàn)卻令人矚目,實現(xiàn)了性能與資源消耗的完美平衡。
o4-mini在AIME 2024及2025基準(zhǔn)測試中脫穎而出,成為表現(xiàn)最優(yōu)的模型。專家評估顯示,在非STEM領(lǐng)域及數(shù)據(jù)科學(xué)等任務(wù)中,o4-mini同樣超越了其前身o3-mini。得益于其高效性,o4-mini支持的使用限制遠(yuǎn)高于o3,為解決需要深度推理能力的問題提供了強(qiáng)大且高效的高容量、高吞吐量解決方案。
Altman發(fā)文盛贊新視覺推理模型:天才水平
圖像思考與工具鏈自主決策
視覺推理新范式
o3和o4-mini首次將圖像直接融入思維鏈(Chain-of-Thought),模型不僅能“看到”圖像,還能通過裁剪、旋轉(zhuǎn)、縮放等操作進(jìn)行深度分析。即使面對模糊、倒置或低質(zhì)量圖片,模型仍能準(zhǔn)確提取信息。例如,用戶上傳手繪草圖或白板照片,模型可結(jié)合Python代碼和網(wǎng)絡(luò)搜索工具,生成可視化圖表或解決方案。
工具調(diào)用智能化
兩款模型被訓(xùn)練為“AI智能體”,可自主調(diào)用ChatGPT內(nèi)置工具(如網(wǎng)頁搜索、Python代碼執(zhí)行、圖像生成),并動態(tài)組合使用。例如,當(dāng)用戶詢問“加州夏季能源使用趨勢”時,模型會搜索公共數(shù)據(jù)、編寫代碼預(yù)測、生成圖表并解釋關(guān)鍵因素,整個過程耗時不到1分鐘。
OpenAI通過強(qiáng)化學(xué)習(xí)(RL)優(yōu)化工具使用策略,模型不僅能判斷“何時用工具”,還能根據(jù)任務(wù)目標(biāo)靈活調(diào)整策略,例如在數(shù)學(xué)競賽中先暴力計算再優(yōu)化解法。
二、性價比質(zhì)的飛躍
OpenAI稱o3和o4-mini在很多情況下,它們都比各自的前代o1與o3-mini更高效,也更節(jié)省成本。在AME2025基準(zhǔn)測試中,性價比都遠(yuǎn)遠(yuǎn)超過前代模型。
o4-mini和o3-mini在成本和性能方面的對比:
o3和o1在成本和性能方面的對比:
3
仍有三大局限性
推理鏈過程、感知錯誤、可靠性不足
推理鏈冗長:模型在執(zhí)行任務(wù)時,可能進(jìn)行大量冗余或不必要的工具調(diào)用與圖像處理操作,致使思維鏈過長。
感知失誤:盡管工具調(diào)用能正常推進(jìn)推理流程,但模型仍可能犯下基本的感知錯誤,視覺層面的誤解會直接導(dǎo)致最終答案出現(xiàn)偏差。
可靠性欠佳:在多次嘗試解決問題時,模型可能會采用不同的視覺推理過程,部分過程可能導(dǎo)致錯誤結(jié)果。
未來展望
OpenAI o3和o4-mini顯著提升了模型的視覺推理能力,這些模型在視覺感知任務(wù)上的提升,使其能夠解決之前模型難以觸及的問題,標(biāo)志著模型向多模態(tài)推理邁出的重要一步。
OpenAI在博客中提到,他們將o系列的專業(yè)推理能力與GPT系列的自然對話能力和工具使用能力相結(jié)合,未來可以實現(xiàn)模型能支持無縫、自然的對話,同時能主動使用工具并解決更為復(fù)雜的問題。