亚洲一区二区久久久,日本精品人妻,国产成人一区二区精品视频

OpenAI新模型o3和o4-mini等在數(shù)學(xué)競(jìng)賽、編程、指令遵循和工具調(diào)用方面的表現(xiàn)

與此同時(shí)，OpenAI推出的o4-mini是一款輕量級(jí)模型，專為追求快速響應(yīng)與成本效益的推理任務(wù)而設(shè)計(jì)。盡管體積小巧、成本低廉，o4-mini在數(shù)學(xué)、編程及視覺(jué)任務(wù)上的表現(xiàn)卻令人矚目，實(shí)現(xiàn)了性能與資源消耗的完美平衡。

o4-mini在AIME 2024及2025基準(zhǔn)測(cè)試中脫穎而出，成為表現(xiàn)最優(yōu)的模型。專家評(píng)估顯示，在非STEM領(lǐng)域及數(shù)據(jù)科學(xué)等任務(wù)中，o4-mini同樣超越了其前身o3-mini。得益于其高效性，o4-mini支持的使用限制遠(yuǎn)高于o3，為解決需要深度推理能力的問(wèn)題提供了強(qiáng)大且高效的高容量、高吞吐量解決方案。

Altman發(fā)文盛贊新視覺(jué)推理模型：天才水平

圖像思考與工具鏈自主決策

視覺(jué)推理新范式

o3和o4-mini首次將圖像直接融入思維鏈（Chain-of-Thought），模型不僅能“看到”圖像，還能通過(guò)裁剪、旋轉(zhuǎn)、縮放等操作進(jìn)行深度分析。即使面對(duì)模糊、倒置或低質(zhì)量圖片，模型仍能準(zhǔn)確提取信息。例如，用戶上傳手繪草圖或白板照片，模型可結(jié)合Python代碼和網(wǎng)絡(luò)搜索工具，生成可視化圖表或解決方案。

工具調(diào)用智能化

兩款模型被訓(xùn)練為“AI智能體”，可自主調(diào)用ChatGPT內(nèi)置工具（如網(wǎng)頁(yè)搜索、Python代碼執(zhí)行、圖像生成），并動(dòng)態(tài)組合使用。例如，當(dāng)用戶詢問(wèn)“加州夏季能源使用趨勢(shì)”時(shí)，模型會(huì)搜索公共數(shù)據(jù)、編寫代碼預(yù)測(cè)、生成圖表并解釋關(guān)鍵因素，整個(gè)過(guò)程耗時(shí)不到1分鐘。

OpenAI通過(guò)強(qiáng)化學(xué)習(xí)（RL）優(yōu)化工具使用策略，模型不僅能判斷“何時(shí)用工具”，還能根據(jù)任務(wù)目標(biāo)靈活調(diào)整策略，例如在數(shù)學(xué)競(jìng)賽中先暴力計(jì)算再優(yōu)化解法。

二、性價(jià)比質(zhì)的飛躍

OpenAI稱o3和o4-mini在很多情況下，它們都比各自的前代o1與o3-mini更高效，也更節(jié)省成本。在AME2025基準(zhǔn)測(cè)試中，性價(jià)比都遠(yuǎn)遠(yuǎn)超過(guò)前代模型。

o4-mini和o3-mini在成本和性能方面的對(duì)比：

o3和o1在成本和性能方面的對(duì)比：

仍有三大局限性

推理鏈過(guò)程、感知錯(cuò)誤、可靠性不足

推理鏈冗長(zhǎng)：模型在執(zhí)行任務(wù)時(shí)，可能進(jìn)行大量冗余或不必要的工具調(diào)用與圖像處理操作，致使思維鏈過(guò)長(zhǎng)。

感知失誤：盡管工具調(diào)用能正常推進(jìn)推理流程，但模型仍可能犯下基本的感知錯(cuò)誤，視覺(jué)層面的誤解會(huì)直接導(dǎo)致最終答案出現(xiàn)偏差。

可靠性欠佳：在多次嘗試解決問(wèn)題時(shí)，模型可能會(huì)采用不同的視覺(jué)推理過(guò)程，部分過(guò)程可能導(dǎo)致錯(cuò)誤結(jié)果。

未來(lái)展望

OpenAI o3和o4-mini顯著提升了模型的視覺(jué)推理能力，這些模型在視覺(jué)感知任務(wù)上的提升，使其能夠解決之前模型難以觸及的問(wèn)題，標(biāo)志著模型向多模態(tài)推理邁出的重要一步。

OpenAI在博客中提到，他們將o系列的專業(yè)推理能力與GPT系列的自然對(duì)話能力和工具使用能力相結(jié)合，未來(lái)可以實(shí)現(xiàn)模型能支持無(wú)縫、自然的對(duì)話，同時(shí)能主動(dòng)使用工具并解決更為復(fù)雜的問(wèn)題。

分享到

OpenAI

lixiangjing

算力豹主編

lixiangjing

相關(guān)推薦

近期文章

熱門標(biāo)簽