推理 AI 模型 Grok3 mini 也不容小覷。它和 Grok 3 在多方面性能上都超過或媲美 Gemini、DeepSeek 和 ChatGPT 等對手,在 MMLU 這一用于評估語言模型語言理解能力的基準(zhǔn)測試中,展現(xiàn)出了強大的實力。
而名為 Deepsearch 的 Grok 3 智能搜索引擎模型更是一大亮點。Deepsearch 被 xAI 工程師定義為 “第一代廣泛代理工具”,它不僅能幫助工程師、科研人員編寫代碼,還能為普通用戶解答日常問題。
據(jù)悉,Grok 3 在訓(xùn)練過程中調(diào)用了 10 萬個 Nvidia H100 芯片。如此大規(guī)模的 GPU 集群為 Grok 3 提供了強大的計算能力,使其能夠處理極其復(fù)雜的任務(wù),相比前一代 Grok 2 使用的 15,000 個 GPU 實現(xiàn)了數(shù)倍的提升。
性能測試:在 AIME’24 數(shù)學(xué)能力測試中,Grok-3 取得了 52 分,明顯高于 DeepSeek-V3 的 39 分。在 GPQA 科學(xué)知識評估中,Grok-3 以 75 分領(lǐng)先 DeepSeek-V3 的 65 分。此外,在 LCB Oct – Feb 編程能力測試中,Grok-3 也以 57 分的成績超越了 DeepSeek-V3 的 36 分。
成本與應(yīng)用場景:Grok-3 屬于重資產(chǎn)投入模式,而 DeepSeek R1 開源版本僅用了行業(yè) 1/50 的訓(xùn)練成本就實現(xiàn)了頂級性能,API 調(diào)用價格更是低至 0.001 元 / 千 Tokens。DeepSeek 在中文語義理解的準(zhǔn)確性上有優(yōu)勢,并且在深圳福田區(qū)政務(wù)系統(tǒng)應(yīng)用中,將辦事流程壓縮 60%,其在 “本土化場景” 方面具有強大的護城河。
功能特性:Grok 3 更像是一個全能選手,在對話和推理方面表現(xiàn)出色,能作為日常的對話伙伴,以幽默、輕松的方式與人類交流。而 DeepSeek 更像是專攻某一領(lǐng)域的高手,在處理復(fù)雜的分析任務(wù)或特定行業(yè)問題上特別厲害。
性能表現(xiàn):據(jù) xAI 稱,Grok 3 在復(fù)雜推理任務(wù)中的表現(xiàn)優(yōu)于 OpenAI 的 GPT-4o 等模型,但有 xAI 員工稱 Grok 3 的編程能力優(yōu)于 DeepSeek R1,但不及 OpenAI。
響應(yīng)速度:Grok 3 在響應(yīng)速度上表現(xiàn)出色,能夠在微秒級別內(nèi)給出回答,在處理復(fù)雜查詢時幾乎無延遲,與 OpenAI 的 GPT-4 相比,Grok 3 在速度上具有明顯優(yōu)勢。
多語言能力:Grok 3 在處理多種語言方面表現(xiàn)出色,尤其是對亞洲語言的支持,能夠理解地方俚語,并通過智能數(shù)據(jù)訓(xùn)練方法支持罕見語言。相比之下,OpenAI 的模型在多語言支持上仍有提升空間。
開源策略:與 OpenAI 的閉源模型不同,xAI 的 Grok 3 預(yù)計將繼續(xù)沿用開源策略,這將使全球開發(fā)者能夠自由訪問和使用該模型,促進技術(shù)的快速傳播和創(chuàng)新。
總之,Grok 3 的發(fā)布為 AI 領(lǐng)域帶來了新的活力和競爭,與 DeepSeek、OpenAI 的產(chǎn)品各有千秋,未來 AI 領(lǐng)域的競爭和發(fā)展態(tài)勢值得持續(xù)關(guān)注。