阿里巴巴最新開源的推理模型通義千問QwQ-32B以綜合評分92.3分位列全球第五,超越OpenAI-GPT-4.5preview(91.8分)、Google-Gemini2.0(90.1分)等頂尖閉源模型,成為榜單前十中僅有的兩款開源模型之一。

文字編輯|宋雨涵

1

LiveBench的權(quán)威性

不可操控的評測基準(zhǔn)升

LiveBench的權(quán)威性源于其獨(dú)特的評測機(jī)制和嚴(yán)格的評估標(biāo)準(zhǔn)。該榜單由楊立昆聯(lián)合Abacus.AI、紐約大學(xué)等機(jī)構(gòu)共同推出,旨在通過多維度、動(dòng)態(tài)更新的評測體系,全面衡量大模型的綜合能力。其核心特點(diǎn)包括:

全面覆蓋六大能力:評測維度涵蓋推理、編程、數(shù)學(xué)、數(shù)據(jù)分析、語言理解和指令遵循,幾乎覆蓋了當(dāng)前AI大模型的所有核心應(yīng)用場景。

實(shí)時(shí)更新的題庫:每月更新的動(dòng)態(tài)題庫有效杜絕了模型通過針對性訓(xùn)練或微調(diào)“刷分”的可能性,確保了評測的公平性和真實(shí)性。

行業(yè)公認(rèn)的公正性:LiveBench因其評測結(jié)果的客觀性,被公認(rèn)為“世界上第一個(gè)不可玩弄的LLM基準(zhǔn)測試”,成為全球大模型研發(fā)團(tuán)隊(duì)的重要參考。

這種評測機(jī)制不僅考驗(yàn)?zāi)P偷撵o態(tài)性能,更強(qiáng)調(diào)其在動(dòng)態(tài)環(huán)境中的適應(yīng)能力。例如,在指令遵循(IF Average)這一關(guān)鍵指標(biāo)中,模型需精準(zhǔn)捕捉用戶模糊需求背后的真實(shí)意圖,對細(xì)節(jié)控制力要求極高。此次榜單中,中國模型在這一指標(biāo)上的突破尤為亮眼。

全球大模型排名:中美競爭與技術(shù)分化

關(guān)鍵發(fā)現(xiàn)與結(jié)論

參數(shù)效率革命:

QwQ-32B僅320億參數(shù),即達(dá)到與670億參數(shù)DeepSeek-R1(71.57分)相當(dāng)?shù)木C合性能,參數(shù)效率比提升超2倍。

成本優(yōu)勢凸顯:

結(jié)合用戶歷史數(shù)據(jù),QwQ-32B支持消費(fèi)級顯卡(RTX 4090)本地部署,推理成本僅為GPT-4o的1/40,為中小企業(yè)提供低成本AI部署路徑。

領(lǐng)域能力對比:結(jié)構(gòu)化任務(wù) vs 通用語言

數(shù)學(xué)與編碼:QwQ-32B數(shù)學(xué)平均分77.82分(全球第二)、編碼72.23分(超越DeepSeek-R1的66.74分),展現(xiàn)其在金融風(fēng)控、代碼生成等結(jié)構(gòu)化場景的統(tǒng)治力。

推理能力:83.50分僅次于OpenAI高端模型,適合需要高精度邏輯推理的工業(yè)質(zhì)檢、醫(yī)療影像分析等場景。

語言能力:51.35分較OpenAI最低模型(gpt-4.5-preview未公布)仍存差距,中文語義理解與長上下文連貫性需優(yōu)化。

多模態(tài)缺失:表格未包含視覺任務(wù)評分,而Anthropic、DeepSeek已布局多模態(tài),可能形成差異化競爭壁壘。

開源生態(tài)的里程碑

QwQ-32B開源首日衍生模型破10萬,Hugging Face下載量超50萬次,生態(tài)規(guī)模超Meta Llama 2,驗(yàn)證了“小模型+強(qiáng)化學(xué)習(xí)”路徑的可行性。

招商銀行信用卡欺詐識別準(zhǔn)確率提升至98.7%(用戶提供案例),顯示其在垂直場景的快速適配能力。

2

全球最強(qiáng)開源模型

QwQ-32B:小巧而強(qiáng)大的推理模型

架構(gòu)創(chuàng)新

QwQ-32B基于Qwen2.5-32B構(gòu)建,采用64層Transformer架構(gòu),融合RoPE注意力機(jī)制、SwiGLU激活函數(shù)、RMSNorm歸一化及注意力QKV偏置技術(shù),實(shí)現(xiàn)參數(shù)效率的革命性提升。其支持32K tokens長上下文,可處理復(fù)雜多步驟推理任務(wù),例如數(shù)學(xué)證明、代碼調(diào)試等。

強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的“思考”能力

模型通過雙階段強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練實(shí)現(xiàn)深度推理:

第一階段

基于嚴(yán)格結(jié)果驗(yàn)證器(如數(shù)學(xué)題對錯(cuò)、代碼運(yùn)行結(jié)果),快速掌握專業(yè)技能。

第二階段

引入通用強(qiáng)化學(xué)習(xí),學(xué)習(xí)環(huán)境反饋與策略調(diào)整,模擬人類批判性思考。

此外,集成結(jié)構(gòu)化自我提問機(jī)制,使模型能像人類一樣分步驟拆解問題并動(dòng)態(tài)優(yōu)化路徑。

輕量化部署

通過混合精度量化(FP16/BF16)和動(dòng)態(tài)稀疏注意力機(jī)制,顯存占用壓縮至18-24GB,支持在消費(fèi)級顯卡(如RTX 4090)本地運(yùn)行,推理速度達(dá)30-50 token/s,成本僅為DeepSeek-R1的1/10。

全球影響力:開源生態(tài)的新標(biāo)桿

QwQ-32B開源首日即登頂全球AI社區(qū)HuggingFace模型榜,成為全球最受歡迎的開源大模型。目前,該模型已接入國家超算互聯(lián)網(wǎng)平臺、廣州人工智能公共算力中心及多所985、211高校,如東南大學(xué)、天津大學(xué)、山東大學(xué)等。

在產(chǎn)業(yè)界,壁仞科技、摩爾線程、硅基流動(dòng)、CAMEL-AI、OpenRouter、SambaNova Cloud等海內(nèi)外企業(yè)紛紛推出基于QwQ-32B的算力產(chǎn)品或API服務(wù)。

其中,SambaNova Systems通過其云平臺SambaNova Cloud提供QwQ-32B訪問,顯著提升了輸出速度。此外,SGlang、Ollama、CAMEL-AI、OpenReuter、SiliconCloud(、Huggingchat和ChatLLM等領(lǐng)先AI產(chǎn)品也已集成QwQ-32B,以增強(qiáng)其功能。

寫在最后

2025人工智能基礎(chǔ)設(shè)施峰會即將啟幕

AI Infrastructure Summit

隨著QwQ-32B在LiveBench榜單上的出色表現(xiàn),我們可以預(yù)見中國開源AI模型將在全球AI競爭中扮演越來越重要的角色。阿里云通義千問團(tuán)隊(duì)正在探索將代理能力與強(qiáng)化學(xué)習(xí)進(jìn)一步結(jié)合,以實(shí)現(xiàn)長期推理,通過推理時(shí)間擴(kuò)展解鎖更強(qiáng)大的智能。

QwQ-32B的成功也為AI模型的發(fā)展提供了新思路:在追求更大參數(shù)規(guī)模的同時(shí),通過創(chuàng)新的算法和訓(xùn)練方法,可以在相對較小的參數(shù)規(guī)模下實(shí)現(xiàn)卓越性能,從而降低部署門檻,推動(dòng)AI技術(shù)的普及應(yīng)用。

隨著開源AI生態(tài)的不斷壯大,我們有理由相信,中國的AI技術(shù)將繼續(xù)在全球舞臺上綻放光彩,為人類智能的進(jìn)步貢獻(xiàn)更多中國智慧。

分享到

lixiangjing

算力豹主編

相關(guān)推薦