在測試數(shù)學能力的 AIME24 評測集上,以及評估代碼能力的 LiveCodeBench 中,千問 QwQ-32B 表現(xiàn)與DeepSeek-R1相當,遠勝于 o1-mini 及相同尺寸的R1 蒸餾模型;在由Meta首席科學家楊立昆領銜的“最難LLMs評測榜” LiveBench、谷歌等提出的指令遵循能力IFEval評測集、由加州大學伯克利分校等提出的評估準確調用函數(shù)或工具方面的BFCL測試中,千問 QwQ-32B 的得分均超越了 DeepSeek- R1。

大規(guī)模強化學習

我們在冷啟動的基礎上開展了大規(guī)模強化學習。在初始階段,特別針對數(shù)學和編程任務進行了 RL 訓練。與依賴傳統(tǒng)的獎勵模型(reward model)不同,我們通過校驗生成答案的正確性來為數(shù)學問題提供反饋,并通過代碼執(zhí)行服務器評估生成的代碼是否成功通過測試用例來提供代碼的反饋。

我們發(fā)現(xiàn)在 RL 擴展過程中,隨著訓練輪次的推進,這兩個領域中的性能均表現(xiàn)出持續(xù)的提升。

在第一階段的 RL 過后,我們增加了另一個針對通用能力的 RL。此階段使用通用獎勵模型和一些基于規(guī)則的驗證器進行訓練。我們發(fā)現(xiàn),通過少量步驟的通用 RL,可以提升其他通用能力,同時在數(shù)學和編程任務上的性能沒有顯著下降。

通過API使用QwQ-32B

以下我們展示了一段簡短的示例代碼,說明如何通過 API 使用 QwQ-32B。

未來

這是Qwen在大規(guī)模強化學習(RL)以增強推理能力方面的第一步。通過這一旅程,我們不僅見證了擴展RL的巨大潛力,還認識到預訓練語言模型中尚未開發(fā)的可能性。

在致力于開發(fā)下一代Qwen的過程中,我們相信將更強大的基礎模型與依托規(guī)?;嬎阗Y源的RL相結合,將會使我們更接近實現(xiàn)人工通用智能(AGI)。此外,我們正在積極探索將智能體與RL集成,以實現(xiàn)長時推理,目標是通過推理時間擴展來釋放更高的智能,敬請期待。

歡迎體驗

目前,QwQ-32B 已在 Hugging Face (https://huggingface.co/Qwen/QwQ-32B) 和 ModelScope (https://modelscope.cn/models/Qwen/QwQ-32B) 開源,并采用了 Apache 2.0 開源協(xié)議。

也歡迎大家通過 Qwen Chat

 (https://chat.qwen.ai/?models=Qwen2.5-Plus)直接進行體驗!

【來源:通義千問Qwen】

分享到

xiesc

相關推薦