在測(cè)試數(shù)學(xué)能力的 AIME24 評(píng)測(cè)集上,以及評(píng)估代碼能力的 LiveCodeBench 中,千問(wèn) QwQ-32B 表現(xiàn)與DeepSeek-R1相當(dāng),遠(yuǎn)勝于 o1-mini 及相同尺寸的R1 蒸餾模型;在由Meta首席科學(xué)家楊立昆領(lǐng)銜的“最難LLMs評(píng)測(cè)榜” LiveBench、谷歌等提出的指令遵循能力IFEval評(píng)測(cè)集、由加州大學(xué)伯克利分校等提出的評(píng)估準(zhǔn)確調(diào)用函數(shù)或工具方面的BFCL測(cè)試中,千問(wèn) QwQ-32B 的得分均超越了 DeepSeek- R1。

大規(guī)模強(qiáng)化學(xué)習(xí)

我們?cè)诶鋯?dòng)的基礎(chǔ)上開(kāi)展了大規(guī)模強(qiáng)化學(xué)習(xí)。在初始階段,特別針對(duì)數(shù)學(xué)和編程任務(wù)進(jìn)行了 RL 訓(xùn)練。與依賴(lài)傳統(tǒng)的獎(jiǎng)勵(lì)模型(reward model)不同,我們通過(guò)校驗(yàn)生成答案的正確性來(lái)為數(shù)學(xué)問(wèn)題提供反饋,并通過(guò)代碼執(zhí)行服務(wù)器評(píng)估生成的代碼是否成功通過(guò)測(cè)試用例來(lái)提供代碼的反饋。

我們發(fā)現(xiàn)在 RL 擴(kuò)展過(guò)程中,隨著訓(xùn)練輪次的推進(jìn),這兩個(gè)領(lǐng)域中的性能均表現(xiàn)出持續(xù)的提升。

在第一階段的 RL 過(guò)后,我們?cè)黾恿肆硪粋€(gè)針對(duì)通用能力的 RL。此階段使用通用獎(jiǎng)勵(lì)模型和一些基于規(guī)則的驗(yàn)證器進(jìn)行訓(xùn)練。我們發(fā)現(xiàn),通過(guò)少量步驟的通用 RL,可以提升其他通用能力,同時(shí)在數(shù)學(xué)和編程任務(wù)上的性能沒(méi)有顯著下降。

通過(guò)API使用QwQ-32B

以下我們展示了一段簡(jiǎn)短的示例代碼,說(shuō)明如何通過(guò) API 使用 QwQ-32B。

未來(lái)

這是Qwen在大規(guī)模強(qiáng)化學(xué)習(xí)(RL)以增強(qiáng)推理能力方面的第一步。通過(guò)這一旅程,我們不僅見(jiàn)證了擴(kuò)展RL的巨大潛力,還認(rèn)識(shí)到預(yù)訓(xùn)練語(yǔ)言模型中尚未開(kāi)發(fā)的可能性。

在致力于開(kāi)發(fā)下一代Qwen的過(guò)程中,我們相信將更強(qiáng)大的基礎(chǔ)模型與依托規(guī)模化計(jì)算資源的RL相結(jié)合,將會(huì)使我們更接近實(shí)現(xiàn)人工通用智能(AGI)。此外,我們正在積極探索將智能體與RL集成,以實(shí)現(xiàn)長(zhǎng)時(shí)推理,目標(biāo)是通過(guò)推理時(shí)間擴(kuò)展來(lái)釋放更高的智能,敬請(qǐng)期待。

歡迎體驗(yàn)

目前,QwQ-32B 已在 Hugging Face (https://huggingface.co/Qwen/QwQ-32B) 和 ModelScope (https://modelscope.cn/models/Qwen/QwQ-32B) 開(kāi)源,并采用了 Apache 2.0 開(kāi)源協(xié)議。

也歡迎大家通過(guò) Qwen Chat

 (https://chat.qwen.ai/?models=Qwen2.5-Plus)直接進(jìn)行體驗(yàn)!

【來(lái)源:通義千問(wèn)Qwen】

分享到

xiesc

相關(guān)推薦