阿里云推出最新通義千問 QwQ-32B 推理模型,僅 1/20 參數媲美 DeepSeek R1
本站 3 月 6 日消息,研究表明,強化學習可以顯著提高模型的推理能力,例如 DeepSeek-R1 通過整合冷啟動數據和多階段訓練,實現了最先進的性能,使其能夠進行深度思考和復雜推理。
阿里云通義千問官方今日宣布推出最新的推理模型 QwQ-32B。這是一款擁有 320 億參數的模型,其性能可與具備 6710 億參數(其中 370 億被激活)的 DeepSeek-R1 媲美。
這一成果凸顯了將強化學習應用于經過大規模預訓練的強大基礎模型的有效性。此外,我們還在推理模型中集成了與 Agent 相關的能力,使其能夠在使用工具的同時進行批判性思考,并根據環境反饋調整推理過程。
目前,QwQ-32B 已在Hugging Face(//huggingface.co/Qwen/QwQ-32B)和ModelScope(//modelscope.cn/models/Qwen/QwQ-32B)開源,并采用了 Apache 2.0 開源協議。本站提醒,用戶也可以通過 Qwen Chat(//chat.qwen.ai/?models=Qwen2.5-Plus)直接進行體驗。
性能方面,阿里云對 QwQ-32B 測試了數學推理、編程能力和通用能力,并展示了 QwQ-32B 與其他領先模型的性能對比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。
在測試數學能力的 AIME24 評測集上,以及評估代碼能力的 LiveCodeBench 中,千問 QwQ-32B 表現與 DeepSeek-R1 相當,遠勝于 o1-mini 及相同尺寸的 R1 蒸餾模型;在由 Meta 首席科學家楊立昆領銜的“最難 LLMs 評測榜” LiveBench、谷歌等提出的指令遵循能力 IFEval 評測集、由加州大學伯克利分校等提出的評估準確調用函數或工具方面的 BFCL 測試中,千問 QwQ-32B 的得分均超越了 DeepSeek- R1。
阿里云表示,這是 Qwen 在大規模強化學習(RL)以增強推理能力方面的第一步。通過這一旅程,不僅見證了擴展 RL 的巨大潛力,還認識到預訓練語言模型中尚未開發的可能性。
在致力于開發下一代 Qwen 的過程中,阿里云計劃將更強大的基礎模型與依托規模化計算資源的 RL 相結合,從而使其更接近實現人工通用智能(AGI)。此外,阿里云正積極探索將智能體與 RL 集成,以實現長時推理,目標是通過推理時間擴展來釋放更高的智能,敬請期待。
還沒有評論,來說兩句吧...