Qwen3-Max-Instrurct測評分數(shù)
Qwen3-Max的推理增強版本Qwen3-Max-Thinking-Heavy也展現(xiàn)出非凡性能,結(jié)合工具調(diào)用和并行推理技術(shù),其推理能力創(chuàng)下新高,尤其在聚焦數(shù)學(xué)推理的AIME 25和HMMT測試中,均達到突破性的滿分100分,為國內(nèi)首次。Qwen3-Max推理模型之所以能夠取得優(yōu)異成績,原因在于大模型在解數(shù)學(xué)題時懂得調(diào)動工具,能夠?qū)懘a做題,同時,增加測試時的計算資源,也讓模型表現(xiàn)變得更好。
Qwen3-Max-Thinking-Heavy 測評分數(shù)
大模型預(yù)訓(xùn)練原理Scaling Law(規(guī)模化法則)認為,持續(xù)地增長數(shù)據(jù)和參數(shù)規(guī)模,是通向 AGI 的可能路徑之一。由于自然數(shù)據(jù)的數(shù)量有限,當(dāng)前有部分學(xué)者認為預(yù)訓(xùn)練的Scaling Law即將逼近上限,而Qwen3-Max的性能突破顯示,繼續(xù)增大數(shù)據(jù)、模型參數(shù),依然能鍛造出更強的模型,給予了大家更多的信心。目前,通義千問系列模型已經(jīng)實現(xiàn)從0.5B到超萬億的全尺寸覆蓋,包含三百多個大模型,可滿足不同場景的需求。
即日起,用戶可在通義千問QwenChat上免費體驗Qwen3-Max,也可通過阿里云百煉平臺調(diào)用API服務(wù)。