(Ring-1T與業(yè)界代表性思考模型的性能橫評)
萬億參數(shù)思考模型訓(xùn)練最大難題是訓(xùn)推精度差異,即訓(xùn)練階段與推理階段因?qū)崿F(xiàn)細(xì)節(jié)差異導(dǎo)致的訓(xùn)練和推理精度不一致,進(jìn)而導(dǎo)致訓(xùn)練崩潰。在Ring-1T模型中,螞蟻采用了自研的“棒冰(icepop)”算法來應(yīng)對這項行業(yè)難題,即用帶掩碼的雙向截斷技術(shù)把訓(xùn)練-推理分布差異凍結(jié)在低水位,確保長序列、長周期訓(xùn)練不崩。此外,應(yīng)對萬億參數(shù)模型強(qiáng)化學(xué)習(xí)訓(xùn)練,螞蟻還自研了高性能強(qiáng)化學(xué)習(xí)系統(tǒng)ASystem(其中包含已開源的高性能強(qiáng)化學(xué)習(xí)框架AReaL),特別針對萬億參數(shù)模型的顯存管理和訓(xùn)推權(quán)重交換問題做了精細(xì)的優(yōu)化,實現(xiàn)了單機(jī)顯存碎片秒級回收、權(quán)重零冗余交換,把大規(guī)模RL訓(xùn)練穩(wěn)定跑成日常。
(圖左:GRPO訓(xùn)推差異隨著訓(xùn)練成指數(shù)上升,icepop較為平穩(wěn);圖右:訓(xùn)推差異最大值,GRPO隨著訓(xùn)練上升非常明顯,icepop維持在較低水位)
此外,本次發(fā)布的Ring-1T模型繼續(xù)采用Ling 2.0架構(gòu)的1T base模型做后訓(xùn)練,Ling 2.0采用了包括高度稀疏的MoE架構(gòu),1/32的專家激活比、FP8混合精度、MTP等諸多特性實現(xiàn)高效訓(xùn)練與推理。在后訓(xùn)練階段,螞蟻百靈團(tuán)隊通過LongCoT-SFT + RLVR + RLHF多階段訓(xùn)練,顯著提升了模型的復(fù)雜推理能力以及指令跟隨和創(chuàng)意寫作等通用能力。
據(jù)百靈團(tuán)隊透露,Ring-1T模型是其在萬億思考模型上的首次嘗試,螞蟻百靈團(tuán)隊會在后續(xù)的版本中繼續(xù)完善模型性能。目前,用戶可通過HuggingFace、魔搭社區(qū)下載模型,并通過螞蟻百寶箱等平臺在線體驗。
據(jù)了解,截止目前螞蟻百靈大模型已經(jīng)發(fā)布18款模型,已形成從160億總參數(shù)到1萬億總參數(shù)的大語言模型產(chǎn)品矩陣,其中兩款萬億參數(shù)模型—萬億參數(shù)通用大語言模型Ling-1T、萬億參數(shù)思考模型Ring-1T。隨著兩款萬億參數(shù)模型的發(fā)布,百靈大模型也正式步入2.0階段。