這款新模型在數(shù)學(xué)、代碼以及多模態(tài)推理能力等各方面,都全面向OpenAI的滿血版o1看齊,并且它是OpenAI之外首個(gè)實(shí)現(xiàn)這一水平的多模態(tài)o1級(jí)別模型。特別值得一提的是,其中的kimi-k1.5-short版本,更是成為了SOTA(state-of-the-art)級(jí)別的short cot模型,其性能大幅超越了GPT-4o和Claude 3.5 Sonnet,提升幅度高達(dá)550%。

月之暗面公司也因此成為了OpenAI之外,首家在數(shù)學(xué)和代碼能力上達(dá)到滿血o1水平的AI公司。在此之前,雖然有一些模型在各類Benchmark測(cè)試中能取得50分、60分的成績(jī)(相當(dāng)于o1-preview的水平),但OpenAI的滿血版o1則是80分、90分的水平。而月之暗面的Kimi k1.5模型所取得的成績(jī),無(wú)疑讓人眼前一亮。

文字編輯| 宋雨涵

1

k1.5多模態(tài)思考模型

連續(xù)三個(gè)月的不斷更新

這是Kimi在連續(xù)推出創(chuàng)新模型后的又一重磅升級(jí),繼去年11月發(fā)布k0-math數(shù)學(xué)模型、12月推出k1視覺(jué)思考模型后,本月再次帶來(lái)k系列強(qiáng)化學(xué)習(xí)模型的最新成員——k1.5多模態(tài)思考模型。

從基準(zhǔn)測(cè)試成績(jī)來(lái)看,k1.5模型在多模態(tài)推理和通用推理能力上均達(dá)到了SOTA(state-of-the-art)級(jí)別。在short-CoT模式下,Kimi k1.5在數(shù)學(xué)、代碼、視覺(jué)多模態(tài)以及通用能力方面,均大幅超越了全球領(lǐng)先的短思考SOTA模型GPT-4o和Claude 3.5 Sonnet,領(lǐng)先幅度高達(dá)550%。

而在long-CoT模式下,Kimi k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力也與長(zhǎng)思考SOTA模型OpenAI o1正式版不相上下,成為全球范圍內(nèi)OpenAI之外首家實(shí)現(xiàn)o1正式版多模態(tài)推理性能的公司。

2

Kimi如何做到滿血版多模態(tài)o1水平

公開(kāi)模型訓(xùn)練技術(shù)報(bào)告

伴隨著k1.5 多模態(tài)思考模型的發(fā)布,Kimi 技術(shù)團(tuán)隊(duì)也第一次準(zhǔn)備了詳細(xì)的技術(shù)報(bào)告,記錄和分享新技術(shù)范式下的模型訓(xùn)練技術(shù)探索之路:

《Kimi k1.5:借助大語(yǔ)言模型實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的 Scaling》

(github 鏈接:https://github.com/MoonshotAI/kimi-k1.5)。

通過(guò)這份技術(shù)報(bào)告,我們可以了解到關(guān)于k1.5模型設(shè)計(jì)和訓(xùn)練的幾個(gè)關(guān)鍵要素:

1、長(zhǎng)上下文擴(kuò)展:將RL的上下文窗口擴(kuò)展到128k,并觀察到隨著上下文長(zhǎng)度的增加,性能持續(xù)提升。這個(gè)方法背后的一個(gè)關(guān)鍵思想是,使用部分展開(kāi)(partial rollouts)來(lái)提高訓(xùn)練效率——即通過(guò)重用大量先前的軌跡來(lái)采樣新的軌跡,避免了從頭開(kāi)始重新生成新軌跡的成本。觀察表明,上下文長(zhǎng)度是通過(guò)LLMs持續(xù)擴(kuò)展RL的一個(gè)關(guān)鍵維度。?

2、改進(jìn)的策略優(yōu)化:Kimi成功推導(dǎo)出了long-CoT的RL(強(qiáng)化學(xué)習(xí))公式,并采用了在線鏡像下降的變體來(lái)實(shí)現(xiàn)穩(wěn)健的策略優(yōu)化。這一算法還通過(guò)我們的有效采樣策略、長(zhǎng)度懲罰機(jī)制以及數(shù)據(jù)配方的優(yōu)化得到了進(jìn)一步的提升。

3、建立簡(jiǎn)潔的框架:為通過(guò)大型語(yǔ)言模型(LLMs)的學(xué)習(xí)建立了一個(gè)簡(jiǎn)潔明了的RL框架。由于Kimi能夠擴(kuò)展上下文的長(zhǎng)度,因此學(xué)習(xí)到的思考鏈(CoTs)展現(xiàn)出了規(guī)劃、反思和修正的特性。上下文長(zhǎng)度的增加,實(shí)際上增加了搜索步驟的數(shù)量,從而提升了模型的性能。這證明了可以在不依賴更復(fù)雜技術(shù)(如蒙特卡洛樹(shù)搜索、價(jià)值函數(shù)和過(guò)程獎(jiǎng)勵(lì)模型)的情況下,實(shí)現(xiàn)強(qiáng)大的性能表現(xiàn)。

4、多模態(tài)能力的突破:模型在文本和視覺(jué)數(shù)據(jù)上進(jìn)行了聯(lián)合訓(xùn)練,具備了同時(shí)推理兩種模態(tài)的能力。該模型在數(shù)學(xué)方面表現(xiàn)出色,但由于主要支持LaTeX等格式的文本輸入,對(duì)于依賴圖形理解能力的部分幾何圖形題仍存在一定的挑戰(zhàn)。

3

全力沖刺AGI

對(duì)于此次發(fā)布,月之暗面創(chuàng)始人表示:“Kimi k1.5模型的發(fā)布是我們團(tuán)隊(duì)不懈努力的結(jié)果,也是我們向AGI(通用人工智能)目標(biāo)邁進(jìn)的重要一步。我們希望通過(guò)公開(kāi)模型訓(xùn)練技術(shù)報(bào)告,與更多技術(shù)人才分享我們的經(jīng)驗(yàn)和成果,共同推動(dòng)AI技術(shù)的發(fā)展和進(jìn)步?!?/p>

展望未來(lái),月之暗面表示將繼續(xù)沿著既定路線圖加速升級(jí)k系列強(qiáng)化學(xué)習(xí)模型,拓展更多模態(tài)、更多領(lǐng)域的能力,并不斷提升通用能力水平。我們有理由相信,在不久的將來(lái),Kimi將成為國(guó)產(chǎn)AI領(lǐng)域的佼佼者,為全球AI技術(shù)的發(fā)展貢獻(xiàn)更多中國(guó)智慧和力量。

分享到

lixiangjing

算力豹主編

相關(guān)推薦