這款新模型在數(shù)學(xué)、代碼以及多模態(tài)推理能力等各方面,都全面向OpenAI的滿血版o1看齊,并且它是OpenAI之外首個實現(xiàn)這一水平的多模態(tài)o1級別模型。特別值得一提的是,其中的kimi-k1.5-short版本,更是成為了SOTA(state-of-the-art)級別的short cot模型,其性能大幅超越了GPT-4o和Claude 3.5 Sonnet,提升幅度高達(dá)550%。
月之暗面公司也因此成為了OpenAI之外,首家在數(shù)學(xué)和代碼能力上達(dá)到滿血o1水平的AI公司。在此之前,雖然有一些模型在各類Benchmark測試中能取得50分、60分的成績(相當(dāng)于o1-preview的水平),但OpenAI的滿血版o1則是80分、90分的水平。而月之暗面的Kimi k1.5模型所取得的成績,無疑讓人眼前一亮。
文字編輯| 宋雨涵
1
k1.5多模態(tài)思考模型
連續(xù)三個月的不斷更新
這是Kimi在連續(xù)推出創(chuàng)新模型后的又一重磅升級,繼去年11月發(fā)布k0-math數(shù)學(xué)模型、12月推出k1視覺思考模型后,本月再次帶來k系列強化學(xué)習(xí)模型的最新成員——k1.5多模態(tài)思考模型。
從基準(zhǔn)測試成績來看,k1.5模型在多模態(tài)推理和通用推理能力上均達(dá)到了SOTA(state-of-the-art)級別。在short-CoT模式下,Kimi k1.5在數(shù)學(xué)、代碼、視覺多模態(tài)以及通用能力方面,均大幅超越了全球領(lǐng)先的短思考SOTA模型GPT-4o和Claude 3.5 Sonnet,領(lǐng)先幅度高達(dá)550%。
而在long-CoT模式下,Kimi k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力也與長思考SOTA模型OpenAI o1正式版不相上下,成為全球范圍內(nèi)OpenAI之外首家實現(xiàn)o1正式版多模態(tài)推理性能的公司。
2
Kimi如何做到滿血版多模態(tài)o1水平
公開模型訓(xùn)練技術(shù)報告
伴隨著k1.5 多模態(tài)思考模型的發(fā)布,Kimi 技術(shù)團隊也第一次準(zhǔn)備了詳細(xì)的技術(shù)報告,記錄和分享新技術(shù)范式下的模型訓(xùn)練技術(shù)探索之路:
《Kimi k1.5:借助大語言模型實現(xiàn)強化學(xué)習(xí)的 Scaling》
(github 鏈接:https://github.com/MoonshotAI/kimi-k1.5)。
通過這份技術(shù)報告,我們可以了解到關(guān)于k1.5模型設(shè)計和訓(xùn)練的幾個關(guān)鍵要素:
1、長上下文擴展:將RL的上下文窗口擴展到128k,并觀察到隨著上下文長度的增加,性能持續(xù)提升。這個方法背后的一個關(guān)鍵思想是,使用部分展開(partial rollouts)來提高訓(xùn)練效率——即通過重用大量先前的軌跡來采樣新的軌跡,避免了從頭開始重新生成新軌跡的成本。觀察表明,上下文長度是通過LLMs持續(xù)擴展RL的一個關(guān)鍵維度。?
2、改進(jìn)的策略優(yōu)化:Kimi成功推導(dǎo)出了long-CoT的RL(強化學(xué)習(xí))公式,并采用了在線鏡像下降的變體來實現(xiàn)穩(wěn)健的策略優(yōu)化。這一算法還通過我們的有效采樣策略、長度懲罰機制以及數(shù)據(jù)配方的優(yōu)化得到了進(jìn)一步的提升。
3、建立簡潔的框架:為通過大型語言模型(LLMs)的學(xué)習(xí)建立了一個簡潔明了的RL框架。由于Kimi能夠擴展上下文的長度,因此學(xué)習(xí)到的思考鏈(CoTs)展現(xiàn)出了規(guī)劃、反思和修正的特性。上下文長度的增加,實際上增加了搜索步驟的數(shù)量,從而提升了模型的性能。這證明了可以在不依賴更復(fù)雜技術(shù)(如蒙特卡洛樹搜索、價值函數(shù)和過程獎勵模型)的情況下,實現(xiàn)強大的性能表現(xiàn)。
4、多模態(tài)能力的突破:模型在文本和視覺數(shù)據(jù)上進(jìn)行了聯(lián)合訓(xùn)練,具備了同時推理兩種模態(tài)的能力。該模型在數(shù)學(xué)方面表現(xiàn)出色,但由于主要支持LaTeX等格式的文本輸入,對于依賴圖形理解能力的部分幾何圖形題仍存在一定的挑戰(zhàn)。
3
全力沖刺AGI
對于此次發(fā)布,月之暗面創(chuàng)始人表示:“Kimi k1.5模型的發(fā)布是我們團隊不懈努力的結(jié)果,也是我們向AGI(通用人工智能)目標(biāo)邁進(jìn)的重要一步。我們希望通過公開模型訓(xùn)練技術(shù)報告,與更多技術(shù)人才分享我們的經(jīng)驗和成果,共同推動AI技術(shù)的發(fā)展和進(jìn)步?!?/p>
展望未來,月之暗面表示將繼續(xù)沿著既定路線圖加速升級k系列強化學(xué)習(xí)模型,拓展更多模態(tài)、更多領(lǐng)域的能力,并不斷提升通用能力水平。我們有理由相信,在不久的將來,Kimi將成為國產(chǎn)AI領(lǐng)域的佼佼者,為全球AI技術(shù)的發(fā)展貢獻(xiàn)更多中國智慧和力量。