圖1:LongCat-Flash-Thinking 的訓(xùn)練流程

異步彈性共卡系統(tǒng)(Dynamic ORchestration for Asynchronous rollout — DORA)

我們的異步彈性共卡系統(tǒng)(DORA)是整個訓(xùn)練的基石。該系統(tǒng)通過彈性共卡調(diào)度(Elastic Colocation)與多版本異步流水線(Multi-Version Asynchronous Pipeline)設(shè)計,在實現(xiàn)相較于同步RL訓(xùn)練框架三倍提速的同時,確保了每條樣本的策略一致性。同時,系統(tǒng)進(jìn)一步實現(xiàn)了高效的 KV 緩存復(fù)用,能夠支撐萬卡規(guī)模集群的穩(wěn)定運行。

智能體推理框架(Agentic Reasoning Framework)

為進(jìn)一步提升模型的智能體推理能力,我們提出了創(chuàng)新性的“雙路徑推理框架”。該框架能夠自主篩選最優(yōu)查詢樣本,并通過自動化流程將智能體推理與工具使用相結(jié)合,使模型能夠智能識別并調(diào)用外部工具(如代碼執(zhí)行器、API等),從而高效解決復(fù)雜任務(wù)?;贏IME25實測數(shù)據(jù),LongCat-Flash-Thinking在該框架下展現(xiàn)出更高效的智能體工具調(diào)用(Agentic Tool Use)能力,在確保90%準(zhǔn)確率的前提下,相較于不使用工具調(diào)用節(jié)省了64.5%的Tokens(從19653到6965),顯著優(yōu)化了推理過程的資源利用率。,時長00:08

形式化推理框架(Formal Reasoning Framework)

為了克服當(dāng)前開源通用大型語言模型在形式化證明任務(wù)中的不足,我們針對形式化推理設(shè)計了一套全新的基于專家迭代框架的數(shù)據(jù)合成方法,該流程利用集成了 Lean4 服務(wù)器的專家迭代框架,生成經(jīng)過嚴(yán)格驗證的證明過程,從而系統(tǒng)性提升模型的形式化推理能力。這一創(chuàng)新方法系統(tǒng)性地增強了模型的形式化推理能力,提高了其在學(xué)術(shù)和工程應(yīng)用中的可靠性。

LongCat-Flash-Thinking在多項權(quán)威評測中刷新紀(jì)錄,在各類推理任務(wù)中均展現(xiàn)出持續(xù)領(lǐng)先的性能:

分享到

崔歡歡

相關(guān)推薦