3月21日,中國科技巨頭騰訊與全球芯片霸主英偉達(dá)幾乎同步發(fā)布基于Mamba-Transformer混合架構(gòu)的新一代大模型,分別推出混元T1與Nemotron-H系列。兩大科技巨頭的動作不僅標(biāo)志著混合架構(gòu)技術(shù)從實驗室走向工業(yè)級應(yīng)用,更揭示了AI大模型在長文本處理、超低延遲推理、硬件適配性等領(lǐng)域的核心競爭焦點。
文字編輯|宋雨涵
1
騰訊混元T1
首字秒出,吐字速度達(dá)80 token/s的“深度思考者”
該模型的前身是,今年2月中旬混元團(tuán)隊在騰訊元寶APP上線的基于混元中等規(guī)模底座的混元T1-Preview(Hunyuan-Thinker-1-Preview)推理模型。
相比于T1-Preview,T1正式版基于騰訊混元3月初發(fā)布的業(yè)界首個超大規(guī)模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座,通過大規(guī)模后訓(xùn)練擴(kuò)展了推理能力,并進(jìn)一步對齊人類偏好,這也是工業(yè)界首次將混合Mamba架構(gòu)無損應(yīng)用于超大型推理模型。
T1在多個公開數(shù)據(jù)集的評測結(jié)果顯示,在MMLU-pro、CEval、AIME、Zebra Loigc等中英文知識和競賽級數(shù)學(xué)、邏輯推理指標(biāo)上基本持平或略超R1。
目前,T1已在騰訊云官網(wǎng)上線,輸入價格為每百萬tokens 1元,輸出價格為每百萬tokens 4元,輸出價格為DeepSeek標(biāo)準(zhǔn)時段的1/4,與DeepSeek優(yōu)惠時段一致。
其核心突破體現(xiàn)在三大維度
超低延遲推理:通過動態(tài)KV-Cache壓縮算法,將傳統(tǒng)Transformer的內(nèi)存占用降低40%,實現(xiàn)首字秒出(First Token Prompt)和80 token/s的吐字速度,在實時交互場景中優(yōu)勢顯著。
長文本處理:針對學(xué)術(shù)論文、法律文書等超長文本場景,混合架構(gòu)通過Mamba的線性復(fù)雜度特性優(yōu)化長序列計算,使解碼速度提升2倍,同時保持99.2%的上下文完整性。
強(qiáng)化學(xué)習(xí)驅(qū)動的推理能力:在數(shù)學(xué)、邏輯推理等硬核領(lǐng)域,混元T1通過大規(guī)模強(qiáng)化學(xué)習(xí)微調(diào),在MMLU-PRO基準(zhǔn)測試中以87.2分超越GPT-4.5(86.1分),逼近OpenAI o1(89.3分)。
2
英偉達(dá)也推出混合架構(gòu)模型
英偉達(dá)Nemotron-H
在NVIDIA GTC 2025大會上,NVIDIA宣布推出具有推理功能的開放Llama Nemotron模型系列。這一新系列旨在為開發(fā)人員和企業(yè)提供強(qiáng)大的基礎(chǔ),以創(chuàng)建能夠獨立工作或協(xié)作解決復(fù)雜任務(wù)的高級AI Agents。
Llama Nemotron推理系列基于Llama模型構(gòu)建,并經(jīng)過了多個強(qiáng)化學(xué)習(xí)(RL)階段的后期訓(xùn)練,使用了REINFORCE (RLOO) 和RPO算法來優(yōu)化聊天和指令遵循能力。該模型適用于推理、人類聊天偏好以及RAG(檢索增強(qiáng)生成)和工具調(diào)用等多種任務(wù),并支持長達(dá)128K個標(biāo)記的上下文長度。
此外,NVIDIA AI Enterprise還推出了最新的Agentic AI構(gòu)建模塊,包括NVIDIA AI-Q藍(lán)圖、AI數(shù)據(jù)平臺、NIM微服務(wù)和NeMo微服務(wù)。這些工具和軟件旨在簡化高級推理模型的部署和優(yōu)化,從而加速協(xié)作AI系統(tǒng)的開發(fā)和應(yīng)用。
NVIDIA AI-Q藍(lán)圖使企業(yè)能夠?qū)⒅R連接到能夠自主感知、推理和行動的AI Agents。該藍(lán)圖采用NVIDIA NIM微服務(wù)構(gòu)建,并集成了NVIDIA NeMo Retriever?以實現(xiàn)多模式信息檢索。同時,NVIDIA AgentIQ工具包也被用于實現(xiàn)Agents和數(shù)據(jù)連接、優(yōu)化和透明度,并且已經(jīng)開源。
此次推出的Llama Nemotron推理模型系列和Agentic AI構(gòu)建模塊,將為開發(fā)人員和企業(yè)提供更多選擇和工具,以推動AI技術(shù)的創(chuàng)新和應(yīng)用。
其技術(shù)亮點包括
極致推理效率
在MMLU-Pro基準(zhǔn)測試中,Nemotron-H-56B以FP4精度實現(xiàn)3倍于純Transformer模型的吞吐量,單卡RTX 5090即可支持百萬token長上下文推理。
硬件深度適配
通過掃描算法(Scan)優(yōu)化與混合精度流水線,在昇騰910B集群上訓(xùn)練時,顯存占用降低18%,推理延遲減少23%。
開源生態(tài)布局
作為物理AI框架Cosmos-Reason 1的骨干網(wǎng)絡(luò),Nemotron-H-47B(蒸餾版)以630億token訓(xùn)練數(shù)據(jù)實現(xiàn)與千億模型相當(dāng)?shù)木龋苿涌蒲袡C(jī)構(gòu)低成本復(fù)現(xiàn)前沿成果。
Mamba-Transformer混合架構(gòu)
當(dāng)前主流的混合架構(gòu)主要采用層級混合與序列級混合兩種策略:
層級混合(騰訊混元T1):
Mamba模塊:處理長序列數(shù)據(jù)(如法律文書、代碼生成),通過SSD理論打通與Transformer的數(shù)學(xué)關(guān)聯(lián),減少KV-Cache內(nèi)存占用40%。
Transformer模塊:保留全局注意力機(jī)制,確保復(fù)雜上下文捕捉能力,避免長文本推理中的信息丟失。
動態(tài)路由機(jī)制:根據(jù)輸入序列長度自動分配計算資源,短序列優(yōu)先使用Transformer,長序列調(diào)用Mamba模塊優(yōu)化效率。
序列級混合(英偉達(dá)Nemotron-H):
在每個序列位置動態(tài)選擇Mamba或Transformer計算路徑,實現(xiàn)首字響應(yīng)時間<500ms,吐字速度達(dá)80 token/s。
通過掃描算法(Scan)替代傳統(tǒng)卷積,使單卡RTX 5090即可支持百萬token長上下文推理。
寫在最后
從混元T1的“秒級響應(yīng)”到Nemotron-H的“物理級精度”,混合架構(gòu)技術(shù)正在解構(gòu)AI發(fā)展的底層邏輯。正如英偉達(dá)創(chuàng)始人黃仁勛在GTC 2025所言:“軟件優(yōu)化才是釋放硬件潛能的終極密碼。”未來,這場由架構(gòu)創(chuàng)新引發(fā)的變革,或?qū)⒅厮軓臄?shù)據(jù)中心到邊緣計算的整個AI生態(tài)。