文字編輯|宋雨涵

1

技術(shù)突破

小參數(shù)撬動(dòng)大性能

高效架構(gòu)設(shè)計(jì)

Seed1.5-VL由532M參數(shù)的視覺(jué)編碼器SeedViT與20B參數(shù)的MoE(混合專家)語(yǔ)言模型構(gòu)成,通過(guò)分階段預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)策略,實(shí)現(xiàn)視覺(jué)與語(yǔ)言模態(tài)的高效融合。其視覺(jué)編碼器支持任意長(zhǎng)寬比圖像輸入,結(jié)合MLP適配器優(yōu)化特征投影,顯著提升多模態(tài)任務(wù)的泛化能力。

性能對(duì)標(biāo)國(guó)際巨頭

盡管參數(shù)規(guī)模僅為谷歌Gemini 2.5 Pro的1/4,Seed1.5-VL在視頻理解(19項(xiàng)基準(zhǔn)中14項(xiàng)領(lǐng)先)、GUI智能體任務(wù)(7項(xiàng)中3項(xiàng)SOTA)及視覺(jué)推理等領(lǐng)域表現(xiàn)突出。例如,在復(fù)雜圖像定位任務(wù)中,模型可精準(zhǔn)識(shí)別貨架商品并完成價(jià)格計(jì)算,或通過(guò)公務(wù)員圖形推理題測(cè)試,展示其結(jié)構(gòu)化輸出能力。

成本優(yōu)勢(shì)顯著

推理成本僅為每千tokens輸入0.003元、輸出0.009元,較同類模型降低30%-50%。這一特性使其在交互式應(yīng)用(如實(shí)時(shí)GUI控制、游戲代理)中更具商業(yè)落地潛力。

視覺(jué)定位、推理又快又準(zhǔn)

比如上傳一張擺滿各式各樣牛奶的貨架圖片,讓它找出圖中有幾盒黃桃味果粒酸奶優(yōu)酸乳,并計(jì)算它們的價(jià)格。

這類任務(wù)看似簡(jiǎn)單,實(shí)則非??简?yàn)?zāi)P偷亩嗄B(tài)協(xié)同能力,需要它同時(shí)具備圖像理解(識(shí)別包裝)、文本OCR(識(shí)別價(jià)格標(biāo)簽)、語(yǔ)義匹配(產(chǎn)品名稱匹配)、數(shù)學(xué)推理(乘法計(jì)算)等能力。

而Seed1.5-VL僅用不到10秒,就精準(zhǔn)識(shí)別出貨架角落里的黃桃味酸奶優(yōu)酸乳,還準(zhǔn)確數(shù)清瓶數(shù)、識(shí)別單價(jià),并進(jìn)行正確的價(jià)格計(jì)算。

技術(shù)解讀:

重新定義多模態(tài)視覺(jué)理解

一、核心架構(gòu):三模塊協(xié)同突破效率極限

視覺(jué)編碼器SeedViT(532M參數(shù))支持任意長(zhǎng)寬比圖像/視頻輸入,突破傳統(tǒng)模型對(duì)固定分辨率的依賴;采用動(dòng)態(tài)分塊策略,在降低計(jì)算冗余的同時(shí)提升細(xì)粒度特征提取能力(如商品LOGO識(shí)別、圖表數(shù)據(jù)解析)。

MLP適配器(視覺(jué)-語(yǔ)言橋梁)通過(guò)多層感知機(jī)實(shí)現(xiàn)視覺(jué)特征到多模態(tài)空間的非線性映射,解決傳統(tǒng)線性投影導(dǎo)致的信息損失問(wèn)題;實(shí)驗(yàn)顯示,該設(shè)計(jì)使跨模態(tài)對(duì)齊效率提升37%(對(duì)比CLIP架構(gòu))。

MoE語(yǔ)言模型(20B激活參數(shù))基于混合專家架構(gòu)動(dòng)態(tài)激活參數(shù),單次推理僅調(diào)用1/8專家模塊;在GUI操作指令理解任務(wù)中,專家路由機(jī)制精準(zhǔn)分配任務(wù)至代碼生成、界面元素解析等子模塊。

二、分階段進(jìn)化與強(qiáng)化學(xué)習(xí)閉環(huán)

Seed1.5-VL并未從一開始就進(jìn)行聯(lián)合多模態(tài)學(xué)習(xí),而是選擇了在語(yǔ)言模型基座上進(jìn)行多模態(tài)預(yù)訓(xùn)練,以實(shí)現(xiàn)靈活的消融實(shí)驗(yàn)和快速迭代開發(fā)。

整個(gè)預(yù)訓(xùn)練過(guò)程分為三個(gè)階段:初期僅訓(xùn)練MLP適配器以初步對(duì)齊視覺(jué)和語(yǔ)言表征;中期解凍所有參數(shù),在大規(guī)模圖文數(shù)據(jù)中強(qiáng)化知識(shí)積累、視覺(jué) grounding和OCR能力;后期在更均衡的數(shù)據(jù)混合中加入視頻、編程、三維理解等新領(lǐng)域數(shù)據(jù),并將序列長(zhǎng)度顯著增加,以處理復(fù)雜場(chǎng)景和長(zhǎng)序列依賴。

到了后訓(xùn)練階段,Seed1.5-VL引入了監(jiān)督微調(diào)(SFT)與強(qiáng)化學(xué)習(xí)(RL)的組合策略。

結(jié)語(yǔ)

效率與成本重構(gòu)AI競(jìng)爭(zhēng)維度

Seed1.5-VL的誕生標(biāo)志著多模態(tài)AI進(jìn)入“精益時(shí)代”——不再單純比拼參數(shù)規(guī)模,而是通過(guò)架構(gòu)革新、訓(xùn)練策略優(yōu)化和工程極致打磨,在有限算力下釋放最大效能。這種“中國(guó)式創(chuàng)新”或?qū)⒅厮苋駻I競(jìng)爭(zhēng)格局,推動(dòng)智能技術(shù)從實(shí)驗(yàn)室精英主義走向產(chǎn)業(yè)普惠主義。

分享到

lixiangjing

算力豹主編

相關(guān)推薦