智譜發(fā)布GLM-4-Air、GLM-4V-Plus模型,設(shè)立Flash全模態(tài)免費(fèi)模型
MiniMax震撼開(kāi)源,突破傳統(tǒng)Transformer架構(gòu)
面壁智能最新的模型——MiniCPM-o 2.6
文字編輯|宋雨涵
1
智譜發(fā)布GLM-4-Air、GLM-4V-Plus模型
全新功能升級(jí)
GLM-Realtime
繼「智譜清言」視頻通話功能后,智譜深入探索語(yǔ)言、語(yǔ)音、圖像及視頻理解與生成,推出GLM-Voice、GLM-4V、CogView、CogVideoX等多模態(tài)模型。
現(xiàn)發(fā)布全新端到端多模態(tài)模型GLM-Realtime,實(shí)現(xiàn)近乎實(shí)時(shí)視頻理解與語(yǔ)音交互,含清唱功能,支持2分鐘記憶及Function Call。同時(shí),升級(jí)GLM-4-Air和GLM-4V-Plus模型,提供高性價(jià)比語(yǔ)言模型解決方案。特別設(shè)立Flash系列普惠模型,免費(fèi)開(kāi)放,助力開(kāi)發(fā)者創(chuàng)新。
超高性價(jià)比
GLM-4-Air
GLM-4-Air自上線以來(lái),憑借「高性價(jià)比」贏得了平臺(tái)開(kāi)發(fā)者的廣泛青睞。今日,我們推出全面升級(jí)版——GLM-4-Air-0111。通過(guò)對(duì)于訓(xùn)練數(shù)據(jù)和訓(xùn)練流程的全面優(yōu)化,GLM-4-Air-0111在多個(gè)維度上實(shí)現(xiàn)了性能飛躍,接近規(guī)模更大的GLM-4-Plus模型。
與此同時(shí),GLM-4-Air-0111的價(jià)格降至原來(lái)的50%,大幅降低企業(yè)落地大模型應(yīng)用的門(mén)檻。
同時(shí),我們針對(duì)視覺(jué)理解模型GLM-4V-Plus也進(jìn)行了全面升級(jí)。新版本在多個(gè)公開(kāi)榜單上均展現(xiàn)出顯著的效果提升。
更新后的GLM-4V-Plus支持變分辨率功能,能夠適應(yīng)不同尺寸的圖像輸入,在小圖場(chǎng)景下顯著降低token消耗(例如,224 * 224的分辨率下,輸入的圖像token數(shù)僅為原來(lái)的3%),同時(shí)支持4K超清圖像和極致長(zhǎng)寬比圖像的無(wú)損識(shí)別。
此外,新版GLM-4V-Plus還具備長(zhǎng)達(dá)2小時(shí)的視頻理解能力,為視頻理解和分析領(lǐng)域提供了更加高效、精準(zhǔn)的解決方案。
2
MiniMax震撼開(kāi)源,突破傳統(tǒng)Transformer架構(gòu)
比肩頂尖模型的開(kāi)源模型
2025年,AI Agent或?qū)⒋罅考尤雱趧?dòng)力,影響公司生產(chǎn)力。OpenAI CEO Sam Altman、Meta CEO Mark Zuckerberg及英偉達(dá)CEO黃仁勛均預(yù)測(cè)2025年為AI Agent之年。隨后,MiniMax開(kāi)源了新模型MiniMax-Text-01和MiniMax-VL-01,采用線性注意力機(jī)制,處理上下文長(zhǎng)達(dá)400萬(wàn)token,助力Agent應(yīng)用爆發(fā)。
MiniMax-Text-01 的架構(gòu)
MiniMax-Text-01通過(guò)一系列創(chuàng)新,如新型線性注意力、改進(jìn)版混合專(zhuān)家架構(gòu)等,解決了大模型在處理超長(zhǎng)上下文時(shí)的效率與效果問(wèn)題。其架構(gòu)中的Lightning Attention大幅降低了計(jì)算復(fù)雜度?;旌蠈?zhuān)家(MoE)技術(shù)也提升了模型效率。此外,MiniMax還采用了數(shù)據(jù)格式化、分批核融合等優(yōu)化策略。
MiniMax-Text-01擁有4560億參數(shù),上下文長(zhǎng)度可達(dá)400萬(wàn)token,在學(xué)術(shù)測(cè)試集上表現(xiàn)卓越,超越多個(gè)閉源和開(kāi)源模型。在長(zhǎng)上下文理解任務(wù)上,其優(yōu)勢(shì)尤為明顯。MiniMax-VL-01作為多模態(tài)版本,同樣表現(xiàn)出色。
MiniMax認(rèn)為,足夠大的上下文窗口是Agent技術(shù)發(fā)展的關(guān)鍵。他們正研究更高效架構(gòu),以支持無(wú)限上下文窗口。同時(shí),多模態(tài)token的加入將使Agent逐步進(jìn)入物理世界。MiniMax創(chuàng)始人展望下一代AI將無(wú)限接近圖靈測(cè)試,交互自然,無(wú)處不在。
3
面壁智能最新的模型——MiniCPM-o 2.6
火爆外網(wǎng),大量網(wǎng)友刷屏
這個(gè)AI是面壁智能的最新模型MiniCPM-o 2.6,因僅8B體量卻能在多模態(tài)能力上與GPT-4o比肩而在海外爆火,且能在iPad上運(yùn)行。MiniCPM-o 2.6能精準(zhǔn)識(shí)別翻書(shū)聲、咳嗽聲等,在看和說(shuō)方面也有出色表現(xiàn),如“睜眼”玩兒三仙歸洞、扮演各種角色等。網(wǎng)友們稱(chēng)贊其超酷,像給iPad裝了第二個(gè)大腦。
面壁智能還公布了MiniCPM-o 2.6在多模態(tài)能力評(píng)測(cè)榜單的成績(jī),整體能力已可比肩GPT-4o,部分項(xiàng)目甚至超越。面壁智能稱(chēng)MiniCPM-o 2.6為開(kāi)源社區(qū)最強(qiáng)語(yǔ)音、端側(cè)視覺(jué)、實(shí)時(shí)流式多模態(tài)模型。實(shí)測(cè)中,MiniCPM-o 2.6視力水平高,能精準(zhǔn)回答刪除的字、識(shí)別游戲名等,因其能做到真·看視頻,持續(xù)對(duì)實(shí)時(shí)視頻和音頻建模。
在視覺(jué)方面,MiniCPM-o 2.6對(duì)圖片的理解和推理能力也更上一層樓,能指導(dǎo)調(diào)整自行車(chē)座椅、幫忙解題等,基于其強(qiáng)大的OCR能力。在說(shuō)的方面,MiniCPM-o 2.6能用四川話教煮火鍋等。
這些能力得益于其端到端全模態(tài)架構(gòu),綜合考慮不同模態(tài)間的關(guān)聯(lián)和交互,使用交叉熵?fù)p失進(jìn)行端到端訓(xùn)練,并適應(yīng)流式輸入輸出,通過(guò)OTDM處理多模態(tài)信息片段,再傳遞給全模態(tài)流式骨干網(wǎng)絡(luò)提取特征并融合。面壁團(tuán)隊(duì)還設(shè)置了可配置的聲音方案,支持聲音風(fēng)格的生成、克隆和音色創(chuàng)建等。
MiniCPM-o 2.6是面壁智能更大計(jì)劃的一環(huán),面壁團(tuán)隊(duì)聚焦于端側(cè)模型之路,認(rèn)為AI原生應(yīng)用+AI原生硬件是新時(shí)代需要的操作系統(tǒng),而端側(cè)能運(yùn)行大模型的硬件即AI原生硬件,因此端側(cè)大模型很重要。面壁智能此前已發(fā)布多個(gè)高效端側(cè)模型,如MiniCPM系列,且在CES上亮相。
MiniCPM-o 2.6加上了多模態(tài)實(shí)時(shí)語(yǔ)音交互能力,離人人可用的端側(cè)模型更近,也便利了視障人士友好出行。面壁智能的端側(cè)模型開(kāi)源,擁有更多應(yīng)用場(chǎng)景,適合部署在智能眼鏡等設(shè)備上。國(guó)產(chǎn)開(kāi)源力量表現(xiàn)亮眼,面壁智能、DeepSeek、阿里Qwen有“中國(guó)大模型開(kāi)源三劍客”之勢(shì)。
寫(xiě)在最后
智譜發(fā)布新模型并設(shè)立免費(fèi)普惠模型,MiniMax開(kāi)源新模型突破傳統(tǒng)架構(gòu),面壁智能的MiniCPM o 2.6以小體量展現(xiàn)強(qiáng)大多模態(tài)能力在海外爆火。這些成果體現(xiàn)了國(guó)產(chǎn)大模型在技術(shù)創(chuàng)新、性價(jià)比提升、開(kāi)源共享等多方面的積極探索和卓越成就。
這一系列的進(jìn)展表明,國(guó)產(chǎn)大模型正以強(qiáng)勁的發(fā)展勢(shì)頭崛起,無(wú)論是在模型的功能優(yōu)化、性價(jià)比提升,還是在開(kāi)源共享以促進(jìn)全球技術(shù)交流等方面,都有著不可忽視的影響力。在未來(lái),我們有理由期待國(guó)產(chǎn)大模型將繼續(xù)在全球人工智能產(chǎn)業(yè)格局中扮演更為重要的角色,不斷推動(dòng)人工智能技術(shù)向更廣泛、更深入的方向發(fā)展,為社會(huì)各個(gè)領(lǐng)域帶來(lái)更多的創(chuàng)新和變革。