中文字幕一线二线三线,一本大道色婷婷在线

智譜發(fā)布GLM-4-Air、GLM-4V-Plus模型，設(shè)立Flash全模態(tài)免費模型
MiniMax震撼開源，突破傳統(tǒng)Transformer架構(gòu)
面壁智能最新的模型——MiniCPM-o 2.6

文字編輯｜宋雨涵

智譜發(fā)布GLM-4-Air、GLM-4V-Plus模型

全新功能升級

GLM-Realtime

繼「智譜清言」視頻通話功能后，智譜深入探索語言、語音、圖像及視頻理解與生成，推出GLM-Voice、GLM-4V、CogView、CogVideoX等多模態(tài)模型。

現(xiàn)發(fā)布全新端到端多模態(tài)模型GLM-Realtime，實現(xiàn)近乎實時視頻理解與語音交互，含清唱功能，支持2分鐘記憶及Function Call。同時，升級GLM-4-Air和GLM-4V-Plus模型，提供高性價比語言模型解決方案。特別設(shè)立Flash系列普惠模型，免費開放，助力開發(fā)者創(chuàng)新。

超高性價比

GLM-4-Air

GLM-4-Air自上線以來，憑借「高性價比」贏得了平臺開發(fā)者的廣泛青睞。今日，我們推出全面升級版——GLM-4-Air-0111。通過對于訓(xùn)練數(shù)據(jù)和訓(xùn)練流程的全面優(yōu)化，GLM-4-Air-0111在多個維度上實現(xiàn)了性能飛躍，接近規(guī)模更大的GLM-4-Plus模型。

與此同時，GLM-4-Air-0111的價格降至原來的50%，大幅降低企業(yè)落地大模型應(yīng)用的門檻。

同時，我們針對視覺理解模型GLM-4V-Plus也進(jìn)行了全面升級。新版本在多個公開榜單上均展現(xiàn)出顯著的效果提升。

更新后的GLM-4V-Plus支持變分辨率功能，能夠適應(yīng)不同尺寸的圖像輸入，在小圖場景下顯著降低token消耗（例如，224 * 224的分辨率下，輸入的圖像token數(shù)僅為原來的3%），同時支持4K超清圖像和極致長寬比圖像的無損識別。

此外，新版GLM-4V-Plus還具備長達(dá)2小時的視頻理解能力，為視頻理解和分析領(lǐng)域提供了更加高效、精準(zhǔn)的解決方案。

MiniMax震撼開源，突破傳統(tǒng)Transformer架構(gòu)

比肩頂尖模型的開源模型

2025年，AI Agent或?qū)⒋罅考尤雱趧恿?，影響公司生產(chǎn)力。OpenAI CEO Sam Altman、Meta CEO Mark Zuckerberg及英偉達(dá)CEO黃仁勛均預(yù)測2025年為AI Agent之年。隨后，MiniMax開源了新模型MiniMax-Text-01和MiniMax-VL-01，采用線性注意力機(jī)制，處理上下文長達(dá)400萬token，助力Agent應(yīng)用爆發(fā)。

MiniMax-Text-01 的架構(gòu)

MiniMax-Text-01通過一系列創(chuàng)新，如新型線性注意力、改進(jìn)版混合專家架構(gòu)等，解決了大模型在處理超長上下文時的效率與效果問題。其架構(gòu)中的Lightning Attention大幅降低了計算復(fù)雜度?；旌蠈＜遥∕oE）技術(shù)也提升了模型效率。此外，MiniMax還采用了數(shù)據(jù)格式化、分批核融合等優(yōu)化策略。

MiniMax-Text-01擁有4560億參數(shù)，上下文長度可達(dá)400萬token，在學(xué)術(shù)測試集上表現(xiàn)卓越，超越多個閉源和開源模型。在長上下文理解任務(wù)上，其優(yōu)勢尤為明顯。MiniMax-VL-01作為多模態(tài)版本，同樣表現(xiàn)出色。

MiniMax認(rèn)為，足夠大的上下文窗口是Agent技術(shù)發(fā)展的關(guān)鍵。他們正研究更高效架構(gòu)，以支持無限上下文窗口。同時，多模態(tài)token的加入將使Agent逐步進(jìn)入物理世界。MiniMax創(chuàng)始人展望下一代AI將無限接近圖靈測試，交互自然，無處不在。

面壁智能最新的模型——MiniCPM-o 2.6

火爆外網(wǎng)，大量網(wǎng)友刷屏

這個AI是面壁智能的最新模型MiniCPM-o 2.6，因僅8B體量卻能在多模態(tài)能力上與GPT-4o比肩而在海外爆火，且能在iPad上運行。MiniCPM-o 2.6能精準(zhǔn)識別翻書聲、咳嗽聲等，在看和說方面也有出色表現(xiàn)，如“睜眼”玩兒三仙歸洞、扮演各種角色等。網(wǎng)友們稱贊其超酷，像給iPad裝了第二個大腦。

面壁智能還公布了MiniCPM-o 2.6在多模態(tài)能力評測榜單的成績，整體能力已可比肩GPT-4o，部分項目甚至超越。面壁智能稱MiniCPM-o 2.6為開源社區(qū)最強(qiáng)語音、端側(cè)視覺、實時流式多模態(tài)模型。實測中，MiniCPM-o 2.6視力水平高，能精準(zhǔn)回答刪除的字、識別游戲名等，因其能做到真·看視頻，持續(xù)對實時視頻和音頻建模。

在視覺方面，MiniCPM-o 2.6對圖片的理解和推理能力也更上一層樓，能指導(dǎo)調(diào)整自行車座椅、幫忙解題等，基于其強(qiáng)大的OCR能力。在說的方面，MiniCPM-o 2.6能用四川話教煮火鍋等。

這些能力得益于其端到端全模態(tài)架構(gòu)，綜合考慮不同模態(tài)間的關(guān)聯(lián)和交互，使用交叉熵?fù)p失進(jìn)行端到端訓(xùn)練，并適應(yīng)流式輸入輸出，通過OTDM處理多模態(tài)信息片段，再傳遞給全模態(tài)流式骨干網(wǎng)絡(luò)提取特征并融合。面壁團(tuán)隊還設(shè)置了可配置的聲音方案，支持聲音風(fēng)格的生成、克隆和音色創(chuàng)建等。

MiniCPM-o 2.6是面壁智能更大計劃的一環(huán)，面壁團(tuán)隊聚焦于端側(cè)模型之路，認(rèn)為AI原生應(yīng)用+AI原生硬件是新時代需要的操作系統(tǒng)，而端側(cè)能運行大模型的硬件即AI原生硬件，因此端側(cè)大模型很重要。面壁智能此前已發(fā)布多個高效端側(cè)模型，如MiniCPM系列，且在CES上亮相。

MiniCPM-o 2.6加上了多模態(tài)實時語音交互能力，離人人可用的端側(cè)模型更近，也便利了視障人士友好出行。面壁智能的端側(cè)模型開源，擁有更多應(yīng)用場景，適合部署在智能眼鏡等設(shè)備上。國產(chǎn)開源力量表現(xiàn)亮眼，面壁智能、DeepSeek、阿里Qwen有“中國大模型開源三劍客”之勢。

寫在最后

智譜發(fā)布新模型并設(shè)立免費普惠模型，MiniMax開源新模型突破傳統(tǒng)架構(gòu)，面壁智能的MiniCPM o 2.6以小體量展現(xiàn)強(qiáng)大多模態(tài)能力在海外爆火。這些成果體現(xiàn)了國產(chǎn)大模型在技術(shù)創(chuàng)新、性價比提升、開源共享等多方面的積極探索和卓越成就。

這一系列的進(jìn)展表明，國產(chǎn)大模型正以強(qiáng)勁的發(fā)展勢頭崛起，無論是在模型的功能優(yōu)化、性價比提升，還是在開源共享以促進(jìn)全球技術(shù)交流等方面，都有著不可忽視的影響力。在未來，我們有理由期待國產(chǎn)大模型將繼續(xù)在全球人工智能產(chǎn)業(yè)格局中扮演更為重要的角色，不斷推動人工智能技術(shù)向更廣泛、更深入的方向發(fā)展，為社會各個領(lǐng)域帶來更多的創(chuàng)新和變革。

分享到

大模型算力豹

lixiangjing

算力豹主編

lixiangjing

相關(guān)推薦

近期文章

熱門標(biāo)簽