相比Qwen-VL,Qwen-VL-Plus和Qwen-VL-Max擁有更強(qiáng)的視覺(jué)推理和中文理解能力,整體性能堪比GPT-4V和Gemini Ultra。在MMMU、MathVista等測(cè)評(píng)中遠(yuǎn)超業(yè)界所有開(kāi)源模型,在文檔分析(DocVQA)、中文圖像相關(guān)(MM-Bench-CN)等任務(wù)上超越GPT-4V,達(dá)到世界最佳水平。
基礎(chǔ)能力方面,升級(jí)版模型能夠準(zhǔn)確描述和識(shí)別圖片信息,并且根據(jù)圖片進(jìn)行信息推理、擴(kuò)展創(chuàng)作;具備視覺(jué)定位能力,還可針對(duì)畫(huà)面指定區(qū)域進(jìn)行問(wèn)答。
視覺(jué)推理方面,Qwen-VL-Plus和Qwen-VL-Max可以理解流程圖等復(fù)雜形式圖片,可以分析復(fù)雜圖標(biāo),看圖做題、看圖作文、看圖寫(xiě)代碼也不在話下。
圖像文本處理方面,升級(jí)版Qwen-VL的中英文文本識(shí)別能力顯著提高,支持百萬(wàn)像素以上的高清分辨率圖和極端寬高比的圖像,既能完整復(fù)現(xiàn)密集文本,也能從表格和文檔中提取信息。
相比LLM,多模態(tài)大模型擁有更大的應(yīng)用想象力。比如,有研究者在探索將多模態(tài)大模型與自動(dòng)駕駛場(chǎng)景結(jié)合,為“完全自動(dòng)駕駛”找到新的技術(shù)路徑;將多模態(tài)模型部署到手機(jī)、機(jī)器人、智能音箱等端側(cè)設(shè)備,讓智能設(shè)備自動(dòng)理解物理世界的信息;或者基于多模態(tài)模型開(kāi)發(fā)應(yīng)用,輔助視力障礙群體的日常生活,等等。
目前,Qwen-VL-Plus和Qwen-VL-Max限時(shí)免費(fèi),用戶可以在通義千問(wèn)官網(wǎng)、通義千問(wèn)APP直接體驗(yàn)Max版本模型的能力,也可以通過(guò)阿里云靈積平臺(tái)(DashScope)調(diào)用模型API。