相比Qwen-VL,Qwen-VL-Plus和Qwen-VL-Max擁有更強的視覺推理和中文理解能力,整體性能堪比GPT-4V和Gemini Ultra。在MMMU、MathVista等測評中遠超業(yè)界所有開源模型,在文檔分析(DocVQA)、中文圖像相關(MM-Bench-CN)等任務上超越GPT-4V,達到世界最佳水平。

基礎能力方面,升級版模型能夠準確描述和識別圖片信息,并且根據(jù)圖片進行信息推理、擴展創(chuàng)作;具備視覺定位能力,還可針對畫面指定區(qū)域進行問答。

視覺推理方面,Qwen-VL-Plus和Qwen-VL-Max可以理解流程圖等復雜形式圖片,可以分析復雜圖標,看圖做題、看圖作文、看圖寫代碼也不在話下。

Qwen-VL-Max看圖做題

圖像文本處理方面,升級版Qwen-VL的中英文文本識別能力顯著提高,支持百萬像素以上的高清分辨率圖和極端寬高比的圖像,既能完整復現(xiàn)密集文本,也能從表格和文檔中提取信息。

Qwen-VL-Max復現(xiàn)密集文本

相比LLM,多模態(tài)大模型擁有更大的應用想象力。比如,有研究者在探索將多模態(tài)大模型與自動駕駛場景結合,為“完全自動駕駛”找到新的技術路徑;將多模態(tài)模型部署到手機、機器人、智能音箱等端側設備,讓智能設備自動理解物理世界的信息;或者基于多模態(tài)模型開發(fā)應用,輔助視力障礙群體的日常生活,等等。

目前,Qwen-VL-Plus和Qwen-VL-Max限時免費,用戶可以在通義千問官網(wǎng)、通義千問APP直接體驗Max版本模型的能力,也可以通過阿里云靈積平臺(DashScope)調用模型API。

分享到

xiesc

相關推薦