在大語(yǔ)言模型中,阿里通義旗艦?zāi)P蚎wen3-Max全新亮相,性能超過GPT5、Claude Opus 4等,躋身全球前三。Qwen3-Max包括指令(Instruct)和推理(Thinking)兩大版本,其預(yù)覽版已在 Chatbot Arena 排行榜上位列第三,正式版性能可望再度實(shí)現(xiàn)突破。
Qwen3-Max是通義千問家族中最大、最強(qiáng)的基礎(chǔ)模型,預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36T,總參數(shù)超過萬(wàn)億,擁有極強(qiáng)的Coding編程能力和Agent工具調(diào)用能力。在大模型用Coding解決真實(shí)世界問題的SWE-Bench Verified測(cè)試中,Instruct版本斬獲69.6分,位列全球第一梯隊(duì);在聚焦Agent工具調(diào)用能力的Tau2-Bench測(cè)試中,Qwen3-Max取得突破性的74.8分,超過Claude Opus4和DeepSeek-V3.1。Qwen3-Max推理模型也展現(xiàn)出非凡性能,結(jié)合工具調(diào)用和并行推理技術(shù),其推理能力創(chuàng)下新高,尤其在聚焦數(shù)學(xué)推理的AIME 25和HMMT測(cè)試中,均達(dá)到突破性的滿分100分,為國(guó)內(nèi)首次。
下一代基礎(chǔ)模型架構(gòu)Qwen3-Next及系列模型正式發(fā)布,模型總參數(shù)80B僅激活 3B ,性能即可媲美千問3旗艦版235B模型,實(shí)現(xiàn)模型計(jì)算效率的重大突破。Qwen3-Next針對(duì)大模型在上下文長(zhǎng)度和總參數(shù)兩方面不斷擴(kuò)展(Scaling)的未來趨勢(shì)而設(shè)計(jì),創(chuàng)新改進(jìn)采用了混合注意力機(jī)制、高稀疏度 MoE 結(jié)構(gòu)、多 token 預(yù)測(cè)(MTP)機(jī)制等核心技術(shù),模型訓(xùn)練成本較密集模型Qwen3-32B大降超90%,長(zhǎng)文本推理吞吐量提升10倍以上,為未來大模型的訓(xùn)練和推理的效率設(shè)立了全新標(biāo)準(zhǔn)。
在專項(xiàng)模型方面,千問編程模型Qwen3-Coder重磅升級(jí)。新的Qwen3-Coder與Qwen Code、Claude Code系統(tǒng)聯(lián)合訓(xùn)練,應(yīng)用效果顯著提升,推理速度更快,代碼安全性也顯著提升。Qwen3-Coder此前就廣受開發(fā)者和企業(yè)好評(píng),代碼生成和補(bǔ)全能力極強(qiáng),可一鍵完成完整項(xiàng)目的部署和問題修復(fù),開源后調(diào)用量曾在知名API調(diào)用平臺(tái)OpenRouter上激增1474%,位列全球第二。
通義千問Qwen模型家族圖
在多模態(tài)模型中,千問備受期待的視覺理解模型Qwen3-VL重磅開源,在視覺感知和多模態(tài)推理方面實(shí)現(xiàn)重大突破,在32項(xiàng)核心能力測(cè)評(píng)中超過Gemini2.5-Pro和GPT5。Qwen3-VL擁有極強(qiáng)的視覺智能體和視覺Coding能力,不僅能看懂圖片,還能像人一樣操作手機(jī)和電腦,自動(dòng)完成許多日常任務(wù)。輸入一張圖片,Qwen3-VL可自行調(diào)用agent工具放大圖片細(xì)節(jié),通過更仔細(xì)的觀察分析,推理出更好的答案;看到一張?jiān)O(shè)計(jì)圖,Qwen3-VL 就能生成Draw.io/HTML/CSS/JS 代碼,“所見即所得”地完成視覺編程。此外,Qwen3-VL還升級(jí)了3D Grounding(3D檢測(cè))能力,為具身智能夯實(shí)基礎(chǔ);擴(kuò)展支持百萬(wàn)tokens上下文,視頻理解時(shí)長(zhǎng)擴(kuò)展到2小時(shí)以上。
全模態(tài)模型Qwen3-Omni驚喜亮相,音視頻能力狂攬32項(xiàng)開源最佳性能SOTA,可像人類一樣聽說寫,應(yīng)用場(chǎng)景廣泛,未來可部署于車載、智能眼鏡和手機(jī)等。用戶還可設(shè)定個(gè)性化角色、調(diào)整對(duì)話風(fēng)格,打造專屬的個(gè)人IP。類似于人類嬰兒一出生就全方位感知世界,Qwen3-Omni一開始就加入了“聽”、“說”、“寫”多模態(tài)混合訓(xùn)練。在預(yù)訓(xùn)練過程中,Qwen3-Omni采用了混合單模態(tài)和跨模態(tài)數(shù)據(jù)。此前,模型在混合訓(xùn)練后,各個(gè)功能會(huì)相互掣肘甚至降智,比如音頻理解能力提升,文字理解能力反而降低了。但Qwen3-Omni在實(shí)現(xiàn)強(qiáng)勁音頻與音視頻能力的同時(shí),單模態(tài)文本與圖像性能均保持穩(wěn)定,這是業(yè)內(nèi)首次實(shí)現(xiàn)這一訓(xùn)練效果。
通義萬(wàn)相Wan模型家族圖
通義萬(wàn)相是通義大模型家族中的視覺基礎(chǔ)模型,此次推出Wan2.5-preview系列模型,涵蓋文生視頻、圖生視頻、文生圖和圖像編輯四大模型。通義萬(wàn)相2.5視頻生成模型能生成和畫面匹配的人聲、音效和音樂BGM,首次實(shí)現(xiàn)音畫同步的視頻生成能力,進(jìn)一步降低電影級(jí)視頻創(chuàng)作的門檻。通義萬(wàn)相2.5視頻生成時(shí)長(zhǎng)從5秒提升至10秒,支持24幀每秒的1080P高清視頻生成,并進(jìn)一步提升模型指令遵循能力。此次,通義萬(wàn)相2.5還全面升級(jí)了圖像生成能力,可生成中英文文字和圖表,支持圖像編輯功能,輸入一句話即可完成P圖。
阿里云CTO周靖人發(fā)布通義百聆
此次云棲大會(huì)上,通義大模型家族還迎來了全新的成員——語(yǔ)音大模型通義百聆。百聆新發(fā)布了語(yǔ)音識(shí)別大模型Fun-ASR和語(yǔ)音合成大模型Fun-CosyVoice。Fun-ASR基于數(shù)千萬(wàn)小時(shí)真實(shí)語(yǔ)音數(shù)據(jù)訓(xùn)練而成,具備強(qiáng)大的上下文理解能力與行業(yè)適應(yīng)性;Fun-CosyVoice可提供上百種預(yù)制音色,可以用于客服、銷售、直播電商、消費(fèi)電子、有聲書、兒童娛樂等場(chǎng)景。
從0.5B到超萬(wàn)億,包含三百個(gè)大模型的通義大模型家族覆蓋“全尺寸”,囊括LLM、編程、圖像、語(yǔ)音、視頻等“全模態(tài)”,可滿足從智能終端到云上的多場(chǎng)景需求。自2023年開源第一款模型以來,通義大模型在全球下載量突破6億次,衍生模型突破17萬(wàn)個(gè),已發(fā)展成為全球第一開源模型。除了惠及AI開發(fā)者,通義衍生模型的開發(fā)機(jī)構(gòu)還覆蓋海內(nèi)外國(guó)知名企業(yè),包括蘋果、英偉達(dá)、微軟、DeepSeek和字節(jié)跳動(dòng)等。截至目前,通義大模型已服務(wù)超100萬(wàn)客戶。沙利文報(bào)告顯示,2025年上半年,在中國(guó)企業(yè)級(jí)大模型調(diào)用市場(chǎng)中,通義位列第一。