文字編輯|李祥敬
1
Qwen3:性能卓越,功能多元
Qwen3在性能上表現(xiàn)卓越。其旗艦?zāi)P蚎wen3-235B-A22B在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中,與DeepSeek-R1、o1、o3-mini、Grok-3和Gemini 2.5-Pro等頂級(jí)模型相比,展現(xiàn)出強(qiáng)大的競(jìng)爭(zhēng)力。小型MoE模型Qwen3-30B-A3B激活參數(shù)數(shù)量?jī)H為QwQ-32B的10%,卻有著更優(yōu)的表現(xiàn);Qwen3-4B小模型也能達(dá)到與Qwen2.5-72B-Instruct相當(dāng)?shù)男阅?。該模型支持思考模式和非思考模式。思考模式下,模型運(yùn)用逐步推理的方式,針對(duì)復(fù)雜問題,通過多層級(jí)的邏輯推導(dǎo)與知識(shí)調(diào)用,深入分析問題本質(zhì),從而給出精準(zhǔn)答案。這種推理過程涉及對(duì)大量知識(shí)的檢索、整合以及復(fù)雜的算法運(yùn)算,以確保推理的準(zhǔn)確性和深度。非思考模式則基于優(yōu)化的快速響應(yīng)算法,當(dāng)接收到簡(jiǎn)單問題時(shí),能夠迅速定位相關(guān)知識(shí)并給出答案,滿足對(duì)速度要求較高的場(chǎng)景。這種雙模式設(shè)計(jì),讓用戶可根據(jù)任務(wù)需求靈活控制模型推理方式,有效平衡計(jì)算資源與推理質(zhì)量。Qwen3的多語言能力也十分突出,支持119種語言和方言。模型在語言處理過程中,采用了多語言融合的詞向量表示方法,能夠?qū)⒉煌Z言的詞匯映射到統(tǒng)一的語義空間中,使得模型可以理解和處理多種語言信息。同時(shí),在訓(xùn)練數(shù)據(jù)的構(gòu)建上,涵蓋了豐富的多語言文本,包括新聞、學(xué)術(shù)文獻(xiàn)、社交媒體內(nèi)容等,通過大規(guī)模的多語言語料訓(xùn)練,提升了模型對(duì)不同語言的理解和生成能力,為其在全球范圍內(nèi)的應(yīng)用拓展提供了有力支撐,有助于打破語言障礙,推動(dòng)跨語言的人工智能應(yīng)用發(fā)展。在訓(xùn)練方面,Qwen3的數(shù)據(jù)集相比Qwen2.5顯著擴(kuò)展,從18萬億個(gè)token提升到約36萬億個(gè)token,涵蓋119種語言和方言。其預(yù)訓(xùn)練過程分三個(gè)階段,第一階段(S1),模型在超過30萬億個(gè)token上進(jìn)行預(yù)訓(xùn)練,上下文長(zhǎng)度設(shè)定為4K token,通過對(duì)大量通用文本的學(xué)習(xí),模型構(gòu)建起基礎(chǔ)的語言理解和生成能力,掌握了常見的語言結(jié)構(gòu)和語義表達(dá)。第二階段(S2),增加知識(shí)密集型數(shù)據(jù),如科學(xué)、技術(shù)、工程、數(shù)學(xué)(STEM)領(lǐng)域的文本、編程代碼以及邏輯推理問題等,然后模型在額外的5萬億個(gè)token上進(jìn)行訓(xùn)練,強(qiáng)化了模型在專業(yè)領(lǐng)域的知識(shí)儲(chǔ)備和推理能力。最后階段,使用高質(zhì)量的長(zhǎng)上下文數(shù)據(jù)將上下文長(zhǎng)度擴(kuò)展到32K token,這一過程通過改進(jìn)的注意力機(jī)制,讓模型能夠有效處理更長(zhǎng)的輸入,捕捉文本中更長(zhǎng)期的依賴關(guān)系,提升對(duì)復(fù)雜文本的理解和生成能力。后訓(xùn)練則采用四階段訓(xùn)練流程,包括長(zhǎng)思維鏈冷啟動(dòng)、長(zhǎng)思維鏈強(qiáng)化學(xué)習(xí)、思維模式融合以及通用強(qiáng)化學(xué)習(xí),以開發(fā)具備思考推理和快速響應(yīng)能力的混合模型。
2
華為昇騰和昇思:實(shí)現(xiàn)0Day適配,構(gòu)建完整生態(tài)
華為昇騰和昇思在Qwen3發(fā)布后迅速響應(yīng),實(shí)現(xiàn)0Day適配。昇騰MindSpeed訓(xùn)練和MindIE推理全面支持Qwen3系列模型,開發(fā)者可借助其提供的低代碼解決方案,實(shí)現(xiàn)模型的快速遷移和應(yīng)用。在MindSpeed訓(xùn)練方面,華為提供了詳細(xì)的環(huán)境配置指導(dǎo),涵蓋硬件要求、倉庫部署、權(quán)重轉(zhuǎn)換、數(shù)據(jù)預(yù)處理和訓(xùn)練腳本等環(huán)節(jié)。以Atlas 800 A2系列單機(jī)8卡訓(xùn)練和推理為例,硬件層面,該系列具備強(qiáng)大的計(jì)算能力和高速的數(shù)據(jù)傳輸能力,為大規(guī)模模型訓(xùn)練提供了堅(jiān)實(shí)基礎(chǔ)。軟件層面,從倉庫拉取開始,開發(fā)者需依次完成MindSpeed-LLM和Megatron-LM倉庫的克隆,并進(jìn)行相應(yīng)版本的切換和文件復(fù)制。環(huán)境搭建過程中,涉及Python虛擬環(huán)境的創(chuàng)建、torch和torch_npu等依賴庫的安裝,且需根據(jù)硬件架構(gòu)和Python版本選擇合適的安裝包。例如,在安裝torch和torch_npu時(shí),針對(duì)不同的硬件平臺(tái)(如x86或arm)和Python版本(如Python3.10),要選擇對(duì)應(yīng)的whl文件進(jìn)行安裝。此外,還需從原倉編譯安裝apex for Ascend,并安裝MindSpeed加速庫,以提升訓(xùn)練效率。權(quán)重轉(zhuǎn)換環(huán)節(jié),MindSpeed-LLM提供腳本將huggingface開源權(quán)重轉(zhuǎn)換為mcore權(quán)重,這一過程涉及對(duì)權(quán)重?cái)?shù)據(jù)的格式轉(zhuǎn)換和優(yōu)化,以適應(yīng)昇騰硬件的計(jì)算特性。數(shù)據(jù)預(yù)處理階段,提供腳本對(duì)數(shù)據(jù)集進(jìn)行處理,開發(fā)者可根據(jù)實(shí)際需求修改參數(shù),實(shí)現(xiàn)對(duì)訓(xùn)練數(shù)據(jù)的清洗、標(biāo)注和格式化,確保數(shù)據(jù)質(zhì)量和格式符合訓(xùn)練要求。訓(xùn)練腳本則基于分布式并行接口,支持多卡訓(xùn)練,通過優(yōu)化的通信算法和任務(wù)調(diào)度策略,充分利用多卡的計(jì)算資源,加速模型訓(xùn)練過程。MindIE推理同樣提供了完善的支持。針對(duì)純模型推理和服務(wù)化推理場(chǎng)景,分別制定了相應(yīng)的測(cè)試和部署方案。開發(fā)者通過修改模型文件夾權(quán)限、加載鏡像、啟動(dòng)容器等操作,即可完成推理部署。昇思MindSpore原生支持Qwen系列大模型,通過JIT(Just-In-Time)加速提升推理系統(tǒng)吞吐率。JIT編譯會(huì)自動(dòng)將模型的Python類或者函數(shù),編譯成一張完整的計(jì)算圖,在編譯過程中,通過自動(dòng)模式匹配,在整圖范圍內(nèi)將多種小算子組合,融合成單個(gè)大顆粒的算子,減少算子調(diào)度開銷。同時(shí),構(gòu)建了Shape推導(dǎo)、Tiling數(shù)據(jù)計(jì)算、下發(fā)執(zhí)行的三級(jí)流水線,實(shí)現(xiàn)Host計(jì)算和Device計(jì)算的掩蓋,有效提升了計(jì)算圖動(dòng)態(tài)Shape執(zhí)行效率。此外,昇思MindSpore開發(fā)vLLM-MindSpore插件無縫接入vLLM生態(tài),該插件采用MSAdapter將vLLM服務(wù)組件依賴的PyTorch接口映射至MindSpore能力,無縫繼承了Continuous Batching等核心特性,進(jìn)一步優(yōu)化推理性能。
3
英特爾:深度優(yōu)化,拓展應(yīng)用場(chǎng)景
英特爾與阿里緊密合作,針對(duì)Qwen3系列大模型開展深度優(yōu)化工作。針對(duì)MoE模型部署難題,英特爾采用多種軟件優(yōu)化策略,借助OpenVINO工具套件,成功將Qwen模型高效部署于英特爾硬件平臺(tái)。例如,在ARL-H 64G內(nèi)存系統(tǒng)上部署30B參數(shù)規(guī)模MoE模型,實(shí)現(xiàn)了33.97 token/s的吞吐量,相比同等參數(shù)規(guī)模的稠密模型性能顯著提升。在優(yōu)化過程中,英特爾針對(duì)稀疏混合專家模型架構(gòu)(Sparse MoE)進(jìn)行算子融合,將多個(gè)相關(guān)的算子合并為一個(gè)計(jì)算單元,減少數(shù)據(jù)在不同算子之間的傳輸開銷,提高計(jì)算效率。針對(duì)3B激活MOE模型定制化調(diào)度和訪存優(yōu)化,通過優(yōu)化任務(wù)調(diào)度算法,合理分配計(jì)算資源,減少計(jì)算資源的空閑時(shí)間;同時(shí),優(yōu)化訪存策略,提高數(shù)據(jù)訪問速度,降低內(nèi)存訪問延遲。此外,還針對(duì)不同專家之間的負(fù)載均衡進(jìn)行優(yōu)化,確保各個(gè)專家計(jì)算資源的合理利用,避免出現(xiàn)某些專家負(fù)載過高,而其他專家資源閑置的情況。英特爾首次在NPU上對(duì)模型發(fā)布提供Day 0支持,針對(duì)不同模型參數(shù)量和應(yīng)用場(chǎng)景,提供多樣化、針對(duì)性的平臺(tái)支持。在酷睿Ultra的iGPU平臺(tái)、英特爾銳炫A系列和B系列顯卡上,Qwen3模型均能取得良好的性能表現(xiàn),開發(fā)者可根據(jù)實(shí)際需求選擇合適的硬件平臺(tái)進(jìn)行模型部署。英特爾還通過端側(cè)微調(diào)提升模型智能,基于Unsloth和Hugging Face參數(shù)高效微調(diào)框架構(gòu)建端側(cè)解決方案,優(yōu)化用戶體驗(yàn)。端側(cè)微調(diào)過程中,利用特定的數(shù)據(jù)集對(duì)小型LLM(如0.6B參數(shù)量模型)進(jìn)行優(yōu)化,通過反向傳播算法調(diào)整模型的部分參數(shù),使得模型在特定任務(wù)上的表現(xiàn)更加出色。此外,英特爾擁抱開源生態(tài),優(yōu)化版Ollama第一時(shí)間支持Qwen3系列模型,方便開發(fā)者在英特爾客戶端平臺(tái)搭建智能應(yīng)用。
4
海光:無縫適配,展現(xiàn)技術(shù)優(yōu)勢(shì)
在“深算智能”戰(zhàn)略引領(lǐng)下,海光DCU快速完成對(duì)Qwen3全部8款模型的無縫適配與調(diào)優(yōu),覆蓋從235B到0.6B的不同參數(shù)規(guī)模模型,實(shí)現(xiàn)零報(bào)錯(cuò)、零兼容性問題的秒級(jí)部署?;贕PGPU架構(gòu)的生態(tài)優(yōu)勢(shì)和編程開發(fā)軟件棧DTK的領(lǐng)先特性,Qwen3在海光DCU上展現(xiàn)出卓越的推理性能與穩(wěn)定性。這不僅驗(yàn)證了海光DCU的高通用性和高生態(tài)兼容度,也凸顯了其自主可控的技術(shù)優(yōu)勢(shì),為AI大模型的訓(xùn)練與推理提供了堅(jiān)實(shí)可靠的基礎(chǔ)設(shè)施支持。DCU在Qwen3適配中展現(xiàn)了卓越的技術(shù)能力。其采用通用圖形處理單元(GPGPU)架構(gòu),支持高并行計(jì)算,適合AI模型訓(xùn)練與推理,類CUDA并行計(jì)算框架兼容主流AI軟件生態(tài),確保與Qwen3等模型的無縫整合。海光的深算工具包(DTK)是一套完整的軟件開發(fā)套件,包括開發(fā)工具、庫和優(yōu)化框架,支持模型遷移、性能優(yōu)化與快速部署,助力DCU實(shí)現(xiàn)Qwen3全系列模型的秒級(jí)部署,無任何錯(cuò)誤或兼容性問題。DCU支持從0.6億到2350億參數(shù)的Qwen3模型,展現(xiàn)了其適應(yīng)多樣化計(jì)算需求的靈活性,覆蓋邊緣計(jì)算到數(shù)據(jù)中心的高性能場(chǎng)景。其兼容全球AI框架及國(guó)產(chǎn)大模型,降低開發(fā)者遷移成本,同時(shí)內(nèi)置安全硬件,支持國(guó)密算法(如SM2、SM3)與可信計(jì)算,滿足中國(guó)對(duì)信息安全與技術(shù)自主的高要求。DCU通過支持Qwen3的訓(xùn)練與推理,確立了其作為AI大模型關(guān)鍵基礎(chǔ)設(shè)施的地位。相較于進(jìn)口GPU,DCU提供自主可控的算力解決方案,滿足金融、政務(wù)等行業(yè)對(duì)安全與效率的需求。
結(jié)語
Qwen3的發(fā)布與開源為人工智能領(lǐng)域帶來新的發(fā)展契機(jī),而華為昇騰和昇思、英特爾等芯片廠商的支持,從訓(xùn)練到推理,從性能優(yōu)化到生態(tài)建設(shè),為Qwen3的廣泛應(yīng)用提供了全方位保障。隨著技術(shù)的持續(xù)創(chuàng)新,各方的協(xié)同合作有望推動(dòng)人工智能技術(shù)邁向新的高度,在更多領(lǐng)域?qū)崿F(xiàn)創(chuàng)新應(yīng)用,為行業(yè)發(fā)展注入新動(dòng)力。