摩爾線程創(chuàng)始人兼CEO張建中在主題演講中表示,為應對生成式AI爆發(fā)式增長下的大模型訓練效率瓶頸,摩爾線程將通過系統(tǒng)級工程創(chuàng)新,構建新一代AI訓練基礎設施,致力于為AGI時代打造生產(chǎn)先進模型的“超級工廠”。

“AI工廠”:鍛造先進模型的“超級工廠”

人工智能前沿模型的競爭正推動著AI智能水平的迅猛提升,全球科技巨頭正以驚人的速度迭代模型。從GPT系列、Gemini到DeepSeek、QWen的快速更新,模型訓練迭代時間已縮短至不足3個月,這種高頻迭代不僅體現(xiàn)在大型語言模型(LLM)上,還同步擴展至多模態(tài)模型、語音模型、世界模型等前沿模型領域。這些模型在性能、效率和應用場景上實現(xiàn)的指數(shù)級突破,不僅推動了AI從專用領域向通用智能的跨越,其快速迭代的特性更對新一代高性能人工智能計算基礎設施提出了迫切需求。

摩爾線程提出的“AI工廠”,如同芯片晶圓廠的制程升級,是一個系統(tǒng)性、全方位的變革,需要實現(xiàn)從底層芯片架構創(chuàng)新、到集群整體架構的優(yōu)化,再到軟件算法調(diào)優(yōu)和資源調(diào)度系統(tǒng)的全面升級。這種全方位的基礎設施變革,將推動AI訓練從千卡級向萬卡級乃至十萬卡級規(guī)模演進,以系統(tǒng)級工程實現(xiàn)生產(chǎn)力和創(chuàng)新效率的飛躍。

摩爾線程以全功能GPU通用算力為基石,通過先進架構、芯片算力、單節(jié)點效率、集群效率優(yōu)化與可靠性等協(xié)同躍升的深度技術創(chuàng)新,旨在將全功能GPU加速計算平臺的強大潛能,轉化為工程級的訓練效率與可靠性保障。

這座“AI工廠”的智能“產(chǎn)能”,由五大核心要素共同決定,其效率公式可概括為:AI工廠生產(chǎn)效率 = 加速計算通用性 × 單芯片有效算力 × 單節(jié)點效率 × 集群效率 × 集群穩(wěn)定性

五大核心技術:系統(tǒng)性提升AI訓練效率

摩爾線程通過軟硬深度協(xié)同的系統(tǒng)級創(chuàng)新,從五大核心技術構建“AI工廠”,致力于推動大模型訓練效率實現(xiàn)質的飛躍。

技術一:全功能GPU,實現(xiàn)加速計算通用性

在AI基礎設施建設中,計算功能的完備性與精度完整性是支撐多元場景的核心基石。摩爾線程以自主研發(fā)的全功能GPU為核心,構建了“功能完備”與“精度完整”的通用性底座,全面覆蓋從AI訓練、推理到科學計算的全場景需求。

——創(chuàng)新突破:單芯片覆蓋多場景?;贛USA架構的突破性設計,摩爾線程的GPU單芯片即可集成AI計算加速、圖形渲染、物理仿真及超高清視頻編解碼能力,充分適配AI訓推、具身智能、AIGC等多樣化應用場景。

——精度標桿:性能躍升20%~30%。在計算精度方面,摩爾線程支持從FP64至INT8的完整精度譜系,并通過FP8混合精度技術,在主流前沿大模型訓練中實現(xiàn)20%~30%的性能躍升,為國產(chǎn)GPU的算力效率樹立行業(yè)標桿。

——前瞻布局:推動AI基礎設施進化。這一技術體系不僅滿足大模型時代的高效計算需求,更為世界模型和新興AI架構的演化提供前瞻性支撐,助力AI基礎設施向高通用性、高精度方向持續(xù)升級。

技術二:自研MUSA架構,提升芯片有效算力

強大的芯片有效算力是驅動“AI工廠”高效運轉的核心動力。摩爾線程基于自研MUSA架構,通過計算、內(nèi)存、通信三重突破,顯著提升單GPU運算效率。

——創(chuàng)新架構突破傳統(tǒng)限制:摩爾線程采用創(chuàng)新的多引擎、可伸縮GPU架構,通過硬件資源池化及動態(tài)資源調(diào)度技術,構建了全局共享的計算、內(nèi)存與通信資源池。這一設計不僅突破了傳統(tǒng)GPU功能單一的限制,還在保障通用性的同時顯著提升了資源利用率。其參數(shù)化配置可伸縮架構允許面向目標市場快速裁剪出優(yōu)化的芯片配置,大幅降低了新品芯片的開發(fā)成本。

——計算性能顯著提升:在計算層面,摩爾線程的AI加速系統(tǒng)(TCE/TME)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計算。作為國內(nèi)首批實現(xiàn)FP8算力量產(chǎn)的GPU廠商,其FP8技術通過快速格式轉換、動態(tài)范圍智能適配和高精度累加器等創(chuàng)新設計,在保證計算精度的同時,將Transformer計算性能提升約30%。

——內(nèi)存與通信效率全面優(yōu)化:內(nèi)存系統(tǒng)方面,通過多精度近存規(guī)約引擎、低延遲Scale-Up、通算并行資源隔離等技術,實現(xiàn)了50%的帶寬節(jié)省和60%的延遲降低。在通信和互聯(lián)領域,獨創(chuàng)的ACE異步通信引擎減少了15%的計算資源損耗,MTLink2.0互聯(lián)技術提供了高出國內(nèi)行業(yè)平均水平60%的帶寬,為大規(guī)模集群部署奠定了堅實基礎。

技術三:MUSA全棧系統(tǒng)軟件,提升單節(jié)點計算效率

當AI算力競爭進入深水區(qū),摩爾線程通過MUSA全棧系統(tǒng)軟件實現(xiàn)關鍵技術突破,推動AI工廠從單點創(chuàng)新轉向系統(tǒng)級效能提升。其核心創(chuàng)新包括:

——任務調(diào)度優(yōu)化:核函數(shù)啟動時間縮短50%;

——極致性能算子庫:GEMM算子算力利用率達98%,F(xiàn)lash Attention 算子算力利用率突破95%;

——通信效能躍升:MCCL通信庫實現(xiàn)RDMA網(wǎng)絡97%帶寬利用率;基于異步通信引擎優(yōu)化計算通信并行,集群性能提升10%;

——低精度計算效率革新:FP8優(yōu)化與重計算技術顯著降低訓練開銷;

——開發(fā)生態(tài)完善:基于Triton-MUSA編譯器 + MUSA Graph 實現(xiàn)DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。

技術四:自研KUAE大規(guī)模集群,優(yōu)化集群效率

當單節(jié)點效率達到新高度,如何實現(xiàn)大規(guī)模集群的高效協(xié)作成為新的挑戰(zhàn)。摩爾線程自研KUAE計算集群通過5D大規(guī)模分布式并行計算技術,實現(xiàn)上千節(jié)點的高效協(xié)作,推動AI基礎設施從單點優(yōu)化邁向系統(tǒng)工程級突破。

——創(chuàng)新5D并行訓練:摩爾線程整合數(shù)據(jù)、模型、張量、流水線和專家并行技術,全面支持Transformer等主流架構,顯著提升大規(guī)模集群訓練效率。

——性能仿真與優(yōu)化:自主研發(fā)的Simumax工具面向超大規(guī)模集群自動搜索最優(yōu)并行策略,精準模擬FP8混合精度訓練與算子融合,為DeepSeek等模型縮短訓練周期提供科學依據(jù)。

——秒級備份恢復:針對大模型穩(wěn)定性難題,創(chuàng)新CheckPoint加速方案利用RDMA技術,將百GB級備份恢復時間從數(shù)分鐘壓縮至1秒,提升GPU有效算力利用率。

技術五:零中斷容錯技術,提升集群的穩(wěn)定性和可靠性

在構建高效集群的基礎上,穩(wěn)定可靠的運行環(huán)境是“AI工廠”持續(xù)產(chǎn)出的保障。

特別在萬卡級AI集群中,硬件故障導致的訓練中斷會嚴重浪費算力。摩爾線程創(chuàng)新推出零中斷容錯技術,故障發(fā)生時僅隔離受影響節(jié)點組,其余節(jié)點繼續(xù)訓練,備機無縫接入,全程無中斷。這一方案使KUAE集群有效訓練時間占比超99%,大幅降低恢復開銷。

同時,KUAE集群通過多維度訓練洞察體系實現(xiàn)動態(tài)監(jiān)測與智能診斷,異常處理效率提升50%;結合集群巡檢與起飛檢查,訓練成功率提高10%,為大規(guī)模AI訓練提供穩(wěn)定保障。

從訓練到驗證:構建完整閉環(huán)

摩爾線程以打造先進的“AI工廠”為目標,憑借全功能GPU的通用計算能力、創(chuàng)新的MUSA架構、優(yōu)化的MUSA軟件棧、自研的KUAE集群以及零中斷容錯技術這五大核心要素,構建起高效的“AI工廠”,為AI大模型訓練提供了強大而可靠的基礎設施支持。

完善的“AI工廠”不僅需要高效訓練大模型,還需具備推理驗證能力。摩爾線程基于自研MUSA技術棧,構建覆蓋LLM、視覺、生成類模型的全流程推理解決方案,實現(xiàn)“訓練-驗證-部署”的無縫銜接。其MT Transformer自研推理引擎、TensorX自研推理引擎和vLLM-MUSA推理框架,為模型驗證和部署提供極致性能支持。

AI工廠,驅動千行百業(yè)智能升級

依托AI工廠,摩爾線程成功構建起覆蓋”訓練-推理-部署”全流程的高效體系。這一突破標志著國產(chǎn)計算基礎設施已具備支撐AGI時代規(guī)?;?、高效率、高可靠模型生產(chǎn)的關鍵能力。

從圖形渲染基石到AI算力引擎,摩爾線程全功能GPU持續(xù)加速計算革新。以“KUAE+MUSA”為智算業(yè)務核心,摩爾線程將加速賦能千行百業(yè),推動全功能GPU驅動的AI技術在物理仿真、AIGC、科學計算、具身智能、智能體、醫(yī)療影像分析、工業(yè)大模型等關鍵領域的應用與部署。

同時,摩爾線程深知開放是生態(tài)繁榮之源。摩爾線程將于今年10月舉辦首屆MUSA開發(fā)者大會,誠邀全球開發(fā)者共探前沿技術,共享MUSA自主新生態(tài)。

隨著WAIC 2025正式拉開帷幕,摩爾線程以“全功能GPU,為美好世界加速”為主題,精彩亮相上海世博展覽館H1-A821展位,誠邀業(yè)界同仁蒞臨參觀交流,共同見證國產(chǎn)人工智能基礎設施的創(chuàng)新突破與發(fā)展。

分享到

xiesc

相關推薦