二、Weight預取雙流并行:訪存、通信并行,性能提升10%+

在推理的Decode階段,權重(Weight)加載耗時較長,主要原因包括兩方面:

Weight需要頻繁訪問高帶寬內存(HBM),導致訪存開銷較大;

AllToAll通信操作占用大量帶寬,進一步加劇了性能瓶頸。

針對該問題,利用昇騰910系列硬件L2 Cache層的大容量、高帶寬特性,預取Weight并存儲到L2 Cache中,實現通信與Weight加載并行,從而加速后續(xù)的Cube運算,顯著降低了Weight加載時間,同時提升了Matmul算子的性能,整網性能提升10%+。

三、多算力軟硬協(xié)同通信算法:整網性能提升100%

DeepSeekV3-671B滿血版模型運行時,通信耗時占整網耗時60%+:

AllToAllV算子需要處理各卡負載不均的通信傳輸,其分級實現依賴前置算子(如AllGather)來獲取全局數據大小和內存偏移矩陣,會額外引入通信開銷和stream同步耗時;

由于通信數據量較小,算子下發(fā)時間較長,導致Host Bound問題突出;

AllToAll分級分層算法的步驟復雜,RDMA前后的同步操作增加了額外的RTT時延。

昇騰提出多算力軟硬協(xié)同通信算法,主要包含以下三大特性:

Host CPU/AI-V/AI-CPU/RoCE多算力負載協(xié)同,實現異步并發(fā);

隨數據發(fā)送同步信號,實現同步次數削減至理論極限(一次);

直調RoCE發(fā)送接口,bypass Device側調度和內核態(tài)陷入,極致提升模型通信效率。

通過該通信算法,實現整網耗時降低50%,大幅提升模型性能。

昇騰未來演進思考

昇騰將繼續(xù)探索MoE模型的通信優(yōu)化。我們將充分利用昇騰硬件上AIV/AI-CPU的多核并發(fā)能力,加速通信任務的下發(fā)和并發(fā)傳輸;同時,探索通信算子與其他計算算子更細粒度的通算融合,減少或掩蓋啟動和傳輸的開銷,為更多的客戶、伙伴提供更強大的技術能力。

分享到

zhupb

相關推薦