掩蓋計算和流水掩蓋示意圖
02 支持重計算細粒度通信掩蓋和Zero-Memory/Gelu重計算技術,實現(xiàn)內存優(yōu)化40%
針對MoE模型訓練中高顯存占用的問題,MindSpeed創(chuàng)造性地提出了重計算細粒度通信編排和ZeroMemory技術,通過細粒度聯(lián)合編排重計算以及前向和反向過程中所有的計算通信隱藏重計算的通信開銷,進而丟棄前向計算中每層的GroupedMatmul融合算子的輸入,從而實現(xiàn)內存優(yōu)化。該特性在DeepSeek V3模型上每層能節(jié)省接近200M的激活值開銷,疊加Gelu重計算等技術,整體內存優(yōu)化40%,且性能幾乎無損。
重計算細粒度通信掩蓋示意圖
03 MindSpeed的DualPipe通信掩蓋特性兼容多種流水線調度算法,用戶可靈活選擇
DualPipe的掩蓋收益與流水線調度策略并不是強綁定關系,這種掩蓋的使能前提是在流水線策略中當前可做兩個無依賴關系的MicroBatch(微批次)計算。同時,針對社區(qū)提出的DualPipe的改進算法Cut-In-Half[1]調度(只取DualPipe鏡像對稱結構的一半,呈V字排布,相比DualPipe在同PP并行度下算法啟動規(guī)模和靜態(tài)顯存減半,消除冗余參數(shù)且bubble保持一致)與DualPipe類似。針對VPP(Virtual Pipeline Parallelism,虛擬流水線并行)的1F1B 階段以跨MicroBatch的前反向計算為主,稍改調度也能實現(xiàn)EP通信掩蓋。因此,MindSpeed的通信掩蓋技術可兼容Dualpipe、Cut-in-half、VPP等三種流水線調度算法,用戶可根據(jù)使用場景進行自由選擇。
結語
本期為大家介紹了MindSpeed細粒度DualPipe通信掩蓋特性,在訓練性能加速上,MindSpeed將持續(xù)探索演進,歡迎訪問MindSpeed開源社區(qū)
參考鏈接:
[1] :https://zhuanlan.zhihu.com/p/26915547331?utm_medium=social&utm_psn=1878740300547221291&utm_source=wechat_session&utm_id