圖表1模型切分設(shè)備部署
圖表2微批量執(zhí)行調(diào)度

然而,設(shè)計高效的流水線并行算法方案仍然存在諸多挑戰(zhàn),例如深度學習模型各異,每層的訓練時間也不相同,因此難以找到最優(yōu)的模型切分部署方案;當前的流水線并行算法局限于同質(zhì)化的GPU間網(wǎng)絡(luò)拓撲,而現(xiàn)實機器學習集群具有復雜的混合GPU間網(wǎng)絡(luò)拓撲(例如,單個機器上的GPU可以通過PCIe或者NVLink連接,跨機通信可以基于TCP或者RDMA),導致現(xiàn)有方案無法使用等,以上問題導致實際訓練中的GPU使用效率低。

針對以上難點,團隊提出了一個近似最優(yōu)的同步流水線并行訓練算法。算法由三個主要模塊構(gòu)成:

1) 一個基于遞歸最小割的GPU排序算法,通過分析GPU間網(wǎng)絡(luò)拓撲確定GPU的模型部署順序,保證最大化利用GPU間帶寬;

2) 一個基于動態(tài)規(guī)劃的模型切分部署算法,高效率找到最優(yōu)的模型分割與部署方案,平衡模型在每個GPU上的運算時間與模型切片間的通信時間;

3) 一個近似最優(yōu)的列表排序算法,決策每個微批量在各個GPU上的執(zhí)行順序,最小化模型的訓練時間。

從理論上對算法做出詳盡分析,給出了算法的最壞情況保證。同時,在測試集群中實驗證明團隊的算法相對PipeDream,可以取得最高157%的訓練加速比。

INFOCOM是計算機網(wǎng)絡(luò)三大頂級國際會議之一,涉及計算機網(wǎng)絡(luò)領(lǐng)域的各個方面,在國際上享有盛譽且有廣泛的學術(shù)影響力。此次入選意味著阿里云機器學習平臺PAI在分布式深度學習模型訓練優(yōu)化領(lǐng)域的工作獲得國際學界的廣泛認可,進一步彰顯了中國在分布式機器學習系統(tǒng)領(lǐng)域有著核心競爭力。

阿里云機器學習PAI是面向企業(yè)及開發(fā)者,提供輕量化、高性價比的云原生機器學習平臺,一站式的機器學習解決方案,全面提升機器學習工程效率。

分享到

songjy

相關(guān)推薦