Checkpointing通過選擇性存儲(chǔ)中間激活值而非全部參數(shù),在反向傳播時(shí)重新計(jì)算丟失的激活值,從而減少內(nèi)存占用。這一技術(shù)雖能“省空間”,卻需付出額外計(jì)算成本的代價(jià),其優(yōu)化路徑成為全球AI研究者的核心課題。

文字編輯| 宋雨涵

1

技術(shù)解析

Checkpointing的“得與失”

1. 激活檢查點(diǎn)(Activation Checkpointing)

在大型語(yǔ)言模型(LLM)微調(diào)中,激活檢查點(diǎn)通過僅保存關(guān)鍵層激活值,將內(nèi)存占用降低40%-60%。例如,訓(xùn)練千億參數(shù)模型時(shí),若采用傳統(tǒng)方法需128GB顯存,激活檢查點(diǎn)僅需48GB。但代價(jià)是反向傳播時(shí)需重新計(jì)算丟失的激活值,導(dǎo)致訓(xùn)練時(shí)間增加30%-50%。

2. 梯度檢查點(diǎn)(Gradient Checkpointing)

針對(duì)深度網(wǎng)絡(luò)(>100層),梯度檢查點(diǎn)通過犧牲部分前向計(jì)算效率,換取內(nèi)存空間的釋放。實(shí)驗(yàn)顯示,其在訓(xùn)練70B參數(shù)模型時(shí),顯存占用從192GB降至96GB,但訓(xùn)練時(shí)間延長(zhǎng)18%。

3. 行業(yè)痛點(diǎn):規(guī)?;瘧?yīng)用的挑戰(zhàn)

數(shù)據(jù)傳輸瓶頸

數(shù)據(jù)傳輸瓶頸:跨節(jié)點(diǎn)訓(xùn)練時(shí),檢查點(diǎn)數(shù)據(jù)傳輸延遲占整體訓(xùn)練時(shí)間的15%-25%;

容錯(cuò)能力不足

節(jié)點(diǎn)故障導(dǎo)致的全局檢查點(diǎn)重傳,可能引發(fā)“雪崩效應(yīng)”

索引結(jié)構(gòu)低效

傳統(tǒng)哈希表索引在千億級(jí)參數(shù)場(chǎng)景下查詢效率下降60%。

2

殷樹教授的破局之道:

Portus方法的技術(shù)突破

在2025人工智能基礎(chǔ)設(shè)施峰會(huì)-智能算力前沿技術(shù)論壇上殷樹教授將分享其在面向大規(guī)模神經(jīng)網(wǎng)絡(luò)檢查點(diǎn)(Checkpointing)方面的最新研究成果,介紹名為Portus的優(yōu)化方法

殷樹教授將帶來如何通過優(yōu)化的數(shù)據(jù)傳輸路徑和索引結(jié)構(gòu),提升DNN檢查點(diǎn)的效率,并為大規(guī)模模型訓(xùn)練提供高效的容錯(cuò)解決方案,深入探討如何通過技術(shù)創(chuàng)新提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練的效率和可靠性。歡迎您參會(huì)交流。

專家簡(jiǎn)介

殷樹,上??萍即髮W(xué)長(zhǎng)聘副教授(tenured),博士生導(dǎo)師,MHPC聯(lián)合實(shí)驗(yàn)室主任。長(zhǎng)期從事并行與分布式文件系統(tǒng)、高性能計(jì)算系統(tǒng)等研究工作。研究成果發(fā)表于TPDS,TDSC,SC,SoCC,ICDCS,ICPP等多個(gè)高水平期刊會(huì)議。殷樹教授曾多次受邀參與DOIT主辦的全球閃存峰會(huì)等行業(yè)大會(huì),其研究成果受到業(yè)界的廣泛關(guān)注。

寫在最后

在人工智能的星辰大海中,Checkpointing技術(shù)如同航海圖上的經(jīng)緯線,看似靜默無聲,卻指引著整個(gè)艦隊(duì)的前進(jìn)方向。當(dāng)我們?cè)隗@嘆AI模型的驚人表現(xiàn)時(shí),不應(yīng)忘記背后這些”隱形工程師”的耕耘。2025人工智能基礎(chǔ)設(shè)施峰會(huì),讓我們共同期待殷樹教授揭開神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化的新篇章——這不僅是對(duì)技術(shù)的探索,更是對(duì)智能文明演進(jìn)規(guī)律的深刻洞察。

分享到

lixiangjing

算力豹主編

相關(guān)推薦