“2025人工智能基礎設施峰會”會場
在下午召開的數(shù)據(jù)智能技術應用論壇上,上海交通大學計算機科學與工程系教授、博士生導師,國家級青年人才、國家重點研發(fā)計劃首席科學家、CCF體系結構專委會常委,上海市計算機學會存儲專委會主任吳晨濤發(fā)表主題為“面向大模型應用的內(nèi)存故障容錯技術”的精彩報告,從內(nèi)存故障預測與檢查點等技術入手,介紹他和他的已經(jīng)研究團隊如何通過主被動容錯方法,保障大模型系統(tǒng)的可靠性。發(fā)表主題為“面向大模型應用的內(nèi)存故障容錯技術”的精彩報告,從內(nèi)存故障預測與檢查點等技術入手,介紹他和他的已經(jīng)研究團隊如何通過主被動容錯方法,保障大模型系統(tǒng)的可靠性。
數(shù)據(jù)智能技術應用分論壇現(xiàn)場
以下內(nèi)容根據(jù)速記整理,未經(jīng)本人審定。
上海交通大學計算機科學與工程系教授、博士生導師,國家級青年人才、國家重點研發(fā)計劃首席科學家、CCF體系結構專委會常委,上海市計算機學會存儲專委會主任吳晨濤
吳晨濤:
大家好,我是來自上海交通大學的吳晨濤。今天,我將圍繞“面向大模型應用的內(nèi)存故障容錯技術”這一主題,與大家分享我們在內(nèi)存故障預測與容錯技術方面的最新研究成果。
研究背景與發(fā)現(xiàn)
隨著云計算、大數(shù)據(jù)等系統(tǒng)的快速擴展和規(guī)模日益增大,內(nèi)存系統(tǒng)的可靠性已成為影響整個系統(tǒng)運行的重要因素。京東云的調(diào)查表明,內(nèi)存故障占數(shù)據(jù)中心硬件故障的37%。在AIGC算力快速部署的當下,內(nèi)存可靠性面臨著更為嚴峻的挑戰(zhàn)。
在大模型訓練中,內(nèi)存故障問題尤為突出。以Meta公司為例,其利用992張A100集群訓練175B參數(shù)模型,在3個月的訓練時長中,系統(tǒng)重啟超過100次,最長穩(wěn)定運行時間僅為2.8天,最長中斷達2天,平均中斷時長12小時,其中硬件故障占50%。若以ETTR(有效訓練時間比率)衡量,GPU越多,ETTR值越低,萬卡集群平均有效運行時間僅占正常時間的70%。隨著DeepSeek等大模型應用的廣泛使用,內(nèi)存可靠性的挑戰(zhàn)只會增多,不會減少。
內(nèi)存故障預測
內(nèi)存故障預測是智能運維系統(tǒng)(AIOps)的重要組成部分,谷歌、微軟、華為、阿里等公司均致力于發(fā)展內(nèi)存故障預測技術。內(nèi)存故障模式多樣,包括單點錯誤模式、行錯誤模式、列錯誤模式和無序錯誤模式等。內(nèi)存一般配有ECC編碼,若錯誤在編碼容忍范圍內(nèi),可糾正回來,稱為CE(CorrectableError);若錯誤超出編碼容錯能力,則稱為UC/UCE(UncorrectableError)。
內(nèi)存故障模式種類繁多,故障原因多樣,給故障預測帶來了很大難度。我們與華為合作,從row、col、bank三個維度進行三維空間分析,針對發(fā)生故障的所有內(nèi)存單元進行跟蹤,分析三維模型。以24小時為周期劃分每個bank力度上的UE和CE信息,觀察其時間規(guī)律,并以紅、藍、綠三色進行標注,發(fā)現(xiàn)row、column、bank這三個維度的內(nèi)存故障均呈現(xiàn)非常明顯的時間和空間局部性。
影響內(nèi)存故障的主要因素包括DIMM架構、DRAM光刻疊層工藝、系統(tǒng)負載和平臺架構等。內(nèi)存故障與內(nèi)存介質(zhì)、內(nèi)存訪問特性相關度極高,且內(nèi)存對延遲要求極為敏感,因此對故障預測的要求更高。
基于以上分析,我們與華為合作,針對大規(guī)模華為云集群環(huán)境中的內(nèi)存故障預測展開研究。通過對12萬臺服務器、近200萬條內(nèi)存故障日志的分析,我們發(fā)現(xiàn)不同架構平臺的內(nèi)存故障特性存在顯著差異。例如,在x86架構的服務器中,只發(fā)生UE的內(nèi)存比例約為11%,而在Arm架構下則僅為4%,約為x86的1/3。進一步研究發(fā)現(xiàn),Arm服務器在ECC編碼中保留了更多的奇偶校驗位,使得其在4bit位寬時能達到Chipkill級性能,但在8bit位寬時難以應對大量錯誤,導致錯誤率急劇上升。
此外,我們還分析了內(nèi)存故障的可預測性。研究發(fā)現(xiàn),Arm架構在較短提前時間(如6小時)內(nèi),可預測UE的生存函數(shù)概率值略高于x86服務器,但在較長提前時間(如24小時)內(nèi),x86架構表現(xiàn)出更高比例的可預測UE。同時,x86和Arm平臺之間CE與UE的關系也存在差異,x86服務器在出現(xiàn)不可糾正錯誤前,通常會有大量可糾正錯誤,而Arm服務器則表現(xiàn)不一致,這可能與其風暴抑制功能有關,該功能雖然增強了系統(tǒng)穩(wěn)定性,卻減少了用于故障預測的錯誤數(shù)據(jù)量。
針對內(nèi)存故障成因復雜的特點,我們采用了特征工程方法,兼顧時間局部性、空間局部性等多方面特征,包括靜態(tài)特征、空間特征、時間特征、類型特征、故障位特征等,構建了統(tǒng)一的針對大規(guī)模異構集群的內(nèi)存故障預測與分級容錯架構。該架構從DIMM級、服務器級、頁面級、行級分別進行粗粒度和細粒度的故障預測,并針對故障預測結果設計了相應的容錯機制:一是針對服務器的虛擬機或容器進行熱遷移;二是對對應內(nèi)存的頁面進行軟下線;三是對風險區(qū)域進行數(shù)據(jù)保護和降級使用。
實驗結果
我們在系統(tǒng)中提供了針對DIMM級以及行級、頁級雙視角的內(nèi)存故障預測方法,結合XGBoost等算法,取得了較好的效果。在x86平臺,實現(xiàn)了51%的精準率和81%的覆蓋率;而在Arm平臺,由于其風暴抑制和奇偶校驗位等功能導致缺少細粒度故障信息,內(nèi)存故障預測性能相對較低。
進一步的實驗分析了不同提前時間下預測性能的變化,發(fā)現(xiàn)無論是提前1秒、5秒、1分鐘、5分鐘、1小時還是6小時等,均能達到一定的預測效果。這些成果已在華為云中進行了部分落地應用。
針對x86和Arm架構的差異,我們測試了不同因素對這兩個平臺內(nèi)存故障預測性能的影響。在x86架構中,bitlevel的CE特征占主導地位,去除該特征會導致性能顯著下降;而在Arm架構中,靜態(tài)特征、局部特征和空間特征等對預測性能均有不同程度的影響,其中空間特征的影響最大。整體而言,在Arm架構上進行內(nèi)存故障預測更具挑戰(zhàn)性。
我們將容錯機制在華為云集群中進行了大規(guī)模部署,取得了顯著收益。部署后,平均降低了上層虛擬機業(yè)務故障率27%;采用第二級容錯時,可多避免110.6%的內(nèi)存UE,但開銷僅為Linux內(nèi)存默認方案的92.4%;在集群運行過程中,共有15.6%的內(nèi)存容量被軟下線,通過三級容錯策略,重新釋放了其中78.65%的容量,剩余11.68%的重復出現(xiàn)UE的區(qū)域,皆被TierIII恢復數(shù)據(jù),避免了OS進程掛死。
總結與展望
我們針對內(nèi)存故障預測問題開展了深入研究,特別是針對大規(guī)模集群的硬件故障,通過特征工程方法構建了DIMM/行列級分級容錯機制,有效降低了上層虛擬機業(yè)務的故障率,保障了大規(guī)模系統(tǒng)的穩(wěn)定性,為AIGC技術的發(fā)展提供了有力支持。
未來,我們將進一步拓展研究方向。一方面,將故障預測與大模型的Checkpoint機制相結合,構建主被動分級容錯技術,以更好地保障AI應用的可靠性;另一方面,深入研究存儲子系統(tǒng)容錯技術,探討DRAM、PM、SSD/HDD等設備故障之間的相關性,并進一步探究內(nèi)存故障對上層應用業(yè)務的影響范圍。此外,隨著CXL等相關技術的實施,我們還將研究針對CXL-DRAM/PM等的故障預測技術,為構建大規(guī)模內(nèi)存池提供技術支持。
以上就是我的報告,謝謝大家!