“2025人工智能基礎(chǔ)設(shè)施峰會(huì)”會(huì)場
固態(tài)存儲已在各類云計(jì)算、大模型場景廣泛部署核心存儲設(shè)備。
數(shù)據(jù)智能技術(shù)應(yīng)用分論壇現(xiàn)場
在下午召開的數(shù)據(jù)智能技術(shù)應(yīng)用論壇上,華東師范大學(xué)教授、博士生導(dǎo)師,上海市青年科技啟明星石亮以“大規(guī)模固態(tài)存儲盤故障預(yù)測及部署”為題,介紹了一種智能化的故障預(yù)測方法和部署過程中的優(yōu)化技術(shù)實(shí)現(xiàn)預(yù)測準(zhǔn)確率的大幅提升的同時(shí),實(shí)現(xiàn)性能影響最小化。
華東師范大學(xué)博士生導(dǎo)師,上海市青年科技啟明星石亮教授
以下內(nèi)容根據(jù)速記整理,未經(jīng)本人審定。
石亮教授:
尊敬的各位來賓,大家好!我是華東師范大學(xué)大數(shù)據(jù)智能系統(tǒng)實(shí)驗(yàn)室的石亮。非常榮幸能在這次人工智能基礎(chǔ)設(shè)施峰會(huì)上,與大家分享我們在大規(guī)模固態(tài)存儲盤故障預(yù)測及部署優(yōu)化技術(shù)方面的研究成果。
大規(guī)模閃存存儲系統(tǒng)背景
在當(dāng)今數(shù)字化時(shí)代,閃存存儲設(shè)備已經(jīng)廣泛應(yīng)用于數(shù)據(jù)中心、消費(fèi)電子等各類場景,成為現(xiàn)代存儲系統(tǒng)的核心組成部分。從2008年我開始研究閃存存儲系統(tǒng)至今,見證了閃存技術(shù)的飛速發(fā)展,其發(fā)展趨勢主要體現(xiàn)在三個(gè)維度:一是從2D到3D再到4D的架構(gòu)演進(jìn);二是堆疊層數(shù)的顯著增加,從24層提升至300層;三是每單元多比特技術(shù)的不斷成熟。這些進(jìn)步使得閃存具備了輕便、高性能、低功耗等顯著優(yōu)勢,推動(dòng)了全閃存化在數(shù)據(jù)中心等場景的大規(guī)模部署。
隨著閃存技術(shù)的持續(xù)演進(jìn),SSD介質(zhì)正朝著存儲高密度的方向發(fā)展,加速替代傳統(tǒng)的HDD介質(zhì)。在人工智能、大數(shù)據(jù)等全場景中,閃存能夠提供更高效、更安全的存儲能力,并且使用成本也不斷降低。預(yù)計(jì)到2026年,國內(nèi)企業(yè)級固態(tài)硬盤市場規(guī)模將增至669億元,2022-2026年期間復(fù)合增速約為23.7%,而PCIe固態(tài)硬盤市場份額比例將在2026年進(jìn)一步增至89.3%。
然而,在大規(guī)模部署閃存存儲設(shè)備的過程中,硬件故障問題日益凸顯。數(shù)據(jù)中心全閃陣列的年故障率可以達(dá)到約2.5%,而QLC等新型閃存設(shè)備的故障率可能更高。設(shè)備一旦出現(xiàn)故障,可能導(dǎo)致數(shù)據(jù)丟失等嚴(yán)重后果,傳統(tǒng)的多備份方案雖然可以解決數(shù)據(jù)丟失問題,但卻帶來了高昂的開銷和性能下降。因此,學(xué)術(shù)界和企業(yè)界普遍采用故障預(yù)測和恢復(fù)機(jī)制相結(jié)合的方案來應(yīng)對這一挑戰(zhàn)。
差異化的機(jī)器學(xué)習(xí)SSD故障預(yù)測研究
為了提前預(yù)知SSD故障,我們開展了一系列基于機(jī)器學(xué)習(xí)的研究工作。整個(gè)研究過程包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、特征選擇和模型搭建等關(guān)鍵步驟。
(一)數(shù)據(jù)收集與預(yù)處理
我們從華為數(shù)據(jù)中心收集了超過20萬個(gè)SSD設(shè)備的長期運(yùn)行數(shù)據(jù),時(shí)間跨度從2017年10月至2021年9月。這些數(shù)據(jù)按照NAND類型、容量分為六類,SMART信息則從固有屬性、錯(cuò)誤相關(guān)、工作負(fù)載、持續(xù)時(shí)間及磨損等不同角度進(jìn)行分類。在數(shù)據(jù)預(yù)處理階段,我們對收集到的數(shù)據(jù)集進(jìn)行了清洗、歸一化等操作,以確保數(shù)據(jù)的質(zhì)量和一致性,為后續(xù)的模型訓(xùn)練奠定基礎(chǔ)。
(二)特征選擇與模型搭建
通過分析不同類型的SSD設(shè)備,我們發(fā)現(xiàn)MLC和TLC等不同固態(tài)存儲設(shè)備的失效特征存在顯著差異。例如,MLC的出廠壞塊數(shù)量通常比TLC少,但其部署的應(yīng)用類型可能導(dǎo)致其更容易出現(xiàn)故障。基于這些觀察結(jié)果,我們提出了差異化的機(jī)器學(xué)習(xí)解決方案。該方案將SSD設(shè)備根據(jù)負(fù)載類型、使用時(shí)間、部署時(shí)間、容量、類型等因素進(jìn)行分類,構(gòu)建不同的模型進(jìn)行故障預(yù)測。同時(shí),我們引入了回溯周期和恢復(fù)周期的概念,以便更全面地捕捉設(shè)備的故障特征。
(三)實(shí)驗(yàn)結(jié)果與性能評估
實(shí)驗(yàn)結(jié)果表明,我們的差異化機(jī)器學(xué)習(xí)方案在故障預(yù)測方面取得了顯著的性能提升。以隨機(jī)森林算法為例,當(dāng)召回率達(dá)到0.91時(shí),精確度可以保持在0.81,相比較傳統(tǒng)方法,查準(zhǔn)率提升了約0.4,查全率提升了約0.35。這一結(jié)果遠(yuǎn)超現(xiàn)有數(shù)據(jù),達(dá)到了可以商用的目標(biāo)。
基于預(yù)測備份的RAID快速恢復(fù)技術(shù)
在故障恢復(fù)方面,傳統(tǒng)的RAID恢復(fù)機(jī)制存在占用計(jì)算資源、影響服務(wù)且速度較慢等問題。為此,我們提出了一種基于預(yù)測備份的RAID快速恢復(fù)技術(shù)。
(一)技術(shù)原理與實(shí)現(xiàn)過程
該技術(shù)的核心思想是提前預(yù)測故障設(shè)備,并在故障發(fā)生前生成鏡像設(shè)備。具體實(shí)現(xiàn)過程如下:首先,預(yù)測算法識別出可能故障的正樣本設(shè)備;然后,預(yù)恢復(fù)機(jī)制使用備用設(shè)備與正樣本設(shè)備組成RAID1陣列,在不影響正樣本設(shè)備正常運(yùn)行的情況下進(jìn)行數(shù)據(jù)備份;在觀察期間,RAID1在上層RAID5中作為單個(gè)設(shè)備運(yùn)行,攜帶正樣本設(shè)備上的數(shù)據(jù),等待設(shè)備故障;最后,在正樣本設(shè)備發(fā)生故障后,移除故障設(shè)備,保留鏡像設(shè)備,從而實(shí)現(xiàn)快速恢復(fù)。
(二)實(shí)驗(yàn)結(jié)果與性能優(yōu)化
實(shí)驗(yàn)結(jié)果表明,基于預(yù)測備份的RAID快速恢復(fù)技術(shù)在性能方面表現(xiàn)出色。在預(yù)恢復(fù)過程中,前臺工作負(fù)載的吞吐量下降不超過正常吞吐量的93%,而鏡像生成過程對前臺工作負(fù)載的影響也較小。相比之下,傳統(tǒng)故障后恢復(fù)機(jī)制會(huì)導(dǎo)致性能大幅下降,隨機(jī)讀吞吐量和順序讀取吞吐量分別下降到正常吞吐量的23.4%和23.9%。此外,通過調(diào)整模型參數(shù),我們可以在不同的準(zhǔn)確率和召回率之間進(jìn)行權(quán)衡,以滿足實(shí)際應(yīng)用場景的需求。
總結(jié)與未來展望
總結(jié)而言,我們的研究工作通過差異化的多模型訓(xùn)練和基于預(yù)測備份的RAID快速恢復(fù)技術(shù),有效解決了大規(guī)模閃存存儲系統(tǒng)中的故障預(yù)測和恢復(fù)問題。在70萬塊SSD設(shè)備的規(guī)模下,年故障率為2.23%的情況下,我們的方案能夠顯著提升故障預(yù)測的準(zhǔn)確性和召回率,并在故障恢復(fù)過程中保障系統(tǒng)的性能和服務(wù)能力。
展望未來,我們將繼續(xù)深化在大規(guī)模存儲系統(tǒng)故障預(yù)測與恢復(fù)領(lǐng)域的研究。一方面,我們將致力于精細(xì)化數(shù)據(jù)匯聚,從多個(gè)數(shù)據(jù)中心和供應(yīng)商收集更廣泛的數(shù)據(jù),豐富數(shù)據(jù)集的多樣性和時(shí)間跨度;另一方面,我們將研發(fā)更先進(jìn)的模型,提升預(yù)測精度、擴(kuò)展預(yù)測時(shí)間范圍,并增強(qiáng)模型的通用性,使其適用于不同品牌和型號的SSD。此外,我們還將推動(dòng)智能化方案的實(shí)施與監(jiān)控,實(shí)現(xiàn)故障預(yù)測模型的實(shí)時(shí)監(jiān)測與預(yù)警,并通過持續(xù)收集運(yùn)行數(shù)據(jù),不斷優(yōu)化和改進(jìn)模型,為大規(guī)模固態(tài)存儲系統(tǒng)的可靠性和穩(wěn)定性提供更有力的保障。
以上就是我們在這次峰會(huì)上的分享,感謝各位的聆聽!