數(shù)據(jù)洪流下的存儲壓力
生成式AI的快速崛起使得算力芯片和模型算法成為熱點,也讓存儲逐漸成為制約AI效率與成本的關(guān)鍵變量之一。在大模型訓(xùn)練與推理過程中,如何提供高性能、高密度、低能耗、穩(wěn)定可靠的存儲解決方案成為AI基礎(chǔ)設(shè)施設(shè)計的核心命題。
以大語言模型為例,其訓(xùn)練數(shù)據(jù)主要來自互聯(lián)網(wǎng)爬蟲。從2008年起,大概每隔三四個月就進行一次大規(guī)模數(shù)據(jù)采集,已經(jīng)累積了13或15PB以上的文本內(nèi)容。因此,隨著模型參數(shù)的指數(shù)級增長,數(shù)據(jù)的清洗、存取與調(diào)用能力面臨挑戰(zhàn)。
而且在AI服務(wù)器BOM成本構(gòu)成中,GPU等算力單元占比約6到9成,是整機中最昂貴的部分。為了充分釋放算力價值,存儲系統(tǒng)必須有相應(yīng)的吞吐能力。同時,AI任務(wù)運行周期長,系統(tǒng)穩(wěn)定性要求極高,任何存儲故障都可能引發(fā)訓(xùn)練中斷,造成巨大損失。因此,性能與穩(wěn)定性是存儲系統(tǒng)不可妥協(xié)的底層要求。
斯坦福大學(xué)一份報告顯示,多個AI模型訓(xùn)練中,存儲系統(tǒng)的能耗約占整體的三分之一。此外,數(shù)據(jù)中心空間利用率也直接影響運維與TCO成本。綜上所述,“內(nèi)存+閃存”組合架構(gòu)逐步成為主流選擇,為大模型高效調(diào)用提供可擴展性支撐,強化了存儲在AI基礎(chǔ)設(shè)施中的戰(zhàn)略地位。
訓(xùn)練與推理階段的存儲挑戰(zhàn)
AI訓(xùn)練階段,存儲要負責(zé)“檢查點保存”和“恢復(fù)重啟”任務(wù)。訓(xùn)練系統(tǒng)通常涉及網(wǎng)絡(luò)、GPU、CPU、內(nèi)存與存儲等多個組件,結(jié)構(gòu)復(fù)雜,崩潰風(fēng)險較高。為了避免從頭開始訓(xùn)練,互聯(lián)網(wǎng)廠商訓(xùn)練大模型通常每幾小時進行一次訓(xùn)練參數(shù)和狀態(tài)存儲,一旦崩潰不用從頭開始訓(xùn)練,和游戲存檔類似。
這對存儲系統(tǒng)提出極高的要求。邱總現(xiàn)場分享了一個大模型檢查點讀寫的存儲帶寬計算方式,讓我們可以直觀了解大模型對存儲的嚴苛要求。假設(shè)訓(xùn)練一個175B參數(shù)的大模型,單次檢查點大小約為175×14=2.4T(2450GB),每參數(shù)大小為2B,再加上12B暫時狀態(tài),因此就是要考慮14倍擴展,然后存檔,2小時訓(xùn)練過程,如果這個存檔要在3分鐘內(nèi)寫入完,也就是占用整體2.5%的時間,2450GB除以180秒就是帶寬13.6GB/s。讀取速度算法類似但是讀取可以并發(fā)讀取,帶寬需求沒有寫入那么大。
此外,訓(xùn)練后的驗證、量化、微調(diào)與RAG結(jié)合部署也需頻繁訪問數(shù)據(jù)。特別是推理階段,為引入企業(yè)自身數(shù)據(jù)來適配具體業(yè)務(wù),要求存儲系統(tǒng)既能高效處理小數(shù)據(jù)訓(xùn)練,又要支持低延遲推理交互。
RAG(檢索增強生成)是把企業(yè)數(shù)據(jù)向量化后放到數(shù)據(jù)庫,給出提示詞之后先詢問數(shù)據(jù)庫,比對提問的向量和數(shù)據(jù)庫有沒有相同性,有就直接抓取相關(guān)資料,這部分也可以放到存儲里,也需要高容量、高讀性能的存儲系統(tǒng)。
QLC固態(tài)硬盤就能發(fā)揮重要作用,它有大容量與較低成本優(yōu)勢,適合作為RAG數(shù)據(jù)庫的承載介質(zhì)。還有DeepSee的硬盤緩存技術(shù),把之前問過的答案提前存儲下來,下次遇到類似問題直接從緩存中提取,無需再次調(diào)用大模型,大幅降低功耗與算力消耗,據(jù)說響應(yīng)時間能從10秒縮短至500毫秒,顯著提升用戶體驗。
這些應(yīng)用場景都強化了高容量、高性能、低功耗存儲的戰(zhàn)略地位。
銓興科技的企業(yè)級QLC SSD設(shè)計考量
面向上述需求,銓興科技圍繞企業(yè)級QLC SSD提出了四大核心設(shè)計考量:
提升ECC容錯能力。QLC每個單元需表示16種電壓狀態(tài)(TLC為8),電壓間距更小,識別難度顯著增加。溫度波動、電荷泄露、讀寫干擾等因素均可能導(dǎo)致誤碼。因此,銓興通過主控優(yōu)化ECC能力,提升數(shù)據(jù)完整性保障,確保在復(fù)雜AI任務(wù)中穩(wěn)定運行。
確保斷電數(shù)據(jù)完整。大容量QLC SSD的數(shù)據(jù)寫入頻繁,為保障關(guān)鍵數(shù)據(jù)在斷電后的安全寫入,必須引入高效超級電容,支撐緩存數(shù)據(jù)的及時回寫,提升整體數(shù)據(jù)安全等級。
優(yōu)化系統(tǒng)級數(shù)據(jù)重構(gòu)機制。在系統(tǒng)讀取過程出現(xiàn)異常需重建數(shù)據(jù)時,QLC寫入速度有瓶頸。對此,銓興通過主控路徑優(yōu)化及塊大小的調(diào)整,實現(xiàn)寫入效率提升,緩解系統(tǒng)級寫入延遲。
突破緩存瓶頸與空間約束。閃存密度快速增長,但DRAM及超級電容因工藝限制,容量密度難以同步擴展,造成PCB空間約束壓力加大。為此,銓興通過增加主控固件IU大小、搭配高密度內(nèi)存顆粒,平衡容量、成本與性能三者之間的關(guān)系。
目前,銓興科技已推出多款基于PCIe 5.0的企業(yè)級SSD產(chǎn)品,其中,122.88TB的QLC SSD是當(dāng)前市場最高容量的代表作,已進入送樣階段。該產(chǎn)品采用Dual Port設(shè)計,讀多寫少特性與AI推理場景高度契合。另有TLC版本PCIe 5.0 eSSD,覆蓋2TB至32TB容量,讀寫性能可達1018量級,是AI訓(xùn)練/高性能計算(HPC)等應(yīng)用的存儲優(yōu)先選項!
在SATA接口方面,銓興也突破傳統(tǒng)上限,將單盤容量提升至15.36TB,DWPD超過3,滿足高頻次寫入場景需求。
為降低大模型訓(xùn)練門檻,銓興還推出訓(xùn)推一體機解決方案。例如DeepSeek 671B模型訓(xùn)練通常需部署數(shù)百張高端顯卡,成本高達千萬級。銓興方案通過16張中階顯卡搭配8張擴展卡,即可實現(xiàn)高精度、全參數(shù)大模型訓(xùn)練,整體訓(xùn)練成本可降低90%。該平臺涵蓋PC、工作站等形態(tài),支持從大模型蒸餾到小模型部署的完整任務(wù)鏈,為AI開發(fā)者提供更靈活高效的交付路徑。
結(jié)語
從高密度、高性能、高容量企業(yè)級SSD到打破顯存墻的訓(xùn)推一體機,銓興科技正持續(xù)拓展企業(yè)級AI基礎(chǔ)設(shè)施的能力邊界,以強大的存儲產(chǎn)品力與系統(tǒng)解決方案,助力智能計算全面提速,在AI時代釋放更大的數(shù)據(jù)價值。