SOCAMM2:與HBM應(yīng)用互補(bǔ)的創(chuàng)新內(nèi)存選擇
SOCAMM2基于LPDDR5/5x顆粒和CAMM模塊化設(shè)計,同時采用4-N-4 HDI超高密度互連疊層結(jié)構(gòu),極大提升了設(shè)計復(fù)雜度和孔密度,為高性能計算提供了堅實的基礎(chǔ)。與LPCAMM2設(shè)計相比,SOCAMM2去除了頂部凸出的梯形結(jié)構(gòu),進(jìn)一步降低了整體高度,更適合服務(wù)器的安裝環(huán)境和液體冷卻系統(tǒng),在僅14×90 mm的緊湊尺寸內(nèi)最大可實現(xiàn)256GB容量,數(shù)據(jù)傳輸速率高達(dá)8533Mbps。
SOCAMM2具有突破性的能效表現(xiàn),功耗僅為標(biāo)準(zhǔn)DDR5 RDIMM的1/3,在同容量下帶寬提升至2.5倍,顯著降低AI推理延遲,主要面向HPC、通用服務(wù)器、AI集群服務(wù)器、AI訓(xùn)練/推理、智能輔助駕駛和工業(yè)邊緣網(wǎng)關(guān)等應(yīng)用場景。
同樣應(yīng)用于AI領(lǐng)域,從架構(gòu)定位來看,HBM以固定封裝和高成本換取極致帶寬,SOCAMM2則以可替換、高效益的模塊化設(shè)計實現(xiàn)容量、功耗與彈性的平衡。在實際系統(tǒng)中,可同時采用HBM應(yīng)用于GPU側(cè),SOCAMM2用作CPU側(cè),從而兼顧帶寬與容量的雙重提升。
憑借在性能、能效與空間效率三個維度的創(chuàng)新,SOCAMM2為高性能計算與創(chuàng)新存儲架構(gòu)提供了全新的解決方案,尤其適合面向AI與大模型推理的高效益擴(kuò)展需求。
存儲在AI應(yīng)用的多重挑戰(zhàn):性能瓶頸與可靠性難題
曹匡文在演講中深入剖析了AI大集群存儲系統(tǒng)面臨的共性難題。他指出,企業(yè)級SSD是AI集群的核心基石,但AI數(shù)據(jù)流從GB級、TB級到PB級都存在不同特點(diǎn)的性能瓶頸和可靠性挑戰(zhàn)。
性能瓶頸方面,無論是訓(xùn)練階段的隨機(jī)讀取,還是推理階段的高并發(fā)訪問,亦或是檢查點(diǎn)保存時的大量順序?qū)懭?,都對存儲系統(tǒng)提出了極高的性能需求。低延遲、優(yōu)秀的QoS和規(guī)避長尾延時成為關(guān)鍵挑戰(zhàn)??煽啃苑矫?,高寫入量和高負(fù)載下的故障預(yù)測困難,以及生命末期的數(shù)據(jù)安全保障,都是傳統(tǒng)存儲系統(tǒng)難以解決的問題。
針對應(yīng)用痛點(diǎn),江波龍推出了全方位的AI智能存儲解決方案。通過引入智能負(fù)載感知技術(shù),實時識別冷熱數(shù)據(jù),優(yōu)化緩存策略和數(shù)據(jù)布局,顯著提升了系統(tǒng)性能。同時,通過機(jī)器學(xué)習(xí)模型分析SSD內(nèi)部多項實時參數(shù),建立精準(zhǔn)的可靠性模型,實現(xiàn)了預(yù)測性主動維護(hù)和及時告警。
AI存儲升級AI應(yīng)用:性能與可靠性全面提升
江波龍的創(chuàng)新之處在于將AI技術(shù)深度融入存儲產(chǎn)品的設(shè)計、管理和運(yùn)維中,實現(xiàn)了三大技術(shù)突破。
智能性能優(yōu)化:利用控制器內(nèi)置ML機(jī)器學(xué)習(xí)能力,實現(xiàn)預(yù)測性流量控制、智能任務(wù)優(yōu)先級調(diào)度和數(shù)據(jù)訪問模式學(xué)習(xí)。與過去沒有流量控制、沒有優(yōu)先級管理、沒有冷熱識別的傳統(tǒng)方案相比,新一代智能存儲顯著提升了吞吐效率和響應(yīng)速度,使數(shù)據(jù)準(zhǔn)備速度加快、模型訓(xùn)練效率提升、推理速度大幅優(yōu)化。
壽命預(yù)測智能化:通過分析實時工作溫度梯度、NAND健康特性、最優(yōu)讀寫電壓變化、讀寫錯誤計數(shù)和系統(tǒng)日志等多維度數(shù)據(jù),智能運(yùn)維系統(tǒng)能夠自動預(yù)警硬盤健康狀況,助力客戶實現(xiàn)存儲生命末期提前告警,有效規(guī)避掉盤和數(shù)據(jù)丟失風(fēng)險,同時降低運(yùn)維復(fù)雜度,提高設(shè)備利用率。
可靠性全面提升:通過ML機(jī)器學(xué)習(xí)模型精確計算最佳讀取電壓,既提高了讀取速度,也增強(qiáng)了糾錯能力,使UBER(不可修正誤碼率)等可靠性指標(biāo)顯著優(yōu)于業(yè)內(nèi)主流水平。針對QLC可靠性問題,江波龍還通過NAND Flash閃存介質(zhì)研究和特性分析改善了QLC生命末期的數(shù)據(jù)可靠性。結(jié)合智能算法識別LBA熱度,實現(xiàn)冷熱分流,有效降低WAF(寫放大),進(jìn)一步提升SSD壽命。未來,公司計劃將這些在QLC領(lǐng)域的技術(shù)儲備,全面應(yīng)用于即將發(fā)布的企業(yè)級SSD產(chǎn)品中。
這些技術(shù)配合優(yōu)化的優(yōu)化的可靠性模型,高冗余的硬件設(shè)計,增強(qiáng)的PLP保護(hù),為客戶帶來了實實在在的收益:數(shù)據(jù)準(zhǔn)備速度加快、模型訓(xùn)練效率提升、推理速度加快,運(yùn)行更加穩(wěn)定可靠,全面優(yōu)化了AI工作效率。
研造一體:一站式存儲服務(wù)深入AI領(lǐng)域
8月26日,剛剛落成的上??偛?,是江波龍TCM與PTM商業(yè)模式的核心載體,也是AI存儲技術(shù)的研發(fā)中樞??偛客浇ㄔO(shè)的企業(yè)級存儲實驗室,聚焦大容量、高性能、高階軟硬件的產(chǎn)品技術(shù)方案,并與蘇州封測制造基地、中山存儲產(chǎn)業(yè)園多地協(xié)同,逐步深化AI應(yīng)用場景,持續(xù)滿足AI訓(xùn)練、AIGC推理等多元需求。憑借“研發(fā)+封測+制造”的一站式存儲服務(wù),江波龍能夠根據(jù)客戶的特定需求,完成高度定制化的創(chuàng)新產(chǎn)品,精確控制產(chǎn)品特性、成本與交付周期,為AI存儲領(lǐng)域持續(xù)注入創(chuàng)新動能。
未來,公司將推出支持QLC和PCIe Gen5的企業(yè)級SSD,并融入更多智能化創(chuàng)新與高階算法,為AI數(shù)據(jù)中心提供更多優(yōu)選存儲方案。