2023年至2025年間,HBM(高帶寬內(nèi)存)作為AI基礎(chǔ)設(shè)施構(gòu)建中不可替代的關(guān)鍵器件,迅速成為全球AI芯片企業(yè)的剛需。
尤其在AI訓(xùn)練、高性能計(jì)算領(lǐng)域,HBM3/3e成為高端算力芯片的標(biāo)配,包括英偉達(dá)GH200、AMD MI300系列及國(guó)內(nèi)頭部芯片等。但受限于制裁壓力、制造門(mén)檻和成本考量,部分國(guó)產(chǎn)AI芯片仍采用GDDR6、DDR4/5等通用顯存方案,并結(jié)合本土封裝技術(shù)(如高容量芯粒堆疊)以在帶寬和容量之間尋求平衡。
HBM的優(yōu)勢(shì)在于帶寬高、功耗低、延遲小——為萬(wàn)億參數(shù)級(jí)大模型提供數(shù)據(jù)快速通道。
它是一種將內(nèi)存芯片垂直堆疊起來(lái)的高帶寬存儲(chǔ)技術(shù),不像傳統(tǒng)DDR那樣通過(guò)主板上的銅線(xiàn)連接CPU,而是使用一種叫做硅中介層(interposer)的超薄硅板,把CPU和多個(gè)HBM芯片堆棧緊密連接起來(lái)。這樣做的好處是,數(shù)據(jù)傳輸距離更短、速度更快、能耗也更低。
每個(gè)HBM堆棧內(nèi)部通過(guò)微小的通孔(TSV)連接成一個(gè)整體,通常采用較成熟的制造工藝,比如28納米。
目前HBM通路上,跑在前面的企業(yè)主要是SK海力士和三星,2024年合計(jì)市場(chǎng)份額超過(guò)90%。壟斷的直接后果,就是價(jià)格暴漲。且優(yōu)先供貨對(duì)象也牢牢握在英偉達(dá)、微軟、AWS等手中。
最新消息是,SK海力士作為No.1率先量產(chǎn)HBM4,采用2048個(gè)I/O端口實(shí)現(xiàn)了帶寬翻倍,同時(shí)采用10nm級(jí)工藝和MR-MUF技術(shù)解決了散熱與堆疊難題。第二名的三星也在積極研發(fā)新一代 HBM4 DRAM,不過(guò)換了個(gè)方向——去探索邏輯芯片集成和混合堆棧,試圖在性能與成本間找到平衡。但HBM4的容量上限,目前達(dá)到64GB,難以滿(mǎn)足萬(wàn)億參數(shù)模型的內(nèi)存需求。高昂的成本和功耗進(jìn)一步限制了其在大規(guī)模推理場(chǎng)景的應(yīng)用。
此外,HBM的制造門(mén)檻極高。它不是普通的DDR或GDDR,需要先進(jìn)的TSV(硅通孔)堆疊工藝、微凸點(diǎn)鍵合、高精度封裝測(cè)試,以及極高的良率控制。具備這種能力的廠商寥寥無(wú)幾,這也是HBM國(guó)產(chǎn)化進(jìn)程緩慢的根本原因。
HBF路線(xiàn)分化——HBF(高帶寬閃存)來(lái)了
在AI基礎(chǔ)設(shè)施持續(xù)爆發(fā)的背景下,除了HBM之外,一個(gè)新趨勢(shì)逐漸浮現(xiàn)——以HBF(High Bandwidth Flash,高帶寬閃存)為代表的新形態(tài)內(nèi)存技術(shù),正試圖為AI系統(tǒng)提供另一種經(jīng)濟(jì)可用的方案。
HBM的重點(diǎn)是提高每瓦帶寬和每平方毫米帶寬(這兩者都是移動(dòng)設(shè)備的重要制約因素),同時(shí)保持與現(xiàn)有解決方案的競(jìng)爭(zhēng)力。HBF的重點(diǎn)是大幅提升內(nèi)存容量(每美元、每瓦和每平方毫米),同時(shí)提供具有競(jìng)爭(zhēng)力的帶寬。
理解一下就是,HBM(高帶寬內(nèi)存)和HBF(高帶寬閃存)在內(nèi)存技術(shù)的發(fā)展路徑上,兩者設(shè)計(jì)不同,HBM的出現(xiàn)重點(diǎn)是為了提升單位功耗(每瓦)和單位面積(每平方毫米)的帶寬密度,滿(mǎn)足移動(dòng)設(shè)備、顯卡等對(duì)高帶寬和低功耗的雙重要求。而HBF則轉(zhuǎn)向解決大模型時(shí)代最核心的痛點(diǎn)——內(nèi)存容量不足。
其設(shè)計(jì)重點(diǎn)是在不犧牲帶寬前提下,顯著提升單位成本、單位功耗和單位面積的內(nèi)存容量,讓 AI GPU 能以更低成本支持TB級(jí)別的模型訓(xùn)練與推理需求。
近期閃迪與SK海力士聯(lián)盟,就是嘗試在提供相似帶寬的前提下,HBF的容量是HBM的十倍以上,約768GB。
兩者分別服務(wù)于“算的快”和“裝的多”兩種不同任務(wù)場(chǎng)景,共同推動(dòng)AI存力架構(gòu)的演進(jìn)。
不過(guò)HBF的挑戰(zhàn)依然存在——NAND的延遲仍高于DRAM,需要依賴(lài)接口優(yōu)化和算法補(bǔ)償。更重要的是,其生態(tài)尚未成熟,GPU廠商的參與是成敗關(guān)鍵。二英偉達(dá)當(dāng)前仍押注HBM,但未來(lái)Rubin架構(gòu)是否兼容HBF,可能決定這一技術(shù)的命運(yùn)。
另外值得注意的是,HBF并非提升內(nèi)存帶寬的唯一方案。群聯(lián)電子的aiDAPTIV+通過(guò)軟件優(yōu)化,將SSD作為GPU的擴(kuò)展內(nèi)存,讓小顯存設(shè)備也能處理大模型任務(wù)。不過(guò)區(qū)別在于,HBF面向超大規(guī)模模型訓(xùn)練,軟件方案則更適合消費(fèi)級(jí)以及資源受限的中小企業(yè)和邊緣計(jì)算。
不過(guò)在我們觀望HBF時(shí),本周據(jù)《日經(jīng)新聞》報(bào)道,鎧俠在與英偉達(dá)正在聯(lián)合開(kāi)發(fā)可直連到GPU的SSD,是專(zhuān)為AI服務(wù)器量身定制,旨在部分取代HBM作為GPU的內(nèi)存擴(kuò)展器,2027年左右實(shí)現(xiàn)商業(yè)化。新款SSD的隨機(jī)讀取性能將提升至約1億IOPS,英偉達(dá)的目標(biāo)是2億IOPS,因此鎧俠計(jì)劃疊兩塊,而且SSD接口標(biāo)準(zhǔn)將支持PCIe 7.0。
還有就是CXL的出現(xiàn),重點(diǎn)起到了降本增效的作用,當(dāng)然它跟HBM也不是競(jìng)爭(zhēng)關(guān)系,但可以作為補(bǔ)充選擇。CXL(Compute Express Link)是異構(gòu)計(jì)算互聯(lián)協(xié)議,允許 CPU/GPU與外部設(shè)備(包括存儲(chǔ)、加速器、內(nèi)存池)之間實(shí)現(xiàn)低延遲的共享訪問(wèn)。
未來(lái)高端系統(tǒng)或許會(huì)采用HBM+CXL的分層內(nèi)存架構(gòu),以平衡性能、容量與成本。HBM作為熱數(shù)據(jù)層,憑借其超低延遲和高帶寬,直接綁定GPU/CPU,用于存儲(chǔ)模型參數(shù)等高頻訪問(wèn)數(shù)據(jù),確保AI訓(xùn)練和實(shí)時(shí)推理的極致性能。
而CXL則作為冷數(shù)據(jù)擴(kuò)展層,通過(guò)內(nèi)存池化技術(shù),動(dòng)態(tài)加載低頻訪問(wèn)數(shù)據(jù)(如訓(xùn)練數(shù)據(jù)集),突破HBM單芯片≤64GB的容量限制。
最后
未來(lái)幾年,AI內(nèi)存技術(shù)的競(jìng)爭(zhēng)將愈發(fā)激烈。無(wú)論是HBM的持續(xù)迭代,還是HBF的生態(tài)突圍,亦或是軟件方案的優(yōu)化,最終目標(biāo)都是為AI提供更高效率、更低成本的內(nèi)存支持。
這場(chǎng)革命不僅關(guān)乎技術(shù)本身,更將重塑AI產(chǎn)業(yè)的格局——從超大規(guī)模云服務(wù)商到邊緣設(shè)備制造商,每個(gè)參與者都需要在這場(chǎng)變革中找準(zhǔn)自己的位置。
更多HBM話(huà)題內(nèi)容,歡迎鎖定2025年11月18日即將在北京召開(kāi),以“釋放數(shù)據(jù)潛能,加速智能涌現(xiàn)”為主題的2025中國(guó)數(shù)據(jù)與存儲(chǔ)峰會(huì),敬請(qǐng)期待!