2023年至2025年間,HBM(高帶寬內(nèi)存)作為AI基礎(chǔ)設(shè)施構(gòu)建中不可替代的關(guān)鍵器件,迅速成為全球AI芯片企業(yè)的剛需。
尤其在AI訓(xùn)練、高性能計算領(lǐng)域,HBM3/3e成為高端算力芯片的標(biāo)配,包括英偉達(dá)GH200、AMD MI300系列及國內(nèi)頭部芯片等。但受限于制裁壓力、制造門檻和成本考量,部分國產(chǎn)AI芯片仍采用GDDR6、DDR4/5等通用顯存方案,并結(jié)合本土封裝技術(shù)(如高容量芯粒堆疊)以在帶寬和容量之間尋求平衡。
HBM的優(yōu)勢在于帶寬高、功耗低、延遲小——為萬億參數(shù)級大模型提供數(shù)據(jù)快速通道。
它是一種將內(nèi)存芯片垂直堆疊起來的高帶寬存儲技術(shù),不像傳統(tǒng)DDR那樣通過主板上的銅線連接CPU,而是使用一種叫做硅中介層(interposer)的超薄硅板,把CPU和多個HBM芯片堆棧緊密連接起來。這樣做的好處是,數(shù)據(jù)傳輸距離更短、速度更快、能耗也更低。
每個HBM堆棧內(nèi)部通過微小的通孔(TSV)連接成一個整體,通常采用較成熟的制造工藝,比如28納米。
目前HBM通路上,跑在前面的企業(yè)主要是SK海力士和三星,2024年合計市場份額超過90%。壟斷的直接后果,就是價格暴漲。且優(yōu)先供貨對象也牢牢握在英偉達(dá)、微軟、AWS等手中。
最新消息是,SK海力士作為No.1率先量產(chǎn)HBM4,采用2048個I/O端口實(shí)現(xiàn)了帶寬翻倍,同時采用10nm級工藝和MR-MUF技術(shù)解決了散熱與堆疊難題。第二名的三星也在積極研發(fā)新一代 HBM4 DRAM,不過換了個方向——去探索邏輯芯片集成和混合堆棧,試圖在性能與成本間找到平衡。但HBM4的容量上限,目前達(dá)到64GB,難以滿足萬億參數(shù)模型的內(nèi)存需求。高昂的成本和功耗進(jìn)一步限制了其在大規(guī)模推理場景的應(yīng)用。
此外,HBM的制造門檻極高。它不是普通的DDR或GDDR,需要先進(jìn)的TSV(硅通孔)堆疊工藝、微凸點(diǎn)鍵合、高精度封裝測試,以及極高的良率控制。具備這種能力的廠商寥寥無幾,這也是HBM國產(chǎn)化進(jìn)程緩慢的根本原因。
HBF路線分化——HBF(高帶寬閃存)來了
在AI基礎(chǔ)設(shè)施持續(xù)爆發(fā)的背景下,除了HBM之外,一個新趨勢逐漸浮現(xiàn)——以HBF(High Bandwidth Flash,高帶寬閃存)為代表的新形態(tài)內(nèi)存技術(shù),正試圖為AI系統(tǒng)提供另一種經(jīng)濟(jì)可用的方案。
HBM的重點(diǎn)是提高每瓦帶寬和每平方毫米帶寬(這兩者都是移動設(shè)備的重要制約因素),同時保持與現(xiàn)有解決方案的競爭力。HBF的重點(diǎn)是大幅提升內(nèi)存容量(每美元、每瓦和每平方毫米),同時提供具有競爭力的帶寬。
理解一下就是,HBM(高帶寬內(nèi)存)和HBF(高帶寬閃存)在內(nèi)存技術(shù)的發(fā)展路徑上,兩者設(shè)計不同,HBM的出現(xiàn)重點(diǎn)是為了提升單位功耗(每瓦)和單位面積(每平方毫米)的帶寬密度,滿足移動設(shè)備、顯卡等對高帶寬和低功耗的雙重要求。而HBF則轉(zhuǎn)向解決大模型時代最核心的痛點(diǎn)——內(nèi)存容量不足。
其設(shè)計重點(diǎn)是在不犧牲帶寬前提下,顯著提升單位成本、單位功耗和單位面積的內(nèi)存容量,讓 AI GPU 能以更低成本支持TB級別的模型訓(xùn)練與推理需求。
近期閃迪與SK海力士聯(lián)盟,就是嘗試在提供相似帶寬的前提下,HBF的容量是HBM的十倍以上,約768GB。
兩者分別服務(wù)于“算的快”和“裝的多”兩種不同任務(wù)場景,共同推動AI存力架構(gòu)的演進(jìn)。
不過HBF的挑戰(zhàn)依然存在——NAND的延遲仍高于DRAM,需要依賴接口優(yōu)化和算法補(bǔ)償。更重要的是,其生態(tài)尚未成熟,GPU廠商的參與是成敗關(guān)鍵。二英偉達(dá)當(dāng)前仍押注HBM,但未來Rubin架構(gòu)是否兼容HBF,可能決定這一技術(shù)的命運(yùn)。
另外值得注意的是,HBF并非提升內(nèi)存帶寬的唯一方案。群聯(lián)電子的aiDAPTIV+通過軟件優(yōu)化,將SSD作為GPU的擴(kuò)展內(nèi)存,讓小顯存設(shè)備也能處理大模型任務(wù)。不過區(qū)別在于,HBF面向超大規(guī)模模型訓(xùn)練,軟件方案則更適合消費(fèi)級以及資源受限的中小企業(yè)和邊緣計算。
不過在我們觀望HBF時,本周據(jù)《日經(jīng)新聞》報道,鎧俠在與英偉達(dá)正在聯(lián)合開發(fā)可直連到GPU的SSD,是專為AI服務(wù)器量身定制,旨在部分取代HBM作為GPU的內(nèi)存擴(kuò)展器,2027年左右實(shí)現(xiàn)商業(yè)化。新款SSD的隨機(jī)讀取性能將提升至約1億IOPS,英偉達(dá)的目標(biāo)是2億IOPS,因此鎧俠計劃疊兩塊,而且SSD接口標(biāo)準(zhǔn)將支持PCIe 7.0。
還有就是CXL的出現(xiàn),重點(diǎn)起到了降本增效的作用,當(dāng)然它跟HBM也不是競爭關(guān)系,但可以作為補(bǔ)充選擇。CXL(Compute Express Link)是異構(gòu)計算互聯(lián)協(xié)議,允許 CPU/GPU與外部設(shè)備(包括存儲、加速器、內(nèi)存池)之間實(shí)現(xiàn)低延遲的共享訪問。
未來高端系統(tǒng)或許會采用HBM+CXL的分層內(nèi)存架構(gòu),以平衡性能、容量與成本。HBM作為熱數(shù)據(jù)層,憑借其超低延遲和高帶寬,直接綁定GPU/CPU,用于存儲模型參數(shù)等高頻訪問數(shù)據(jù),確保AI訓(xùn)練和實(shí)時推理的極致性能。
而CXL則作為冷數(shù)據(jù)擴(kuò)展層,通過內(nèi)存池化技術(shù),動態(tài)加載低頻訪問數(shù)據(jù)(如訓(xùn)練數(shù)據(jù)集),突破HBM單芯片≤64GB的容量限制。
最后
未來幾年,AI內(nèi)存技術(shù)的競爭將愈發(fā)激烈。無論是HBM的持續(xù)迭代,還是HBF的生態(tài)突圍,亦或是軟件方案的優(yōu)化,最終目標(biāo)都是為AI提供更高效率、更低成本的內(nèi)存支持。
這場革命不僅關(guān)乎技術(shù)本身,更將重塑AI產(chǎn)業(yè)的格局——從超大規(guī)模云服務(wù)商到邊緣設(shè)備制造商,每個參與者都需要在這場變革中找準(zhǔn)自己的位置。
更多HBM話題內(nèi)容,歡迎鎖定2025年11月18日即將在北京召開,以“釋放數(shù)據(jù)潛能,加速智能涌現(xiàn)”為主題的2025中國數(shù)據(jù)與存儲峰會,敬請期待!