首先了解一下存儲和計算。在馮諾依曼體系中計算和存儲是分開的,要分三步——存儲,計算加兩者之間通信。存儲分為三個層級,CPU/GPU/SOC里的緩存(SRAM)連接計算模塊,緩存讀寫速度最快,能自動執(zhí)行存儲操作,快速做加法計算。但SRAM容量有上限,面積做的越大,成本越高,速度也越慢。
于是更多數(shù)據(jù)被轉存到距離計算模塊較遠的內存上,從內存(DRAM)里讀取數(shù)據(jù),相比緩存速度慢了百倍到千倍,面積大了會出現(xiàn)功耗問題,對應只能不斷提高存儲密度,到現(xiàn)在16G之后舉步維艱。
接著存儲位置就轉向容量更大的存儲器(SSD),容量大,可內存(DRAM)相比緩存讀取速度慢百倍到千倍,存儲(SSD)速度又比內存慢了10倍以上,相當于CPU要讀數(shù)據(jù),從緩存迂回到存儲器,可能要花上1萬倍+時間。
而計算,有數(shù)據(jù)統(tǒng)計表明,計算所消耗的功耗其實很低,約60%的功耗都花在了搬運數(shù)據(jù)上。
因此,現(xiàn)在的存算一體,基本解決方案就是近內存計算或存內計算兩種,本質上是要計算和存儲離的更近或者在存儲器內做計算。
近內存計算(NMC)。緩存+內存來組CP,3D封裝,利用TSV(硅通孔技術)實現(xiàn)垂直通信,但成本高,不同型號的芯片帶還要匹配大小,進行預設計和流片,搞完通用性還是問題,適用于AI,機器學習和數(shù)據(jù)中心等規(guī)模型應用需求。另一種是2.5D封裝,主流技術是HBM(高帶寬內存),目前由三星,SK海力士主導的HBM存儲技術正在持續(xù)升級。
近存儲計算(NSC)。是為了解決存儲器距離計算模塊太遠,讀取最花時間。SSD主要由閃存顆粒組成,需要控制器對其進行平均擦寫管理,實現(xiàn)擦寫均衡,于是有企業(yè)將控制器加上計算功能,或者讓擁有計算模塊的FPGA來處理數(shù)據(jù)并且充當閃存控制器,總之就是不通過CPU進行讀取計算,而是直連存儲器和計算,以此提升計算效率。
存內計算(IMC)。利用存儲器的單元模擬特性做計算。這是在存儲器內進行計算,CPU是通過1、0邏輯計算,而存內計算則是利用存儲器內電阻特性進行計算,不只是用來區(qū)分電阻高低,而是通過電阻值來區(qū)分多種狀態(tài),電壓和電阻都是變量,利用歐姆定律,電壓和電阻倒數(shù)進行乘法計算,輸出的結果就是輸出的電流,一個晶體管就可以完成一次乘法計算過程。
這都是之前了解到的一些信息,實際上,除了閃存,MRAM(磁阻隨機存取存儲器)也可以做存算一體,比如三星和臺積電等公司就在積極探索MRAM技術在存內計算領域的應用。存算一體技術允許數(shù)據(jù)存儲和計算過程在同一個內存單元內完成,從而減少數(shù)據(jù)在處理器和存儲器之間傳輸?shù)哪芎暮蜁r間延遲,提高計算效率。
此前,三星就在Nature上發(fā)表了全球首個基于MRAM的存內計算研究。研究利用基于28nm CMOS工藝的MRAM陣列芯片成功運行了手寫數(shù)字識別和人臉檢測等AI算法,準確率分別達到了98%和93%。此外,三星還開發(fā)了一種名為“電阻總和”的新型內存內計算架構,以解決單個MRAM器件的小電阻問題,從而降低功耗,實現(xiàn)基于MRAM的內存內計算。
臺積電則在ISSCC 2021會議上提出了一種基于數(shù)字改良的SRAM設計存內計算方案,能支持更大的神經(jīng)網(wǎng)絡。2024年臺積電攜手臺灣省工研院宣布成功研發(fā)出自旋軌道轉矩磁性存儲器(SOT-MRAM)陣列芯片,這一創(chuàng)新產(chǎn)品在工作速度方面達到10ns,進一步提高了存內計算性能。
SK海力士也曾開發(fā)出了新一代智能內存芯片技術PIM,還有首款基于PIM技術的產(chǎn)品樣本,將計算功能添加到數(shù)據(jù)傳輸速度為16Gbps的GDDR6內存的產(chǎn)品。
最后
11月8日,在2024中國數(shù)據(jù)與存儲峰會上,存算一體化將是一個重要話題,這一技術結合了計算和存儲的優(yōu)勢,旨在通過高效的數(shù)據(jù)管理和處理來提升系統(tǒng)性能。隨著AI應用的普及和數(shù)據(jù)量的激增,存算一體化不僅能夠降低延遲,提高數(shù)據(jù)訪問速度,還能在能效方面表現(xiàn)優(yōu)異,特別是在邊緣計算和智能設備中的應用上,敬請期待!