為了解決這個問題,Panmnesia開發(fā)了一個符合CXL 3.1標準的根復(fù)合體(RC),配備了多個支持通過PCIe擴展外部內(nèi)存的根端口(RP),以及一個帶有主機管理設(shè)備內(nèi)存(HDM)解碼器的主橋,該解碼器連接到GPU的系統(tǒng)總線。

HDM解碼器負責管理系統(tǒng)內(nèi)存的地址范圍,使GPU的內(nèi)存子系統(tǒng)“認為”它在處理系統(tǒng)內(nèi)存。但實際上,子系統(tǒng)使用的是連接到PCIe的DRAM或NAND。這意味著可以使用DDR5或SSD來擴展GPU顯存池。

據(jù)Panmnesia稱,該解決方案(基于一些定制的GPU,針對CXL做了優(yōu)化的,標記為CXL-Opt)經(jīng)過廣泛測試,顯示出兩位數(shù)納秒的往返延遲(相比之下,三星和Meta開發(fā)的原型的往返延遲為250ns),包括標準內(nèi)存操作和CXL數(shù)據(jù)傳輸之間的協(xié)議轉(zhuǎn)換所需的時間。

而且,它已經(jīng)成功集成到內(nèi)存擴展器和GPU/CPU原型的硬件RTL中,展示了其與各種計算硬件的兼容性。

根據(jù)Panmnesia的測試,由于主機運行時在頁面錯誤期間的干預(yù)開銷和頁面級別的數(shù)據(jù)傳輸,UVM在所有測試的GPU內(nèi)核中表現(xiàn)最差,這通常無法滿足GPU的要求。相比之下,CXL允許通過加載/存儲指令直接訪問擴展存儲,從而克服了這些問題。

因此,CXL-Proto的執(zhí)行時間比UVM短1.94倍。Panmnesia的CXL-Opt進一步將執(zhí)行時間減少了1.66倍,優(yōu)化的控制器實現(xiàn)了兩位數(shù)納秒延遲,并最小化了讀/寫延遲。

這種模式在另一張圖中也很明顯,該圖顯示了在GPU內(nèi)核執(zhí)行期間記錄的IPC值。它表明,Panmnesia的CXL-Opt性能速度分別比UVM和CXL-Proto快3.22倍和1.65倍。

最后

總體而言,CXL支持可以為AI/HPC GPU做很多事情,但性能問題仍是一個大問題。

此外,英偉達官方是否會讓GPU增加對這種CXL方案的支持也是一個問題。

如果使用PCIe連接的內(nèi)存來擴展GPU的方法確實能落地的話,互聯(lián)網(wǎng)巨頭們會采用Panmnesia的方案嗎?畢竟這些巨頭都喜歡自己搞類似的技術(shù)。

原文作者:Anton Shilov

原文地址如下:

https://www.tomshardware.com/pc-components/gpus/gpus-get-a-boost-from-pcie-attached-memory-that-boosts-capacity-and-delivers-double-digit-nanosecond-latency-ssds-can-also-be-used-to-expand-gpu-memory-capacity-via-panmnesias-cxl-ip

分享到

zhupb

相關(guān)推薦