国产色婷婷亚洲99精品,老熟妇2

實驗中，將12根DDR5內(nèi)存組成NUMA0，將另外8個美光CXL DDR4內(nèi)存模組組成CXL NUMA1，考慮到性能差異可能會帶來的問題，相關(guān)研究者已經(jīng)在Linux內(nèi)核（6.11.6）層面進行了優(yōu)化。

上圖清晰展示了在高負載條件下，通過將DRAM和CXL內(nèi)存組合使用，可以顯著提升系統(tǒng)帶寬并降低延遲。DRAM + CXL 的優(yōu)化交錯配置（interleaving strategy）實現(xiàn)了內(nèi)存資源的高效利用，特別是對于帶寬密集型工作負載。

測試人員還發(fā)現(xiàn)，DRAM和CXL在不同讀寫比例下，帶寬的表現(xiàn)會有明顯差異。其中，DRAM在寫的比例更多時，內(nèi)存帶寬會下降。而CXL利用了PCIe雙向傳輸?shù)哪芰?，在寫的比例越來越高的時候，帶寬會越來越高。

DRAM的延遲較低，但是帶寬部分其實不如CXL，在高負載場景下，DRAM的帶寬瓶頸會導致性能迅速下降。CXL內(nèi)存雖然內(nèi)存延遲比較高，但憑借優(yōu)秀的雙向讀寫能力，能提供額外的帶寬擴展，緩解系統(tǒng)內(nèi)存壓力。

這意味著，在實際應用中，如果想更好地利用CXL的優(yōu)勢，還得看具體場景對延遲和帶寬的需求。從操作層面來看，就需要用戶根據(jù)工作負載來調(diào)整使用的DRAM和CXL內(nèi)存的配比。

接下來看，在實測數(shù)據(jù)中，DDR5 DRAM搭配DDR4 CXL內(nèi)存模組是如何提高性能的。

在大語言模型推理任務中，研究人員使用了Intel PyTorch 擴展（IPEX），該開源工具對英特爾硬件進行了專門優(yōu)化。通過采用3:1 DRAM與CXL內(nèi)存比例，LLAMA3-8B-Instruct 的推理速度相比僅使用 DRAM 提升了17%。

FAISS 是由 Facebook AI 開發(fā)的高效相似性搜索庫，用于密集向量的聚類和搜索。在 2:1 DRAM與CXL比例下，F(xiàn)AISS 工作負載的查詢時間降低，性能提升了 23%。

說完了大家都比較關(guān)心的AI場景，接下來說HPC場景的價值。

OpenFOAM 是一款開源計算流體力學（CFD）軟件，用于模擬各種流體動力學場景。采用5:2 DRAM:CXL比例時，OpenFOAM工作負載的執(zhí)行時間縮短了22%。

HPCG基準測試側(cè)重于稀疏線性系統(tǒng)的求解，強調(diào)內(nèi)存訪問模式和數(shù)據(jù)移動，反映真實科學和工程應用的行為。在3:1 DRAM:CXL 比例下，HPCG 基準測試實現(xiàn)了 27% 的性能提升。

Xcompact3D基準測試用于評估計算系統(tǒng)在求解不可壓縮Navier-Stokes方程時的效率，尤其適用于流體動力學模擬，如3D Taylor-Green渦流。在5:2 DRAM:CXL比例下，Xcompact3D基準測試性能提升達25%。

POT3D基準測試模擬三維Poisson方程，主要用于評估系統(tǒng)在科學與工程計算中的性能，尤其是在分子動力學和計算物理領(lǐng)域。采用 5:2 DRAM:CXL 比例時，POT3D 工作負載性能提升了27%。

總之，CXL內(nèi)存的引入使得系統(tǒng)能夠有效地擴展內(nèi)存帶寬，解決了傳統(tǒng)內(nèi)存架構(gòu)的帶寬瓶頸，尤其是在大規(guī)模AI訓練和高性能計算等應用中。通過DRAM和CXL內(nèi)存搭配，能夠根據(jù)不同負載的需求，靈活調(diào)整內(nèi)存資源的分配比例，最大化帶寬利用率。

實驗還表明，隨著CXL內(nèi)存技術(shù)的逐步成熟，未來的計算系統(tǒng)將能更好地滿足AI、大數(shù)據(jù)處理以及其他計算密集型應用對內(nèi)存帶寬和容量的要求。通過合理配置內(nèi)存比例，系統(tǒng)能夠更加高效地處理高讀寫比率的混合負載，提升計算性能和響應速度。

分享到

至強6 英特爾

zhupb

相關(guān)推薦

近期文章

熱門標簽