UnifabriX 和 Panmnesia 是專注于 CXL 技術(shù)的最活躍的兩家初創(chuàng)公司。到 2023 年 4 月,UnifabriX公司已在 2RU 機(jī)箱中開(kāi)發(fā)出具有 32TB DDR5 DRAM 的智能內(nèi)存節(jié)點(diǎn),現(xiàn)在擁有基于 UnifabriX 軟件和半導(dǎo)體 IP 的 MAX(Memory Accelerator)可組合內(nèi)存設(shè)備。

UnifabriX 設(shè)備

MAX 提供了一個(gè)軟件定義的內(nèi)存架構(gòu)池,具有自適應(yīng)內(nèi)存共享功能,并使用 CXL 和 UALink 布線及相關(guān)概念,其中一些在上面的幻燈片中有所提及。我們將研究系統(tǒng)級(jí)架構(gòu),然后嘗試?yán)砬鍙?fù)雜的布線情況。

UnifabriX MAX: 系統(tǒng)級(jí)架構(gòu)

Hyatt 談到這張幻燈片時(shí)說(shuō):“在我們的 FabriX 內(nèi)存操作系統(tǒng)之上,這是一個(gè)強(qiáng)化的 Linux……我們有一個(gè)流處理器,它可以在數(shù)據(jù)流入內(nèi)存池時(shí)處理數(shù)據(jù)流和協(xié)議流。這是可編程硬件。你可以把它想象成在交換機(jī)和互聯(lián)網(wǎng)交換機(jī)中發(fā)展起來(lái)的 P4 概念,在那里你可以即時(shí)解析數(shù)據(jù),并在協(xié)議消息進(jìn)出時(shí)對(duì)其進(jìn)行編輯。

“所以你在這里看到前端端口,六個(gè)前端端口連接到主機(jī)。目前有 CXL 1.1 和 2.0。我們有板載和架構(gòu)端口,我們將那里的鏈路加速到 112G,比 CXL 目前支持的速度快得多。在速度方面,這相當(dāng)于 NVLink 4,我們正在進(jìn)行 224G 的原型設(shè)計(jì),這相當(dāng)于 NVLink 5。是的,這就是帶寬。當(dāng)你連接多個(gè) MAX 設(shè)備時(shí),我們希望在后端、在架構(gòu)上獲得盡可能高的帶寬?!?/p>

CXL 布線情況

PCIe、CXL 和 UALink 的情況很復(fù)雜。我們應(yīng)該注意到,在 CXL 1 和 CXL 3.1 之間有五代 CXL 標(biāo)準(zhǔn),現(xiàn)在還有第六代 CXL 3.2。CXL 3.2 增加了優(yōu)化的內(nèi)存設(shè)備監(jiān)控和管理、擴(kuò)展的安全性、性能監(jiān)控,并且與之前的 CXL 規(guī)范向后兼容。

Hyatt 告訴我們:“PCIe 最初是為在平臺(tái)內(nèi)部使用而構(gòu)建的,作為一種短距離互連,取代了 CPU 和外圍設(shè)備之間的 PCI,因此它沒(méi)有成熟的布線生態(tài)系統(tǒng)。PCIe 的大規(guī)模用例后來(lái)才出現(xiàn),例如‘PCIe 架構(gòu)’,用于匯集和分解 NVMe 存儲(chǔ)、網(wǎng)卡和 GPU 等設(shè)備。

“那些用例不需要很大的帶寬,因此使用窄的 x4 交換機(jī)端口和 x4 SFF – 8644(mini – SAS)布線就足夠了。這里和這里有一些例子。

“CXL 在 PCIe Gen 5 之上的出現(xiàn)創(chuàng)造了對(duì)高性能 PCIe 布線的新需求,這種布線能夠?yàn)閮?nèi)存事務(wù)提供更高的帶寬。由于 PCIe 沒(méi)有現(xiàn)成的此類解決方案,市場(chǎng)通過(guò)利用以太網(wǎng)領(lǐng)域的布線系統(tǒng)找到了臨時(shí)解決方案,例如:

QSFP – DD MSA(x8)——QSFP 的一種更密集的形式,最初是為以太網(wǎng)、光纖通道、InfiniBand 和 SONET/SDH 而創(chuàng)建的。一些人(現(xiàn)在仍然有人)將其用于 PCIe x8 連接。見(jiàn)這里。

CDFP MSA(x16)——最初是為 400G 以太網(wǎng)(16 x 25G 通道)開(kāi)發(fā)的,但后來(lái)被事實(shí)上認(rèn)證可用于 PCIe Gen 5。見(jiàn)這里和這里。

“如今,PCIe 生態(tài)系統(tǒng)正在圍繞 OSFP MSA 布線系統(tǒng)進(jìn)行整合,OSFP(x8)及其更密集的變體 OSFP – XD(x16)都支持每條通道 224G PAM4 的最新信號(hào)速率(例如,8 x 200G = 1.6 Tbps 以太網(wǎng)),因此也與 PCIe Gen 5/CXL 1.1、2.0(32G NRZ)、PCIe Gen 6/CXL 3.x(64G PAM4)和 PCIe Gen 7/CXL 4.x(128G PAM4)兼容。也就是說(shuō),這個(gè) OSFP 布線系統(tǒng)在 PCIe 領(lǐng)域至少在未來(lái)兩代內(nèi)都具有前瞻性。它也為在電氣層面重用以太網(wǎng) I/O 的 UALink 做好了準(zhǔn)備。一根線纜統(tǒng)御一切?!?/p>

Nvidia 在這里展示了一條前進(jìn)的道路,Hyatt 解釋說(shuō):“將內(nèi)存架構(gòu)引入數(shù)據(jù)中心需要大量的市場(chǎng)教育。Nvidia 在推出帶有 NVLink 內(nèi)存架構(gòu)的 DGX GH200 系統(tǒng)時(shí)介入并提供了幫助,創(chuàng)建了一個(gè) 144TB 的大型分散內(nèi)存池。CXL 和 UALink 是 NVLink 的開(kāi)放替代品。它們都支持原生的加載/存儲(chǔ)內(nèi)存語(yǔ)義。

“Nvidia 讓世界認(rèn)識(shí)到內(nèi)存架構(gòu)(通過(guò) NVLink)優(yōu)于網(wǎng)絡(luò)(通過(guò) InfiniBand)。我們傾向于同意這一點(diǎn)?!?/p>

他說(shuō):“UnifabriX 開(kāi)發(fā)了一個(gè)符合 CXL 3.2 FM API 的架構(gòu)管理器(FM),包括對(duì) DCD(動(dòng)態(tài)容量設(shè)備)的支持,即它能夠使用標(biāo)準(zhǔn)的、開(kāi)放的 CXL API 按需動(dòng)態(tài)地配置和取消配置內(nèi)存。我還沒(méi)有看到其他的 DCD 架構(gòu)管理器,所以這可能是你遇到的第一個(gè)真正能做到這一點(diǎn)的 FM?!?/p>

還有其他幾點(diǎn)。Hyatt 說(shuō):“我們能夠混合和匹配 CXL 端口和 UALink 端口,這意味著我們可以按需向 CPU 和 GPU 提供內(nèi)存。UALink 連接器基于以太網(wǎng) I/O,所以相同的連接器,即相同的 OSFP 和 OSFP XD,將用于 CXL 和 UALink。你只需改變端口的屬性?!?/p>

工作芯片

該公司展示了其內(nèi)存池能夠根據(jù)需求動(dòng)態(tài)改變大小,并分配給主機(jī)處理器,然后再返回內(nèi)存池。UnifabriX 已經(jīng)開(kāi)始盈利,其產(chǎn)品已部署在數(shù)據(jù)分析、高性能計(jì)算、公共和私有云等領(lǐng)域。

Hyatt 說(shuō):“我們有一些超大規(guī)??蛻簦琜在這些客戶那里]系統(tǒng)正在 Emerald Rapids 平臺(tái)上運(yùn)行實(shí)際工作負(fù)載,并且很快將轉(zhuǎn)向使用 AMD 的 Granite Rapids 和 Turin 系統(tǒng)。

“我們?cè)谑袌?chǎng)的不同細(xì)分領(lǐng)域有相當(dāng)多的新客戶,不僅僅是超大規(guī)模客戶和國(guó)家實(shí)驗(yàn)室。我們有藥物研發(fā)公司、DNA 測(cè)序公司。事實(shí)證明,在高性能計(jì)算的大范疇下有很多用例,人們?cè)谶@些用例中需要大量?jī)?nèi)存。有時(shí)他們需要帶寬,有時(shí)他們需要容量。但是能夠按需增長(zhǎng)內(nèi)存并動(dòng)態(tài)地做到這一點(diǎn)帶來(lái)了很大的價(jià)值,不僅僅是在總體擁有成本方面。”

他解釋說(shuō):“你看云,公共云,國(guó)家實(shí)驗(yàn)室。我們從國(guó)家實(shí)驗(yàn)室和動(dòng)畫工作室開(kāi)始。那里有很多數(shù)字資產(chǎn),你需要進(jìn)行渲染和處理,如今他們都在使用快速存儲(chǔ)系統(tǒng),但對(duì)于他們的需求來(lái)說(shuō)還不夠快。所以在中間有一個(gè)內(nèi)存池有助于加速整個(gè)過(guò)程?!?/p>

內(nèi)存內(nèi)處理

Hyatt 談到 MAX 能夠進(jìn)行一些處理:“它具有處理能力,我們發(fā)現(xiàn)這對(duì)于高性能計(jì)算非常有用。所以我們有內(nèi)存內(nèi)處理或近內(nèi)存處理能力。這對(duì)于稀疏內(nèi)存模型非常有效,例如在高性能計(jì)算中,你有非常大的模型,可能達(dá)到 PB 級(jí),你需要抽象內(nèi)存地址空間。所以你實(shí)際上在外部暴露了一個(gè)巨大的地址空間。

“但在內(nèi)部你進(jìn)行映射。這是我們?cè)谶@里進(jìn)行的內(nèi)存處理的一部分。這是一個(gè)例子。我們有一個(gè) APU,即應(yīng)用處理單元,向客戶開(kāi)放,客戶可以在容器上運(yùn)行他們自己的代碼。所以如果他們想在內(nèi)存上做一些事情,比如檢查惡意代碼,檢查內(nèi)存中的一些異常模式,他們可以在內(nèi)部運(yùn)行這些操作。我們提供了這種能力?!?/p>

UnifabriX 如何進(jìn)入市場(chǎng)?Hyatt 說(shuō):“目前,我們直接與終端客戶合作。我們這樣做的原因是因?yàn)檫@是產(chǎn)品定義的一部分,比如獲取客戶需求的反饋。所以你不希望有中間渠道,因?yàn)槟菢幽銜?huì)失去很多反饋。

“但我們已經(jīng)與合作伙伴合作。其中一些是平臺(tái)原始設(shè)備制造商,他們希望將內(nèi)存池作為其產(chǎn)品組合的一部分。所以想想所有擁有存儲(chǔ)系統(tǒng)的大公司,把內(nèi)存池看作是一個(gè)存儲(chǔ)服務(wù)器,但它是用于內(nèi)存的。所以與存儲(chǔ)相關(guān)的大多數(shù)模式和語(yǔ)義將被復(fù)制到內(nèi)存領(lǐng)域,我們正在與他們合作。

“除此之外,我們還有幾個(gè)渠道,有些是專門針對(duì)高性能計(jì)算的。有一些原始設(shè)備制造商為高性能計(jì)算市場(chǎng)制造獨(dú)特的服務(wù)器和設(shè)備。高性能計(jì)算對(duì) CXL 提供的內(nèi)存帶寬非常感興趣。有一些系統(tǒng)集成商建造整個(gè)機(jī)架,并將 GPU 和大量計(jì)算能力一起發(fā)貨。他們實(shí)際上將 GPU、服務(wù)器、存儲(chǔ)和內(nèi)存組裝在一起,并作為一個(gè)機(jī)架發(fā)貨?!?/p>

UnifabriX 計(jì)劃在 2025 年下半年進(jìn)行新一輪融資。

在制造工藝方面,Hyatt 說(shuō):“目前,我們的芯片是 7 納米工藝,我們計(jì)劃在 2026 年、2027 年初采用臺(tái)積電的 5 納米工藝?!闭?Hyatt 指出的,這與 PCIe Gen 6 相契合:“CXL 本身正從 PCIe Gen 5 向 Gen 6 發(fā)展,所以我們必須升級(jí)工藝。Gen 6 涉及混合信號(hào)……需要 5 納米工藝才能在功耗方面高效。”

我們將跟進(jìn)一篇關(guān)于 UnifabriX 的 MAX 設(shè)備的文章。

腳注)

QSFP——四通道小型可插拔標(biāo)準(zhǔn),指用于光纖或銅纜布線的收發(fā)器,速度是其對(duì)應(yīng)的 SFP(小型可插拔)標(biāo)準(zhǔn)的四倍。QSFP28 變體于 2014 年發(fā)布,允許的速度高達(dá) 100Gbps,而 QSFP56 變體于 2019 年標(biāo)準(zhǔn)化,將最高速度翻倍至 200Gbps。一個(gè)更大的變體八通道小型可插拔(OSFP)在 2022 年有產(chǎn)品發(fā)布,能夠在網(wǎng)絡(luò)設(shè)備之間實(shí)現(xiàn) 800Gbps 的鏈路。

OSFP MSA——八通道小型可插拔(OSFP)多源協(xié)議(MSA)。OSFP(x8)及其更密集的變體 OSFP – XD(x16)都支持每條通道 224G PAM4 的最新信號(hào)速率(例如 8 x 200G = 1.6 Tbps 以太網(wǎng))。它們與 PCIe Gen5 / CXL 1.1、2.0(32G NRZ)、PCIe Gen6 / CXL 3.x(64G PAM4)和 PCIe Gen7 / CXL 4.x(128G PAM4)兼容。這個(gè) OSFP 布線系統(tǒng)在 PCIe 領(lǐng)域至少在未來(lái)兩代內(nèi)都具有前瞻性。它也為在電氣層面重用以太網(wǎng) I/O 的 UALink 做好了準(zhǔn)備。

CDFP——CDFP 是 400(羅馬數(shù)字 CD)形式可插拔的縮寫,旨在提供低成本、高密度的 400 千兆以太網(wǎng)連接。

分享到

nina

相關(guān)推薦