最近,KTransformers項(xiàng)目團(tuán)隊(duì)宣布,支持讓滿血版DeepSeek在英偉達(dá)RTX 4090D顯卡上運(yùn)行。RTX 4090D是一個(gè)游戲顯卡,目前電商零售價(jià)大概在3萬(wàn)人民幣左右,它能以極低的成本在本地運(yùn)行滿血版的DeepSeek-R1模型。
KTransformers是一個(gè)可以利用CPU+GPU進(jìn)行混合推理的項(xiàng)目,將部分計(jì)算卸載到CPU內(nèi)存,從而減少昂貴顯存的占用。它支持多種硬件和多種常見的大語(yǔ)言模型,可以降低大語(yǔ)言模型的部署門檻和成本。
類似的,llama.cpp也支持CPU+GPU混合推理,當(dāng)模型超過顯存容量時(shí),可以同時(shí)利用CPU和GPU來(lái)加速。
KTransformers是由清華大學(xué)的KVCache.AI團(tuán)隊(duì)和趨境科技合作開發(fā)的項(xiàng)目。KVCache.AI是一個(gè)通過優(yōu)化緩存、調(diào)度、壓縮等技術(shù),提升大語(yǔ)言模型效率的項(xiàng)目,并且和趨境科技以及月之暗面公司合作開發(fā)而來(lái),目標(biāo)是推動(dòng)學(xué)術(shù)研究和開源開發(fā)。
趨境科技Approaching.AI官網(wǎng)上寫道,他們?cè)跇I(yè)界首創(chuàng)“以存換算”全系統(tǒng)推理架構(gòu),可以協(xié)同HBM、DRAM、SSD和CPU、GPU、NPU全系統(tǒng)異構(gòu)設(shè)備,突破顯存容量的限制,釋放全系統(tǒng)的存力和算力。
“突破顯存容量的限制”是重點(diǎn)。我們知道,原本大語(yǔ)言模型大多都運(yùn)行在英偉達(dá)的高性能企業(yè)級(jí)顯卡上,顯卡的計(jì)算核心決定了運(yùn)算的效率和速度,而顯存的容量直接決定著顯卡能否運(yùn)行多大參數(shù)規(guī)模的大語(yǔ)言模型。
然而,顯存非常昂貴,高端的A100、H100可以提供80G的HBM顯存,但幾十萬(wàn)一塊的成本太高了。而消費(fèi)級(jí)的RTX 3090可以提供24G GDDR顯存,RTX 4090D也能提供24G顯存,是運(yùn)行大語(yǔ)言模型的最有性價(jià)比的選擇。
如果只能利用顯存來(lái)運(yùn)行大語(yǔ)言模型,那么單塊4090顯卡根本無(wú)法運(yùn)行6710億參數(shù)的DeepSeek-R1。但如果能更充分地利用DRAM、甚至SSD的存儲(chǔ)空間,同時(shí)更多地利用CPU以及NPU的算力,則無(wú)疑是降低了模型的運(yùn)行門檻。
2024年8月,KTransformers團(tuán)隊(duì)宣布使用21GB顯存和136GB內(nèi)存配置的電腦來(lái)推理236B DeepSeek-Coder-V2 模型。并且,在BigCodeBench測(cè)試中,它的表現(xiàn)甚至優(yōu)于 GPT4-0613 模型。
2025年2月10日,KTransformers宣布V0.3預(yù)覽版可以用單個(gè)或者多個(gè)帶有24GB顯存的顯卡,以及382GB DRAM的設(shè)備來(lái)推理滿血版的Deepseek-R1和V3。在這種配置下,性能提升可達(dá)到llama.cpp的3~28倍。
V0.3預(yù)覽版支持Intel AMX加速內(nèi)核和專家選擇性激活方法,當(dāng)然還有FP4量化技術(shù),14GB顯存和382GB DRAM的配置下,671B滿血版DeepSeek-Coder-V3/R1的預(yù)填充速度(開始輸出前)提升27.79倍,輸出文本速度實(shí)現(xiàn)了最多3.03倍的加速。
該項(xiàng)目認(rèn)為,目前該項(xiàng)目主要瓶頸仍是CPU的計(jì)算速度和內(nèi)存帶寬,GPU對(duì)性能提升的貢獻(xiàn)相對(duì)較小。換言之,如果升級(jí)CPU和內(nèi)存,比如把它升級(jí)到英特爾至強(qiáng)6 6900P系列是完全有可能實(shí)現(xiàn)性能提升的。
我注意到,測(cè)試用的是2年前的第四代至強(qiáng)金牌6454S,現(xiàn)在已經(jīng)是至強(qiáng)6了。它的內(nèi)存是DDR5 4800,現(xiàn)在至強(qiáng)6支持6400,它支持的MRDIMM技術(shù)能拉到8800。此外,內(nèi)存通道也從8個(gè)變成了12個(gè)。跟2年前相比,內(nèi)存能力提升巨大。
當(dāng)然,KTransformers也可以考慮升級(jí)到最新的英偉達(dá)RTX 5090D,它可以提供32GB的GDDR7顯存,比4090多了8G的顯存。不過,由于目前5090才剛發(fā)布不久,存在供貨不足的問題,搭建起來(lái)也比較麻煩。
不過,我個(gè)人倒是非常期待它多卡推理的表現(xiàn),比如,用多塊只有8G、12G或者16G顯存的顯卡做推理,這些顯卡的單價(jià)更低,可能會(huì)構(gòu)建比使用單個(gè)4090或者5090更低的方案。