中文字幕在线播放,最近的中文字幕在线看视频

但本地部署對(duì)于硬件還是有一定要求的，尤其是GPU算力，大家都知道顯存越大、算力越高，本地推理就會(huì)越快，但是想要獲得更完整的推理效果，7B參數(shù)的大模型是不夠用的，14B、32B甚至更大的70B模型才是必選項(xiàng)，而大顯存的顯卡價(jià)格不菲，除卻昂貴的企業(yè)級(jí)產(chǎn)品，即使是消費(fèi)級(jí)的大顯存顯卡也是普通用戶難以承受的，以24GB顯存的RTX 4090顯卡為例，現(xiàn)在的價(jià)格也在一萬(wàn)七千元左右，部署成本相當(dāng)之高。

本文將介紹如何使用一萬(wàn)元的預(yù)算來(lái)實(shí)現(xiàn)32GB顯存的本地DeepSeek R1大模型部署。其中顯卡部分使用兩塊英特爾銳炫A770 16GB顯卡組成，成本不到四千元，價(jià)格相當(dāng)親民，可以有效控制預(yù)算。通過(guò)使用IPEX-LLM在Ubuntu操作系統(tǒng)下部署32B參數(shù)的DeepSeek R1大模型，實(shí)現(xiàn)高效的本地推理，實(shí)測(cè)生成階段的Avg Generation Throughput可以穩(wěn)定在26 tokens/s以上。無(wú)論是在上下文生成還是代碼生成實(shí)例中，都表現(xiàn)出了極強(qiáng)的效率，并且整套系統(tǒng)的功耗控制在800瓦以下。

我們使用讓DeepSeek模型生成貪吃蛇游戲代碼的prompt來(lái)測(cè)試整個(gè)推理效率，完全在本地運(yùn)行。

【請(qǐng)用html寫(xiě)個(gè)貪吃蛇游戲的代碼，需要包含以下功能：

2. 蛇會(huì)自動(dòng)向前移動(dòng)，并在吃到紅色的食物時(shí)增長(zhǎng)并增加得分

3. 當(dāng)蛇碰到墻壁或自己時(shí)，游戲結(jié)束并顯示得分

在經(jīng)過(guò)大約15秒鐘的推理過(guò)程之后，DeepSeek模型即開(kāi)始輸出代碼，全部輸出完成耗時(shí)僅1分鐘。特別是，通過(guò)使用Open WebUI圖形界面交互時(shí)，在代碼完成后，還可以出現(xiàn)一個(gè)預(yù)覽窗口，這是我們可以使用鍵盤(pán)方向鍵控制蛇的移動(dòng)，吃掉食物獲得分?jǐn)?shù)，當(dāng)蛇撞到墻壁或自己時(shí)，游戲結(jié)束。所見(jiàn)即所得，編程從未如此簡(jiǎn)單。

如果代碼有哪里不滿意，我們還可以繼續(xù)通過(guò)指令讓DeepSeek進(jìn)行調(diào)整，例如第一次生成的代碼，蛇的移動(dòng)速度太快，調(diào)整之后蛇的移動(dòng)時(shí)間間隔增加到了200毫秒，這時(shí)玩起來(lái)就容易多了?？傊陔x線部署的DeepSeek下，你可以隨意提出自己的要求，實(shí)現(xiàn)工作效率的提升。

我們還嘗試了文本內(nèi)容生成，在約3000漢字的文章生成測(cè)試中，后臺(tái)顯示Prefill階段的吞吐最高可以達(dá)28 .1 tokens/s,生成階段平均輸出速度約為25 tokens/s。我們以一個(gè)中文字符0.6個(gè)token算，生成速度大概為每秒鐘20個(gè)漢字，按人類平均每分鐘700字的閱讀速度來(lái)看，這套本地部署的DeepSeek R1模型生成速度已經(jīng)大幅超越正常人類閱讀速度，十分的高效。

關(guān)于具體的軟硬件部署有一些值得注意的地方，首先是硬件部分。我們搭配了英特爾酷睿Ultra 9 285K處理器與Z890主板，作為目前Intel桌面平臺(tái)的旗艦型號(hào)，其實(shí)是用不到這么高的配置的，因?yàn)榇竽Ｐ屯耆茉贕PU上，對(duì)于處理器的負(fù)載反倒不高，如果你選擇酷睿Ultra 7處理器或者Ultra 5處理器也是沒(méi)問(wèn)題的。而之所以選擇Z890主板是由于需要至少兩個(gè)PCIE顯卡插槽，并且如果想要發(fā)揮出顯卡的全部帶寬優(yōu)勢(shì)，選擇支持兩條x8通道拆分的主板會(huì)更好。同時(shí)如果你要是使用封閉機(jī)箱，還要考慮到顯卡干涉的問(wèn)題。

內(nèi)存方面，最好選擇大容量高速內(nèi)存，以提升模型的加載和調(diào)用效率。我們使用的24GB*2 CUDIMM內(nèi)存效率還不錯(cuò)，只不過(guò)CUDIMM內(nèi)存由于CKD原因現(xiàn)在價(jià)格較貴，并且主要針對(duì)超頻有利，因此使用普通的8000 MT/s DDR5內(nèi)存也是沒(méi)問(wèn)題的。因此如果進(jìn)一步調(diào)整配置，是能做到整體硬件開(kāi)銷在萬(wàn)元之內(nèi)的，相比單24GB/32GB顯存顯卡的方案那可是太實(shí)惠了。

值得注意的是電源，因?yàn)樾枰瑫r(shí)接入兩塊A770顯卡（此次使用的一塊A770還是來(lái)自藍(lán)戟的超頻版本），單卡TGP約在200瓦左右，加上我們使用的是Ultra 9處理器，因此選擇了鑫谷的GM1250瓦電源，更主要的原因是其支持4個(gè)PCIe 8Pin供電接口，能夠滿足兩塊A770雙8+6pin的供電需求。

至于操作系統(tǒng)，其實(shí)在Windows系統(tǒng)下也能實(shí)現(xiàn)雙銳炫A770顯卡的部署，只不過(guò)由于操作系統(tǒng)差異和機(jī)器學(xué)習(xí)架構(gòu)的效率不同，其運(yùn)行效率不如在Linux系統(tǒng)下更快。因此我們使用Ubuntu 22.04系統(tǒng)，這個(gè)版本已經(jīng)由英特爾官方提供來(lái)了驅(qū)動(dòng)適配和支持，兼容性很好。當(dāng)然，如果你使用其它版本的Linux系統(tǒng)，可以參看intel官方支持頁(yè)面進(jìn)行操作。

關(guān)于DeepSeek模型的部署，我們使用了采用Q4量化的DeepSeek R1-32B版本模型，可以在huggingface或者魔塔社區(qū)等進(jìn)行下載。同時(shí)為了方便查看后臺(tái)運(yùn)行情況，我們還使用了Open WebUI圖形界面來(lái)進(jìn)行演示和檢測(cè)。

不過(guò)值得注意的是，由于我們使用了其中一塊銳炫A770顯卡的DP接口進(jìn)行輸出，理論上會(huì)對(duì)顯卡運(yùn)行大模型的效率產(chǎn)生一點(diǎn)影響，如果你采用局域網(wǎng)方式訪問(wèn)后端，能夠讓兩塊銳炫A770完全集中到大模型的負(fù)載上，這點(diǎn)需要說(shuō)明。

通過(guò)這套本地部署的方式，我們將兩張英特爾A770顯卡的顯存疊加使用，實(shí)現(xiàn)了32B參數(shù)DeepSeek R1大型模型的離線運(yùn)行，并且實(shí)測(cè)運(yùn)行效率很高，可以很方便地實(shí)現(xiàn)高效的推理和豐富的功能，如果你也有類似需求可以嘗試搭建自己的大模型服務(wù)器。

^{<sub id="wahoz"></sub>}

songjy

相關(guān)推薦

近期文章

熱門標(biāo)簽