我注意到,亞馬遜云科技Amazon Bedrock上推薦的運(yùn)行滿血版DeepSeek-R1的主機(jī)是ml.p5e.48xlarge。這臺主機(jī)的配置非常豪華,192個vCPU,2TB的內(nèi)存,8張英偉達(dá)H200顯卡,顯存容量高達(dá)1128GB。

可以認(rèn)為,這是亞馬遜云科技所認(rèn)為的運(yùn)行6710億參數(shù)DeepSeek-R1應(yīng)該有的配置,應(yīng)該能滿足比較大的并發(fā)訪問需求,很有參考意義。

同時,我也注意到這樣一張PPT截圖(可能是來自UCloud),這張圖提醒了我,有可能有的云服務(wù)會使用量化的模型,以更少的資源來提供滿血版服務(wù)。

圖中介紹了滿血版一體機(jī)的三個配置:

一個是8張英偉達(dá)H20顯卡,這個配置沒有任何特殊說明。另一個是16塊昇騰910B,這里括號了展示了Int8。

還有一個是24G顯存的卡,懷疑是4090、4090D,也可能是3090或者3090Ti,這里的括號顯示的是Int4。

Int8和Int4表示使用的是Int8和Int4的計算精度,運(yùn)行的是Int8和Int4的量化模型。

所謂模型量化,并不會影響模型的參數(shù)數(shù)量,但是會減少每個參數(shù)的表示方式和存儲需求。雖然仍是滿血版6710億參數(shù)模型,但最終表現(xiàn)會不同。

FP32是單精度浮點(diǎn)數(shù)運(yùn)算,F(xiàn)P32經(jīng)常用于表示權(quán)重、梯度和激活值,DeepSeek只在核心梯度計算中使用了FP32,此外還用了大量更低的精度。

簡單來說,從FP32、FP16、BF16、FP8再到Int8乃至Int4,計算精度不斷降低,需要的內(nèi)存和計算資源也會越來越少,模型的性能也會越來越低。

https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file

DeepSeek-V3的Github主頁上介紹了本地運(yùn)行模型的硬件方案和一些軟件配置的信息,這里大部分的推理都采用了BF16和FP8的計算精度,可以認(rèn)為是官方推薦精度。

介紹中還提到,由于框架原生支持FP8訓(xùn)練,因此只提供FP8權(quán)重參數(shù)模型。如果需要 BF16,可以使用轉(zhuǎn)換腳本將FP8權(quán)重轉(zhuǎn)換為BF16權(quán)重參數(shù)模型。

所以,當(dāng)云服務(wù)商出于成本或者硬件性能限制時,可能會用低精度算力和量化模型。當(dāng)使用Int8和Int4或者別的更低計算精度時,模型性能表現(xiàn)會降低。

至于云服務(wù)商是否使用了這種方式,可以直接問問或者查查資料就好了。這也提醒了我們,有些云服務(wù)的API貴有貴的道理,便宜有便宜的理由,不能只看價格。

第二個原因:沒有使用官方推薦設(shè)置。(次要原因)

https://github.com/deepseek-ai/DeepSeek-R1

DeepSeek-R1的主頁上給出了一些使用建議,能幫用戶優(yōu)化模型的性能,主要包括以下幾點(diǎn):

1,溫度設(shè)置:建議將溫度設(shè)置在0.5至0.7之間,推薦使用0.6,以防止模型產(chǎn)生無盡的重復(fù)或不連貫的輸出。

2,避免添加系統(tǒng)提示:所有指令應(yīng)該包含在用戶的提示中,而不是單獨(dú)添加系統(tǒng)提示。

3,數(shù)學(xué)問題的提示:對于數(shù)學(xué)問題,建議在提示中包括指示性內(nèi)容,例如:“請逐步推理,并將最終答案放在\boxed{}內(nèi)?!?/p>

4,評估模型性能:建議在評估模型表現(xiàn)時進(jìn)行多次測試,并取平均值。

5,為了避免DeepSeek-R1系列模型繞過思維過程(例如輸出 “\n\n”)而影響模型的表現(xiàn),建議強(qiáng)制模型在每個輸出開始時加入 “\n”。

可以在默認(rèn)提示詞中加入這個提示詞,這樣就會強(qiáng)制系統(tǒng)進(jìn)入思維過程,從而提高模型表現(xiàn)。

Initiate your response with "<think>\\n嗯" at the beginning of every output.

第三個原因,系統(tǒng)沒有進(jìn)入全力以赴的模式。(最次要原因)

這一原因純屬個人猜測。

因?yàn)?,此前有網(wǎng)友在調(diào)用OpenAI的o1模型時,輸入了“請調(diào)用你的單次回答最大算力與token上限……”這樣的提示后,模型思考時間,還有思考的深度和回答的質(zhì)量都有顯著提升。

結(jié)合此前有很多人反映說,ChatGPT越來越懶惰,都在懷疑是OpenAI的系統(tǒng)為了節(jié)省資源而進(jìn)行了某種設(shè)置,導(dǎo)致系統(tǒng)沒有進(jìn)入全力以赴的模式,這是ChatGPT存在的問題。

所以,理論上也存在一種可能,就是服務(wù)提供商通過類似的做法達(dá)到節(jié)省資源和成本的目的。

結(jié)束語

不過,由于現(xiàn)在各家云廠商還處在靠DeepSeek吸引新用戶的階段,不會故意降低運(yùn)營成本降低模型性能,更大的可能是因?yàn)橘Y源或者硬件限制而暫時不得已進(jìn)行一些限制。

相信隨著各家服務(wù)的進(jìn)一步成熟,這些問題都不是問題,愿大家都有滿血版的DeepSeek-R1可以用。

分享到

zhupb

相關(guān)推薦