從官方介紹中看到,超聚變僅用1臺FusionServer G8600服務(wù)器,內(nèi)置8張英偉達(dá)H20顯卡即可運(yùn)行原生滿血模型DeepSeek-R1 671B,而且用的是DeepSeek官方默認(rèn)的FP8精度,讓模型智能水平無損釋放。
超聚變提到,得益于自研推理加速引擎的優(yōu)化,原本需要8張141GB顯存顯卡(也就是H200,也有人說H20也有141G的版本)才能做到,現(xiàn)在僅96G顯存的H20即可做到,顯存使用量降低30%。
如上圖所示,這里使用8張141G顯存H20顯卡來部署滿血版,這套方案已經(jīng)可以視為高性價(jià)比的版本了,如果換成8張96G顯存H20之后,顯然性價(jià)比又上了一個(gè)臺階。
超聚變通過對推理引擎的深度優(yōu)化和KV Cache策略的優(yōu)化,單臺G8600服務(wù)器跑滿血大模型,性能提升50%,還支持32個(gè)并發(fā)訪問,吞吐量最高可至1000 tokens/秒,屬于非常高的表現(xiàn)了。
換算成單并發(fā)Token性能,則是能達(dá)到32Token/s。這比剛才上圖中提到的20 Token/s大概提高了50%。看來,超聚變拿來做對比的就是這套8張H200的方案。
超聚變還提到,通過簡單易用的容器管理平臺,用戶還可以靈活選擇部署DeepSeek全系列的其他模型,支持選擇多種AI加速卡,快速滿足不同AI應(yīng)用場景。