DeepSeek能以極低成本提供在線服務(wù),而英偉達(dá)開源的NVIDIA Dynamo也要類似的效果。英偉達(dá)創(chuàng)始人黃仁勛也表示,Dynamo可以幫AI工廠實(shí)現(xiàn)降本增效。他所說(shuō)的AI工廠,一般指提供“智能”產(chǎn)品的數(shù)據(jù)中心,也可以指提供AI服務(wù)的服務(wù)商(MaaS)。
英偉達(dá)的Dynamo讓AI推理服務(wù)成了一門不錯(cuò)的業(yè)務(wù)
DeepSeek開源周之后,有提供DeepSeek在線服務(wù)提供商宣布停止提供DeepSeek服務(wù)。而在我看來(lái),Dynamo是可以讓提供AI服務(wù)這件事,成為一門更好的業(yè)務(wù)。所以,Dynamo是一個(gè)值得所有AI專家都會(huì)關(guān)注的軟件。
黃仁勛在主題演講中再次提到了擴(kuò)展定律的三條實(shí)現(xiàn)路徑。第一種是預(yù)訓(xùn)練,基于海量數(shù)據(jù)從無(wú)到有訓(xùn)練出幾千億權(quán)重參數(shù)的模型。第二種是后訓(xùn)練,包括微調(diào)、蒸餾之類的。第三種就是以長(zhǎng)思考為代表的模式,指的就是DeepSeek-R1這類推理模型。
很顯然,推理模型將成為主流。OpenAI已經(jīng)表示,已經(jīng)發(fā)布的GPT 4.5將是最后一代非推理模型,以后傳統(tǒng)大語(yǔ)言模型會(huì)越來(lái)越少。DeepSeek-R1能引起轟動(dòng),很大程度上也是因?yàn)樗且粋€(gè)推理模型,其智能水平有目共睹。
推理模型通過(guò)長(zhǎng)思考提高智能水平,過(guò)程中會(huì)產(chǎn)生大量的Token。英偉達(dá)加速計(jì)算總經(jīng)理兼副總裁Ian Buck表示,推理型AI帶來(lái)了百倍以上的Token市場(chǎng)機(jī)會(huì),也將為數(shù)據(jù)中心市場(chǎng)帶來(lái)萬(wàn)億美元規(guī)模的市場(chǎng)機(jī)遇。
當(dāng)然,考慮到推理模型的計(jì)算成本在顯著提高,如何降低推理成本就顯得尤為重要。為了此,英偉達(dá)才推出了Dynamo。Dynamo整體降低推理成本,而成本降低則會(huì)讓AI應(yīng)用進(jìn)一步普及,普及則帶來(lái)巨大的市場(chǎng)增長(zhǎng)。
Ian Buck表示,Dynamo可以讓服務(wù)提供商在“用戶交互體驗(yàn)”和“整體tokens產(chǎn)量”之間靈活調(diào)整,獲得最好的業(yè)務(wù)回報(bào)。在我看來(lái),這給了AI服務(wù)提供商更大的靈活性,也可以提供增加收入機(jī)會(huì),讓AI服務(wù)成為一個(gè)更好的生意。
稍微解釋一下。
用戶交互體驗(yàn)好跟不好,一般指的就是模型響應(yīng)的速度。如果AI模型能迅速響應(yīng)并輸出結(jié)果,這種服務(wù)的響應(yīng)速度快,用戶體驗(yàn)非常好,而企業(yè)可以為這種高實(shí)時(shí)性的服務(wù)設(shè)定一個(gè)更高的價(jià)格,或者作為會(huì)員專享服務(wù)。
如果比較在意成本或者性價(jià)比,則可以考慮一次性處理大量請(qǐng)求。這樣一來(lái),雖然每個(gè)請(qǐng)求的響應(yīng)速度會(huì)慢一些,但整體上能提高AI工廠的輸出效率,在有限的資源下提高整體業(yè)務(wù)產(chǎn)出的量。
英偉達(dá)的Dynamo是什么?是怎么做到的?
與深度求索面向DeepSeek模型的優(yōu)化不同,英偉達(dá)的Dynamo通用性顯然更強(qiáng),它面向英偉達(dá)的Hopper和Blackwell顯卡優(yōu)化,它可以支持PyTorch框架,以及SGLang、NVIDIA TensorRT-LLM和vLLM這三個(gè)推理引擎。
所謂推理引擎,說(shuō)白了就是運(yùn)行大語(yǔ)言模型的工具,本地個(gè)人電腦上常用的是Ollama,企業(yè)大規(guī)模分布式部署則要使用SGLang、NVIDIA TensorRT-LLM和vLLM這些專用的推理引擎,這些可以更好地支持分布式推理和高并發(fā)。
我簡(jiǎn)單學(xué)習(xí)了一下Dynamo的創(chuàng)新之處,發(fā)現(xiàn)它跟DeepSeek的優(yōu)化技術(shù)有很多“英雄所見(jiàn)略同”的感覺(jué),以下是Dynamo的5大創(chuàng)新點(diǎn):
1,Dynamo可以支持更靈活的資源配置。
Dynamo可以高效地編排和協(xié)調(diào)大量給到GPU的AI推理請(qǐng)求,協(xié)調(diào)并加速數(shù)千個(gè) GPU之間的推理通信。它通過(guò)一個(gè)叫GPU 規(guī)劃器 (GPU Planner)的東西,能動(dòng)態(tài)地添加和移除GPU,以適應(yīng)不斷變化的需求,從而避免GPU配置過(guò)度或不足。
這讓我想起了DeepSeek介紹的類似操作,DeepSeek在業(yè)務(wù)高峰期時(shí)會(huì)配置更多GPU進(jìn)行推理。而在業(yè)務(wù)低峰期,比如在晚上,會(huì)把一部分GPU拿來(lái)做研發(fā)或者訓(xùn)練,如果不訓(xùn)練至少也能省一些電費(fèi)。這應(yīng)該也是Dynamo所追求的效果。
2,Dynamo把處理階段和生成階段解耦,性能和靈活性都大大提高。
傳統(tǒng)做法中,由于處理階段(Prefill,預(yù)填充階段)和生成階段(Decode,輸出Token階段)的不平衡,會(huì)導(dǎo)致GPU有更多空閑時(shí)間。處理階段是計(jì)算密集型的,而生成階段是延遲敏感型的。如果能把兩者解耦,不僅能提高利用率,還能提高整體吞吐。
Dynamo將大模型的處理階段和生成階段進(jìn)行了解耦。這首先帶來(lái)了性能的提升,上圖顯示,單節(jié)點(diǎn)性能提升30%,雙節(jié)點(diǎn)提升100%。如果GPU數(shù)量越多,分布式并行處理的優(yōu)勢(shì)越明顯,效率提升越高。
而且,將處理階段和生成階段解耦之后,Dynamo提供了更高的靈活性。它支持靈活設(shè)置首次令牌時(shí)間 (TTFT) 和令牌間延遲 (ITL)。AI技術(shù)服務(wù)商可以優(yōu)先考慮更快的TTFT、更低的 ITL,或者更高的吞吐量,通過(guò)類似會(huì)員專享的服務(wù)獲得額外收入。
3,Dynamo支持智能路由技術(shù),可減少重復(fù)計(jì)算,提升性能。
模型推理過(guò)程中,我們發(fā)給模型的文字(或者圖片)都會(huì)生成KV Cache,如果后續(xù)發(fā)給模型的內(nèi)容跟之前有重合,那就可以利用緩存的結(jié)果直接輸出,這樣就不用重新計(jì)算了,輸出速度也更快。
針對(duì)這個(gè)特性,Dynamo提供了一種更智能的路由方法。它不是根據(jù)負(fù)載繁忙程度來(lái)選節(jié)點(diǎn),而是根據(jù)緩存數(shù)據(jù)的情況來(lái)進(jìn)行路由,智能選擇緩存了最適合處理當(dāng)前請(qǐng)求的節(jié)點(diǎn)。最終讓TTFT,平均請(qǐng)求延遲,以及整體吞吐量都得到了優(yōu)化。
4,Dynamo支持把KV Cache卸載到CPU、SSD甚至是對(duì)象存儲(chǔ)上。
剛才說(shuō)了KV Cache是干啥的了,默認(rèn)情況下它是存放在顯存里的,如果進(jìn)行多輪對(duì)話就會(huì)占用更多顯存。然而,眾所周知,顯存是非常稀缺的資源,很多人為了大容量顯存就得買價(jià)格高很多的高端顯卡,高端顯卡的成本自然也很高。
Dynamo提供了一個(gè)叫顯存管理器 (Memory Manager)的東西,目前已經(jīng)支持把KV Cache卸載到CPU用的DRAM內(nèi)存上,下一步還打算把KV Cache放到SSD上,未來(lái)甚至還打算支持放到通過(guò)網(wǎng)絡(luò)訪問(wèn)的對(duì)象存儲(chǔ)上,簡(jiǎn)直了。
把KV Cache從顯存中搬到DRAM之后,GPU顯存得到釋放,GPU處理新請(qǐng)求的效率也直線上升,“首個(gè)token響應(yīng)時(shí)間”(TTFT)也大大縮短,用戶體驗(yàn)顯著改善。
5,支持?jǐn)?shù)據(jù)跨介質(zhì)高效傳輸?shù)牡脱舆t通信庫(kù)——NIXL
NIXL是一種數(shù)據(jù)傳輸工具,可以優(yōu)化數(shù)據(jù)在AI推理系統(tǒng)內(nèi)部不同存儲(chǔ)介質(zhì)之間的傳輸過(guò)程。傳統(tǒng)的數(shù)據(jù)傳輸庫(kù)只支持一種介質(zhì),而NIXL具備跨多種存儲(chǔ)介質(zhì)傳輸數(shù)據(jù)的能力。
介紹中提到,NIXL能高效地在不同內(nèi)存設(shè)備和快速存儲(chǔ)設(shè)備間并完成數(shù)據(jù)傳輸,可能是指在GPU顯存、CPU內(nèi)存或者SSD之間,是用來(lái)優(yōu)化KV Cache傳輸?shù)?,也是一個(gè)能提高性能的工具。
Dynamo已經(jīng)引起了廣泛關(guān)注
在這么多創(chuàng)新技術(shù)的聯(lián)合之下,效果也確實(shí)非常誘人。在GPU數(shù)量相同的情況下,Dynamo可將 NVIDIA Hopper平臺(tái)上運(yùn)行 Llama 模型的 AI工廠性能和收益翻倍。
在由GB200 NVL72機(jī)架組成的大型集群上運(yùn)行 DeepSeek-R1時(shí),Dynamo的智能推理優(yōu)化也可將每個(gè)GPU生成的 Token數(shù)量提高30倍以上??磥?lái)對(duì)新顯卡架構(gòu)的優(yōu)化加成更大。
英偉達(dá)提到,包括亞馬遜云科技、Cohere、CoreWeave、戴爾科技、Fireworks、谷歌云、Lambda、Meta、微軟 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST,都將受益于Dynamo。
Perplexity AI 首席技術(shù)官 Denis Yarats 表示:“我們期待通過(guò) NVIDIA Dynamo 及其增強(qiáng)的分布式服務(wù)能力,進(jìn)一步提高推理服務(wù)效率,滿足全新 AI 推理模型的計(jì)算需求。”
Cohere 工程部門高級(jí)副總裁 Saurabh Baji 表示:“我們期待 NVIDIA Dynamo 能幫助我們?yōu)槠髽I(yè)客戶提供卓越的用戶體驗(yàn)?!?/p>
Together AI 首席技術(shù)官 Ce Zhang 表示:“NVIDIA Dynamo 的開放性和模塊化使我們能夠?qū)⑵浣M件無(wú)縫嵌入引擎,以滿足更多請(qǐng)求,同時(shí)優(yōu)化資源利用率,從而最大化我們?cè)诩铀儆?jì)算方面的投資。我們很高興能夠利用該平臺(tái)的突破性功能,經(jīng)濟(jì)高效地為用戶提供開源推理模型?!?/p>
NVIDIA Dynamo將作為 NVIDIA NIM 微服務(wù)推出,并在未來(lái)版本中由 NVIDIA AI Enterprise 軟件平臺(tái)提供支持。想要高效推理模型的專家應(yīng)該都不會(huì)錯(cuò)過(guò)Dynamo吧。