日韩国产亚洲欧美中国v,中文字幕在线亚洲二区,亚洲国产成人综合一区二区三区

DeepSeek能以極低成本提供在線服務(wù)，而英偉達開源的NVIDIA Dynamo也要類似的效果。英偉達創(chuàng)始人黃仁勛也表示，Dynamo可以幫AI工廠實現(xiàn)降本增效。他所說的AI工廠，一般指提供“智能”產(chǎn)品的數(shù)據(jù)中心，也可以指提供AI服務(wù)的服務(wù)商（MaaS）。

英偉達的Dynamo讓AI推理服務(wù)成了一門不錯的業(yè)務(wù)

DeepSeek開源周之后，有提供DeepSeek在線服務(wù)提供商宣布停止提供DeepSeek服務(wù)。而在我看來，Dynamo是可以讓提供AI服務(wù)這件事，成為一門更好的業(yè)務(wù)。所以，Dynamo是一個值得所有AI專家都會關(guān)注的軟件。

黃仁勛在主題演講中再次提到了擴展定律的三條實現(xiàn)路徑。第一種是預(yù)訓(xùn)練，基于海量數(shù)據(jù)從無到有訓(xùn)練出幾千億權(quán)重參數(shù)的模型。第二種是后訓(xùn)練，包括微調(diào)、蒸餾之類的。第三種就是以長思考為代表的模式，指的就是DeepSeek-R1這類推理模型。

很顯然，推理模型將成為主流。OpenAI已經(jīng)表示，已經(jīng)發(fā)布的GPT 4.5將是最后一代非推理模型，以后傳統(tǒng)大語言模型會越來越少。DeepSeek-R1能引起轟動，很大程度上也是因為它是一個推理模型，其智能水平有目共睹。

推理模型通過長思考提高智能水平，過程中會產(chǎn)生大量的Token。英偉達加速計算總經(jīng)理兼副總裁Ian Buck表示，推理型AI帶來了百倍以上的Token市場機會，也將為數(shù)據(jù)中心市場帶來萬億美元規(guī)模的市場機遇。

當然，考慮到推理模型的計算成本在顯著提高，如何降低推理成本就顯得尤為重要。為了此，英偉達才推出了Dynamo。Dynamo整體降低推理成本，而成本降低則會讓AI應(yīng)用進一步普及，普及則帶來巨大的市場增長。

Ian Buck表示，Dynamo可以讓服務(wù)提供商在“用戶交互體驗”和“整體tokens產(chǎn)量”之間靈活調(diào)整，獲得最好的業(yè)務(wù)回報。在我看來，這給了AI服務(wù)提供商更大的靈活性，也可以提供增加收入機會，讓AI服務(wù)成為一個更好的生意。

用戶交互體驗好跟不好，一般指的就是模型響應(yīng)的速度。如果AI模型能迅速響應(yīng)并輸出結(jié)果，這種服務(wù)的響應(yīng)速度快，用戶體驗非常好，而企業(yè)可以為這種高實時性的服務(wù)設(shè)定一個更高的價格，或者作為會員專享服務(wù)。

如果比較在意成本或者性價比，則可以考慮一次性處理大量請求。這樣一來，雖然每個請求的響應(yīng)速度會慢一些，但整體上能提高AI工廠的輸出效率，在有限的資源下提高整體業(yè)務(wù)產(chǎn)出的量。

與深度求索面向DeepSeek模型的優(yōu)化不同，英偉達的Dynamo通用性顯然更強，它面向英偉達的Hopper和Blackwell顯卡優(yōu)化，它可以支持PyTorch框架，以及SGLang、NVIDIA TensorRT-LLM和vLLM這三個推理引擎。

所謂推理引擎，說白了就是運行大語言模型的工具，本地個人電腦上常用的是Ollama，企業(yè)大規(guī)模分布式部署則要使用SGLang、NVIDIA TensorRT-LLM和vLLM這些專用的推理引擎，這些可以更好地支持分布式推理和高并發(fā)。

我簡單學(xué)習(xí)了一下Dynamo的創(chuàng)新之處，發(fā)現(xiàn)它跟DeepSeek的優(yōu)化技術(shù)有很多“英雄所見略同”的感覺，以下是Dynamo的5大創(chuàng)新點：

Dynamo可以高效地編排和協(xié)調(diào)大量給到GPU的AI推理請求，協(xié)調(diào)并加速數(shù)千個 GPU之間的推理通信。它通過一個叫GPU 規(guī)劃器 (GPU Planner)的東西，能動態(tài)地添加和移除GPU，以適應(yīng)不斷變化的需求，從而避免GPU配置過度或不足。

這讓我想起了DeepSeek介紹的類似操作，DeepSeek在業(yè)務(wù)高峰期時會配置更多GPU進行推理。而在業(yè)務(wù)低峰期，比如在晚上，會把一部分GPU拿來做研發(fā)或者訓(xùn)練，如果不訓(xùn)練至少也能省一些電費。這應(yīng)該也是Dynamo所追求的效果。

2，Dynamo把處理階段和生成階段解耦，性能和靈活性都大大提高。

傳統(tǒng)做法中，由于處理階段（Prefill，預(yù)填充階段）和生成階段（Decode，輸出Token階段）的不平衡，會導(dǎo)致GPU有更多空閑時間。處理階段是計算密集型的，而生成階段是延遲敏感型的。如果能把兩者解耦，不僅能提高利用率，還能提高整體吞吐。

Dynamo將大模型的處理階段和生成階段進行了解耦。這首先帶來了性能的提升，上圖顯示，單節(jié)點性能提升30%，雙節(jié)點提升100%。如果GPU數(shù)量越多，分布式并行處理的優(yōu)勢越明顯，效率提升越高。

而且，將處理階段和生成階段解耦之后，Dynamo提供了更高的靈活性。它支持靈活設(shè)置首次令牌時間（TTFT）和令牌間延遲（ITL）。AI技術(shù)服務(wù)商可以優(yōu)先考慮更快的TTFT、更低的 ITL，或者更高的吞吐量，通過類似會員專享的服務(wù)獲得額外收入。

3，Dynamo支持智能路由技術(shù)，可減少重復(fù)計算，提升性能。

模型推理過程中，我們發(fā)給模型的文字（或者圖片）都會生成KV Cache，如果后續(xù)發(fā)給模型的內(nèi)容跟之前有重合，那就可以利用緩存的結(jié)果直接輸出，這樣就不用重新計算了，輸出速度也更快。

針對這個特性，Dynamo提供了一種更智能的路由方法。它不是根據(jù)負載繁忙程度來選節(jié)點，而是根據(jù)緩存數(shù)據(jù)的情況來進行路由，智能選擇緩存了最適合處理當前請求的節(jié)點。最終讓TTFT，平均請求延遲，以及整體吞吐量都得到了優(yōu)化。

剛才說了KV Cache是干啥的了，默認情況下它是存放在顯存里的，如果進行多輪對話就會占用更多顯存。然而，眾所周知，顯存是非常稀缺的資源，很多人為了大容量顯存就得買價格高很多的高端顯卡，高端顯卡的成本自然也很高。

Dynamo提供了一個叫顯存管理器 (Memory Manager)的東西，目前已經(jīng)支持把KV Cache卸載到CPU用的DRAM內(nèi)存上，下一步還打算把KV Cache放到SSD上，未來甚至還打算支持放到通過網(wǎng)絡(luò)訪問的對象存儲上，簡直了。

把KV Cache從顯存中搬到DRAM之后，GPU顯存得到釋放，GPU處理新請求的效率也直線上升，“首個token響應(yīng)時間”（TTFT）也大大縮短，用戶體驗顯著改善。

5，支持數(shù)據(jù)跨介質(zhì)高效傳輸?shù)牡脱舆t通信庫——NIXL

NIXL是一種數(shù)據(jù)傳輸工具，可以優(yōu)化數(shù)據(jù)在AI推理系統(tǒng)內(nèi)部不同存儲介質(zhì)之間的傳輸過程。傳統(tǒng)的數(shù)據(jù)傳輸庫只支持一種介質(zhì)，而NIXL具備跨多種存儲介質(zhì)傳輸數(shù)據(jù)的能力。

介紹中提到，NIXL能高效地在不同內(nèi)存設(shè)備和快速存儲設(shè)備間并完成數(shù)據(jù)傳輸，可能是指在GPU顯存、CPU內(nèi)存或者SSD之間，是用來優(yōu)化KV Cache傳輸?shù)?，也是一個能提高性能的工具。

在這么多創(chuàng)新技術(shù)的聯(lián)合之下，效果也確實非常誘人。在GPU數(shù)量相同的情況下，Dynamo可將 NVIDIA Hopper平臺上運行 Llama 模型的 AI工廠性能和收益翻倍。

在由GB200 NVL72機架組成的大型集群上運行 DeepSeek-R1時，Dynamo的智能推理優(yōu)化也可將每個GPU生成的 Token數(shù)量提高30倍以上?？磥韺π嘛@卡架構(gòu)的優(yōu)化加成更大。

英偉達提到，包括亞馬遜云科技、Cohere、CoreWeave、戴爾科技、Fireworks、谷歌云、Lambda、Meta、微軟 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST，都將受益于Dynamo。

Perplexity AI 首席技術(shù)官 Denis Yarats 表示：“我們期待通過 NVIDIA Dynamo 及其增強的分布式服務(wù)能力，進一步提高推理服務(wù)效率，滿足全新 AI 推理模型的計算需求?！?/p>

Cohere 工程部門高級副總裁 Saurabh Baji 表示：“我們期待 NVIDIA Dynamo 能幫助我們?yōu)槠髽I(yè)客戶提供卓越的用戶體驗。”

Together AI 首席技術(shù)官 Ce Zhang 表示：“NVIDIA Dynamo 的開放性和模塊化使我們能夠?qū)⑵浣M件無縫嵌入引擎，以滿足更多請求，同時優(yōu)化資源利用率，從而最大化我們在加速計算方面的投資。我們很高興能夠利用該平臺的突破性功能，經(jīng)濟高效地為用戶提供開源推理模型?！?/p>

NVIDIA Dynamo將作為 NVIDIA NIM 微服務(wù)推出，并在未來版本中由 NVIDIA AI Enterprise 軟件平臺提供支持。想要高效推理模型的專家應(yīng)該都不會錯過Dynamo吧。