NVIDIA Dynamo 提高了推理性能,同時(shí)降低了擴(kuò)展測(cè)試時(shí)計(jì)算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化將 DeepSeek-R1 上的吞吐量提高了 30 倍
NVIDIA 發(fā)布了開(kāi)源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴(kuò)展 AI 工廠中的 AI 推理模型。
高效地編排和協(xié)調(diào)大量 GPU 上的 AI 推理請(qǐng)求,對(duì)確保 AI 工廠實(shí)現(xiàn)運(yùn)行成本最小化、token 收益最大化來(lái)說(shuō)至關(guān)重要。
隨著 AI 推理逐漸變?yōu)橹髁?,AI 模型在處理每個(gè)提示時(shí)都會(huì)生成數(shù)以萬(wàn)計(jì)的 token 用于“思考”。提高推理性能的同時(shí)不斷降低推理成本,可加速服務(wù)提供商的增長(zhǎng)并增加收入機(jī)會(huì)。
作為 NVIDIA Triton? 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協(xié)調(diào)并加速數(shù)千個(gè) GPU 之間的推理通信,并使用分離服務(wù)將大語(yǔ)言模型 (LLM) 的處理階段和生成階段在不同 GPU 上分離開(kāi)來(lái)。這使得每個(gè)階段的特定需求可以進(jìn)行單獨(dú)優(yōu)化,并確保更大程度地利用 GPU 資源。
“全世界各行業(yè)都在訓(xùn)練 AI 模型以不同的方式進(jìn)行思考和學(xué)習(xí),從而使模型復(fù)雜度持續(xù)升級(jí)。”NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,“為了實(shí)現(xiàn)自定義推理 AI 的未來(lái),NVIDIA Dynamo 可以在這些模型上進(jìn)行規(guī)模化部署,從而為 AI 工廠實(shí)現(xiàn)降本增效”。
在 GPU 數(shù)量相同的情況下,Dynamo 可將 NVIDIA Hopper? 平臺(tái)上運(yùn)行 Llama 模型的 AI 工廠性能和收益翻倍。在由 GB200 NVL72 機(jī)架組成的大型集群上運(yùn)行 DeepSeek-R1 模型時(shí),NVIDIA Dynamo 的智能推理優(yōu)化也可將每個(gè) GPU 生成的 token 數(shù)量提高 30 倍以上。
為了提升這些推理性能,NVIDIA Dynamo 加入了一些功能,使其能夠提高吞吐量的同時(shí)降低成本。它可以根據(jù)不斷變化的請(qǐng)求數(shù)量和類型,動(dòng)態(tài)添加、移除和重新分配 GPU,并精確定位大型集群中的特定 GPU,從而更大限度地減少響應(yīng)計(jì)算和路由查詢。此外,它還可以將推理數(shù)據(jù)卸載到成本更低的顯存和存儲(chǔ)設(shè)備上,并在需要時(shí)快速檢索這些數(shù)據(jù),最大程度地降低推理成本。
NVIDIA Dynamo 完全開(kāi)源并支持 PyTorch、SGLang、NVIDIA TensorRT?-LLM 和 vLLM,使企業(yè)、初創(chuàng)公司和研究人員能夠開(kāi)發(fā)和優(yōu)化在分離推理時(shí)部署 AI 模型的方法。這將使用戶加速采用 AI 推理,包括亞馬遜云科技、Cohere、CoreWeave、戴爾科技、Fireworks、谷歌云、Lambda、Meta、微軟 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。
推理性能提升
NVIDIA Dynamo 可將推理系統(tǒng)在處理過(guò)往請(qǐng)求時(shí)于顯存中保存的知識(shí)(稱為 KV 緩存),映射到潛在的數(shù)千個(gè) GPU 中。
然后,它會(huì)將新的推理請(qǐng)求路由到與所需信息匹配度最高的 GPU 上,從而避免昂貴的重新計(jì)算,并釋放 GPU 來(lái)響應(yīng)新的請(qǐng)求。
Perplexity AI 首席技術(shù)官 Denis Yarats 表示:“為了處理每月數(shù)以億計(jì)的請(qǐng)求,我們依靠 NVIDIA GPU 及推理軟件來(lái)提供業(yè)務(wù)和用戶所需的性能、可靠性和拓展性。我們期待通過(guò) NVIDIA Dynamo 及其增強(qiáng)的分布式服務(wù)能力,進(jìn)一步提高推理服務(wù)效率,滿足全新 AI 推理模型的計(jì)算需求。”
代理式 AI
AI 提供商 Cohere 計(jì)劃使用 NVIDIA Dynamo 為其 Command 系列模型中的代理式 AI 功能提供支持。
Cohere 工程部門(mén)高級(jí)副總裁 Saurabh Baji 表示:“擴(kuò)展先進(jìn)的 AI 模型需要復(fù)雜的多 GPU 調(diào)度、無(wú)縫協(xié)調(diào)和低延遲通信庫(kù),以便在顯存和存儲(chǔ)中無(wú)縫傳輸推理上下文。我們期待 NVIDIA Dynamo 能幫助我們?yōu)槠髽I(yè)客戶提供卓越的用戶體驗(yàn)?!?/p>
分離服務(wù)
NVIDIA Dynamo 推理平臺(tái)還支持分離服務(wù),將 LLM 的不同計(jì)算階段(包括建立對(duì)用戶查詢的理解,然后生成最佳響應(yīng))分配給不同的 GPU。這種方法非常適合推理模型,例如全新的 NVIDIA Llama Nemotron 模型系列,它們使用高級(jí)推理技術(shù)來(lái)改進(jìn)上下文理解和響應(yīng)生成。分離服務(wù)使得每個(gè)階段可以進(jìn)行單獨(dú)的微調(diào)和資源調(diào)配,從而提高吞吐量并更快地響應(yīng)用戶。
Together AI (AI Acceleration Cloud) 正在尋求將其專有的 Together Inference Engine 與 NVIDIA Dynamo 集成,以便推理工作負(fù)載實(shí)現(xiàn)跨 GPU 節(jié)點(diǎn)的無(wú)縫擴(kuò)展。這也讓 Together AI 能夠動(dòng)態(tài)地解決模型管線各個(gè)階段的流量瓶頸。
Together AI 首席技術(shù)官 Ce Zhang 表示:“經(jīng)濟(jì)高效地?cái)U(kuò)展推理模型需要新的先進(jìn)推理技術(shù),包括分離服務(wù)和上下文感知路由。借助我們專有的推理引擎,Together AI 可提供行業(yè)領(lǐng)先的性能。NVIDIA Dynamo 的開(kāi)放性和模塊化使我們能夠?qū)⑵浣M件無(wú)縫嵌入引擎,以滿足更多請(qǐng)求,同時(shí)優(yōu)化資源利用率,從而最大化我們?cè)诩铀儆?jì)算方面的投資。我們很高興能夠利用該平臺(tái)的突破性功能,經(jīng)濟(jì)高效地為用戶提供開(kāi)源推理模型?!?/p>
NVIDIA Dynamo 組成結(jié)構(gòu)
NVIDIA Dynamo 包含四項(xiàng)關(guān)鍵創(chuàng)新,可降低推理服務(wù)成本并改善用戶體驗(yàn):
- GPU 規(guī)劃器 (GPU Planner):一種規(guī)劃引擎,可動(dòng)態(tài)地添加和移除 GPU,以適應(yīng)不斷變化的用戶需求,從而避免 GPU 配置過(guò)度或不足。
- 智能路由器 (Smart Router):一個(gè)具備大語(yǔ)言模型 (LLM) 感知能力的路由器,它可以在大型 GPU 集群中引導(dǎo)請(qǐng)求的流向,從而最大程度減少因重復(fù)或重疊請(qǐng)求而導(dǎo)致的代價(jià)高昂的 GPU 重復(fù)計(jì)算,釋放出 GPU 資源以響應(yīng)新的請(qǐng)求。
- 低延遲通信庫(kù) (Low-Latency Communication Library):推理優(yōu)化庫(kù),支持先進(jìn)的 GPU 到 GPU 通信,并簡(jiǎn)化異構(gòu)設(shè)備之間的復(fù)雜數(shù)據(jù)交換,從而加速數(shù)據(jù)傳輸。
- 顯存管理器 (Memory Manager):一種可在不影響用戶體驗(yàn)的情況下,以智能的方式在低成本顯存和存儲(chǔ)設(shè)備上卸載及重新加載推理數(shù)據(jù)的引擎。
NVIDIA Dynamo 將作為 NVIDIA NIM? 微服務(wù)推出,并在未來(lái)版本中由 NVIDIA AI Enterprise 軟件平臺(tái)提供支持,具有生產(chǎn)級(jí)的安全性、支持和穩(wěn)定性。