Overview

本文档系列旨在帮助开发者深入理解 NVIDIA Dynamo —— 一个高吞吐、低延迟的分布式推理框架，专为在多节点环境中服务生成式 AI 和推理模型而设计。

你将学到

Dynamo 的五层架构设计
Rust 异步编程和分布式运行时
多引擎抽象层（vLLM、TensorRT-LLM、SGLang）
KV Cache 智能路由和 RadixTree 索引
Disaggregated Serving（Prefill/Decode 分离）
三平面通信架构（控制平面、事件平面、数据平面）

学习路线图

路径一：基础路径（推荐新手）

适合刚接触分布式推理框架的读者。

flowchart TD subgraph stage1["第一阶段 - 理解背景"] A["LLM 推理基础"] --> B["行业痛点"] B --> C["Dynamo 设计理念"] end subgraph stage2["第二阶段 - 架构总览"] C --> D["系统架构"] D --> E["部署模式"] end subgraph stage3["第三阶段 - 运行时层"] E --> F["Rust 异步编程"] F --> G["Runtime 设计"] G --> H["Component 系统"] end subgraph stage4["第四阶段 - 推理层"] H --> I["多引擎抽象"] I --> J["Worker 设计"] J --> K["Disaggregated Serving"] end style A fill:#e1f5fe style K fill:#c8e6c9

路径二：进阶路径（适合有基础的读者）

如果你已经了解 LLM 推理的基本概念，可以直接进入核心内容。

flowchart TD subgraph s1["架构理解"] A["系统架构"] --> B["部署模式"] end subgraph s2["核心组件"] B --> C["Runtime 设计"] C --> D["Component 系统"] D --> E["Pipeline 架构"] end subgraph s3["KV Cache"] E --> F["KV-Aware Router"] F --> G["RadixTree 索引"] G --> H["KV Cache Manager"] end subgraph s4["通信与 API"] H --> I["三平面架构"] I --> J["Python SDK"] J --> K["HTTP API"] end style A fill:#e1f5fe style K fill:#c8e6c9

文档结构

章节	内容
整体架构与设计理念	LLM 推理基础、行业痛点、设计理念、系统架构、部署模式
运行时层原理	Rust 异步编程、分布式系统基础、Runtime 设计、Component 系统、Pipeline 架构、服务发现
LLM 推理层原理	推理引擎原理、vLLM 技术解析、多引擎抽象、Worker 设计、Disaggregated Serving、请求处理
KV Cache 管理与路由	KV Cache 原理、优化技术综述、KV-Aware Router、RadixTree 索引、KV Cache Manager、事件系统
分布式通信机制	通信基础、三平面架构、etcd 集成、NATS 集成、NIXL 传输、TCP Pipeline
Python SDK 原理	Rust-Python 互操作、PyO3 绑定、服务装饰器、DynamoService 类、CLI 工具
HTTP API 层原理	REST API 基础、HTTP Server 设计、OpenAI 兼容 API、流式响应、错误处理

文档版本

Dynamo 版本：基于 NVIDIA Dynamo
文档版本：1.0
最后更新：2025 年 1 月

2026年2月24日

GitHub

LLM 推理基础

Dynamo

Inference Cookbook

Title here

Overview

你将学到

学习路线图

路径一：基础路径（推荐新手）

路径二：进阶路径（适合有基础的读者）

文档结构

文档版本

Overview

你将学到#

学习路线图#

路径一：基础路径（推荐新手）#

路径二：进阶路径（适合有基础的读者）#

文档结构#

文档版本#

你将学到

学习路线图

路径一：基础路径（推荐新手）

路径二：进阶路径（适合有基础的读者）

文档结构

文档版本