术语表与缩略词
本文提供 Mooncake 文档中使用的核心术语、技术缩略词的中英对照与详细解释。
1. 架构术语#
1.1 核心概念#
| 英文术语 |
中文翻译 |
缩写 |
解释 |
| Prefill |
预填充 |
- |
LLM 推理的首阶段,处理完整输入 Prompt 并生成首个 Token 的过程 |
| Decode |
解码 |
- |
LLM 推理的第二阶段,逐个生成后续 Token 的自回归过程 |
| KVCache |
键值缓存 |
- |
存储 Transformer 中每层 Attention 的 Key 和 Value 张量,避免重复计算 |
| Prefill-Decode Disaggregation |
P/D 分离 |
P/D |
将 Prefill 和 Decode 阶段部署在不同的物理节点上执行 |
| Mooncake Store |
- |
- |
Mooncake 的分布式 KVCache 存储引擎 |
| Transfer Engine |
传输引擎 |
TE |
负责高性能跨节点数据传输的模块 |
| Conductor |
指挥者 |
- |
全局调度器,负责请求分发与资源调度 |
1.2 系统组件#
| 英文术语 |
中文翻译 |
解释 |
| Prefill Worker |
Prefill 工作节点 |
执行 Prefill 计算的节点,通常配置 GPU |
| Decode Worker |
Decode 工作节点 |
执行 Decode 计算的节点,通常配置 GPU |
| Storage Worker |
存储工作节点 |
提供 CPU 内存/SSD 存储空间的节点 |
| Master Node |
主控节点 |
管理 Mooncake Store 元数据的中心节点 |
| Cache-aware Scheduling |
缓存感知调度 |
根据 KVCache 位置优化任务分配的调度策略 |
| Hot Prefix Migration |
热前缀迁移 |
将高频访问的前缀 KVCache 迁移到需求节点 |
2. 网络与传输术语#
2.1 RDMA 核心术语#
| 英文术语 |
中文翻译 |
缩写 |
解释 |
| Remote Direct Memory Access |
远程直接内存访问 |
RDMA |
绕过 CPU 直接访问远程节点内存的网络技术 |
| Queue Pair |
队列对 |
QP |
RDMA 通信的基本单元,包含发送队列和接收队列 |
| Completion Queue |
完成队列 |
CQ |
存储 RDMA 操作完成事件的队列 |
| Work Request |
工作请求 |
WR |
描述 RDMA 操作的数据结构 (Read/Write/Send) |
| Memory Region |
内存区域 |
MR |
注册给 RDMA NIC 的内存区域,可被远程访问 |
| Local Key |
本地密钥 |
lkey |
用于本地访问 MR 的密钥 |
| Remote Key |
远程密钥 |
rkey |
用于远程访问 MR 的密钥 |
| Scatter-Gather Entry |
分散聚集条目 |
SGE |
描述内存缓冲区位置和长度的结构 |
2.2 RDMA 操作类型#
| 英文术语 |
中文翻译 |
解释 |
| RDMA Read |
RDMA 读 |
从远程节点读取数据到本地,单边操作 |
| RDMA Write |
RDMA 写 |
将本地数据写入远程节点,单边操作 |
| RDMA Send/Recv |
RDMA 发送/接收 |
双边通信操作,需要接收方配合 |
| GPU Direct RDMA |
GPU 直接 RDMA |
绕过 CPU,直接在 GPU 显存和 RDMA NIC 间传输数据 |
2.3 网络拓扑术语#
| 英文术语 |
中文翻译 |
缩写 |
解释 |
| Top-of-Rack Switch |
机架顶部交换机 |
ToR |
连接同机架内所有节点的交换机 |
| Spine Switch |
主干交换机 |
- |
连接多个 ToR 交换机的上层交换机 |
| Leaf-Spine Topology |
叶脊拓扑 |
- |
数据中心常用的二层网络拓扑结构 |
| Network Interface Card |
网络接口卡 |
NIC |
物理网络硬件,RDMA NIC 支持 RDMA 协议 |
| InfiniBand |
InfiniBand |
IB |
高性能 RDMA 网络协议,常见于 HPC 场景 |
| RoCE |
RDMA over Converged Ethernet |
RoCE |
基于以太网的 RDMA 协议 (RoCE v2 为主流) |
3. 性能与监控术语#
3.1 性能指标#
| 英文术语 |
中文翻译 |
缩写 |
解释 |
| Service Level Objective |
服务等级目标 |
SLO |
系统需满足的性能指标 (如延迟、可用性) |
| Time Between Tokens |
每 Token 间隔时间 |
TBT |
Decode 阶段生成相邻两个 Token 的时间间隔 |
| Time To First Token |
首 Token 时间 |
TTFT |
从请求提交到返回首个 Token 的时间 (Prefill 延迟) |
| Throughput |
吞吐量 |
- |
单位时间内系统处理的请求数 (req/s) 或 Token 数 (tokens/s) |
| Latency |
延迟 |
- |
请求从提交到完成的时间 |
| P50/P95/P99 Latency |
延迟分位数 |
- |
50%/95%/99% 请求的延迟不超过该值 |
| Effective Request Capacity |
有效请求容量 |
- |
在满足 SLO 约束下系统能处理的最大请求量 |
3.2 资源指标#
| 英文术语 |
中文翻译 |
解释 |
| GPU Utilization |
GPU 利用率 |
GPU 计算单元的使用率 (0-100%) |
| Memory Bandwidth |
内存带宽 |
内存读写速度 (GB/s) |
| Network Bandwidth |
网络带宽 |
网络传输速度 (Gbps) |
| Queue Length |
队列长度 |
等待处理的请求数 |
| Compute-bound |
计算受限 |
性能瓶颈在 GPU 计算能力 |
| Memory-bound |
内存受限 |
性能瓶颈在显存带宽 |
4. 存储术语#
4.1 存储介质#
| 英文术语 |
中文翻译 |
解释 |
| GPU Memory (VRAM) |
GPU 显存 |
GPU 板载的高速内存 (HBM),带宽 ~2TB/s |
| CPU Memory (DRAM) |
CPU 内存 |
主机内存,带宽 ~100GB/s |
| NVMe SSD |
NVMe 固态硬盘 |
基于 PCIe 的高速 SSD,带宽 ~7GB/s |
| Memory Hierarchy |
存储层次 |
GPU 显存 > CPU 内存 > SSD (速度递减,容量递增) |
4.2 存储策略#
| 英文术语 |
中文翻译 |
缩写 |
解释 |
| Least Recently Used |
最近最少使用 |
LRU |
驱逐最久未访问的缓存条目 |
| Least Frequently Used |
最少使用频率 |
LFU |
驱逐访问次数最少的缓存条目 |
| Time To Live |
生存时间 |
TTL |
缓存条目的有效期,超时后自动失效 |
| Segment |
分段 |
- |
Mooncake Store 中存储数据的基本单元 |
| Replica |
副本 |
- |
数据的备份拷贝,用于高可用 |
| Metadata |
元数据 |
- |
描述数据位置、大小、状态等信息的数据 |
5. 深度学习术语#
5.1 模型架构#
| 英文术语 |
中文翻译 |
解释 |
| Transformer |
Transformer |
基于 Self-Attention 的神经网络架构 |
| Self-Attention |
自注意力 |
Transformer 的核心机制,计算序列内 Token 间关系 |
| Multi-Head Attention |
多头注意力 |
MHA |
| Grouped Query Attention |
分组查询注意力 |
GQA |
| Mixture of Experts |
混合专家模型 |
MoE |
| Expert Parallelism |
专家并行 |
EP |
5.2 推理优化#
| 英文术语 |
中文翻译 |
解释 |
| Continuous Batching |
连续批处理 |
动态组合不同长度的请求进行批量推理 |
| Paged Attention |
分页注意力 |
将 KVCache 分页管理,减少显存碎片 |
| FlashAttention |
FlashAttention |
优化 Attention 计算的内存访问模式 |
| Speculative Decoding |
推测解码 |
用小模型预测多个 Token,大模型验证 |
| Prefix Caching |
前缀缓存 |
缓存共享的 Prompt 前缀,避免重复计算 |
6. 分布式系统术语#
6.1 通信协议#
| 英文术语 |
中文翻译 |
缩写 |
解释 |
| Remote Procedure Call |
远程过程调用 |
RPC |
跨进程/跨节点调用函数的通信机制 |
| gRPC |
- |
gRPC |
Google 开发的高性能 RPC 框架 |
| Protocol Buffers |
协议缓冲区 |
Protobuf |
高效的结构化数据序列化格式 |
| Message Passing Interface |
消息传递接口 |
MPI |
HPC 领域的标准通信协议 |
6.2 一致性与可用性#
| 英文术语 |
中文翻译 |
解释 |
| Fault Tolerance |
容错性 |
系统在部分组件故障时仍能正常工作的能力 |
| High Availability |
高可用性 |
HA |
| Consistency |
一致性 |
数据在多个副本间保持同步的程度 |
| Eventual Consistency |
最终一致性 |
数据副本最终会达到一致,但可能短期不一致 |
| Replication Factor |
副本因子 |
每份数据存储的副本数量 |
7. Mooncake 特有术语#
7.1 核心模块#
| 英文术语 |
缩写 |
解释 |
| Mooncake Store |
- |
分布式 KVCache 存储系统,支持 CPU 内存 + SSD |
| Transfer Engine |
TE |
基于 RDMA 的高性能数据传输引擎 |
| TENT |
TENT |
Topology-aware Engine for Network Transfer,拓扑感知传输引擎 |
| P2P Store |
- |
点对点对象存储,用于 Checkpoint 和大文件传输 |
7.2 优化技术#
| 英文术语 |
解释 |
| KVCache-centric Architecture |
以 KVCache 为中心的架构设计理念 |
| Cache-aware Scheduling |
根据 KVCache 位置优化调度的策略 |
| Topology-aware Transfer |
基于网络拓扑优化传输路径的技术 |
| Hot Prefix Migration |
将高频访问的前缀 KVCache 迁移到需求节点 |
| Batch Transfer |
批量传输多个 Segment,减少 RDMA 开销 |
8. 性能分析术语#
8.1 性能剖析#
| 英文术语 |
中文翻译 |
解释 |
| Profiling |
性能剖析 |
分析程序执行时间分布的过程 |
| Bottleneck |
瓶颈 |
限制系统整体性能的关键环节 |
| Critical Path |
关键路径 |
决定总延迟的最长执行路径 |
| Hotspot |
热点 |
消耗 CPU/GPU 时间最多的代码段或数据 |
8.2 优化指标#
| 英文术语 |
中文翻译 |
解释 |
| Speedup |
加速比 |
优化后性能相对优化前的提升倍数 |
| Overhead |
开销 |
引入新机制带来的额外成本 (时间/空间) |
| Trade-off |
权衡 |
在多个优化目标间的平衡 (如 Mooncake 用存储换计算) |
| Scalability |
可扩展性 |
增加资源时性能提升的能力 |
9. 使用场景术语#
9.1 应用场景#
| 英文术语 |
中文翻译 |
解释 |
| Long Context |
长上下文 |
Prompt 长度 >8K Token 的场景 |
| Multi-turn Dialogue |
多轮对话 |
连续对话场景,上下文累积增长 |
| Batch Inference |
批量推理 |
同时处理多个请求以提升吞吐量 |
| Online Serving |
在线服务 |
实时响应用户请求的推理场景 |
| Offline Batch |
离线批处理 |
非实时场景,吞吐优先于延迟 |
9.2 工作负载#
| 英文术语 |
中文翻译 |
解释 |
| Compute-intensive |
计算密集型 |
Prefill 阶段,需要大量矩阵运算 |
| Memory-intensive |
内存密集型 |
Decode 阶段,受限于 KVCache 内存访问 |
| Bursty Traffic |
突发流量 |
请求量短时间内剧烈波动 |
| Steady Traffic |
稳定流量 |
请求量相对均匀 |
10. 缩略词速查表#
按字母顺序排列:
| 缩写 |
全称 |
中文 |
| API |
Application Programming Interface |
应用程序接口 |
| CQ |
Completion Queue |
完成队列 |
| CUDA |
Compute Unified Device Architecture |
统一计算设备架构 |
| DRAM |
Dynamic Random Access Memory |
动态随机存取内存 |
| EP |
Expert Parallelism |
专家并行 |
| GQA |
Grouped Query Attention |
分组查询注意力 |
| HA |
High Availability |
高可用性 |
| HBM |
High Bandwidth Memory |
高带宽内存 |
| HPC |
High Performance Computing |
高性能计算 |
| IB |
InfiniBand |
InfiniBand 网络协议 |
| KV |
Key-Value |
键值 |
| LFU |
Least Frequently Used |
最少使用频率 |
| LLM |
Large Language Model |
大语言模型 |
| LRU |
Least Recently Used |
最近最少使用 |
| MHA |
Multi-Head Attention |
多头注意力 |
| MoE |
Mixture of Experts |
混合专家模型 |
| MPI |
Message Passing Interface |
消息传递接口 |
| MR |
Memory Region |
内存区域 |
| NIC |
Network Interface Card |
网络接口卡 |
| NVMe |
Non-Volatile Memory Express |
非易失性内存主机控制器接口 |
| P/D |
Prefill-Decode |
预填充-解码 |
| P2P |
Peer-to-Peer |
点对点 |
| P99 |
99th Percentile |
99 分位数 |
| QP |
Queue Pair |
队列对 |
| RDMA |
Remote Direct Memory Access |
远程直接内存访问 |
| RoCE |
RDMA over Converged Ethernet |
融合以太网 RDMA |
| RPC |
Remote Procedure Call |
远程过程调用 |
| SGE |
Scatter-Gather Entry |
分散聚集条目 |
| SLO |
Service Level Objective |
服务等级目标 |
| SSD |
Solid State Drive |
固态硬盘 |
| TBT |
Time Between Tokens |
每 Token 间隔时间 |
| TCP |
Transmission Control Protocol |
传输控制协议 |
| TE |
Transfer Engine |
传输引擎 |
| TENT |
Topology-aware Engine for Network Transfer |
拓扑感知网络传输引擎 |
| ToR |
Top-of-Rack |
机架顶部 (交换机) |
| TTL |
Time To Live |
生存时间 |
| TTFT |
Time To First Token |
首 Token 时间 |
| VRAM |
Video Random Access Memory |
显存 |
| WR |
Work Request |
工作请求 |
参考资料#
提示: 本术语表会随文档更新持续完善。如有遗漏或错误,欢迎提交 Issue 或 PR。