Title here
Summary here
本文档提供 CacheBlend 相关技术术语的详细解释。
| 术语 | 中文 | 解释 |
|---|---|---|
| Attention | 注意力机制 | Transformer 的核心机制,计算 token 间的关联 |
| Cross-Attention | 交叉注意力 | 不同文本块 token 之间的注意力 |
| Decode | 解码阶段 | 自回归生成 token 的阶段 |
| F1-Score | F1 分数 | 精确率和召回率的调和平均 |
| GPU HBM | GPU 高带宽内存 | GPU 上的主内存 |
| HKVD | 高 KV 偏差 | High-KV-Deviation 的缩写 |
| KV Cache | 键值缓存 | 存储 Key 和 Value 张量的缓存 |
| LLM | 大语言模型 | Large Language Model |
| MLP | 多层感知机 | 前馈神经网络层 |
| NVMe | 非易失性存储器 | 高速 SSD 接口标准 |
| Prefill | 预填充阶段 | 处理输入 prompt 生成初始 KV Cache 的阶段 |
| RAG | 检索增强生成 | Retrieval-Augmented Generation |
| RMSNorm | 均方根归一化 | LLaMA 使用的归一化方法 |
| RoPE | 旋转位置编码 | Rotary Position Embedding |
| Rouge-L | Rouge-L 分数 | 基于最长公共子序列的评估指标 |
| Self-Attention | 自注意力 | 同一文本块 token 之间的注意力 |
| TTFT | 首 Token 时间 | Time-To-First-Token |
| Tensor Parallel | 张量并行 | 将模型张量分布到多个 GPU |
| Token | 令牌 | 文本的基本单位 |
| Throughput | 吞吐量 | 单位时间处理的请求数 |
| xFormers | xFormers 库 | Meta 开发的高效注意力计算库 |
| PagedAttention | 分页注意力 | vLLM 使用的内存高效注意力机制 |
| GQA | 分组查询注意力 | Grouped Query Attention,减少 KV heads 的技术 |
| Chunk | 文本块 | 将长文本分割成的较小片段 |
| Embedding | 嵌入 | 将离散 token 映射到连续向量空间 |
| Residual | 残差连接 | 跨层的跳跃连接,缓解梯度消失 |
| LayerNorm | 层归一化 | 神经网络归一化技术 |
| Softmax | Softmax 函数 | 将分数转换为概率分布 |
| Batch | 批次 | 同时处理的多个请求 |
| 术语 | 解释 |
|---|---|
| HKVD Token | 高 KV 偏差令牌,指那些在预计算 KV Cache 和完整 Prefill KV Cache 之间差异最大的 token |
| Selective KV Recompute | 选择性 KV 重计算,CacheBlend 的核心技术,只重计算部分 token 的 KV |
| KV Deviation | KV 偏差,衡量预计算 KV 与完整计算 KV 之间的差异 |
| Attention Deviation | 注意力偏差,衡量前向注意力矩阵与完整计算的差异 |
| Gradual Filtering | 渐进过滤,逐层减少需要重计算的 token 数量 |
| Loading Controller | 加载控制器,负责协调 KV Cache 加载和重计算的调度 |
| Fusor | 融合器,负责执行 KV Cache 的融合操作 |
| KV Cache Store | KV 缓存存储,管理 KV Cache 的多级存储 |