本文档系列旨在帮助开发者深入理解 CacheBlend —— 一种基于 KV Cache 融合的 RAG 推理加速技术,来自 EuroSys ‘25 论文 “CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion”。
flowchart TD
subgraph stage1["第一阶段 - 前置知识"]
A["Transformer 架构"] --> B["注意力机制"]
B --> C["LLM 推理流程"]
C --> D["KV Cache 基础"]
end
subgraph stage2["第二阶段 - 理解问题"]
D --> E["背景与动机"]
E --> F["问题定义"]
end
subgraph stage3["第三阶段 - 核心理论"]
F --> G["核心概念"]
G --> H["数学基础"]
H --> I["算法设计"]
end
subgraph stage4["第四阶段 - 系统实现"]
I --> J["系统架构"]
J --> K["代码实现"]
end
style A fill:#e1f5fe
style K fill:#c8e6c9
flowchart TD
subgraph s1["问题理解"]
A["背景与动机"] --> B["问题定义"]
end
subgraph s2["核心算法"]
B --> C["HKVD 选择"]
C --> D["RoPE 恢复"]
D --> E["KV 融合"]
end
subgraph s3["系统设计"]
E --> F["Loading Controller"]
F --> G["KV Cache Store"]
G --> H["Pipeline 优化"]
end
subgraph s4["实验与部署"]
H --> I["实验结果"]
I --> J["部署指南"]
end
style A fill:#e1f5fe
style J fill:#c8e6c9