Title here
Summary here
本文档提供 CacheBlend 核心实现代码的快速索引,帮助开发者快速定位关键功能的实现位置。
| 功能 | 文件 | 位置 |
|---|---|---|
| cache_fuse_metadata 定义 | llama.py | 第 300-310 行 |
| old_kvs 定义 | llama.py | 第 312 行 |
| 状态机实现 | llama.py | 第 330-376 行 |
| RoPE 位置恢复 | llama.py | 第 174-179 行 |
| hack_kv 收集 | llama.py | 第 181-182 行 |
| HKVD 选择 | xformers.py | 第 204-221 行 |
| KV 融合 | xformers.py | 第 240-245 行 |
| 注意力计算 | xformers.py | 第 426-444 行 |
存储 CacheBlend 运行时所需的元数据,包括:
check: 是否启用 CacheBlendcollect: 是否收集 KVcheck_layers: HKVD 选择层recomp_ratio: 重计算比例suffix_len: 后缀长度存储预计算的 KV Cache,用于后续的融合操作。
控制 CacheBlend 的三种状态: