graph TB
subgraph "Selective KV Recompute 概念"
A[预计算的 KV Cache] --> B{选择重要 Token}
B -->|"~15% Token"| C[重计算 KV]
B -->|"~85% Token"| D[保持原 KV]
C --> E[融合的 KV Cache]
D --> E
E --> F[高质量输出]
end
style C fill:#ff9999
style D fill:#90EE90
核心优势:
与 Full KV Recompute 相比:更新不到 15% 的 KV 通常可以生成相同质量的响应
graph LR
subgraph "HKVD Token 选择"
A[所有 Token] --> B{计算 KV 偏差}
B --> C["高偏差 Token (~15%) 需要重计算"]
B --> D["低偏差 Token (~85%) 保持不变"]
C --> E[更新 KV]
D --> F[复用 KV]
end
style C fill:#ff9999
style D fill:#90EE90