Title here
Summary here
本文档详细介绍 CacheBlend 论文中实验评估的设置,包括模型配置、硬件环境、数据集和评估指标等。
| 模型 | 参数量 | 量化 | GPU 数量 |
|---|---|---|---|
| Mistral-7B | 7B | 无 | 1 x A40 |
| Yi-34B | 34B | 8-bit | 1 x A40 |
| Llama-70B | 70B | 8-bit | 2 x A40 |
| 数据集 | 任务类型 | 样本数 | 说明 |
|---|---|---|---|
| 2WikiMQA | 多跳问答 | 200 | 测试多段落推理能力 |
| Musique | 多跳问答 | 150 | 测试多跳推理能力 |
| SAMSum | 文本摘要 | 200 | 测试对话摘要能力 |
| MultiNews | 文本摘要 | 60 | 测试多文档摘要能力 |
数据处理:
| 指标 | 应用数据集 | 说明 |
|---|---|---|
| F1-Score | 2WikiMQA, Musique | 基于词重叠计算 |
| Rouge-L | SAMSum, MultiNews | 基于最长公共子序列 |
| TTFT | 所有 | Time-To-First-Token |
| Throughput | 所有 | 推理吞吐量 |