Semantic Integrity Matters: Benchmarking and Preserving High-Density Reasoning in KV Cache Compression
AI总结 本文研究了键值(KV)缓存压缩在大语言模型推理中对高密度推理能力的影响,指出当前评估多侧重于稀疏检索任务,忽视了推理链(CoT)的完整性问题。为此,作者提出KVFundaBench基准,揭示了在高压缩率下推理任务会出现严重的任务依赖性退化现象。基于此,他们提出ShotKV方法,通过分离预填充和解码阶段、保持语义单元的完整性,有效提升了长上下文生成任务的准确率,并降低了推理延迟。
Comments ICML 2026