Sentinel: Decoding Context Utilization via Attention Probing for Efficient LLM Context Compression
Sentinel: 通过注意力探测解码上下文利用以实现高效LLM上下文压缩
发表机构 * Ping An Technology (Shenzhen) Co., Ltd., China(平安科技(深圳)有限公司,中国) ; University of Science and Technology of China(中国科学技术大学) ; University of Electronic Science and Technology of China(电子科技大学)
AI总结 提出Sentinel,一种轻量级句子级压缩框架,通过冻结LLM的头部注意力模式解码推理时上下文利用行为,使用单次非自回归前向传递实现压缩,在LongBench上以0.5B代理模型达到5倍压缩且性能与7B模型方法相当。
Comments Preprint