Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding
Top-Theta注意力:通过补偿阈值稀疏化Transformer
AI总结 提出Top-Theta注意力,一种无需训练的推理时稀疏化方法,通过静态每头阈值保留每行固定数量的重要元素,结合补偿技术实现高稀疏度下的精度保持,在NLP任务中实现3-10倍V-cache减少和高达10倍注意力元素减少,精度下降不超过1%。
Comments Extended version of a paper accepted at ICANN 2026