Prefilling-dLLM: Predictive Prefilling for Long-Context Inference in Diffusion Language Models
Prefilling-dLLM: 扩散语言模型中长上下文推理的预测性预填充
发表机构 * The University of Hong Kong(香港大学) ; University of Michigan, Ann Arbor(密歇根大学安娜堡分校) ; LMSYS Org(LMSYS组织)
AI总结 针对扩散语言模型在长上下文中因重复编码前缀导致计算量二次增长的问题,提出Prefilling-dLLM框架,通过分块缓存KV表示并基于稀疏性选择相关块,实现高效解码,在LongBench等基准上达到最先进加速效果。
Comments Technical Report