ReMoE: Boosting Expert Reuse through Router Fine-Tuning in Memory-Constrained MoE LLM Inference
ReMoE: 在内存受限的MoE大模型推理中通过路由器微调提升专家重用
AI总结 提出ReMoE路由器微调框架,通过偏向近期选中的专家实现时间稳定的路由,减少专家从外部存储的获取次数,在保持下游任务性能的同时提升专家重用26%,并在实际系统中实现8.4%的吞吐量提升和1.77-1.99倍的解码加速。
Comments Accepted at the 43rd International Conference on Machine Learning (ICML 2026)