MemoSight: Unifying Context Compression and Multi Token Prediction for Reasoning Acceleration
MemoSight: 统一上下文压缩与多令牌预测以加速推理
发表机构 * School of Computer Science and Engineering, Northeastern University, China(东北大学计算机科学与工程学院) ; Meituan Inc.(美团公司) ; NiuTrans Research, Shenyang, China(牛译研所)
AI总结 提出 MemoSight 框架,通过特殊令牌和位置布局统一上下文压缩与多令牌预测,在保持思维链推理性能的同时减少 KV 缓存使用并提升推理速度。