2605.16865
2026-06-19
cs.CL
版本更新
80%
MixSD: Mixed Contextual Self-Distillation for Knowledge Injection
MixSD: 混合上下文自蒸馏用于知识注入
Jiarui Liu, Lechen Zhang, Yongjin Yang, Yinghui He, Yingheng Wang, Weihao Xuan, Zhijing Jin, Mona Diab
发表机构
*
Carnegie Mellon University(卡内基梅隆大学)
;
Jinesis Lab, University of Toronto & Vector Institute(Jinesis实验室,多伦多大学及向量研究所)
;
University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
;
Princeton University(普林斯顿大学)
;
Cornell University(康奈尔大学)
;
The University of Tokyo(东京大学)
;
RIKEN AIP(日本理化学研究所AIP)
;
Max Planck Institute for Intelligent Systems, Tübingen, Germany(德国图宾根最大计划智能系统研究所)
;
EuroSafeAI
专题命中
指令微调
:混合上下文自蒸馏用于知识注入
AI总结
本文提出MixSD方法,通过混合模型自身条件下的token来实现与模型生成分布对齐的知识注入,从而在保持预训练能力的同时提升事实记忆和推理能力。