LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss
LaCy: 小型语言模型能学且应学的不仅仅是损失问题
发表机构 * Apple(苹果公司) ; University of Cambridge(剑桥大学)
AI总结 研究在预训练中,小型语言模型(SLM)应学习哪些token以及应通过<CALL>委托哪些token,提出结合损失和事实性信号的LaCy方法,提升SLM在级联生成中的事实准确性。
Comments 40 pages, 26 figures, 10 tables, preprint. v3-v4: new results for RAG, ablations and additional analysis