Unveiling Memorization-Generalization Coexistence: A Case Study on Arithmetic Tasks with Label Noise
揭示记忆与泛化共存:在带有标签噪声的算术任务中的案例研究
发表机构 * Taylor Lab, Huawei Technologies Co., Ltd.(华为技术有限公司泰勒实验室) ; Key Laboratory of Interdisciplinary Research of Computation and Economics, Shanghai University of Finance and Economics(上海财经大学计算与经济交叉研究重点实验室)
AI总结 本文研究了在高过参数化模型中如何同时记忆噪声标签和泛化,通过模运算任务中的实验发现,适当优化和模型配置下大模型泛化能力更强,噪声标签被更快记忆,而过参数化模型内部形成泛化结构,但输出被拟合噪声标签的需求所抑制。通过频率方法提取内部结构可实现高准确率,提出任务无关方法将网络分为泛化和记忆组件,尽管该子网络提升泛化能力,但相比频率提取方法仍有局限,表明泛化结构分布于神经元中,需要新工具来检索过参数化网络中的可泛化知识。
Comments 27 pages, 32 figures