Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate
量化超参数迁移与嵌入层学习率的重要性
AI总结 本文研究了超参数迁移的量化方法,通过三种指标评估超参数迁移的质量,发现Maximal Update(μP)参数化在训练中通过最大化嵌入层学习率提升了超参数迁移质量,而权重衰减虽改善了缩放定律拟合,但会降低外推鲁棒性。
Comments 10+28 pages, 5+17 figures