Hierarchical Concept Geometry in Language Models Emerges from Word Co-occurrence
语言模型中的层级概念几何源于词汇共现
AI总结 本文研究了语言模型中如何通过词共现关系几何地编码超类关系(即“是-一种”关系)。作者从词网中词语之间的共现频率与层次结构关系的实证观察出发,理论分析了词嵌入的协方差矩阵谱结构,证明了主特征向量能按从粗到细的层次逐步分离出概念分支,形成与树状结构一致的层次分割几何。实验验证表明,这一现象不仅在词2vec中存在,在Gemma 2B模型中也表现显著,表明层次概念几何可由词对统计的谱结构自然产生,无需依赖特定的层次功能机制。
Comments 34 pages, 12 figures, including appendices