AI 大模型
语言大模型 / LLM
大语言模型、预训练、指令微调、后训练和语言模型应用。
Geometric and Stochastic Analysis of Discontinuities in Sparse Mixture-of-Experts
稀疏混合专家模型中不连续性的几何与随机分析
专题命中 预训练 :分析稀疏MoE不连续性,提出平滑机制,核心是LLM架构改进。
AI总结 本文对稀疏混合专家模型中的不连续性进行几何与随机分析,分类不连续阶数,建立渐近体积估计,证明随机路径几乎必然击中一阶不连续,并提出低开销平滑机制以提升性能。
Comments ICML 2026 Spotlight. arXiv admin note: text overlap with arXiv:2510.17794 by other authors
The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data
斯坦福EDGAR文件数据集:将美国公司及财务披露重建为布局忠实且令牌高效的预训练数据
专题命中 预训练 :构建长上下文预训练数据集用于LLM
AI总结 为解决长上下文文档稀缺问题,提出SEFD数据集,将SEC文件重建为布局忠实的MultiMarkdown格式,用于金融语言建模与评估,具有令牌高效、与Common Crawl重叠率低于0.1%的特点。
Comments Preprint. Includes appendix, tables, and figures
Dango: A Strictly L1-Only Large Language Model for Studying Second Language Acquisition
Dango:一个严格仅L1的大型语言模型,用于研究第二语言习得
专题命中 预训练 :模拟第二语言习得的LLM,涉及预训练
AI总结 提出1.8B参数的Dango模型,通过过滤L2污染和微调L2学习课程,模拟人类L2产出模式,优于未过滤和多语言基线。
Comments 8 pages main text, 20 pages total including references and appendices
What Does the Weight Norm Control in Grokking? Logit-Scale Mediation under Cross-Entropy
权重范数在Grokking中控制什么?交叉熵下的对数尺度中介作用
专题命中 预训练 :研究Grokking中权重范数的作用
AI总结 本文通过固定权重范数并改变输出温度,发现Grokking延迟主要由对数尺度(logit scale)决定,权重范数仅通过影响对数尺度间接起作用。
Comments 16 papges, 10 tables and 4 figures. Code and data to reproduce all numbers, tables, and figures: https://github.com/ClevixLab/grokking-logit-scale