语言大模型 / LLM - arXivDaily 专题

2606.18663 2026-06-18 cs.CL 新提交专题 90

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

RegMix-D: 通过代理训练轨迹实现动态数据混合

Kaiyan Zhao, Zhongtao Miao, Akiko Aizawa, Yoshimasa Tsuruoka

专题命中预训练：LLM预训练动态数据混合方法

AI总结提出RegMix-D，通过代理训练轨迹预测多阶段最优混合比例，实现动态数据混合，在13个下游任务上优于RegMix和DoReMi，且代理计算预算仅为RegMix的25%。

Comments Work in progress

URL PDF HTML

2606.19036 2026-06-18 cs.LG 新提交专题 85

Geometric and Stochastic Analysis of Discontinuities in Sparse Mixture-of-Experts

稀疏混合专家模型中不连续性的几何与随机分析

Tho Tran Huu, Huu-Tuan Nguyen, Thien-Hai Nguyen, Nhat-Tri Ho, Viet-Hoang Tran, Tho Quan, Tan Minh Nguyen

专题命中预训练：分析稀疏MoE不连续性，提出平滑机制，核心是LLM架构改进。

AI总结本文对稀疏混合专家模型中的不连续性进行几何与随机分析，分类不连续阶数，建立渐近体积估计，证明随机路径几乎必然击中一阶不连续，并提出低开销平滑机制以提升性能。

Comments ICML 2026 Spotlight. arXiv admin note: text overlap with arXiv:2510.17794 by other authors

URL PDF HTML

2606.19005 2026-06-18 cs.CL cs.LG 新提交专题 85

Sumi: Open Uniform Diffusion Language Model from Scratch

Sumi: 从头训练的开放均匀扩散语言模型

Mengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki

专题命中预训练：从头预训练7B均匀扩散语言模型，性能与自回归模型相当。

AI总结本文提出Sumi，一个从零开始预训练的70亿参数均匀扩散语言模型，在1.5T tokens上训练，性能与同规模自回归模型相当，并开源所有资源。

URL PDF HTML

2606.19025 2026-06-18 cs.LG cs.AI cs.DC cs.SY eess.SY 新提交专题 80

FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs

FoMoE: 打破全副本壁垒的专家混合联邦系统

Lorenzo Sani, Zeyu Cao, Meghdad Kurmanji, Alex Iacob, Andrej Jovanovic, Yan Gao, Wanru Zhao, Nicholas D. Lane

专题命中预训练：提出跨数据中心MoE训练系统，降低通信开销。

AI总结提出FoMoE系统，通过跨工作节点分区专家层打破全副本范式，结合部分专家复制和跳跃令牌机制，显著降低通信开销并提升吞吐量。

URL PDF HTML

2606.18650 2026-06-18 cs.LG 新提交专题 80

BLADE: Scalable Bi-level Adaptive Data Selection for LLM Training

BLADE: 面向LLM训练的可扩展双层自适应数据选择

Jiaxing Wang, Deping Xiang, Jin Xu, Zirui Liu, Zicheng Zhang, Guoqiang Gong, Jun Fang, Chao Liu, Pengzhang Liu, Tongxuan Liu, Ke Zhang, Qixia Jiang

专题命中预训练：面向LLM训练的可扩展双层自适应数据选择

AI总结提出BLADE框架，通过拉格朗日乘子将双层优化转化为单层惩罚目标，避免逆Hessian计算，实现动态参考模型，理论保证一阶收敛，实验优于现有方法。

URL PDF HTML

2606.18192 2026-06-18 cs.AI 新提交专题 80

The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data

斯坦福EDGAR文件数据集：将美国公司及财务披露重建为布局忠实且令牌高效的预训练数据

Nick Bettencourt, Xiaowei Ding, Kay Giesecke

专题命中预训练：构建长上下文预训练数据集用于LLM

AI总结为解决长上下文文档稀缺问题，提出SEFD数据集，将SEC文件重建为布局忠实的MultiMarkdown格式，用于金融语言建模与评估，具有令牌高效、与Common Crawl重叠率低于0.1%的特点。

Comments Preprint. Includes appendix, tables, and figures

URL PDF HTML

2606.10466 2026-06-18 cs.LG cs.AI 新提交专题 80

UPLOTS: A Unified Pretrained Language Model for Constrained Time-series Generation

UPLOTS: 一种用于约束时间序列生成的统一预训练语言模型

Du Yin, Hao Xue, Jinliang Deng, Yang Yang, Shuang Ao, Arian Prabowo, Flora Salim

专题命中预训练：统一预训练语言模型生成时间序列

AI总结提出UPLOTS，一种基于统一预训练语言模型和提示引导的框架，通过动态多数据集损失重加权和提示到模式映射，实现跨领域约束时间序列生成，在四个基准上验证了其泛化性和数据增强效果。

URL PDF HTML

2606.18587 2026-06-18 cs.CL cs.AI 新提交专题 75

Dual Dimensionality for Local and Global Attention

局部与全局注意力的双重维度

Zhiyuan Wang, Xuan Luo, Sirui Zeng, Xifeng Yan

专题命中预训练：提出距离自适应表示优化Transformer注意力

AI总结提出距离自适应表示（DAR），对局部上下文保留全维度表示，对远距离token使用低维表示，在保持性能的同时减少KV缓存。

URL PDF HTML

2606.19170 2026-06-18 cs.CL 新提交专题 70

Dango: A Strictly L1-Only Large Language Model for Studying Second Language Acquisition

Dango：一个严格仅L1的大型语言模型，用于研究第二语言习得

Shiho Matta, Yin Jou Huang, Fei Cheng, Takashi Kodama, Hirokazu Kiyomaru, Yugo Murawaki

专题命中预训练：模拟第二语言习得的LLM，涉及预训练

AI总结提出1.8B参数的Dango模型，通过过滤L2污染和微调L2学习课程，模拟人类L2产出模式，优于未过滤和多语言基线。

Comments 8 pages main text, 20 pages total including references and appendices

URL PDF HTML

2606.18465 2026-06-18 cs.LG cs.AI 新提交专题 70

What Does the Weight Norm Control in Grokking? Logit-Scale Mediation under Cross-Entropy

权重范数在Grokking中控制什么？交叉熵下的对数尺度中介作用

Truong Xuan Khanh

专题命中预训练：研究Grokking中权重范数的作用

AI总结本文通过固定权重范数并改变输出温度，发现Grokking延迟主要由对数尺度（logit scale）决定，权重范数仅通过影响对数尺度间接起作用。

Comments 16 papges, 10 tables and 4 figures. Code and data to reproduce all numbers, tables, and figures: https://github.com/ClevixLab/grokking-logit-scale

URL PDF HTML

2606.18524 2026-06-18 cs.LG 新提交专题 60

On the Residual Scaling of Looped Transformers: Stability and Transferability

关于循环Transformer的残差缩放：稳定性和可迁移性

Shaowen Wang, Bingrui Li, Ge Zhang, Wenhao Huang, Shen Yan, Jian Li

专题命中预训练：分析循环Transformer的残差缩放

AI总结针对循环Transformer，提出残差缩放因子应为1/N而非1/√L，并推导出多层的分解参数化，实现超参数从少循环到多循环的迁移。

Comments 19 pages, 9 figures

URL PDF HTML

2606.18324 2026-06-18 cs.LG cs.AI 新提交专题 60

Why SWAVE May Not Be All You Need:A Concept-Evolution Retrospective on Complex-Valued Recurrent Language Models

为什么SWAVE可能不是你所需的一切：复数值循环语言模型的概念演化回顾

Ramprasath Ganesaraja, Swathika N, Sahil Dilip Panse

专题命中预训练：回顾复数值循环语言模型SWAVE的演化。

AI总结本文回顾了复数值循环语言模型SWAVE的演化过程，揭示了其设计假设的缺陷，并提出了cos-domination collapse等理论见解和工程原则。

URL PDF HTML