arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

语言大模型 / LLM

大语言模型、预训练、指令微调、后训练和语言模型应用。

今日/当前日期收录 12 信号源:cs.CL, cs.AI, cs.LG
2606.18663 2026-06-18 cs.CL 新提交 专题 90

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

RegMix-D: 通过代理训练轨迹实现动态数据混合

Kaiyan Zhao, Zhongtao Miao, Akiko Aizawa, Yoshimasa Tsuruoka

专题命中 预训练 :LLM预训练动态数据混合方法

AI总结 提出RegMix-D,通过代理训练轨迹预测多阶段最优混合比例,实现动态数据混合,在13个下游任务上优于RegMix和DoReMi,且代理计算预算仅为RegMix的25%。

Comments Work in progress

2606.19036 2026-06-18 cs.LG 新提交 专题 85

Geometric and Stochastic Analysis of Discontinuities in Sparse Mixture-of-Experts

稀疏混合专家模型中不连续性的几何与随机分析

Tho Tran Huu, Huu-Tuan Nguyen, Thien-Hai Nguyen, Nhat-Tri Ho, Viet-Hoang Tran, Tho Quan, Tan Minh Nguyen

专题命中 预训练 :分析稀疏MoE不连续性,提出平滑机制,核心是LLM架构改进。

AI总结 本文对稀疏混合专家模型中的不连续性进行几何与随机分析,分类不连续阶数,建立渐近体积估计,证明随机路径几乎必然击中一阶不连续,并提出低开销平滑机制以提升性能。

Comments ICML 2026 Spotlight. arXiv admin note: text overlap with arXiv:2510.17794 by other authors

2606.19005 2026-06-18 cs.CL cs.LG 新提交 专题 85

Sumi: Open Uniform Diffusion Language Model from Scratch

Sumi: 从头训练的开放均匀扩散语言模型

Mengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki

专题命中 预训练 :从头预训练7B均匀扩散语言模型,性能与自回归模型相当。

AI总结 本文提出Sumi,一个从零开始预训练的70亿参数均匀扩散语言模型,在1.5T tokens上训练,性能与同规模自回归模型相当,并开源所有资源。

2606.19025 2026-06-18 cs.LG cs.AI cs.DC cs.SY eess.SY 新提交 专题 80

FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs

FoMoE: 打破全副本壁垒的专家混合联邦系统

Lorenzo Sani, Zeyu Cao, Meghdad Kurmanji, Alex Iacob, Andrej Jovanovic, Yan Gao, Wanru Zhao, Nicholas D. Lane

专题命中 预训练 :提出跨数据中心MoE训练系统,降低通信开销。

AI总结 提出FoMoE系统,通过跨工作节点分区专家层打破全副本范式,结合部分专家复制和跳跃令牌机制,显著降低通信开销并提升吞吐量。

2606.18650 2026-06-18 cs.LG 新提交 专题 80

BLADE: Scalable Bi-level Adaptive Data Selection for LLM Training

BLADE: 面向LLM训练的可扩展双层自适应数据选择

Jiaxing Wang, Deping Xiang, Jin Xu, Zirui Liu, Zicheng Zhang, Guoqiang Gong, Jun Fang, Chao Liu, Pengzhang Liu, Tongxuan Liu, Ke Zhang, Qixia Jiang

专题命中 预训练 :面向LLM训练的可扩展双层自适应数据选择

AI总结 提出BLADE框架,通过拉格朗日乘子将双层优化转化为单层惩罚目标,避免逆Hessian计算,实现动态参考模型,理论保证一阶收敛,实验优于现有方法。

2606.18192 2026-06-18 cs.AI 新提交 专题 80

The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data

斯坦福EDGAR文件数据集:将美国公司及财务披露重建为布局忠实且令牌高效的预训练数据

Nick Bettencourt, Xiaowei Ding, Kay Giesecke

专题命中 预训练 :构建长上下文预训练数据集用于LLM

AI总结 为解决长上下文文档稀缺问题,提出SEFD数据集,将SEC文件重建为布局忠实的MultiMarkdown格式,用于金融语言建模与评估,具有令牌高效、与Common Crawl重叠率低于0.1%的特点。

Comments Preprint. Includes appendix, tables, and figures

2606.10466 2026-06-18 cs.LG cs.AI 新提交 专题 80

UPLOTS: A Unified Pretrained Language Model for Constrained Time-series Generation

UPLOTS: 一种用于约束时间序列生成的统一预训练语言模型

Du Yin, Hao Xue, Jinliang Deng, Yang Yang, Shuang Ao, Arian Prabowo, Flora Salim

专题命中 预训练 :统一预训练语言模型生成时间序列

AI总结 提出UPLOTS,一种基于统一预训练语言模型和提示引导的框架,通过动态多数据集损失重加权和提示到模式映射,实现跨领域约束时间序列生成,在四个基准上验证了其泛化性和数据增强效果。

2606.18587 2026-06-18 cs.CL cs.AI 新提交 专题 75

Dual Dimensionality for Local and Global Attention

局部与全局注意力的双重维度

Zhiyuan Wang, Xuan Luo, Sirui Zeng, Xifeng Yan

专题命中 预训练 :提出距离自适应表示优化Transformer注意力

AI总结 提出距离自适应表示(DAR),对局部上下文保留全维度表示,对远距离token使用低维表示,在保持性能的同时减少KV缓存。

2606.19170 2026-06-18 cs.CL 新提交 专题 70

Dango: A Strictly L1-Only Large Language Model for Studying Second Language Acquisition

Dango:一个严格仅L1的大型语言模型,用于研究第二语言习得

Shiho Matta, Yin Jou Huang, Fei Cheng, Takashi Kodama, Hirokazu Kiyomaru, Yugo Murawaki

专题命中 预训练 :模拟第二语言习得的LLM,涉及预训练

AI总结 提出1.8B参数的Dango模型,通过过滤L2污染和微调L2学习课程,模拟人类L2产出模式,优于未过滤和多语言基线。

Comments 8 pages main text, 20 pages total including references and appendices

2606.18465 2026-06-18 cs.LG cs.AI 新提交 专题 70

What Does the Weight Norm Control in Grokking? Logit-Scale Mediation under Cross-Entropy

权重范数在Grokking中控制什么?交叉熵下的对数尺度中介作用

Truong Xuan Khanh

专题命中 预训练 :研究Grokking中权重范数的作用

AI总结 本文通过固定权重范数并改变输出温度,发现Grokking延迟主要由对数尺度(logit scale)决定,权重范数仅通过影响对数尺度间接起作用。

Comments 16 papges, 10 tables and 4 figures. Code and data to reproduce all numbers, tables, and figures: https://github.com/ClevixLab/grokking-logit-scale

2606.18524 2026-06-18 cs.LG 新提交 专题 60

On the Residual Scaling of Looped Transformers: Stability and Transferability

关于循环Transformer的残差缩放:稳定性和可迁移性

Shaowen Wang, Bingrui Li, Ge Zhang, Wenhao Huang, Shen Yan, Jian Li

专题命中 预训练 :分析循环Transformer的残差缩放

AI总结 针对循环Transformer,提出残差缩放因子应为1/N而非1/√L,并推导出多层的分解参数化,实现超参数从少循环到多循环的迁移。

Comments 19 pages, 9 figures

2606.18324 2026-06-18 cs.LG cs.AI 新提交 专题 60

Why SWAVE May Not Be All You Need:A Concept-Evolution Retrospective on Complex-Valued Recurrent Language Models

为什么SWAVE可能不是你所需的一切:复数值循环语言模型的概念演化回顾

Ramprasath Ganesaraja, Swathika N, Sahil Dilip Panse

专题命中 预训练 :回顾复数值循环语言模型SWAVE的演化。

AI总结 本文回顾了复数值循环语言模型SWAVE的演化过程,揭示了其设计假设的缺陷,并提出了cos-domination collapse等理论见解和工程原则。