语言大模型 / LLM

2606.19348 2026-06-19 cs.CL cs.AI 新提交专题 95

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

DeepSeek-V4: 迈向高效百万令牌上下文智能

DeepSeek-AI, Anyi Xu, Bangcai Lin, Bing Xue, Bingxuan Wang, Bingzheng Xu, Bochao Wu, Bowei Zhang, Chaofan Lin, Chen Dong, Chenchen Ling, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chengyu Hou, Chenhao Xu, Chenze Shao, Chong Ruan, Conner Sun, Damai Dai, Daya Guo, Dejian Yang, Deli Chen, Donghao Li, Dongjie Ji, Erhang Li, Fang Wei, Fangyun Lin, Fangzhou Yuan, Feiyu Xia, Fucong Dai, Guangbo Hao, Guanting Chen, Guoai Cao, Guolai Meng, Guowei Li, Han Yu, Han Zhang, Hanwei Xu, Hao Li, Haofen Liang, Haoling Zhang, Haoming Luo, Haoran Wei, Haotian Yuan, Haowei Zhang, Haowen Luo, Haoyu Chen, Haozhe Ji, Hengqing Zhang, Honghui Ding, Hongxuan Tang, Huanqi Cao, Huazuo Gao, Hui Qu, Hui Zeng, J Yang, JQ Zhu, Jia Luo, Jia Song, Jia Yu, Jialiang Huang, Jialu Cai, Jian Liang, Jiangting Zhou, Jiasheng Ye, Jiashi Li, Jiaxin Xu, Jiewen Hu, Jieyu Yang, Jin Chen, Jin Yan, Jingchang Chen, Jingli Zhou, Jingting Xiang, Jingyang Yuan, Jingyuan Cheng, Jingzi Zhou, Jinhua Zhu, Jiping Yu, Joseph Sun, Jun Ran, Junguang Jiang, Junjie Qiu, Junlong Li, Junmin Zheng, Junxiao Song, Kai Dong, Kaige Gao, Kang Guan, Kexing Zhou, Kezhao Huang, Kuai Yu, Lean Wang, Lecong Zhang, Lei Wang, Leyi Xia, Li Zhang, Liang Zhao, Lihua Guo, Lingxiao Luo, Linwang Ma, Linyan Zhu, Litong Wang, Liyu Cai, Liyue Zhang, Longhao Chen, MS Di, MY Xu, Max Mei, Miaojun Wang, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingming Li, Mingxu Zhou, Minmin Han, Ning Wang, Panpan Huang, Panpan Wang, Peixin Cong, Peiyi Wang, Peng Zhang, Qiancheng Wang, Qihao Zhu, Qingyang Li, Qinyu Chen, Qiushi Du, Qiwei Jiang, Rui Tian, Ruifan Xu, Ruijie Lu, Ruiling Xu, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, Runqian Chen, Runqiu Yin, Runxin Xu, Ruomeng Shen, Ruoyu Zhang, Ruyi Chen, SH Liu, Shanghao Lu, Shangmian Sun, Shangyan Zhou, Shanhuang Chen, Shaofei Cai, Shaoheng Nie, Shaoqing Wu, Shaoyuan Chen, Shengding Hu, Shengyu Liu, Shiqiang Hu, Shirong Ma, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, Shuying Yu, Songyang Zhou, Tao Ni, Tao Yun, Tian Jin, Tian Pei, Tian Ye, Tianle Lin, Tianran Ji, Tianyi Cui, Tianyuan Yue, Tingting Yu, Tun Wang, W Zhang, WL Xiao, Wangding Zeng, Wei An, Weilin Zhao, Wen Liu, Wenfeng Liang, Wenjie Pang, Wenjing Luo, Wenjing Yao, Wenjun Gao, Wenkai Yang, Wenlve Huang, Wenqing Hou, Wentao Zhang, Wenting Ma, Xi Gao, Xiang He, Xiangwen Wang, Xianzu Wang, Xiao Bi, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaokang Zhang, Xiaotao Nie, Xiaowen Sun, Xiaoxiang Wang, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xingchen Liu, Xingkai Yu, Xingyou Li, Xinyu Yang, Xinyu Zhang, Xu Chen, Xuanyu Wang, Xuecheng Su, Xueyin Chen, Xuheng Lin, Xuwei Fu, YC Yan, YQ Wang, YW Ma, Yanfeng Luo, Yang Zhang, Yanhong Xu, Yanru Ma, Yanwen Huang, Yao Li, Yao Li, Yao Xu, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Qian, Yi Shao, Yi Yu, Yichao Zhang, Yifan Ding, Yifan Shi, Yijia Wu, Yiliang Xiong, Yiling Ma, Ying He, Ying Tang, Ying Zhou, Yingjia Luo, Yinmin Zhong, Yishi Piao, Yisong Wang, Yixiang Zhang, Yixiao Chen, Yixuan Tan, Yixuan Wei, Yiyang Ma, Yiyuan Liu, Yonglun Yang, Yongqiang Guo, Yongtong Wu, Yu Wu, YuKun Li, Yuan Cheng, Yuan Ou, Yuanfan Xu, Yuanhao Li, Yuduan Wang, Yuehan Yang, Yuer Xu, Yuhan Wu, Yuhao Meng, Yuheng Zou, Yukun Zha, Yunfan Xiong, Yupeng Chen, Yuping Lin, Yuqian Cao, Yuqian Wang, Yushun Zhang, Yuting Yan, Yutong Lin, Yuxian Gu, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuxuan Zhou, Yuyang Zhou, Yuzhen Huang, ZF Wu, Zehao Wang, Zehua Zhao, Zehui Ren, Zekai Zhang, Zhangli Sha, Zhe Fu, Zhe Ju, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zheren Gao, Zhewen Hao, Zhibin Gou, Zhicheng Ma, Zhigang Yan, Zhihong Shao, Zhixian Huang, Zhixuan Chen, Zhiyu Wu, Zhizhou Ren, Zhongyu Wu, Zhuoshu Li, Zhuping Zhang, Zian Xu, Zihao Wang, Zihua Qu, Zihui Gu, Zijia Zhu, Zilin Li, Zipeng Zhang, Ziwei Xie, Ziyi Gao, Ziyi Wan, Zizheng Pan, Zongqing Yao

专题命中预训练：百万token上下文MoE模型，架构优化

AI总结提出DeepSeek-V4系列MoE模型，通过混合注意力架构、流形约束超连接和Muon优化器，实现百万令牌上下文的高效推理，在核心任务上超越前代。

URL PDF HTML

2606.20381 2026-06-19 cs.AI 新提交专题 90

Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

重新思考LLM FP4预训练中的收缩偏差：几何起源、系统影响与UFP4方案

Qian Zhao, Kunlong Chen, Changxin Tian, Zhonghui Jiang, Haitao Zhang, Chaofan Yu, Peijie Jiang, Mingliang Gong, Jia Liu, Ziqi Liu, Zhiqiang Zhang, Jun Zhou

专题命中预训练：研究LLM FP4预训练中的收缩偏差与优化方案。

AI总结本文发现E2M1格式因几何不对称导致收缩偏差，该偏差经随机哈达玛变换放大，造成训练不稳定；提出均匀网格E1M2/INT4及UFP4训练方案，在多种模型上实现更低损失。

Comments 18 pages, 12 figures

URL PDF HTML

2606.20089 2026-06-19 cs.CL cs.AI 新提交专题 90

IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resources

IHUBERT: 面向波斯语资源的基于向量的语义去重与领域平衡预训练

Arash Ghafouri, Mahdi Firouzmandi, Hossein Saberi, Mohammad Reza Hasani Ahangar

专题命中预训练：波斯语预训练语言模型

AI总结提出IHUBERT，一个基于RoBERTa-base的波斯语预训练模型，通过多阶段预处理（包括基于向量数据库的语义去重和领域平衡）在45GB语料上训练，在多项NLU任务上取得领先结果，尤其抽取式问答表现突出。

URL PDF HTML

2606.19993 2026-06-19 cs.LG 新提交专题 85

Activation- and Influence-Aware Ranks (AIR): Function-Preserving SVD Compression for LLMs

激活与影响感知秩 (AIR)：保持功能的SVD压缩用于大语言模型

Nico Harder, Daniel Becking, Karsten Mueller, Wojciech Samek

专题命中预训练：提出LLM压缩框架，提升模型效率

AI总结提出AIR框架，基于SVD和反向信号影响度量，通过单次交替最小二乘扫描实现权重矩阵的低秩近似，在参数保留≤60%时困惑度比SVD-LLM(W)改善>18%，并减少90%校准数据。

Comments Accepted at the ICML 2026 Workshop on Resource-Adaptive Foundation Model Inference (AdaptFM), Seoul, South Korea (non-archival)

URL PDF HTML

2606.19491 2026-06-19 cs.LG stat.ML 新提交专题 85

Algebraic Dead Directions in LayerNorm Transformers: A Forward-Pass-Only Diagnostic at LLM Scale

LayerNorm Transformer 中的代数死方向：一种仅需前向传播的大语言模型规模诊断方法

Tejas Pradeep Shirodkar, P. J. Narayanan

专题命中预训练：研究LayerNorm变换器的死方向，涉及预训练模型诊断。

AI总结本文发现 LayerNorm 的逆尺度方向是后最终归一化中心激活协方差矩阵的精确代数核，可仅从参数中读取死方向，无需前向或后向传播，并在 14 个预训练模型上验证了其有效性。

Comments 34 pages, 7 figures, 6 tables. Empirical companion to arXiv:2606.05957

URL PDF HTML

2606.19468 2026-06-19 cs.CL 新提交专题 85

Characterizing Narrative Content in Web-scale LLM Pretraining Data

网络规模LLM预训练数据中的叙事内容特征化

Teagan Johnson, Elliott Ash, Andrew Piper, Maria Antoniak

专题命中预训练：细粒度研究LLM预训练语料库的叙事特征。

AI总结首次细粒度研究LLM预训练语料库Dolma的叙事特征，提出涵盖三个核心叙事元素（能动性、场景、事件）的框架，构建NarraBERT模型并发布NarraDolma数据集，揭示叙事结构在异构数据中可测量且分布不均。

Comments 8 pages of main content, 28 total pages. 30 figures

URL PDF HTML

2606.19989 2026-06-19 cs.DC cs.LG 新提交专题 80

Online Dynamic Batching with Formal Guarantees for LLM Training

面向LLM训练的具有形式保证的在线动态批处理

Dian Li, Zekun Wang, Yaoru Wang, Jiahong Yan

专题命中预训练：提出在线动态批处理系统加速LLM训练

AI总结提出在线动态批处理（ODB）系统，在数据加载器侧将批构建延迟到样本真实成本可观测时，解决离线批采样中预处理成本不可见问题，实现1.58-4.43x吞吐量提升，并提供无死锁有界终止的形式化保证。

Comments 29 pages, 3 figures, 21 tables

URL PDF HTML

2606.20097 2026-06-19 cs.CL 新提交专题 90

HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization

HydraHead：从头部级功能异质性到专业化注意力混合

Zhentao Tan, Wei Chen, Jingyi Shen, Yao Liu, Xu Shen, Yue Wu, Jieping Ye

专题命中长上下文：长上下文注意力混合架构

AI总结提出HydraHead架构，沿头部维度混合全注意力和线性注意力，通过可解释性驱动的头部选择和尺度归一化融合模块，在长上下文任务中优于层级混合设计，仅用15B token训练即在512K上下文长度上提升69%。

URL PDF HTML

2606.19744 2026-06-19 cs.CL cs.AI cs.HC 新提交专题 90

Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

超越统一遗忘：不同偏好设置下顺序直接偏好优化的研究

Pranav Bhandari, Nicolas Fay, Amitava Datta, Usman Naseem, Mehwish Nasim

专题命中后训练：研究顺序DPO在不同偏好设置下的影响，涉及对齐方法。

AI总结研究顺序DPO在不同偏好设置下的影响，发现遗忘模式并非统一，而是取决于目标关系、信号强度和训练顺序，并提出未来对齐流程应考虑目标兼容性。

Comments Submitted to EMNLP 2026

URL PDF HTML

2606.20008 2026-06-19 cs.LG 新提交专题 85

VIMPO: Value-Implicit Policy Optimization for LLMs

VIMPO: 值隐式策略优化用于大语言模型

Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song, Xuandong Zhao

专题命中后训练：提出VIMPO方法优化LLM推理能力。

AI总结提出VIMPO方法，通过KL正则化强化学习的最优条件导出策略隐含值函数，无需训练评论家，实现细粒度信用分配，在数学推理基准上优于GRPO。

URL PDF HTML

2606.20002 2026-06-19 cs.LG cs.AI cs.CL 新提交专题 80

Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning

Connect the Dots：通过强化学习训练具备跨域泛化能力的长期生命周期智能体

Yanxi Chen, Weijie Shi, Yuexiang Xie, Boyi Hu, Yaliang Li, Bolin Ding, Jingren Zhou

专题命中后训练：通过强化学习训练LLM的元能力。

AI总结提出Connect the Dots框架，通过端到端强化学习训练LLM在长期任务中自我更新上下文并泛化到新领域，实验验证了跨域泛化能力。

Comments Work in progress; we will continuously update the codebase and arXiv version

URL PDF HTML

2606.19679 2026-06-19 cs.LG cs.AI 新提交专题 80

LOKI: Memory-Free Null-Space Constrained Lifelong Knowledge Editing

LOKI: 无记忆零空间约束的终身知识编辑

Masih Eskandar, Miquel Sirera Perelló, Stratis Ioannidis, Jennifer Dy

专题命中后训练：终身知识编辑方法，动态选择层并投影到零空间

AI总结提出LOKI方法，通过希尔伯特-施密特独立性准则动态选择层，并将梯度更新投影到模型权重的零空间，实现无需访问旧知识的终身知识编辑，平均准确率提升14%。

URL PDF HTML

2606.19607 2026-06-19 cs.AI stat.AP 新提交专题 80

Which Pairs to Compare for LLM Post-Training?

LLM后训练中应比较哪些对？

Jiangze Han, Vineet Goyal, Will Ma

专题命中后训练：研究偏好后训练中比较对的选择，提升样本效率。

AI总结研究偏好后训练中如何选择最具信息量的比较对，提出基于采样设计的比较策展方法，通过DPO训练的理论分析给出优化准则，实验证明能提升样本效率。

URL PDF HTML

2606.20493 2026-06-19 cs.LG cs.AI cs.MA 新提交专题 85

Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems

传染网络：多智能体LLM系统中的评估者偏见传播

Zewen Liu

专题命中其他LLM ：研究多智能体LLM系统中评估者偏见传播

AI总结提出传染网络框架，量化评估者偏见在多智能体LLM系统中的传播，发现同模型智能体间偏见传播系数为0.157-0.352，且增大评估委员会规模可减少72.4%的传播效应。

Comments 20 pages, 4 figures, 4 tables

URL PDF HTML

2606.19746 2026-06-19 cs.DC 新提交专题 85

SAC: Disaggregated KV Cache System for Sparse Attention LLMs with CXL

SAC: 面向稀疏注意力LLM的基于CXL的解耦KV缓存系统

Ruiyang Ma, Teng Ma, Junru Li, Hantian Zha, Xuchun Shang, Qingda Hu, Zheng Liu, Xinjun Yang, Tao Ma, Guojie Luo

专题命中其他LLM ：提出面向稀疏注意力LLM的解耦KV缓存系统SAC，优化长上下文推理性能。

AI总结针对稀疏注意力模型在长上下文推理中全量KV缓存传输导致的瓶颈，提出基于CXL按需获取top-k KV条目的解耦缓存系统SAC，相比RDMA方案吞吐提升2.1倍、TTFT降低9.7倍。

URL PDF HTML

2606.19605 2026-06-19 cs.SE cs.AI 新提交专题 85

FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

FAPO：多步骤LLM流水线的全自动提示优化

Paul Kassianik, Baturay Saglam, Huaibo Zhao, Blaine Nelson, Supriti Vijay, Aman Priyanshu, Amin Karbasi

专题命中其他LLM ：提出FAPO框架自动优化多步LLM流水线的提示和链结构

AI总结提出FAPO框架，通过自动诊断流水线瓶颈并迭代优化提示或链结构，在18个模型-基准比较中15次优于基线GEPA，平均提升14.1个百分点。

URL PDF HTML

2606.19475 2026-06-19 cs.AI cs.CL 新提交专题 85

Diffusion Language Models: An Experimental Analysis

扩散语言模型：一项实验分析

Thomas Bertolani, Davide Bucciarelli, Leonardo Zini, Marcella Cornia, Lorenzo Baraldi

专题命中其他LLM ：系统比较扩散语言模型在多种任务上的表现。

AI总结本文系统比较了八种扩散语言模型在推理、编码、翻译等任务上的表现，分析了去噪步数、上下文长度等推理因素对性能与效率的影响，揭示了扩散语言模型在不同任务和预算下的权衡。

URL PDF HTML

2606.19351 2026-06-19 cs.CL cs.AI 新提交专题 85

Detecting Hallucinations for Large Language Model-based Knowledge Graph Reasoning

基于大语言模型的知识图谱推理中的幻觉检测

Xinyan Zhu, Yaoqi Liu, Yue Gao, Huadong Ma, Cheng Yang, Chuan Shi

专题命中其他LLM ：检测LLM在知识图谱推理中的幻觉

AI总结提出LUCID方法，结合LLM注意力分数、知识图谱语义和结构信息，利用图神经网络检测LLM在知识图谱推理中的幻觉，在九个数据集上达到最优性能。

URL PDF HTML

2606.17165 2026-06-19 stat.ME cs.AI econ.EM math.ST stat.TH 新提交专题 85

Statistical Foundations of LLM-based A/B Testing: A Surrogacy Framework for Human Causal Inference

基于LLM的A/B测试的统计基础：用于人类因果推断的替代指标框架

Joel Persson, Mårten Schultzberg, Sebastian Ankargren

专题命中其他LLM ：提出LLM替代人类进行A/B测试的统计框架

AI总结提出替代指标理论框架，证明在弱于分布等价条件下，校准LLM输出可识别平均处理效应，并分析随机性带来的偏差与方差。

URL PDF HTML

2606.07822 2026-06-19 cs.CL cs.AI cs.LG 新提交专题 85

The ACUTE Protocol: Operationalizing Language Model Activations for Better Calibration, Utility, and Trust

ACUTE协议：操作语言模型激活以实现更好的校准、效用和信任

Nishant Subramani, Palash Goyal, Yiwen Song, Mani Malek, Yuan Xue, Tomas Pfister, Hamid Palangi

专题命中其他LLM ：提出激活置信度估计协议，提升校准与信任

AI总结提出ACUTE协议，通过操作语言模型激活来估计置信度，平衡校准与信息性，在多项选择问答、工具调用和科学文档摘要等任务上优于强基线，提升校准、效用和可信度。

Comments ICML 2026

URL PDF HTML

2606.20517 2026-06-19 cs.AI cs.PL 新提交专题 80

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Multi-LCB: 将 LiveCodeBench 扩展到多种编程语言

Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

专题命中其他LLM ：评估LLM跨语言代码生成能力，涉及预训练模型

AI总结提出 Multi-LCB 基准，将 LiveCodeBench 的 Python 任务扩展到 12 种编程语言，评估 LLM 跨语言代码生成能力，发现 Python 过拟合和语言特定污染等问题。

Comments ICLR 2026

URL PDF HTML

2606.20245 2026-06-19 cs.AI 新提交专题 80

Navigating Unreliable Parametric and Contextual Knowledge: Explicit Knowledge Conflict Resolution for LLM Inference

导航不可靠的参数化与上下文知识：面向LLM推理的显式知识冲突解决

Huang Peng, Jiuyang Tang, Weixin Zeng, Hao Xu, Xiang Zhao

专题命中其他LLM ：解决LLM参数知识与上下文冲突

AI总结提出MACR框架，通过自适应知识评估与多智能体推理，显式解决大语言模型内部参数知识与外部上下文之间的冲突，超越传统二元选择范式。

Comments 12 pages, 3 figures

URL PDF HTML

2606.20152 2026-06-19 cs.CL cs.AI 新提交专题 80

From Texts to Scores: Tracing the Emergence of Essay Quality Representations in Large Language Models

从文本到分数：追踪大型语言模型中作文质量表征的出现

Jiaxu Zuo, Mu You, Kaixin Lan, Tao Fang, Yujia Huo, Henghua Shen, Lidia S. Chao, Derek F. Wong

专题命中其他LLM ：分析LLM内部表征用于自动作文评分。

AI总结通过线性探测等方法分析8个LLM在三个数据集上的隐藏表征，发现作文质量信息以线性可解码形式存在，并识别出与分数相关的神经元，揭示了LLM评分的内在机制。

Comments This is a preprint of a manuscript currently under peer review

URL PDF HTML

2606.19868 2026-06-19 cs.AI 新提交专题 80

A Systematic Evaluation of Black-Box Uncertainty Estimation Methods for Large Language Models

大型语言模型黑盒不确定性估计方法的系统评估

Jiayi Wang, Xu-Yao Zhang

专题命中其他LLM ：系统评估LLM黑盒不确定性估计方法。

AI总结系统评估了24种黑盒不确定性估计方法在4个模型和4个数据集上的表现，发现无单一方法普遍最优，但基于答案空间推理和比较的方法通常有效，混合方法在多数条件下表现良好。

URL PDF HTML

2606.19735 2026-06-19 cs.AI cs.CV 新提交专题 80

GLARE: A Natural Language Interface for Querying Global Explanations

GLARE: 用于查询全局解释的自然语言接口

Bhavan Vasu, Rajesh Mangannavar

专题命中其他LLM ：基于LLM的接口将自然语言转换为SQL查询。

AI总结提出基于LLM的交互接口GLARE，将自然语言问题转换为SQL查询以聚合局部解释数据，提升全局解释的可访问性和可用性。

Comments 16 pages, 2 figures

URL PDF HTML

2606.19727 2026-06-19 cs.CL cs.AI 新提交专题 80

NRITYAM: Language Models Meet Art and Heritage of Dance

NRITYAM：语言模型遇见舞蹈的艺术与遗产

Punit Kumar Singh, Niladri Ghosh, Advait Joshiınst, Shailee Choudhary, Michael Färber, Haiqin Yang

专题命中其他LLM ：评估语言模型对全球舞蹈文化的理解能力。

AI总结提出NRITYAM基准，包含9,260个跨12语言的文化问答对，评估语言模型对全球舞蹈传统的文化理解能力，涵盖多种模型类型。

Comments 18 pages, 12 figures, in ECML_PKDD'26

URL PDF HTML

2606.19698 2026-06-19 cs.CL 新提交专题 80

What sentiment analysis can't see: Measuring whether customers were helped, and what went wrong, across 70,000 support conversations

情感分析看不到的：衡量客户是否得到帮助以及出了什么问题——基于70,000次客服对话

Jason Potteiger

专题命中其他LLM ：使用GPT-5.4估计客户满意度并标记问题。

AI总结本研究使用GPT-5.4从70,450次客服对话中估计客户满意度并标记具体问题，发现满意度估计比情感分析更准确，且能揭示情感分析无法捕捉的客户状态和问题原因。

Comments 25 pages, 6 figures

URL PDF HTML

2606.19668 2026-06-19 cs.CL 新提交专题 80

Code-Switching Reveals Language Anchoring in Multilingual LLMs

代码切换揭示多语言大模型中的语言锚定

Jeonghyun Park, Seunghyun Yoon, Yonghyun Jun, Hwanhee Lee

专题命中其他LLM ：研究多语言大模型中的代码切换和语言锚定现象

AI总结通过语法强制代码切换诊断多语言大模型中的语言锚定现象，提出锚定偏差度量并设计CANVAS干预方法，有效缓解代码切换导致的问答性能下降。

Comments 36 pages, 13 figures, 27 tables

URL PDF HTML

2606.19700 2026-06-19 cs.CL 新提交专题 85

TerraMARS: A Domain-Adapted Small-Language-Model Pipeline for Mars Terraforming Literature

TerraMARS: 用于火星地球化改造文献的领域自适应小语言模型管道

Jyotsna Singh, Ash Black, Jeff Larsen, Scott R. Saleska

专题命中领域大模型：领域自适应小语言模型管道，用于火星科学文献提取。

AI总结提出TerraMARS管道，结合领域自适应小语言模型，从火星科学文献中提取结构化信息，支持地球化改造研究。

Comments 16 pages, 1 figure, 4 tables

URL PDF HTML

2606.20138 2026-06-19 cs.AI cs.CL cs.HC cs.LG 新提交专题 80

Learning to Prompt: Improving Student Engagement with Adaptive LLM-based High-School Tutoring

学习提示：基于自适应LLM的高中辅导提升学生参与度

Po-Chin Chang, Nicholas Hogan, Aske Plaat, Michiel T. van der Meer

专题命中领域大模型：自适应LLM高中辅导系统。

AI总结提出一种基于14个教学特征的主题感知提示路由模型，通过模拟训练和在线A/B测试，在高中辅导中实现自适应策略切换，提高教学效率并减少交互轮次。

URL PDF HTML

1. 预训练 7 篇

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resources

Activation- and Influence-Aware Ranks (AIR): Function-Preserving SVD Compression for LLMs

Algebraic Dead Directions in LayerNorm Transformers: A Forward-Pass-Only Diagnostic at LLM Scale

Characterizing Narrative Content in Web-scale LLM Pretraining Data

Online Dynamic Batching with Formal Guarantees for LLM Training

2. 长上下文 1 篇

HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization

3. 后训练 5 篇

Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

VIMPO: Value-Implicit Policy Optimization for LLMs

Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning

LOKI: Memory-Free Null-Space Constrained Lifelong Knowledge Editing

Which Pairs to Compare for LLM Post-Training?

4. 其他LLM 15 篇

Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems

SAC: Disaggregated KV Cache System for Sparse Attention LLMs with CXL

FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

Diffusion Language Models: An Experimental Analysis

Detecting Hallucinations for Large Language Model-based Knowledge Graph Reasoning

Statistical Foundations of LLM-based A/B Testing: A Surrogacy Framework for Human Causal Inference

The ACUTE Protocol: Operationalizing Language Model Activations for Better Calibration, Utility, and Trust

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Navigating Unreliable Parametric and Contextual Knowledge: Explicit Knowledge Conflict Resolution for LLM Inference

From Texts to Scores: Tracing the Emergence of Essay Quality Representations in Large Language Models

A Systematic Evaluation of Black-Box Uncertainty Estimation Methods for Large Language Models

GLARE: A Natural Language Interface for Querying Global Explanations

NRITYAM: Language Models Meet Art and Heritage of Dance

What sentiment analysis can't see: Measuring whether customers were helped, and what went wrong, across 70,000 support conversations

Code-Switching Reveals Language Anchoring in Multilingual LLMs

5. 领域大模型 2 篇

TerraMARS: A Domain-Adapted Small-Language-Model Pipeline for Mars Terraforming Literature

Learning to Prompt: Improving Student Engagement with Adaptive LLM-based High-School Tutoring