语言大模型 / LLM

2606.19256 2026-06-18 cs.AI 新提交专题 80

X+Slides: Benchmarking Audience-Conditioned Slide Generation

X+Slides：面向受众条件的幻灯片生成基准测试

Haodong Chen, Xuanhe Zhou, Wei Zhou, Xinyue Shao, Yanbing Zhu, Bo Wang, Jiawei Hong, Anya Jia, Fan Wu

专题命中其他LLM ：LLM幻灯片生成基准测试

AI总结提出X+Slides基准，通过动态评估框架和受众特定权重，衡量幻灯片生成系统在受众覆盖、领域覆盖、效率和正确性方面的表现，揭示现有系统在受众关键信息恢复上的不足。

URL PDF HTML

2606.18946 2026-06-18 cs.CL 新提交专题 80

SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents

SenFlow: 面向混合文档中AI生成文本检测的句间流建模

Jingkun Luo, Yifan Sun, Da-Tian Peng, Guanxiong Pei

专题命中其他LLM ：检测LLM生成文本，建模句间依赖

AI总结针对人机混合文档的句子级AI文本检测，提出SenFlow模型，通过图传播和CRF解码建模句间依赖，在MOSAIC基准上跨域F1提升4.15个百分点。

Comments 16 pages, 4 figures, 9 tables

URL PDF HTML

2606.18922 2026-06-18 cs.CL cs.AI 新提交专题 80

As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language

像火箭科学一样简单：评估大型语言模型解释比喻语言中否定能力的研究

Jasmine Owers, Edwin Simpson, Martha Lewis

专题命中其他LLM ：评估LLM对否定与比喻语言的理解

AI总结本研究通过开发新的注释数据集，测试多种大型语言模型在比喻语言中理解否定的能力，发现否定与比喻的组合对模型构成挑战，且性能高度依赖提示风格。

Comments 16 pages, 16 figures; for associated code and data see https://github.com/jrdowers/Negation-and-Fig-Lang; To be published in Transactions of the Association for Computational Linguistics

URL PDF HTML

2606.18797 2026-06-18 cs.CL 新提交专题 80

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

超越标量分数：探索基于LLM的放射学报告临床意义评估指标

Qingyu Lu, Ruochen Li, Liang Ding, Yufei Xia, Youxiang Zhu, Dacheng Tao

专题命中其他LLM ：基于LLM的放射学报告评估指标

AI总结针对放射学报告评估中临床准确性要求，研究基于LLM的指标区分临床错误与无害变体的能力，发现判别偏差，并通过合成数据训练轻量级指标，在成本敏感部署中优于大型模型。

Comments Under Review

URL PDF HTML

2606.18741 2026-06-18 cs.DC 新提交专题 80

ReMP: Low-Downtime Runtime Model-Parallelism Reconfiguration for LLM Serving

ReMP：面向LLM服务的低停机时间运行时模型并行重配置

Haipeng Yuan, Kaining Zheng, Yongshu Bai, Yuchen Zhang, Yunquan Zhang, Baodong Wu, Xiang Gao, Daning Cheng

专题命中其他LLM ：LLM推理服务模型并行重配置，低停机时间。

AI总结提出ReMP框架，通过解耦拓扑与运行时状态、二维KV缓存迁移等技术，实现LLM推理服务中模型并行拓扑的在线动态调整，将重配置停机时间从分钟级降至1-7秒。

URL PDF HTML

2606.18677 2026-06-18 cs.LG cs.AI 新提交专题 80

Bounded Context Management for Tabular Foundation Models on Stream Learning

表格基础模型在流学习中的有界上下文管理

Jinmo Lee, Doyun Choi, Moongi Choi, Jaemin Yoo

专题命中其他LLM ：表格基础模型流学习上下文管理

AI总结针对表格流学习中分布漂移问题，提出上下文管理策略CURE，通过不确定性门控准入和冗余感知驱逐管理上下文，在七个流上相对提升最高27.0%。

Comments Accepted as a spotlight oral (top 5%) at the 2nd ICML Workshop on Foundation Models for Structured Data (FMSD@ICML2026)

URL PDF HTML

2606.18557 2026-06-18 cs.AI cs.LG cs.LO 新提交专题 80

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb：基础模型中可废止溯因的可验证基准

Patrick Cooper, Alvaro Velasquez

专题命中其他LLM ：评估基础模型的可废止溯因推理

AI总结提出DeFAb基准，通过将知识库转换为可验证的溯因实例，评估基础模型在可废止推理中的创造力与理论推理能力，发现前沿模型准确率远低于符号求解器。

Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc

URL PDF HTML

2606.18383 2026-06-18 cs.LG cs.CL 新提交专题 80

From Sparse Features to Trustworthy Proxies: Certifying SAE-Based Interpretability

从稀疏特征到可信代理：认证基于SAE的可解释性

Dibyanayan Bandyopadhyay, Asif Ekbal

专题命中其他LLM ：认证基于SAE的语言模型可解释性

AI总结提出一种后验泛化框架，通过稀疏代理（SAE重建）认证语言模型，推导期望风险上界，并在GPT-2 Small等模型上验证非平凡界，揭示深层更易认证且特征分解区分语义对齐与统计稀疏性。

URL PDF HTML

2606.18042 2026-06-18 cs.DC 新提交专题 80

Latency Prediction for LLM Inference on NPU Systems

NPU系统上LLM推理的延迟预测

Juhyun Park, Seungwoo Jeong, Jingyu Lee, Kyungyong Lee

专题命中其他LLM ：预测LLM在NPU上的推理延迟

AI总结针对NPU上LLM推理延迟预测面临微架构不公开、编译器优化不可预测和分桶导致非线性延迟的挑战，提出LENS延迟估计器，通过每个桶两次端到端测量组合预测任意输入输出长度组合的延迟，平均预测误差2.15%。

Comments 12 pages, 9 figures

URL PDF HTML

2606.12629 2026-06-18 cs.LG cs.AI 新提交专题 80

Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

Bag of Dims：通过维度级符号模式实现无需训练的机制可解释性

Varun Reddy Nalagatla

专题命中其他LLM ：无需训练的Transformer机制可解释性方法

AI总结本文提出Bag of Dims框架，证明Transformer隐藏状态的标准基即可作为无需训练的特征基，通过维度符号模式编码语义，并在三个模型上验证了其有效性。

Comments 22 pages, 5 figures, 27 tables

URL PDF HTML

2606.08532 2026-06-18 cs.AI 新提交专题 80

DN-Hypo-Pipeline: An AI-Driven Workflow for Hypothesis Generation via Large Language Models and Scientific Explanations

DN-Hypo-Pipeline：一种基于大语言模型和科学解释的AI驱动假设生成工作流

Lei Lin, Ronghao Wang, Chunbao Zhou, Jue Wang, Yangang Wang

专题命中其他LLM ：LLM驱动的假设生成工作流

AI总结提出DN-Hypo-Pipeline，利用大语言模型和科学解释作为先验知识，从现有文献中推导新假设，在数据科学建模中通过统计推断和专家评估证明优于直接生成方法，并验证了生成假设对应的算法性能。

URL PDF HTML

2602.06470 2026-06-18 cs.CL cs.AI 版本更新专题 80

Improve Large Language Model Systems with User Logs

通过用户日志改进大型语言模型系统

Changyue Wang, Weihang Su, Qingyao Ai, Xingzhao Yue, Rui Zhang, Xiaojia Chang, Yiqun Liu

专题命中其他LLM ：提出UNO框架利用用户日志改进LLM系统。

AI总结本文提出UNO框架，通过用户日志提炼规则和偏好对，利用查询反馈驱动聚类处理数据异质性，量化模型知识与日志数据间的认知差距，提升LLM系统性能。

URL PDF HTML

2602.00161 2026-06-18 cs.LG cs.AI cs.CL quant-ph 版本更新专题 80

LLM Compression by Block Removal with Constrained Binary Optimization

通过带约束二进制优化的块移除进行LLM压缩

David Jansen, Roman Rausch, Ali Hashemi, David Montero, Román Orús

专题命中其他LLM ：提出LLM压缩方法，通过块移除优化，属于LLM。

AI总结提出将大语言模型块移除压缩问题建模为约束二进制优化，映射到Ising玻璃系统，实现高效排序和高质量非连续块移除，在50%压缩时MMLU提升近23个百分点，且计算高效、通用性强。

Comments 16 pages, 3 figures

URL PDF HTML

2601.14968 2026-06-18 cs.LG cs.AI 版本更新专题 80

InstructTime++: Time Series Classification with Multimodal Language Modeling via Implicit Feature Enhancement

InstructTime++: 通过隐式特征增强的多模态语言建模进行时间序列分类

Mingyue Cheng, Xiaoyu Tao, Huajian Zhang, Qi Liu, Zhiding Liu, Yucong Luo, Yiheng Chen, Enhong Chen

专题命中其他LLM ：将时间序列分类转化为多模态生成任务

AI总结提出将时间序列分类转化为多模态生成任务，通过离散化模块和对齐投影层弥合模态差距，并利用隐式特征建模提升语言模型性能。

URL PDF HTML

2508.07375 2026-06-18 cs.CL cs.SD eess.AS 版本更新专题 80

TurnGuide: Enhancing Meaningful Full Duplex Spoken Interactions via Dynamic Turn-Level Text-Speech Interleaving

TurnGuide: 通过动态轮次级文本-语音交错增强有意义的全双工口语交互

Wenqian Cui, Lei Zhu, Xiaohui Li, Zhihan Guo, Haoli Bai, Lu Hou, Irwin King

专题命中其他LLM ：全双工语音语言模型中的文本-语音交错生成

AI总结提出TurnGuide方法，通过动态分割助手语音为对话轮次并交错生成轮次级文本和语音，解决全双工语音语言模型在连续双通道音频中集成离散文本令牌导致的时间对齐问题，显著提升语义连贯性和轮次交互性能。

Comments Interspeech 2026 Long Paper Track

URL PDF HTML

2512.04144 2026-06-18 cs.AI 版本更新专题 80

RippleBench: Capturing Ripple Effects Using Existing Knowledge Repositories

RippleBench: 利用现有知识库捕捉涟漪效应

Roy Rinberg, Usha Bhalla, Igor Shilov, Flavio P. Calmon, Rohit Gandikota

专题命中其他LLM ：评估语言模型遗忘的涟漪效应

AI总结提出RippleBench-Maker自动管道，从知识库检索语义邻居生成选择题，评估八种遗忘方法在Llama3-8B-Instruct上的涟漪效应，发现准确率下降随语义距离衰减且跨模型一致。

URL PDF HTML

2510.09905 2026-06-18 cs.AI cs.CL 版本更新专题 80

The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs

个性化陷阱：用户记忆如何改变大语言模型的情感推理

Xi Fang, Weijie Xu, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy

专题命中其他LLM ：LLM情感推理偏差研究

AI总结研究用户记忆如何导致大语言模型在情感推理中产生系统性偏差，发现高绩效模型对优势背景用户的情感解读更准确，个性化机制可能嵌入社会等级。

Comments 19 pages 5 figures

URL PDF HTML

2506.09046 2026-06-18 cs.LG cs.AI cs.MA 版本更新专题 80

Self-Evolving Multi-Agent Systems via Textual Backpropagation

通过文本反向传播的自进化多智能体系统

Xiaowen Ma, Yunpu Ma, Chenyang Lin, Sikuan Yan, Jinhe Bi, Zixuan Cao, Yijun Tian, Volker Tresp, Hinrich Schuetze

专题命中其他LLM ：利用多个LLM构建多智能体神经网络框架。

AI总结提出Agentic Neural Network框架，将多智能体协作建模为分层神经网络，通过前向分解任务和反向传播反馈实现智能体角色、提示和协作的自进化，在七个基准数据集上超越现有方法。

URL PDF HTML

2507.01414 2026-06-18 cs.LG 版本更新专题 80

Decomposing Prediction Mechanisms for In-Context Recall

分解上下文召回中的预测机制

Sultan Daniels, Dylan Davis, Dhruv Gautam, Wentinn Liao, Gireeja Ranade, Anant Sahai

专题命中其他LLM ：分析Transformer上下文学习机制

AI总结通过设计结合连续上下文学习与离散关联召回的新玩具问题，发现Transformer模型在上下文召回任务中存在两种具有不同学习动态的独立机制：一种依赖离散符号标签进行关联召回，另一种基于前一个token和上下文进行贝叶斯式预测。

Comments 45 pages, 47 figures, 2 tables

URL PDF HTML

2606.19025 2026-06-18 cs.LG cs.AI cs.DC cs.SY eess.SY 新提交专题 80

FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs

FoMoE: 打破全副本壁垒的专家混合联邦系统

Lorenzo Sani, Zeyu Cao, Meghdad Kurmanji, Alex Iacob, Andrej Jovanovic, Yan Gao, Wanru Zhao, Nicholas D. Lane

专题命中预训练：提出跨数据中心MoE训练系统，降低通信开销。

AI总结提出FoMoE系统，通过跨工作节点分区专家层打破全副本范式，结合部分专家复制和跳跃令牌机制，显著降低通信开销并提升吞吐量。

URL PDF HTML

2606.18650 2026-06-18 cs.LG 新提交专题 80

BLADE: Scalable Bi-level Adaptive Data Selection for LLM Training

BLADE: 面向LLM训练的可扩展双层自适应数据选择

Jiaxing Wang, Deping Xiang, Jin Xu, Zirui Liu, Zicheng Zhang, Guoqiang Gong, Jun Fang, Chao Liu, Pengzhang Liu, Tongxuan Liu, Ke Zhang, Qixia Jiang

专题命中预训练：面向LLM训练的可扩展双层自适应数据选择

AI总结提出BLADE框架，通过拉格朗日乘子将双层优化转化为单层惩罚目标，避免逆Hessian计算，实现动态参考模型，理论保证一阶收敛，实验优于现有方法。

URL PDF HTML

2606.18192 2026-06-18 cs.AI 新提交专题 80

The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data

斯坦福EDGAR文件数据集：将美国公司及财务披露重建为布局忠实且令牌高效的预训练数据

Nick Bettencourt, Xiaowei Ding, Kay Giesecke

专题命中预训练：构建长上下文预训练数据集用于LLM

AI总结为解决长上下文文档稀缺问题，提出SEFD数据集，将SEC文件重建为布局忠实的MultiMarkdown格式，用于金融语言建模与评估，具有令牌高效、与Common Crawl重叠率低于0.1%的特点。

Comments Preprint. Includes appendix, tables, and figures

URL PDF HTML

2606.10466 2026-06-18 cs.LG cs.AI 新提交专题 80

UPLOTS: A Unified Pretrained Language Model for Constrained Time-series Generation

UPLOTS: 一种用于约束时间序列生成的统一预训练语言模型

Du Yin, Hao Xue, Jinliang Deng, Yang Yang, Shuang Ao, Arian Prabowo, Flora Salim

专题命中预训练：统一预训练语言模型生成时间序列

AI总结提出UPLOTS，一种基于统一预训练语言模型和提示引导的框架，通过动态多数据集损失重加权和提示到模式映射，实现跨领域约束时间序列生成，在四个基准上验证了其泛化性和数据增强效果。

URL PDF HTML

2606.19004 2026-06-18 cs.DC cs.AI cs.LG 新提交专题 80

Spotlight: Synergizing Seed Exploration and Spot GPUs for DiT RL Post-Training

Spotlight: 协同种子探索与抢占式GPU用于DiT强化学习后训练

Ruiqi Lai, Dakai An, Wei Gao, Ju Huang, Siran Yang, Jiamang Wang, Lin Qu, Dmitrii Ustiugov, Wei Wang

专题命中后训练：提出Spotlight系统，利用抢占式GPU加速DiT强化学习后训练。

AI总结针对DiT强化学习后训练成本高的问题，提出Spotlight系统，通过利用探索对旧权重的容忍性和SP组快速重配置，在抢占式GPU上实现高效训练，加速4倍并降低成本1.4-6.4倍。

URL PDF HTML

2606.19002 2026-06-18 cs.CL 新提交专题 80

Enhancing Multilingual Reasoning via Steerable Model Merging

通过可引导的模型合并增强多语言推理

Zhuoran Li, Rui Xu, Jian Yang, Junnan Liu, Zhijun Chen, Qianren Mao, Hongcheng Guo, Jiaheng Liu, Likang Xiao, Ming Li, Xiaojie Wang

专题命中后训练：提出可引导模型合并框架，增强多语言推理能力。

AI总结提出可引导模型合并（ST-Merge）框架，通过门控交叉注意力机制自适应调节源模型贡献，在多语言推理任务中优于强基线。

Comments 12 pages, 7 figures, 8 tables. Accepted by ACL2026 Findings

URL PDF HTML

2606.18967 2026-06-18 cs.LG 新提交专题 80

EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts

EfficientRollout: 面向强化学习推演的感知系统的自推测解码

Minseo Kim, Minjae Lee, Seunghyuk Oh, Kevin Galim, Donghoon Kim, Coleman Hooper, Harman Singh, Amir Gholami, Hyung Il Koo, Wonjun Kang

专题命中后训练：提出自推测解码加速强化学习推演。

AI总结针对强化学习推演中自回归解码延迟瓶颈，提出感知系统的自推测解码框架，通过量化自推测解码器与感知系统的推测开关策略，在保持模型质量前提下降低推演和端到端延迟。

Comments Project Page: https://github.com/furiosa-ai/EfficientRollout

URL PDF HTML

2606.18844 2026-06-18 cs.LG 新提交专题 80

Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

从自身错误中学习：为自蒸馏构建可学习的微反思轨迹

Zhilin Huang, Hang Gao, Ziqiang Dong, Yuan Chen, Yifeng Luo, Chujun Qin, Jingyi Wang, Yang Yang, Guanjun Jiang

专题命中后训练：策略优化方法，利用自身轨迹。

AI总结提出TAPO方法，通过对比正确与错误轨迹构建微反思修正，实现从隐式分布对齐到显式轨迹构建的自蒸馏改进，在多个数学推理基准上优于GRPO。

URL PDF HTML

2606.18774 2026-06-18 cs.LG 新提交专题 80

RouteJudge: An Open Platform for Reproducible and Preference-Aware LLM Routing

RouteJudge: 一个可复现且偏好感知的LLM路由开放平台

Guannan Lai, Haoran Hu, Han-Jia Ye

专题命中后训练：评估LLM路由策略，偏好感知平台。

AI总结提出RouteJudge平台，通过匿名成对比较评估LLM路由策略的决策质量，并发布ORBIT工具箱标准化路由工作流，支持可复现和偏好感知的路由评估。

Comments Accepted by Pluralistic Alignment Workshop at ICML 2026

URL PDF HTML

2606.13795 2026-06-18 cs.LG 新提交专题 80

DiPOD: Diffusion Policy Optimization without Drifting Apart

无漂移扩散策略优化

Haozhe Jiang, Haiwen Feng, Pieter Abbeel, Jiantao Jiao, Angjoo Kanazawa, Nika Haghtalab

专题命中后训练：扩散策略优化用于语言模型后训练

AI总结针对扩散策略梯度方法的不稳定性，提出DiPOD框架，通过自蒸馏与策略改进梯度更新交替进行，维持紧界行为，实现稳定且高效的策略优化。

Comments Project page: astro-eric.github.io/blogs/dipod/ Code: https://github.com/Astro-Eric/DiPOD-release

URL PDF HTML

2606.18596 2026-06-18 cs.HC cs.AI 新提交专题 80

Better Adherence, Richer Context: A Field Evaluation of LLM-Powered Conversational Voice Diaries for Sleep

更好的依从性，更丰富的上下文：基于LLM的对话式语音睡眠日记的现场评估

Amama Mahmood, Bokyung Kim, Honghao Zhao, Molly E. Atwood, Luis F. Buenaver, Michael T. Smith, Chien-Ming Huang

专题命中领域大模型：LLM驱动的对话式语音睡眠日记现场评估

AI总结通过现场实验评估基于LLM的对话式语音睡眠日记，发现相比文本日记，语音日记提高了依从性并收集了更详细的上下文信息，但结构化字段完整性较低。

URL PDF HTML

1. 其他LLM 19 篇

X+Slides: Benchmarking Audience-Conditioned Slide Generation

SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents

As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

ReMP: Low-Downtime Runtime Model-Parallelism Reconfiguration for LLM Serving

Bounded Context Management for Tabular Foundation Models on Stream Learning

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

From Sparse Features to Trustworthy Proxies: Certifying SAE-Based Interpretability

Latency Prediction for LLM Inference on NPU Systems

Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

DN-Hypo-Pipeline: An AI-Driven Workflow for Hypothesis Generation via Large Language Models and Scientific Explanations

Improve Large Language Model Systems with User Logs

LLM Compression by Block Removal with Constrained Binary Optimization

InstructTime++: Time Series Classification with Multimodal Language Modeling via Implicit Feature Enhancement

TurnGuide: Enhancing Meaningful Full Duplex Spoken Interactions via Dynamic Turn-Level Text-Speech Interleaving

RippleBench: Capturing Ripple Effects Using Existing Knowledge Repositories

The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs

Self-Evolving Multi-Agent Systems via Textual Backpropagation

Decomposing Prediction Mechanisms for In-Context Recall

2. 预训练 4 篇

FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs

BLADE: Scalable Bi-level Adaptive Data Selection for LLM Training

The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data

UPLOTS: A Unified Pretrained Language Model for Constrained Time-series Generation

3. 后训练 6 篇

Spotlight: Synergizing Seed Exploration and Spot GPUs for DiT RL Post-Training

Enhancing Multilingual Reasoning via Steerable Model Merging

EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts

Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

RouteJudge: An Open Platform for Reproducible and Preference-Aware LLM Routing

DiPOD: Diffusion Policy Optimization without Drifting Apart

4. 领域大模型 1 篇

Better Adherence, Richer Context: A Field Evaluation of LLM-Powered Conversational Voice Diaries for Sleep