语言大模型 / LLM

2606.19266 2026-06-18 cs.CL cs.AI 新提交专题 90

Trade-offs in Medical LLM Adaptation: An Empirical Study in French QA

医学LLM适应中的权衡：法语问答的实证研究

Ikram Belmadani, Oumaima El Khettari, Carlos Ramisch, Frederic Bechet, Richard Dufour, Benoit Favre

专题命中领域大模型：法语医学LLM领域适应策略比较

AI总结通过法语医学问答任务，实证比较持续预训练（CPT）和监督微调（SFT）在多个模型家族和规模下的效果，发现CPT+SFT在多项选择问答上最优但增益小，SFT是强且经济的默认选择，而CPT在开放式问答中提升重叠指标。

URL PDF HTML

2606.18699 2026-06-18 cs.CL cs.AI cs.IR 新提交专题 90

TW-LegalBench: Measuring Taiwanese Legal Understanding

TW-LegalBench: 衡量台湾法律理解

Fei-Yueh Chen, Chun Huang Lin, Chan Wei Hsu, Kuan Hsuan Yeh, Zih-Ching Chen, Kuan-Ming Chen, Patrick Chung-Chia Huang

专题命中领域大模型：台湾法律理解基准，评估LLM法律推理

AI总结提出TW-LegalBench基准，包含多项选择、开放式问答和法律判决预测任务，评估13个LLM在台湾法律上的表现，发现顶尖模型通过律师考试但未达到法官检察官标准，且法律条文引用困难。

Comments 10 pages, 2 figures, To appear in ICAIL 2026

URL PDF HTML

2606.18600 2026-06-18 cs.DC 新提交专题 85

ShuntServe: Cost-Efficient LLM Serving on Heterogeneous Spot GPU Clusters

ShuntServe: 异构竞价型GPU集群上的成本高效LLM服务

Seungwoo Jeong, Moohyun Song, Juhyun Park, Kyungyong Lee

专题命中领域大模型：提出ShuntServe系统优化LLM在异构GPU上服务

AI总结提出ShuntServe系统，通过屋顶线模型估计性能和动态规划优化模型放置，在异构竞价型GPU集群上最大化吞吐量，结合输出保留迁移与共享张量存储实现容错，相比基线吞吐量提升1.42倍，成本效率提升31.9%以上。

Comments 18 pages, 16 figures, 5 tables

URL PDF HTML

2606.18663 2026-06-18 cs.CL 新提交专题 90

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

RegMix-D: 通过代理训练轨迹实现动态数据混合

Kaiyan Zhao, Zhongtao Miao, Akiko Aizawa, Yoshimasa Tsuruoka

专题命中预训练：LLM预训练动态数据混合方法

AI总结提出RegMix-D，通过代理训练轨迹预测多阶段最优混合比例，实现动态数据混合，在13个下游任务上优于RegMix和DoReMi，且代理计算预算仅为RegMix的25%。

Comments Work in progress

URL PDF HTML

2606.19036 2026-06-18 cs.LG 新提交专题 85

Geometric and Stochastic Analysis of Discontinuities in Sparse Mixture-of-Experts

稀疏混合专家模型中不连续性的几何与随机分析

Tho Tran Huu, Huu-Tuan Nguyen, Thien-Hai Nguyen, Nhat-Tri Ho, Viet-Hoang Tran, Tho Quan, Tan Minh Nguyen

专题命中预训练：分析稀疏MoE不连续性，提出平滑机制，核心是LLM架构改进。

AI总结本文对稀疏混合专家模型中的不连续性进行几何与随机分析，分类不连续阶数，建立渐近体积估计，证明随机路径几乎必然击中一阶不连续，并提出低开销平滑机制以提升性能。

Comments ICML 2026 Spotlight. arXiv admin note: text overlap with arXiv:2510.17794 by other authors

URL PDF HTML

2606.19005 2026-06-18 cs.CL cs.LG 新提交专题 85

Sumi: Open Uniform Diffusion Language Model from Scratch

Sumi: 从头训练的开放均匀扩散语言模型

Mengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki

专题命中预训练：从头预训练7B均匀扩散语言模型，性能与自回归模型相当。

AI总结本文提出Sumi，一个从零开始预训练的70亿参数均匀扩散语言模型，在1.5T tokens上训练，性能与同规模自回归模型相当，并开源所有资源。

URL PDF HTML

2606.19025 2026-06-18 cs.LG cs.AI cs.DC cs.SY eess.SY 新提交专题 80

FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs

FoMoE: 打破全副本壁垒的专家混合联邦系统

Lorenzo Sani, Zeyu Cao, Meghdad Kurmanji, Alex Iacob, Andrej Jovanovic, Yan Gao, Wanru Zhao, Nicholas D. Lane

专题命中预训练：提出跨数据中心MoE训练系统，降低通信开销。

AI总结提出FoMoE系统，通过跨工作节点分区专家层打破全副本范式，结合部分专家复制和跳跃令牌机制，显著降低通信开销并提升吞吐量。

URL PDF HTML

2606.18875 2026-06-18 cs.CL 新提交专题 85

Efficient Financial Language Understanding via Distillation with Synthetic Data

通过合成数据蒸馏实现高效金融语言理解

Wen-Fong, Huang, Edwin Simpson

专题命中指令微调：用大教师模型蒸馏到小模型，金融情感分析。

AI总结提出一种在低资源条件下通过合成数据蒸馏进行金融情感分析的框架，利用聚类种子选择生成代表性合成数据，使紧凑模型在少量标注下达到强性能，甚至在某些任务上超越教师模型。

Journal ref Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026), European Language Resources Association (ELRA), 2026, pp. 10242-10254

URL PDF HTML

2606.18307 2026-06-18 cs.LG cs.AI 新提交专题 85

DRIFT: Refining Instruction Data via On-Policy Data Attribution

DRIFT: 通过在线策略数据归因优化指令数据

Zefan Wang, Lincheng Li, Tianyu Yu, Yuan Yao

专题命中指令微调：提出DRIFT方法优化指令微调数据分布，提升LLM性能上限。

AI总结提出DRIFT方法，利用在线策略影响函数解决标准影响函数在指令微调数据归因中的近邻偏差和梯度范数偏差问题，通过模型自身生成作为验证目标，提升7B模型性能上限。

URL PDF HTML

2606.18831 2026-06-18 cs.CL cs.AI 新提交专题 85

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

超越奖励工程：长上下文强化学习的数据配方

Xiaoyue Xu, Sikui Zhang, Xiaorong Wang, Xu Han, Chaojun Xiao

专题命中后训练：通过数据配方和GRPO强化学习提升LLM长上下文推理能力

AI总结提出一种简单有效的数据配方，结合最小化基于结果的GRPO设置，显著提升大语言模型的长上下文推理能力，在多个基准和智能体任务上取得平均+3.2至+7.2点的提升。

Comments 15 pages, 6 figures, 12 tables

URL PDF HTML

2606.18810 2026-06-18 cs.LG cs.AI 新提交专题 85

Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards

从自身解中学习：面向可验证奖励强化学习的自条件化信用分配

Yingyu Shan, Yuhang Guo, Zihao Cheng, Zeming Liu, Xiangrong Zhu, Xinyi Wang, Jiashu Yao, Wei Lin, Hongru Wang, Heyan Huang

专题命中后训练：SC-GRPO方法用于RLVR，提升LLM推理能力

AI总结提出SC-GRPO方法，利用自条件化分布间的KL散度作为GRPO梯度的乘性权重，实现细粒度信用分配，在数学、代码和智能体任务上平均提升8.1%。

URL PDF HTML

2606.18388 2026-06-18 cs.LG cs.AI cs.CL cs.MA 新提交专题 85

LLMZero: Discovering Adaptive Training Strategies for RL Post-Training via LLM Agents

LLMZero: 通过LLM智能体发现RL后训练的自适应训练策略

Haoyang Fang, Wei Zhu, Boran Han, Alex Zhang, Zhenyu Pan, Shuo Yang, Shuai Zhang, Jiading Gai, Peng Tang, Cuixiong Hu, Xuan Zhu, Huzefa Rangwala, George Karypis, Bernie Wang

专题命中后训练：LLM智能体搜索RL后训练策略

AI总结提出LLMZero系统，利用LLM智能体通过树搜索发现多阶段RL后训练的自适应策略，揭示容量参数单调累积、正则化参数振荡的规律，在4个GRPO任务上相对基线提升9%-140%。

URL PDF HTML

2606.19336 2026-06-18 cs.CL 新提交专题 80

Learning User Simulators with Turing Rewards

基于图灵奖励的学习用户模拟器

Yingshan Susan Wang, Cedegao E. Zhang, Linlu Qiu, Zexue He, Pengyuan Li, Alex Pentland, Roger P. Levy, Yoon Kim

专题命中后训练：图灵奖励训练用户模拟器

AI总结提出Turing-RL方法，利用基于图灵测试的强化学习训练用户模拟器，通过判别性图灵奖励使生成响应与真实用户不可区分，在对话和论坛讨论中优于基线方法。

URL PDF HTML

2606.19327 2026-06-18 cs.AI cs.CL 新提交专题 80

Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

重新思考奖励监督：基于评分准则的自蒸馏

Siyi Gu, Jialin Chen, Sophia Zhou, Arman Cohan, Rex Ying

专题命中后训练：评分准则自蒸馏优化推理模型

AI总结提出评分准则条件自蒸馏框架，通过结构化细粒度反馈指导推理模型，在科学推理基准上平均超越GRPO 1.0分、OPSD 0.9分。

URL PDF HTML

2606.19004 2026-06-18 cs.DC cs.AI cs.LG 新提交专题 80

Spotlight: Synergizing Seed Exploration and Spot GPUs for DiT RL Post-Training

Spotlight: 协同种子探索与抢占式GPU用于DiT强化学习后训练

Ruiqi Lai, Dakai An, Wei Gao, Ju Huang, Siran Yang, Jiamang Wang, Lin Qu, Dmitrii Ustiugov, Wei Wang

专题命中后训练：提出Spotlight系统，利用抢占式GPU加速DiT强化学习后训练。

AI总结针对DiT强化学习后训练成本高的问题，提出Spotlight系统，通过利用探索对旧权重的容忍性和SP组快速重配置，在抢占式GPU上实现高效训练，加速4倍并降低成本1.4-6.4倍。

URL PDF HTML

2606.19002 2026-06-18 cs.CL 新提交专题 80

Enhancing Multilingual Reasoning via Steerable Model Merging

通过可引导的模型合并增强多语言推理

Zhuoran Li, Rui Xu, Jian Yang, Junnan Liu, Zhijun Chen, Qianren Mao, Hongcheng Guo, Jiaheng Liu, Likang Xiao, Ming Li, Xiaojie Wang

专题命中后训练：提出可引导模型合并框架，增强多语言推理能力。

AI总结提出可引导模型合并（ST-Merge）框架，通过门控交叉注意力机制自适应调节源模型贡献，在多语言推理任务中优于强基线。

Comments 12 pages, 7 figures, 8 tables. Accepted by ACL2026 Findings

URL PDF HTML

2606.18967 2026-06-18 cs.LG 新提交专题 80

EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts

EfficientRollout: 面向强化学习推演的感知系统的自推测解码

Minseo Kim, Minjae Lee, Seunghyuk Oh, Kevin Galim, Donghoon Kim, Coleman Hooper, Harman Singh, Amir Gholami, Hyung Il Koo, Wonjun Kang

专题命中后训练：提出自推测解码加速强化学习推演。

AI总结针对强化学习推演中自回归解码延迟瓶颈，提出感知系统的自推测解码框架，通过量化自推测解码器与感知系统的推测开关策略，在保持模型质量前提下降低推演和端到端延迟。

Comments Project Page: https://github.com/furiosa-ai/EfficientRollout

URL PDF HTML

2606.18844 2026-06-18 cs.LG 新提交专题 80

Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

从自身错误中学习：为自蒸馏构建可学习的微反思轨迹

Zhilin Huang, Hang Gao, Ziqiang Dong, Yuan Chen, Yifeng Luo, Chujun Qin, Jingyi Wang, Yang Yang, Guanjun Jiang

专题命中后训练：策略优化方法，利用自身轨迹。

AI总结提出TAPO方法，通过对比正确与错误轨迹构建微反思修正，实现从隐式分布对齐到显式轨迹构建的自蒸馏改进，在多个数学推理基准上优于GRPO。

URL PDF HTML

2606.18774 2026-06-18 cs.LG 新提交专题 80

RouteJudge: An Open Platform for Reproducible and Preference-Aware LLM Routing

RouteJudge: 一个可复现且偏好感知的LLM路由开放平台

Guannan Lai, Haoran Hu, Han-Jia Ye

专题命中后训练：评估LLM路由策略，偏好感知平台。

AI总结提出RouteJudge平台，通过匿名成对比较评估LLM路由策略的决策质量，并发布ORBIT工具箱标准化路由工作流，支持可复现和偏好感知的路由评估。

Comments Accepted by Pluralistic Alignment Workshop at ICML 2026

URL PDF HTML

2606.18431 2026-06-18 cs.LG cs.DC 新提交专题 85

Beyond Prediction: Tail-Aware Scheduling for LLM Inference

超越预测：面向LLM推理的尾延迟感知调度

Yueying Li, Yuanfan Chen, Jiayang Chen, Esha Choukse, Haoran Qiu, G. Edward Suh, Rodrigo Fonseca, Ziv Scully, Udit Gupta

专题命中其他LLM ：提出LLM推理调度框架，优化尾延迟

AI总结针对LLM推理中长度预测调度在分布偏移和尾延迟控制上的脆弱性，提出无预测的分布感知调度框架，通过轻量统计信号实现软优先级提升，结合缓存感知抢占，在多种工作负载下将P99 TTLT降低35-50%，TTFT降低34-47%。

Journal ref Forty-Third International Conference on Machine Learning (2026)

URL PDF HTML

2606.18394 2026-06-18 cs.CL 新提交专题 85

JetFlow: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

JetFlow: 通过并行树草稿突破推测解码的缩放上限

Lanxiang Hu, Zhaoxiang Feng, Yulun Wu, Haoran Yuan, Yujie Zhao, Yu-Yang Qian, Bojun Wang, Daxin Jiang, Yibo Zhu, Tajana Rosing, Hao Zhang

专题命中其他LLM ：提出并行树草稿加速LLM推测解码

AI总结提出JetFlow框架，通过因果并行草稿头结合树推测解码，将更大草稿预算转化为更长接受前缀和更高端到端加速，在Qwen3模型上实现最高9.64倍加速。

URL PDF HTML

2503.01163 2026-06-18 cs.AI cs.CL cs.HC cs.LG cs.NE 专题 85

Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers

基于Bandit的提示设计策略选择改进提示优化器

Rin Ashizawa, Yoichi Hirose, Nozomu Yoshinari, Kento Uchida, Shinichi Shirakawa

专题命中其他LLM ：提出OPTS方法优化LLM提示策略

AI总结本文提出OPTS方法，通过显式选择提示设计策略提升EvoPrompt性能，采用Thompson采样机制在BIG-Bench Hard上验证效果，实现最优结果。

Comments Accepted to ACL 2025 Findings

URL PDF HTML

2506.09822 2026-06-18 cs.CE cs.AI 专题 85

Superstudent intelligence in thermodynamics

热力学中的超级学生智能

Rebecca Loubet, Pascal Zittlau, Marco Hoffmann, Luisa Vollmer, Sophie Fellenz, Heike Leitte, Fabian Jirasek, Johannes Lenhard, Hans Hasse

专题命中其他LLM ：评估o3模型在热力学考试中的表现

AI总结研究展示OpenAI的o3模型在热力学考试中超越所有学生，证明机器在复杂任务中的能力，影响工程教育与实践。

Comments This document is the unedited Author's version of a yet to be Submitted Work to Physical Review Physics Education Research. 15 pages, 2 figures, Graphical Abstract, Highlights and SI available (12 pages)

URL PDF HTML

2504.12347 2026-06-18 cs.CL cs.AI cs.CY 专题 85

Assessment of Evolving Large Language Models in Upper Secondary Mathematics

对上中学数学中演进式大语言模型的评估

Mika Setälä, Pieta Sikström, Ville Heilala, Tommi Kärkkäinen

专题命中其他LLM ：评估LLM在中学数学考试中的能力

AI总结本文评估了不同大语言模型在芬兰毕业考试中的数学能力，发现随着模型演进，其表现显著提升，部分模型接近完美，展示了LLM在数学能力上的快速进步及其在教育中的潜力。

URL PDF HTML

2606.19256 2026-06-18 cs.AI 新提交专题 80

X+Slides: Benchmarking Audience-Conditioned Slide Generation

X+Slides：面向受众条件的幻灯片生成基准测试

Haodong Chen, Xuanhe Zhou, Wei Zhou, Xinyue Shao, Yanbing Zhu, Bo Wang, Jiawei Hong, Anya Jia, Fan Wu

专题命中其他LLM ：LLM幻灯片生成基准测试

AI总结提出X+Slides基准，通过动态评估框架和受众特定权重，衡量幻灯片生成系统在受众覆盖、领域覆盖、效率和正确性方面的表现，揭示现有系统在受众关键信息恢复上的不足。

URL PDF HTML

2606.18946 2026-06-18 cs.CL 新提交专题 80

SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents

SenFlow: 面向混合文档中AI生成文本检测的句间流建模

Jingkun Luo, Yifan Sun, Da-Tian Peng, Guanxiong Pei

专题命中其他LLM ：检测LLM生成文本，建模句间依赖

AI总结针对人机混合文档的句子级AI文本检测，提出SenFlow模型，通过图传播和CRF解码建模句间依赖，在MOSAIC基准上跨域F1提升4.15个百分点。

Comments 16 pages, 4 figures, 9 tables

URL PDF HTML

2606.18922 2026-06-18 cs.CL cs.AI 新提交专题 80

As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language

像火箭科学一样简单：评估大型语言模型解释比喻语言中否定能力的研究

Jasmine Owers, Edwin Simpson, Martha Lewis

专题命中其他LLM ：评估LLM对否定与比喻语言的理解

AI总结本研究通过开发新的注释数据集，测试多种大型语言模型在比喻语言中理解否定的能力，发现否定与比喻的组合对模型构成挑战，且性能高度依赖提示风格。

Comments 16 pages, 16 figures; for associated code and data see https://github.com/jrdowers/Negation-and-Fig-Lang; To be published in Transactions of the Association for Computational Linguistics

URL PDF HTML

2606.18797 2026-06-18 cs.CL 新提交专题 80

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

超越标量分数：探索基于LLM的放射学报告临床意义评估指标

Qingyu Lu, Ruochen Li, Liang Ding, Yufei Xia, Youxiang Zhu, Dacheng Tao

专题命中其他LLM ：基于LLM的放射学报告评估指标

AI总结针对放射学报告评估中临床准确性要求，研究基于LLM的指标区分临床错误与无害变体的能力，发现判别偏差，并通过合成数据训练轻量级指标，在成本敏感部署中优于大型模型。

Comments Under Review

URL PDF HTML

2606.18741 2026-06-18 cs.DC 新提交专题 80

ReMP: Low-Downtime Runtime Model-Parallelism Reconfiguration for LLM Serving

ReMP：面向LLM服务的低停机时间运行时模型并行重配置

Haipeng Yuan, Kaining Zheng, Yongshu Bai, Yuchen Zhang, Yunquan Zhang, Baodong Wu, Xiang Gao, Daning Cheng

专题命中其他LLM ：LLM推理服务模型并行重配置，低停机时间。

AI总结提出ReMP框架，通过解耦拓扑与运行时状态、二维KV缓存迁移等技术，实现LLM推理服务中模型并行拓扑的在线动态调整，将重配置停机时间从分钟级降至1-7秒。

URL PDF HTML

2606.18677 2026-06-18 cs.LG cs.AI 新提交专题 80

Bounded Context Management for Tabular Foundation Models on Stream Learning

表格基础模型在流学习中的有界上下文管理

Jinmo Lee, Doyun Choi, Moongi Choi, Jaemin Yoo

专题命中其他LLM ：表格基础模型流学习上下文管理

AI总结针对表格流学习中分布漂移问题，提出上下文管理策略CURE，通过不确定性门控准入和冗余感知驱逐管理上下文，在七个流上相对提升最高27.0%。

Comments Accepted as a spotlight oral (top 5%) at the 2nd ICML Workshop on Foundation Models for Structured Data (FMSD@ICML2026)

URL PDF HTML

1. 领域大模型 3 篇

Trade-offs in Medical LLM Adaptation: An Empirical Study in French QA

TW-LegalBench: Measuring Taiwanese Legal Understanding

ShuntServe: Cost-Efficient LLM Serving on Heterogeneous Spot GPU Clusters

2. 预训练 4 篇

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

Geometric and Stochastic Analysis of Discontinuities in Sparse Mixture-of-Experts

Sumi: Open Uniform Diffusion Language Model from Scratch

FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs

3. 指令微调 2 篇

Efficient Financial Language Understanding via Distillation with Synthetic Data

DRIFT: Refining Instruction Data via On-Policy Data Attribution

4. 后训练 10 篇

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards

LLMZero: Discovering Adaptive Training Strategies for RL Post-Training via LLM Agents

Learning User Simulators with Turing Rewards

Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

Spotlight: Synergizing Seed Exploration and Spot GPUs for DiT RL Post-Training

Enhancing Multilingual Reasoning via Steerable Model Merging

EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts

Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

RouteJudge: An Open Platform for Reproducible and Preference-Aware LLM Routing

5. 其他LLM 11 篇

Beyond Prediction: Tail-Aware Scheduling for LLM Inference

JetFlow: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers

Superstudent intelligence in thermodynamics

Assessment of Evolving Large Language Models in Upper Secondary Mathematics

X+Slides: Benchmarking Audience-Conditioned Slide Generation

SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents

As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

ReMP: Low-Downtime Runtime Model-Parallelism Reconfiguration for LLM Serving

Bounded Context Management for Tabular Foundation Models on Stream Learning