arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

语言大模型 / LLM

大语言模型、预训练、指令微调、后训练和语言模型应用。

今日/当前日期收录 148 信号源:cs.CL, cs.AI, cs.LG

1. 后训练 9 篇

2410.15595 2026-06-18 cs.AI cs.CL cs.LG 版本更新 专题 95

A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications

直接偏好优化综述:数据集、理论、变体及应用

Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu

专题命中 后训练 :综述DPO,一种大模型后训练对齐方法

AI总结 综述直接偏好优化(DPO)在理论、变体、数据集和应用方面的进展,指出其作为RL-free替代方案的潜力与局限,并提出未来研究方向。

Comments Accepted by TPAMI 2026. Project page: https://github.com/Mr-Loevan/DPO-Survey

2606.18831 2026-06-18 cs.CL cs.AI 新提交 专题 85

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

超越奖励工程:长上下文强化学习的数据配方

Xiaoyue Xu, Sikui Zhang, Xiaorong Wang, Xu Han, Chaojun Xiao

专题命中 后训练 :通过数据配方和GRPO强化学习提升LLM长上下文推理能力

AI总结 提出一种简单有效的数据配方,结合最小化基于结果的GRPO设置,显著提升大语言模型的长上下文推理能力,在多个基准和智能体任务上取得平均+3.2至+7.2点的提升。

Comments 15 pages, 6 figures, 12 tables

2606.18810 2026-06-18 cs.LG cs.AI 新提交 专题 85

Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards

从自身解中学习:面向可验证奖励强化学习的自条件化信用分配

Yingyu Shan, Yuhang Guo, Zihao Cheng, Zeming Liu, Xiangrong Zhu, Xinyi Wang, Jiashu Yao, Wei Lin, Hongru Wang, Heyan Huang

专题命中 后训练 :SC-GRPO方法用于RLVR,提升LLM推理能力

AI总结 提出SC-GRPO方法,利用自条件化分布间的KL散度作为GRPO梯度的乘性权重,实现细粒度信用分配,在数学、代码和智能体任务上平均提升8.1%。

2606.18388 2026-06-18 cs.LG cs.AI cs.CL cs.MA 新提交 专题 85

LLMZero: Discovering Adaptive Training Strategies for RL Post-Training via LLM Agents

LLMZero: 通过LLM智能体发现RL后训练的自适应训练策略

Haoyang Fang, Wei Zhu, Boran Han, Alex Zhang, Zhenyu Pan, Shuo Yang, Shuai Zhang, Jiading Gai, Peng Tang, Cuixiong Hu, Xuan Zhu, Huzefa Rangwala, George Karypis, Bernie Wang

专题命中 后训练 :LLM智能体搜索RL后训练策略

AI总结 提出LLMZero系统,利用LLM智能体通过树搜索发现多阶段RL后训练的自适应策略,揭示容量参数单调累积、正则化参数振荡的规律,在4个GRPO任务上相对基线提升9%-140%。

2606.01249 2026-06-18 cs.LG cs.CL 版本更新 专题 85

Trust Region On-Policy Distillation

信任区域在线策略蒸馏

Xingrun Xing, Haoqing Wang, Boyan Gao, Ziheng Li, Yehui Tang

专题命中 后训练 :信任区域在线策略蒸馏,用于LLM后训练

AI总结 提出信任区域在线策略蒸馏(TrOPD),通过信用分配策略和信任区域学习解决师生分布差异导致的训练不稳定问题,在数学推理、代码生成和通用基准上超越现有方法。

2601.17226 2026-06-18 cs.CL cs.AI 版本更新 专题 85

Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Retelling

复述、奖励、重复:面向叙事理论启发的故事复述的强化学习

David Y. Liu, Xanthe Muston, Dipankar Srirag, Aditya Joshi, Sebastian Sequoiah-Grayson

专题命中 后训练 :使用强化学习提升LLM故事复述能力

AI总结 提出RRR强化学习框架,结合结构主义叙事学与标量叙事性,通过d-RLAIF从文本特征中获取训练信号,无需参考输出,提升LLM故事复述的逻辑性、合理性和完整性。

Comments 8 Pages, 7 figures

2506.14126 2026-06-18 cs.LG cs.AI 版本更新 专题 85

From Memorization to Parameter Interference: How Overtraining Experts Harms Model Merging

从记忆到参数干扰:过度训练专家如何损害模型合并

Stefan Horoi, Guy Wolf, Eugene Belilovsky, Gintare Karolina Dziugaite

专题命中 后训练 :研究专家模型微调对合并的影响

AI总结 本文研究专家模型微调过度对模型合并的影响,发现长时间微调导致记忆困难样本,造成参数干扰,降低合并性能,并提出任务相关的早停策略改善合并效果。

Comments Proceedings of the 43rd International Conference on Machine Learning, Seoul, South Korea. PMLR 306, 2026

2606.19336 2026-06-18 cs.CL 新提交 专题 80

Learning User Simulators with Turing Rewards

基于图灵奖励的学习用户模拟器

Yingshan Susan Wang, Cedegao E. Zhang, Linlu Qiu, Zexue He, Pengyuan Li, Alex Pentland, Roger P. Levy, Yoon Kim

专题命中 后训练 :图灵奖励训练用户模拟器

AI总结 提出Turing-RL方法,利用基于图灵测试的强化学习训练用户模拟器,通过判别性图灵奖励使生成响应与真实用户不可区分,在对话和论坛讨论中优于基线方法。

2606.19327 2026-06-18 cs.AI cs.CL 新提交 专题 80

Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

重新思考奖励监督:基于评分准则的自蒸馏

Siyi Gu, Jialin Chen, Sophia Zhou, Arman Cohan, Rex Ying

专题命中 后训练 :评分准则自蒸馏优化推理模型

AI总结 提出评分准则条件自蒸馏框架,通过结构化细粒度反馈指导推理模型,在科学推理基准上平均超越GRPO 1.0分、OPSD 0.9分。

2. 领域大模型 3 篇

2606.19266 2026-06-18 cs.CL cs.AI 新提交 专题 90

Trade-offs in Medical LLM Adaptation: An Empirical Study in French QA

医学LLM适应中的权衡:法语问答的实证研究

Ikram Belmadani, Oumaima El Khettari, Carlos Ramisch, Frederic Bechet, Richard Dufour, Benoit Favre

专题命中 领域大模型 :法语医学LLM领域适应策略比较

AI总结 通过法语医学问答任务,实证比较持续预训练(CPT)和监督微调(SFT)在多个模型家族和规模下的效果,发现CPT+SFT在多项选择问答上最优但增益小,SFT是强且经济的默认选择,而CPT在开放式问答中提升重叠指标。

2606.18699 2026-06-18 cs.CL cs.AI cs.IR 新提交 专题 90

TW-LegalBench: Measuring Taiwanese Legal Understanding

TW-LegalBench: 衡量台湾法律理解

Fei-Yueh Chen, Chun Huang Lin, Chan Wei Hsu, Kuan Hsuan Yeh, Zih-Ching Chen, Kuan-Ming Chen, Patrick Chung-Chia Huang

专题命中 领域大模型 :台湾法律理解基准,评估LLM法律推理

AI总结 提出TW-LegalBench基准,包含多项选择、开放式问答和法律判决预测任务,评估13个LLM在台湾法律上的表现,发现顶尖模型通过律师考试但未达到法官检察官标准,且法律条文引用困难。

Comments 10 pages, 2 figures, To appear in ICAIL 2026

2606.18600 2026-06-18 cs.DC 新提交 专题 85

ShuntServe: Cost-Efficient LLM Serving on Heterogeneous Spot GPU Clusters

ShuntServe: 异构竞价型GPU集群上的成本高效LLM服务

Seungwoo Jeong, Moohyun Song, Juhyun Park, Kyungyong Lee

专题命中 领域大模型 :提出ShuntServe系统优化LLM在异构GPU上服务

AI总结 提出ShuntServe系统,通过屋顶线模型估计性能和动态规划优化模型放置,在异构竞价型GPU集群上最大化吞吐量,结合输出保留迁移与共享张量存储实现容错,相比基线吞吐量提升1.42倍,成本效率提升31.9%以上。

Comments 18 pages, 16 figures, 5 tables

3. 预训练 3 篇

2606.18663 2026-06-18 cs.CL 新提交 专题 90

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

RegMix-D: 通过代理训练轨迹实现动态数据混合

Kaiyan Zhao, Zhongtao Miao, Akiko Aizawa, Yoshimasa Tsuruoka

专题命中 预训练 :LLM预训练动态数据混合方法

AI总结 提出RegMix-D,通过代理训练轨迹预测多阶段最优混合比例,实现动态数据混合,在13个下游任务上优于RegMix和DoReMi,且代理计算预算仅为RegMix的25%。

Comments Work in progress

2606.19036 2026-06-18 cs.LG 新提交 专题 85

Geometric and Stochastic Analysis of Discontinuities in Sparse Mixture-of-Experts

稀疏混合专家模型中不连续性的几何与随机分析

Tho Tran Huu, Huu-Tuan Nguyen, Thien-Hai Nguyen, Nhat-Tri Ho, Viet-Hoang Tran, Tho Quan, Tan Minh Nguyen

专题命中 预训练 :分析稀疏MoE不连续性,提出平滑机制,核心是LLM架构改进。

AI总结 本文对稀疏混合专家模型中的不连续性进行几何与随机分析,分类不连续阶数,建立渐近体积估计,证明随机路径几乎必然击中一阶不连续,并提出低开销平滑机制以提升性能。

Comments ICML 2026 Spotlight. arXiv admin note: text overlap with arXiv:2510.17794 by other authors

2606.19005 2026-06-18 cs.CL cs.LG 新提交 专题 85

Sumi: Open Uniform Diffusion Language Model from Scratch

Sumi: 从头训练的开放均匀扩散语言模型

Mengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki

专题命中 预训练 :从头预训练7B均匀扩散语言模型,性能与自回归模型相当。

AI总结 本文提出Sumi,一个从零开始预训练的70亿参数均匀扩散语言模型,在1.5T tokens上训练,性能与同规模自回归模型相当,并开源所有资源。

4. 指令微调 2 篇

2606.18875 2026-06-18 cs.CL 新提交 专题 85

Efficient Financial Language Understanding via Distillation with Synthetic Data

通过合成数据蒸馏实现高效金融语言理解

Wen-Fong, Huang, Edwin Simpson

专题命中 指令微调 :用大教师模型蒸馏到小模型,金融情感分析。

AI总结 提出一种在低资源条件下通过合成数据蒸馏进行金融情感分析的框架,利用聚类种子选择生成代表性合成数据,使紧凑模型在少量标注下达到强性能,甚至在某些任务上超越教师模型。

Journal ref Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026), European Language Resources Association (ELRA), 2026, pp. 10242-10254

2606.18307 2026-06-18 cs.LG cs.AI 新提交 专题 85

DRIFT: Refining Instruction Data via On-Policy Data Attribution

DRIFT: 通过在线策略数据归因优化指令数据

Zefan Wang, Lincheng Li, Tianyu Yu, Yuan Yao

专题命中 指令微调 :提出DRIFT方法优化指令微调数据分布,提升LLM性能上限。

AI总结 提出DRIFT方法,利用在线策略影响函数解决标准影响函数在指令微调数据归因中的近邻偏差和梯度范数偏差问题,通过模型自身生成作为验证目标,提升7B模型性能上限。

5. 其他LLM 13 篇

2606.18431 2026-06-18 cs.LG cs.DC 新提交 专题 85

Beyond Prediction: Tail-Aware Scheduling for LLM Inference

超越预测:面向LLM推理的尾延迟感知调度

Yueying Li, Yuanfan Chen, Jiayang Chen, Esha Choukse, Haoran Qiu, G. Edward Suh, Rodrigo Fonseca, Ziv Scully, Udit Gupta

专题命中 其他LLM :提出LLM推理调度框架,优化尾延迟

AI总结 针对LLM推理中长度预测调度在分布偏移和尾延迟控制上的脆弱性,提出无预测的分布感知调度框架,通过轻量统计信号实现软优先级提升,结合缓存感知抢占,在多种工作负载下将P99 TTLT降低35-50%,TTFT降低34-47%。

Journal ref Forty-Third International Conference on Machine Learning (2026)

2606.18394 2026-06-18 cs.CL 新提交 专题 85

JetFlow: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

JetFlow: 通过并行树草稿突破推测解码的缩放上限

Lanxiang Hu, Zhaoxiang Feng, Yulun Wu, Haoran Yuan, Yujie Zhao, Yu-Yang Qian, Bojun Wang, Daxin Jiang, Yibo Zhu, Tajana Rosing, Hao Zhang

专题命中 其他LLM :提出并行树草稿加速LLM推测解码

AI总结 提出JetFlow框架,通过因果并行草稿头结合树推测解码,将更大草稿预算转化为更长接受前缀和更高端到端加速,在Qwen3模型上实现最高9.64倍加速。

2602.05992 2026-06-18 cs.CL 版本更新 专题 85

DSB: Dynamic Sliding Block Scheduling for Diffusion LLMs

DSB: 扩散语言模型的动态滑动块调度

Lizhuo Luo, Shenggui Li, Yonggang Wen, Tianwei Zhang

专题命中 其他LLM :改进扩散语言模型的推理调度

AI总结 针对扩散语言模型固定块调度忽视语义难度的问题,提出无训练的动态滑动块方法DSB及配套KV缓存机制DSB Cache,显著提升生成质量和推理效率。

Comments Accepted at the 43rd International Conference on Machine Learning (ICML 2026)

2602.23092 2026-06-18 cs.AI 版本更新 专题 85

Enhancing CVRP Solver through LLM-driven Automatic Heuristic Design

通过LLM驱动的自动启发式设计增强CVRP求解器

Zhuoliang Xie, Fei Liu, Zhenkun Wang, Qingfu Zhang

专题命中 其他LLM :利用LLM自动设计启发式求解CVRP,属于LLM应用

AI总结 提出AILS-AHD方法,结合进化搜索框架与大语言模型动态生成和优化破坏启发式,并引入加速机制,在中等和大规模CVRP实例上优于现有求解器,在CVRPLib大规模基准中10个实例上取得8个新最优解。

2602.15851 2026-06-18 cs.CL cs.AI 版本更新 专题 85

Narrative Theory-Driven LLM Methods for Automatic Story Generation and Understanding: A Survey

叙事理论驱动的LLM方法在自动故事生成与理解中的应用:综述

David Y. Liu, Aditya Joshi, Paul Dawson

专题命中 其他LLM :综述叙事理论驱动的LLM故事生成与理解

AI总结 综述叙事理论驱动的大语言模型方法在自动故事生成与理解中的应用,分析现状并指出生成任务在理论应用、后训练方法、非虚构叙事及叙事层次等方面落后于理解任务,提出未来方向。

Comments 31 pages

2510.15551 2026-06-18 cs.CL cs.AI cs.LG 版本更新 专题 85

Rethinking Cross-lingual Gaps from a Statistical Viewpoint

从统计视角重新思考跨语言差距

Vihari Piratla, Purvam Jain, Darshan Singh, Trevor Cohn, Preethi Jyothi, Partha Talukdar

专题命中 其他LLM :研究LLM跨语言差距,属于LLM应用

AI总结 提出跨语言差距源于目标语言响应方差,通过形式化偏差和无偏误差,并采用推理时集成方法降低方差,使跨语言迁移得分提升8%-50%以上。

Comments 30 pages

2510.04120 2026-06-18 cs.CL cs.AI 版本更新 专题 85

Probing Semantic Alignment, Lexical Invariance, and Syntactic Influence in LLM Metaphor Processing

探究大语言模型隐喻处理中的语义对齐、词汇不变性和句法影响

Fengying Ye, Shanshan Wang, Lidia S. Chao, Derek F. Wong

专题命中 其他LLM :LLM隐喻处理机制分析

AI总结 通过几何探测、上下文替换和句法扰动三种方法,分析LLM在隐喻处理中的语义漂移、词汇稳定性及句法敏感性,揭示强行为表现可能源于异质信号。

Comments Accepted to ACL 2026

2508.09191 2026-06-18 cs.LG cs.AI 版本更新 专题 85

From Values to Tokens: An LLM-Driven Framework for Context-aware Time Series Forecasting via Symbolic Discretization

从数值到标记:一种基于符号离散化的LLM驱动上下文感知时间序列预测框架

Xiaoyu Tao, Shilong Zhang, Mingyue Cheng, Daoyu Wang, Tingyue Pan, Bokai Pan, Changqing Zhang, Shijin Wang

专题命中 其他LLM :提出TokenCast框架,利用LLM进行时间序列预测。

AI总结 提出TokenCast框架,利用大语言模型通过符号离散化将连续时间序列转化为标记,与上下文文本对齐,实现上下文感知的预测,实验证明有效。

2506.15066 2026-06-18 cs.AR cs.MA 版本更新 专题 85

ChatModel: Automating Reference Model Design and Verification with LLMs

ChatModel: 利用LLMs自动化参考模型设计与验证

Jianmin Ye, Tianyang Liu, Qi Tian, Shengchu Su, Zhe Jiang, Xi Wang

专题命中 其他LLM :利用LLM自动化参考模型设计与验证,提升效率。

AI总结 提出ChatModel平台,通过设计标准化和分层敏捷建模,利用LLM自动生成参考模型,在300个设计上验证,效率提升最高58.99%,验证周期加速7.11倍。

2503.01163 2026-06-18 cs.AI cs.CL cs.HC cs.LG cs.NE 专题 85

Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers

基于Bandit的提示设计策略选择改进提示优化器

Rin Ashizawa, Yoichi Hirose, Nozomu Yoshinari, Kento Uchida, Shinichi Shirakawa

专题命中 其他LLM :提出OPTS方法优化LLM提示策略

AI总结 本文提出OPTS方法,通过显式选择提示设计策略提升EvoPrompt性能,采用Thompson采样机制在BIG-Bench Hard上验证效果,实现最优结果。

Comments Accepted to ACL 2025 Findings

2412.15557 2026-06-18 cs.SE cs.CL 版本更新 专题 85

MORTAR: Multi-turn Metamorphic Testing for LLM-based Dialogue Systems

MORTAR:基于LLM的对话系统的多轮蜕变测试

Aaron Guoxiang Guo, Aldeida Aleti, Neelofar Neelofar, Chakkrit Tantithamthavorn, Yuanyuan Qi, Tsong Yueh Chen

专题命中 其他LLM :LLM对话系统多轮测试方法

AI总结 提出MORTAR方法,通过多轮蜕变关系自动化生成测试用例,解决LLM对话系统多轮测试中的预言问题,相比单轮测试每个用例发现更多且更高质量的缺陷。

Comments Accepted for publication in IEEE Transactions on Software Engineering (TSE)

2506.09822 2026-06-18 cs.CE cs.AI 专题 85

Superstudent intelligence in thermodynamics

热力学中的超级学生智能

Rebecca Loubet, Pascal Zittlau, Marco Hoffmann, Luisa Vollmer, Sophie Fellenz, Heike Leitte, Fabian Jirasek, Johannes Lenhard, Hans Hasse

专题命中 其他LLM :评估o3模型在热力学考试中的表现

AI总结 研究展示OpenAI的o3模型在热力学考试中超越所有学生,证明机器在复杂任务中的能力,影响工程教育与实践。

Comments This document is the unedited Author's version of a yet to be Submitted Work to Physical Review Physics Education Research. 15 pages, 2 figures, Graphical Abstract, Highlights and SI available (12 pages)

2504.12347 2026-06-18 cs.CL cs.AI cs.CY 专题 85

Assessment of Evolving Large Language Models in Upper Secondary Mathematics

对上中学数学中演进式大语言模型的评估

Mika Setälä, Pieta Sikström, Ville Heilala, Tommi Kärkkäinen

专题命中 其他LLM :评估LLM在中学数学考试中的能力

AI总结 本文评估了不同大语言模型在芬兰毕业考试中的数学能力,发现随着模型演进,其表现显著提升,部分模型接近完美,展示了LLM在数学能力上的快速进步及其在教育中的潜力。