语言大模型 / LLM

2410.15595 2026-06-18 cs.AI cs.CL cs.LG 版本更新专题 95

A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications

直接偏好优化综述：数据集、理论、变体及应用

Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu

专题命中后训练：综述DPO，一种大模型后训练对齐方法

AI总结综述直接偏好优化（DPO）在理论、变体、数据集和应用方面的进展，指出其作为RL-free替代方案的潜力与局限，并提出未来研究方向。

Comments Accepted by TPAMI 2026. Project page: https://github.com/Mr-Loevan/DPO-Survey

URL PDF HTML

2606.01249 2026-06-18 cs.LG cs.CL 版本更新专题 85

Trust Region On-Policy Distillation

信任区域在线策略蒸馏

Xingrun Xing, Haoqing Wang, Boyan Gao, Ziheng Li, Yehui Tang

专题命中后训练：信任区域在线策略蒸馏，用于LLM后训练

AI总结提出信任区域在线策略蒸馏（TrOPD），通过信用分配策略和信任区域学习解决师生分布差异导致的训练不稳定问题，在数学推理、代码生成和通用基准上超越现有方法。

URL PDF HTML

2601.17226 2026-06-18 cs.CL cs.AI 版本更新专题 85

Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Retelling

复述、奖励、重复：面向叙事理论启发的故事复述的强化学习

David Y. Liu, Xanthe Muston, Dipankar Srirag, Aditya Joshi, Sebastian Sequoiah-Grayson

专题命中后训练：使用强化学习提升LLM故事复述能力

AI总结提出RRR强化学习框架，结合结构主义叙事学与标量叙事性，通过d-RLAIF从文本特征中获取训练信号，无需参考输出，提升LLM故事复述的逻辑性、合理性和完整性。

Comments 8 Pages, 7 figures

URL PDF HTML

2506.14126 2026-06-18 cs.LG cs.AI 版本更新专题 85

From Memorization to Parameter Interference: How Overtraining Experts Harms Model Merging

从记忆到参数干扰：过度训练专家如何损害模型合并

Stefan Horoi, Guy Wolf, Eugene Belilovsky, Gintare Karolina Dziugaite

专题命中后训练：研究专家模型微调对合并的影响

AI总结本文研究专家模型微调过度对模型合并的影响，发现长时间微调导致记忆困难样本，造成参数干扰，降低合并性能，并提出任务相关的早停策略改善合并效果。

Comments Proceedings of the 43rd International Conference on Machine Learning, Seoul, South Korea. PMLR 306, 2026

URL PDF HTML

2603.26557 2026-06-18 cs.CL 版本更新专题 70

MemBoost: A Memory-Boosted Framework for Cost-Aware LLM Inference

MemBoost：一种面向成本感知的LLM推理的内存增强框架

Joris Köster, Zixuan Liu, Siavash Khajavi, Zizhan Zheng

专题命中后训练：记忆增强框架降低LLM推理成本

AI总结提出MemBoost框架，通过轻量模型重用历史答案和检索支持信息，并选择性将困难查询路由到强模型，以降低LLM推理成本，同时保持回答质量。

Comments ICML MemFM 2026 Workshop

URL PDF HTML

2602.05992 2026-06-18 cs.CL 版本更新专题 85

DSB: Dynamic Sliding Block Scheduling for Diffusion LLMs

DSB: 扩散语言模型的动态滑动块调度

Lizhuo Luo, Shenggui Li, Yonggang Wen, Tianwei Zhang

专题命中其他LLM ：改进扩散语言模型的推理调度

AI总结针对扩散语言模型固定块调度忽视语义难度的问题，提出无训练的动态滑动块方法DSB及配套KV缓存机制DSB Cache，显著提升生成质量和推理效率。

Comments Accepted at the 43rd International Conference on Machine Learning (ICML 2026)

URL PDF HTML

2602.23092 2026-06-18 cs.AI 版本更新专题 85

Enhancing CVRP Solver through LLM-driven Automatic Heuristic Design

通过LLM驱动的自动启发式设计增强CVRP求解器

Zhuoliang Xie, Fei Liu, Zhenkun Wang, Qingfu Zhang

专题命中其他LLM ：利用LLM自动设计启发式求解CVRP，属于LLM应用

AI总结提出AILS-AHD方法，结合进化搜索框架与大语言模型动态生成和优化破坏启发式，并引入加速机制，在中等和大规模CVRP实例上优于现有求解器，在CVRPLib大规模基准中10个实例上取得8个新最优解。

URL PDF HTML

2602.15851 2026-06-18 cs.CL cs.AI 版本更新专题 85

Narrative Theory-Driven LLM Methods for Automatic Story Generation and Understanding: A Survey

叙事理论驱动的LLM方法在自动故事生成与理解中的应用：综述

David Y. Liu, Aditya Joshi, Paul Dawson

专题命中其他LLM ：综述叙事理论驱动的LLM故事生成与理解

AI总结综述叙事理论驱动的大语言模型方法在自动故事生成与理解中的应用，分析现状并指出生成任务在理论应用、后训练方法、非虚构叙事及叙事层次等方面落后于理解任务，提出未来方向。

Comments 31 pages

URL PDF HTML

2510.15551 2026-06-18 cs.CL cs.AI cs.LG 版本更新专题 85

Rethinking Cross-lingual Gaps from a Statistical Viewpoint

从统计视角重新思考跨语言差距

Vihari Piratla, Purvam Jain, Darshan Singh, Trevor Cohn, Preethi Jyothi, Partha Talukdar

专题命中其他LLM ：研究LLM跨语言差距，属于LLM应用

AI总结提出跨语言差距源于目标语言响应方差，通过形式化偏差和无偏误差，并采用推理时集成方法降低方差，使跨语言迁移得分提升8%-50%以上。

Comments 30 pages

URL PDF HTML

2510.04120 2026-06-18 cs.CL cs.AI 版本更新专题 85

Probing Semantic Alignment, Lexical Invariance, and Syntactic Influence in LLM Metaphor Processing

探究大语言模型隐喻处理中的语义对齐、词汇不变性和句法影响

Fengying Ye, Shanshan Wang, Lidia S. Chao, Derek F. Wong

专题命中其他LLM ：LLM隐喻处理机制分析

AI总结通过几何探测、上下文替换和句法扰动三种方法，分析LLM在隐喻处理中的语义漂移、词汇稳定性及句法敏感性，揭示强行为表现可能源于异质信号。

Comments Accepted to ACL 2026

URL PDF HTML

2508.09191 2026-06-18 cs.LG cs.AI 版本更新专题 85

From Values to Tokens: An LLM-Driven Framework for Context-aware Time Series Forecasting via Symbolic Discretization

从数值到标记：一种基于符号离散化的LLM驱动上下文感知时间序列预测框架

Xiaoyu Tao, Shilong Zhang, Mingyue Cheng, Daoyu Wang, Tingyue Pan, Bokai Pan, Changqing Zhang, Shijin Wang

专题命中其他LLM ：提出TokenCast框架，利用LLM进行时间序列预测。

AI总结提出TokenCast框架，利用大语言模型通过符号离散化将连续时间序列转化为标记，与上下文文本对齐，实现上下文感知的预测，实验证明有效。

URL PDF HTML

2506.15066 2026-06-18 cs.AR cs.MA 版本更新专题 85

ChatModel: Automating Reference Model Design and Verification with LLMs

ChatModel: 利用LLMs自动化参考模型设计与验证

Jianmin Ye, Tianyang Liu, Qi Tian, Shengchu Su, Zhe Jiang, Xi Wang

专题命中其他LLM ：利用LLM自动化参考模型设计与验证，提升效率。

AI总结提出ChatModel平台，通过设计标准化和分层敏捷建模，利用LLM自动生成参考模型，在300个设计上验证，效率提升最高58.99%，验证周期加速7.11倍。

URL PDF HTML

2412.15557 2026-06-18 cs.SE cs.CL 版本更新专题 85

MORTAR: Multi-turn Metamorphic Testing for LLM-based Dialogue Systems

MORTAR：基于LLM的对话系统的多轮蜕变测试

Aaron Guoxiang Guo, Aldeida Aleti, Neelofar Neelofar, Chakkrit Tantithamthavorn, Yuanyuan Qi, Tsong Yueh Chen

专题命中其他LLM ：LLM对话系统多轮测试方法

AI总结提出MORTAR方法，通过多轮蜕变关系自动化生成测试用例，解决LLM对话系统多轮测试中的预言问题，相比单轮测试每个用例发现更多且更高质量的缺陷。

Comments Accepted for publication in IEEE Transactions on Software Engineering (TSE)

URL PDF HTML

2602.06470 2026-06-18 cs.CL cs.AI 版本更新专题 80

Improve Large Language Model Systems with User Logs

通过用户日志改进大型语言模型系统

Changyue Wang, Weihang Su, Qingyao Ai, Xingzhao Yue, Rui Zhang, Xiaojia Chang, Yiqun Liu

专题命中其他LLM ：提出UNO框架利用用户日志改进LLM系统。

AI总结本文提出UNO框架，通过用户日志提炼规则和偏好对，利用查询反馈驱动聚类处理数据异质性，量化模型知识与日志数据间的认知差距，提升LLM系统性能。

URL PDF HTML

2602.00161 2026-06-18 cs.LG cs.AI cs.CL quant-ph 版本更新专题 80

LLM Compression by Block Removal with Constrained Binary Optimization

通过带约束二进制优化的块移除进行LLM压缩

David Jansen, Roman Rausch, Ali Hashemi, David Montero, Román Orús

专题命中其他LLM ：提出LLM压缩方法，通过块移除优化，属于LLM。

AI总结提出将大语言模型块移除压缩问题建模为约束二进制优化，映射到Ising玻璃系统，实现高效排序和高质量非连续块移除，在50%压缩时MMLU提升近23个百分点，且计算高效、通用性强。

Comments 16 pages, 3 figures

URL PDF HTML

2601.14968 2026-06-18 cs.LG cs.AI 版本更新专题 80

InstructTime++: Time Series Classification with Multimodal Language Modeling via Implicit Feature Enhancement

InstructTime++: 通过隐式特征增强的多模态语言建模进行时间序列分类

Mingyue Cheng, Xiaoyu Tao, Huajian Zhang, Qi Liu, Zhiding Liu, Yucong Luo, Yiheng Chen, Enhong Chen

专题命中其他LLM ：将时间序列分类转化为多模态生成任务

AI总结提出将时间序列分类转化为多模态生成任务，通过离散化模块和对齐投影层弥合模态差距，并利用隐式特征建模提升语言模型性能。

URL PDF HTML

2508.07375 2026-06-18 cs.CL cs.SD eess.AS 版本更新专题 80

TurnGuide: Enhancing Meaningful Full Duplex Spoken Interactions via Dynamic Turn-Level Text-Speech Interleaving

TurnGuide: 通过动态轮次级文本-语音交错增强有意义的全双工口语交互

Wenqian Cui, Lei Zhu, Xiaohui Li, Zhihan Guo, Haoli Bai, Lu Hou, Irwin King

专题命中其他LLM ：全双工语音语言模型中的文本-语音交错生成

AI总结提出TurnGuide方法，通过动态分割助手语音为对话轮次并交错生成轮次级文本和语音，解决全双工语音语言模型在连续双通道音频中集成离散文本令牌导致的时间对齐问题，显著提升语义连贯性和轮次交互性能。

Comments Interspeech 2026 Long Paper Track

URL PDF HTML

2512.04144 2026-06-18 cs.AI 版本更新专题 80

RippleBench: Capturing Ripple Effects Using Existing Knowledge Repositories

RippleBench: 利用现有知识库捕捉涟漪效应

Roy Rinberg, Usha Bhalla, Igor Shilov, Flavio P. Calmon, Rohit Gandikota

专题命中其他LLM ：评估语言模型遗忘的涟漪效应

AI总结提出RippleBench-Maker自动管道，从知识库检索语义邻居生成选择题，评估八种遗忘方法在Llama3-8B-Instruct上的涟漪效应，发现准确率下降随语义距离衰减且跨模型一致。

URL PDF HTML

2510.09905 2026-06-18 cs.AI cs.CL 版本更新专题 80

The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs

个性化陷阱：用户记忆如何改变大语言模型的情感推理

Xi Fang, Weijie Xu, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy

专题命中其他LLM ：LLM情感推理偏差研究

AI总结研究用户记忆如何导致大语言模型在情感推理中产生系统性偏差，发现高绩效模型对优势背景用户的情感解读更准确，个性化机制可能嵌入社会等级。

Comments 19 pages 5 figures

URL PDF HTML

2506.09046 2026-06-18 cs.LG cs.AI cs.MA 版本更新专题 80

Self-Evolving Multi-Agent Systems via Textual Backpropagation

通过文本反向传播的自进化多智能体系统

Xiaowen Ma, Yunpu Ma, Chenyang Lin, Sikuan Yan, Jinhe Bi, Zixuan Cao, Yijun Tian, Volker Tresp, Hinrich Schuetze

专题命中其他LLM ：利用多个LLM构建多智能体神经网络框架。

AI总结提出Agentic Neural Network框架，将多智能体协作建模为分层神经网络，通过前向分解任务和反向传播反馈实现智能体角色、提示和协作的自进化，在七个基准数据集上超越现有方法。

URL PDF HTML

2507.01414 2026-06-18 cs.LG 版本更新专题 80

Decomposing Prediction Mechanisms for In-Context Recall

分解上下文召回中的预测机制

Sultan Daniels, Dylan Davis, Dhruv Gautam, Wentinn Liao, Gireeja Ranade, Anant Sahai

专题命中其他LLM ：分析Transformer上下文学习机制

AI总结通过设计结合连续上下文学习与离散关联召回的新玩具问题，发现Transformer模型在上下文召回任务中存在两种具有不同学习动态的独立机制：一种依赖离散符号标签进行关联召回，另一种基于前一个token和上下文进行贝叶斯式预测。

Comments 45 pages, 47 figures, 2 tables

URL PDF HTML

2601.21626 2026-06-18 cs.LG cs.AI 版本更新专题 75

HeRo-Q: A General Framework for Stable Low Bit Quantization via Hessian Conditioning

HeRo-Q: 通过Hessian条件化实现稳定低比特量化的通用框架

Jinhao Zhang, Yunquan Zhang, Zicheng yan, Boyang Zhang, Jun Sun, Daning Cheng

专题命中其他LLM ：提出HeRo-Q算法用于LLM低比特量化，属于LLM。

AI总结针对后训练量化中“低误差、高损失”的矛盾，提出HeRo-Q算法，通过轻量可学习的旋转压缩矩阵重塑损失景观，降低最大Hessian特征值，增强对量化噪声的鲁棒性，在Llama和Qwen模型上优于现有方法。

URL PDF HTML

2604.13082 2026-06-18 cs.LG cs.AI 版本更新专题 70

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

算术泛化的长延迟：当学习到的表征超越行为时

Laura Gomezjurado Gonzalez

专题命中其他LLM ：研究Transformer泛化机制，与LLM相关

AI总结研究Transformer在算术任务中泛化延迟的原因，发现编码器早期已学到结构，但解码器瓶颈导致延迟，通过移植编码器或冻结编码器可加速泛化，且数字基的选择影响学习难度。

Comments 19 pages, 10 fugures

URL PDF HTML

2601.18511 2026-06-18 cs.CR 版本更新专题 70

Scaling up FHE-based Privacy-Preserving ML: Higher Throughput, Longer Inputs for LLama-3-8B

扩展基于FHE的隐私保护机器学习：LLama-3-8B的更高吞吐量和更长输入

Jaiyoung Park, Sejin Park, Jai Hyun Park, Jung Ho Ahn, Jung Hee Cheon, Guillaume Hanrot, Jung Woo Kim, Minje Park, Damien Stehlé

专题命中其他LLM ：提出基于FHE的隐私保护LLM推理加速方法。

AI总结针对FHE-based LLM推理中输入长度扩展性差和非线性层评估受异常值影响的问题，采用令牌预置、正交旋转和稀疏密文多项式求值方法，结合快速同态线性代数技术，实现128加密令牌推理加速，并扩展至数千令牌的异构输入，在Llama-3-8B上取得显著性能提升。

URL PDF HTML

2510.27353 2026-06-18 cs.AI 版本更新专题 70

An In-depth Study of LLM Contributions to the Bin Packing Problem

LLM对装箱问题贡献的深入研究

Julien Herrmann, Guillaume Pallez

专题命中其他LLM ：研究LLM对装箱问题的贡献，分析LLM生成启发式算法。

AI总结通过分析LLM生成的启发式算法，发现其虽可读但难以解释，进而提出更简单高效的新算法，质疑LLM对装箱问题的实际贡献。

Comments Accepted for publication in ACM Transactions on Evolutionary Learning and Optimization

URL PDF HTML

2506.12311 2026-06-18 cs.CL cs.SD eess.AS 版本更新专题 70

Phonikud: Overcoming Phonetic Underspecification for Hebrew Text-To-Speech

Phonikud：克服希伯来语文本转语音中的语音欠指定问题

Yakov Kolani, Maxim Melichov, Cobi Calev, Morris Alper

专题命中其他LLM ：希伯来语TTS，涉及语言模型

AI总结提出Phonikud框架，通过开源G2P系统、语料库、基准和评估模型，解决希伯来语TTS中重音等语音特征欠指定问题，实现更准确的音素预测。

Comments Accepted to Interspeech 2026. Project page: https://phonikud.github.io

URL PDF HTML

2605.26903 2026-06-18 cs.CR cs.AI 版本更新专题 60

Practical Anonymous Two-Party Gradient Boosting Decision Tree

实用的匿名两方梯度提升决策树

Chenyu Huang, Fan Zhang, Minxin Du, Sherman S. M. Chow, Huangxun Chen, Huaming Rao, Danqing Huang, Bo Qian, Peng Chen

专题命中其他LLM ：梯度提升决策树安全训练，非LLM但涉及AI安全

AI总结针对两方垂直分割数据上的梯度提升决策树训练，提出一种基于双电路隐私集合求交和遗忘可编程伪随机函数的匿名协议，在隐藏记录标识符的同时保持效率。

Comments 19 pages; 2026 IEEE Symposium on Security and Privacy (SP)

Journal ref 2026 IEEE Symposium on Security and Privacy (SP)

URL PDF HTML

2605.07036 2026-06-18 physics.ed-ph 版本更新专题 60

Using Large Language Models to Analyze Engagement in Computational Thinking via Computational Physics Essays

使用大型语言模型通过计算物理论文分析计算思维中的参与度

Sean Savage, Amir Bralin, Paul Hur, N. Sanjay Rebello

专题命中其他LLM ：利用LLM自动评估学生计算物理论文中的计算思维。

AI总结本研究利用多模态大型语言模型自动评估100篇学生计算物理论文中的计算思维参与度，在明确子任务上达到84%的准确率，但主观整体质量评估准确率仅71%。

Comments 13 pages, 3 figures, 3 tables. Submitted to Physical Review Physics Education Research

URL PDF HTML

2604.04342 2026-06-18 cs.LG stat.ML 版本更新专题 60

Generative models for decision-making under distributional shift

分布偏移下决策的生成模型

Xiuyuan Cheng, Yunqin Zhu, Yao Xie

专题命中其他LLM ：生成模型用于决策，与LLM弱相关

AI总结本文提出基于流和分数生成模型的统一框架，通过传输映射、速度场等工具处理分布偏移下的决策问题，实现鲁棒性、条件分布生成及不确定性量化。

Comments INFORMS TutORials in Operations Research, 2026

URL PDF HTML

2602.17187 2026-06-18 stat.ML cs.LG 版本更新专题 60

Anti-causal domain generalization: Leveraging unlabeled data

反因果域泛化：利用无标签数据

Sorawit Saengkyongam, Juan L. Gamella, Andrew C. Miller, Jonas Peters, Nicolai Meinshausen, Christina Heinze-Deml

专题命中其他LLM ：域泛化方法，可应用于LLM但非核心

AI总结针对反因果设置下的域泛化问题，提出利用无标签数据估计环境扰动方向，通过惩罚模型对协变量均值和协方差变化的敏感性实现鲁棒性，并提供最坏情况最优性保证。

Comments Accepted at the International Conference on Machine Learning (ICML) 2026

URL PDF HTML

1. 后训练 5 篇

A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications

Trust Region On-Policy Distillation

Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Retelling

From Memorization to Parameter Interference: How Overtraining Experts Harms Model Merging

MemBoost: A Memory-Boosted Framework for Cost-Aware LLM Inference

2. 其他LLM 25 篇

DSB: Dynamic Sliding Block Scheduling for Diffusion LLMs

Enhancing CVRP Solver through LLM-driven Automatic Heuristic Design

Narrative Theory-Driven LLM Methods for Automatic Story Generation and Understanding: A Survey

Rethinking Cross-lingual Gaps from a Statistical Viewpoint

Probing Semantic Alignment, Lexical Invariance, and Syntactic Influence in LLM Metaphor Processing

From Values to Tokens: An LLM-Driven Framework for Context-aware Time Series Forecasting via Symbolic Discretization

ChatModel: Automating Reference Model Design and Verification with LLMs

MORTAR: Multi-turn Metamorphic Testing for LLM-based Dialogue Systems

Improve Large Language Model Systems with User Logs

LLM Compression by Block Removal with Constrained Binary Optimization

InstructTime++: Time Series Classification with Multimodal Language Modeling via Implicit Feature Enhancement

TurnGuide: Enhancing Meaningful Full Duplex Spoken Interactions via Dynamic Turn-Level Text-Speech Interleaving

RippleBench: Capturing Ripple Effects Using Existing Knowledge Repositories

The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs

Self-Evolving Multi-Agent Systems via Textual Backpropagation

Decomposing Prediction Mechanisms for In-Context Recall

HeRo-Q: A General Framework for Stable Low Bit Quantization via Hessian Conditioning

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Scaling up FHE-based Privacy-Preserving ML: Higher Throughput, Longer Inputs for LLama-3-8B

An In-depth Study of LLM Contributions to the Bin Packing Problem

Phonikud: Overcoming Phonetic Underspecification for Hebrew Text-To-Speech

Practical Anonymous Two-Party Gradient Boosting Decision Tree

Using Large Language Models to Analyze Engagement in Computational Thinking via Computational Physics Essays

Generative models for decision-making under distributional shift

Anti-causal domain generalization: Leveraging unlabeled data