语言大模型 / LLM - arXivDaily 专题

2606.19744 2026-06-19 cs.CL cs.AI cs.HC 新提交专题 90

Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

超越统一遗忘：不同偏好设置下顺序直接偏好优化的研究

Pranav Bhandari, Nicolas Fay, Amitava Datta, Usman Naseem, Mehwish Nasim

专题命中后训练：研究顺序DPO在不同偏好设置下的影响，涉及对齐方法。

AI总结研究顺序DPO在不同偏好设置下的影响，发现遗忘模式并非统一，而是取决于目标关系、信号强度和训练顺序，并提出未来对齐流程应考虑目标兼容性。

Comments Submitted to EMNLP 2026

URL PDF HTML

2604.00626 2026-06-19 cs.LG cs.CL 版本更新专题 90

A Survey of On-Policy Distillation for Large Language Models

大型语言模型的在线策略蒸馏综述

Mingyang Song, Mao Zheng

专题命中后训练：综述在线策略蒸馏方法，涉及LLM后训练

AI总结本文综述了大型语言模型的在线策略蒸馏方法，探讨了蒸馏过程中如何通过反馈减少累积误差，提出了基于f-散度最小化的蒸馏框架，并分析了蒸馏与强化学习之间的联系。

Comments Ongoing Work

URL PDF HTML

2602.22495 2026-06-19 cs.LG cs.AI 版本更新专题 90

Reinforcement-aware Knowledge Distillation for LLM Reasoning

面向LLM推理的强化学习感知知识蒸馏

Zhaoyang Zhang, Shuli Jiang, Yantao Shen, Yuting Zhang, Dhananjay Ram, Shuo Yang, Zhuowen Tu, Wei Xia, Stefano Soatto

专题命中后训练：强化学习感知知识蒸馏用于LLM推理

AI总结提出RL感知蒸馏（RLAD），通过信任区域比率蒸馏（TRRD）在强化学习后训练中实现选择性模仿，解决分布不匹配和目标干扰问题，在逻辑推理和数学基准上优于现有方法。

URL PDF HTML

2509.25148 2026-06-19 cs.AI 版本更新专题 90

AAPA: Adversarially Anchored Preference Alignment for Post-Training of Large Language Models

AAPA：用于大型语言模型后训练的对抗锚定偏好对齐

Faqiang Qian, Kang An, Weikun Zhang, Ziliang Wang, Xuhui Zheng, Liangjian Wen, Yong Dai, Mengya Gao, Yichao Wu

专题命中后训练：提出对抗锚定偏好对齐框架，增强后训练目标

AI总结提出AAPA框架，通过固定轻量判别器对策略输出与专家响应进行句子级对抗锚定，增强SFT、GRPO等后训练目标，在指令遵循基准上持续提升性能。

URL PDF HTML

2606.20008 2026-06-19 cs.LG 新提交专题 85

VIMPO: Value-Implicit Policy Optimization for LLMs

VIMPO: 值隐式策略优化用于大语言模型

Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song, Xuandong Zhao

专题命中后训练：提出VIMPO方法优化LLM推理能力。

AI总结提出VIMPO方法，通过KL正则化强化学习的最优条件导出策略隐含值函数，无需训练评论家，实现细粒度信用分配，在数学推理基准上优于GRPO。

URL PDF HTML

2606.20002 2026-06-19 cs.LG cs.AI cs.CL 新提交专题 80

Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning

Connect the Dots：通过强化学习训练具备跨域泛化能力的长期生命周期智能体

Yanxi Chen, Weijie Shi, Yuexiang Xie, Boyi Hu, Yaliang Li, Bolin Ding, Jingren Zhou

专题命中后训练：通过强化学习训练LLM的元能力。

AI总结提出Connect the Dots框架，通过端到端强化学习训练LLM在长期任务中自我更新上下文并泛化到新领域，实验验证了跨域泛化能力。

Comments Work in progress; we will continuously update the codebase and arXiv version

URL PDF HTML

2606.19679 2026-06-19 cs.LG cs.AI 新提交专题 80

LOKI: Memory-Free Null-Space Constrained Lifelong Knowledge Editing

LOKI: 无记忆零空间约束的终身知识编辑

Masih Eskandar, Miquel Sirera Perelló, Stratis Ioannidis, Jennifer Dy

专题命中后训练：终身知识编辑方法，动态选择层并投影到零空间

AI总结提出LOKI方法，通过希尔伯特-施密特独立性准则动态选择层，并将梯度更新投影到模型权重的零空间，实现无需访问旧知识的终身知识编辑，平均准确率提升14%。

URL PDF HTML

2606.19607 2026-06-19 cs.AI stat.AP 新提交专题 80

Which Pairs to Compare for LLM Post-Training?

LLM后训练中应比较哪些对？

Jiangze Han, Vineet Goyal, Will Ma

专题命中后训练：研究偏好后训练中比较对的选择，提升样本效率。

AI总结研究偏好后训练中如何选择最具信息量的比较对，提出基于采样设计的比较策展方法，通过DPO训练的理论分析给出优化准则，实验证明能提升样本效率。

URL PDF HTML

2606.19549 2026-06-19 cs.LG 新提交专题 80

Predicting Mergeability of Parameter-Efficient Fine-Tuning Updates

预测参数高效微调更新的可合并性

Lin Tang, Wei Zhang, Jing Li, Hongyu Chen, Ming Zhao, Yuxuan Wang

专题命中后训练：预测LoRA适配器可合并性，涉及模型微调

AI总结提出MergeProbe，通过训练初期信号预测LoRA适配器的可合并性，在MERGE-PEFT基准上实现最佳平均和最差保留性能。

URL PDF HTML

2606.19542 2026-06-19 cs.LG 新提交专题 80

Tracking Representation Dynamics in Large Language Models with Persistent Homology

利用持续同调追踪大型语言模型中的表示动态

Naman Malhotra, Jay Ambadkar, Abhinav Gupta, Kushal Kasivel, Abbas Schwarz, Kamillo Ferry, Anthea Monod

专题命中后训练：分析对齐过程中LLM内部表示拓扑变化

AI总结通过持续同调分析激活空间拓扑，发现对齐过程中拓扑重组主要发生在训练早期，且不同对齐目标产生可区分的拓扑轨迹。

Comments 29 pages

URL PDF HTML

2602.09689 2026-06-19 cs.LG 版本更新专题 80

Model soups need only one ingredient

模型汤只需一种成分

Alireza Abdollahpoorrostam, Nikolaos Dimitriadis, Adam Hazimeh, Pascal Frossard

专题命中后训练：MonoSoup方法通过SVD实现单检查点模型汤

AI总结提出MonoSoup方法，利用SVD分解单检查点的层更新，通过熵有效秩自动重加权成分，实现强分布内-分布外平衡，无需多检查点。

URL PDF HTML

2606.19946 2026-06-19 cs.CL cs.LG 新提交专题 75

GEMS: Geometric Constraints Enable Multi-Semantic Superposition in LLMs

GEMS: 几何约束使LLM中多语义叠加成为可能

Yu Deng

专题命中后训练：提出无训练多语义方向激活干预方法GEMS

AI总结提出GEMS方法，通过范数保持加权叠加、目标注意力路径注入和实时正交化两个几何约束，解决无训练多方向激活干预中的分布偏差和方向干扰问题，在GSM8K上保持98%准确率。

Comments 30 pages, 5 figures, 20 tables. Code and logs are available at: https://github.com/LuLu663939/gems-multi-semantic-steering

URL PDF HTML

2606.20508 2026-06-19 cs.AI cs.LG 新提交专题 70

What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?

安全对齐的LLM从混合顺从演示中学到了什么？

Sihui Dai, Mann Patel

专题命中后训练：涉及偏好优化训练阶段对安全的影响

AI总结研究通过混合良性顺从演示和有害顺从演示，探究演示组成如何驱动有害顺从，发现演示内容、顺序和训练方法影响模型提取的信息。

URL PDF HTML

2606.20482 2026-06-19 cs.CL cs.HC cs.LG 新提交专题 70

Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Users

你的鼠标和眼睛悄悄泄露你的偏好：利用用户隐式反馈进行LLM对齐

Haw-Shiuan Chang, Jeffrey Gomez, Mehul Patwari, Aryan Sajith, Hamed Zamani

专题命中后训练：训练奖励模型用于DPO对齐

AI总结针对显式反馈稀缺的问题，提出利用鼠标轨迹和眼动数据等隐式反馈训练奖励模型，将文本奖励模型准确率从55%提升至64%，并显著提高DPO对齐后响应质量。

URL PDF HTML

2606.20475 2026-06-19 cs.LG 新提交专题 65

Marginal Advantage Accumulation for Memory-Driven Agent Self-Evolution

边际优势累积用于记忆驱动智能体自我进化

Mingyu Yang, Keye Zheng, Congchao Cheng, Yujie Liu, Xingkang Lu, Fan Jiang, Yefei Zheng

专题命中后训练：涉及语言模型轨迹蒸馏，但非核心贡献。

AI总结针对批量式轨迹蒸馏中跨批次证据缺失问题，提出边际优势累积（MAA）方法，通过差分信号构造、指数移动平均累积和语义身份合并，在16个设置中14个取得最佳结果，优化阶段token消耗减少约75%。

Comments 26 pages, 4 figures, 10 tables, 42 references

URL PDF HTML

2606.20553 2026-06-19 cs.CR 新提交专题 60

From Efficiency to Leakage -- Privacy Backdoor in Federated Language Model Fine-Tuning

从效率到泄露——联邦语言模型微调中的隐私后门

Shanghao Shi, Chaoyu Zhang, Heng Jin, Yang Xiao, Yevgeniy Vorobeychik, William Yeoh, Ning Zhang, Y. Thomas Hou, Wenjing Lou

专题命中后训练：涉及语言模型微调中的隐私泄露。

AI总结提出NeuroImprint攻击，恶意参数服务器在参数高效微调中植入隐私后门，通过为每个样本分配独立神经元并限制单次更新，实现高保真重建训练文本。

URL PDF HTML