arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

语言大模型 / LLM

大语言模型、预训练、指令微调、后训练和语言模型应用。

今日/当前日期收录 16 信号源:cs.CL, cs.AI, cs.LG
2606.19744 2026-06-19 cs.CL cs.AI cs.HC 新提交 专题 90

Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

超越统一遗忘:不同偏好设置下顺序直接偏好优化的研究

Pranav Bhandari, Nicolas Fay, Amitava Datta, Usman Naseem, Mehwish Nasim

专题命中 后训练 :研究顺序DPO在不同偏好设置下的影响,涉及对齐方法。

AI总结 研究顺序DPO在不同偏好设置下的影响,发现遗忘模式并非统一,而是取决于目标关系、信号强度和训练顺序,并提出未来对齐流程应考虑目标兼容性。

Comments Submitted to EMNLP 2026

2604.00626 2026-06-19 cs.LG cs.CL 版本更新 专题 90

A Survey of On-Policy Distillation for Large Language Models

大型语言模型的在线策略蒸馏综述

Mingyang Song, Mao Zheng

专题命中 后训练 :综述在线策略蒸馏方法,涉及LLM后训练

AI总结 本文综述了大型语言模型的在线策略蒸馏方法,探讨了蒸馏过程中如何通过反馈减少累积误差,提出了基于f-散度最小化的蒸馏框架,并分析了蒸馏与强化学习之间的联系。

Comments Ongoing Work

2602.22495 2026-06-19 cs.LG cs.AI 版本更新 专题 90

Reinforcement-aware Knowledge Distillation for LLM Reasoning

面向LLM推理的强化学习感知知识蒸馏

Zhaoyang Zhang, Shuli Jiang, Yantao Shen, Yuting Zhang, Dhananjay Ram, Shuo Yang, Zhuowen Tu, Wei Xia, Stefano Soatto

专题命中 后训练 :强化学习感知知识蒸馏用于LLM推理

AI总结 提出RL感知蒸馏(RLAD),通过信任区域比率蒸馏(TRRD)在强化学习后训练中实现选择性模仿,解决分布不匹配和目标干扰问题,在逻辑推理和数学基准上优于现有方法。

2509.25148 2026-06-19 cs.AI 版本更新 专题 90

AAPA: Adversarially Anchored Preference Alignment for Post-Training of Large Language Models

AAPA:用于大型语言模型后训练的对抗锚定偏好对齐

Faqiang Qian, Kang An, Weikun Zhang, Ziliang Wang, Xuhui Zheng, Liangjian Wen, Yong Dai, Mengya Gao, Yichao Wu

专题命中 后训练 :提出对抗锚定偏好对齐框架,增强后训练目标

AI总结 提出AAPA框架,通过固定轻量判别器对策略输出与专家响应进行句子级对抗锚定,增强SFT、GRPO等后训练目标,在指令遵循基准上持续提升性能。

2606.20008 2026-06-19 cs.LG 新提交 专题 85

VIMPO: Value-Implicit Policy Optimization for LLMs

VIMPO: 值隐式策略优化用于大语言模型

Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song, Xuandong Zhao

专题命中 后训练 :提出VIMPO方法优化LLM推理能力。

AI总结 提出VIMPO方法,通过KL正则化强化学习的最优条件导出策略隐含值函数,无需训练评论家,实现细粒度信用分配,在数学推理基准上优于GRPO。

2606.20002 2026-06-19 cs.LG cs.AI cs.CL 新提交 专题 80

Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning

Connect the Dots:通过强化学习训练具备跨域泛化能力的长期生命周期智能体

Yanxi Chen, Weijie Shi, Yuexiang Xie, Boyi Hu, Yaliang Li, Bolin Ding, Jingren Zhou

专题命中 后训练 :通过强化学习训练LLM的元能力。

AI总结 提出Connect the Dots框架,通过端到端强化学习训练LLM在长期任务中自我更新上下文并泛化到新领域,实验验证了跨域泛化能力。

Comments Work in progress; we will continuously update the codebase and arXiv version

2606.19679 2026-06-19 cs.LG cs.AI 新提交 专题 80

LOKI: Memory-Free Null-Space Constrained Lifelong Knowledge Editing

LOKI: 无记忆零空间约束的终身知识编辑

Masih Eskandar, Miquel Sirera Perelló, Stratis Ioannidis, Jennifer Dy

专题命中 后训练 :终身知识编辑方法,动态选择层并投影到零空间

AI总结 提出LOKI方法,通过希尔伯特-施密特独立性准则动态选择层,并将梯度更新投影到模型权重的零空间,实现无需访问旧知识的终身知识编辑,平均准确率提升14%。

2606.19607 2026-06-19 cs.AI stat.AP 新提交 专题 80

Which Pairs to Compare for LLM Post-Training?

LLM后训练中应比较哪些对?

Jiangze Han, Vineet Goyal, Will Ma

专题命中 后训练 :研究偏好后训练中比较对的选择,提升样本效率。

AI总结 研究偏好后训练中如何选择最具信息量的比较对,提出基于采样设计的比较策展方法,通过DPO训练的理论分析给出优化准则,实验证明能提升样本效率。

2606.19549 2026-06-19 cs.LG 新提交 专题 80

Predicting Mergeability of Parameter-Efficient Fine-Tuning Updates

预测参数高效微调更新的可合并性

Lin Tang, Wei Zhang, Jing Li, Hongyu Chen, Ming Zhao, Yuxuan Wang

专题命中 后训练 :预测LoRA适配器可合并性,涉及模型微调

AI总结 提出MergeProbe,通过训练初期信号预测LoRA适配器的可合并性,在MERGE-PEFT基准上实现最佳平均和最差保留性能。

2606.19542 2026-06-19 cs.LG 新提交 专题 80

Tracking Representation Dynamics in Large Language Models with Persistent Homology

利用持续同调追踪大型语言模型中的表示动态

Naman Malhotra, Jay Ambadkar, Abhinav Gupta, Kushal Kasivel, Abbas Schwarz, Kamillo Ferry, Anthea Monod

专题命中 后训练 :分析对齐过程中LLM内部表示拓扑变化

AI总结 通过持续同调分析激活空间拓扑,发现对齐过程中拓扑重组主要发生在训练早期,且不同对齐目标产生可区分的拓扑轨迹。

Comments 29 pages

2602.09689 2026-06-19 cs.LG 版本更新 专题 80

Model soups need only one ingredient

模型汤只需一种成分

Alireza Abdollahpoorrostam, Nikolaos Dimitriadis, Adam Hazimeh, Pascal Frossard

专题命中 后训练 :MonoSoup方法通过SVD实现单检查点模型汤

AI总结 提出MonoSoup方法,利用SVD分解单检查点的层更新,通过熵有效秩自动重加权成分,实现强分布内-分布外平衡,无需多检查点。

2606.19946 2026-06-19 cs.CL cs.LG 新提交 专题 75

GEMS: Geometric Constraints Enable Multi-Semantic Superposition in LLMs

GEMS: 几何约束使LLM中多语义叠加成为可能

Yu Deng

专题命中 后训练 :提出无训练多语义方向激活干预方法GEMS

AI总结 提出GEMS方法,通过范数保持加权叠加、目标注意力路径注入和实时正交化两个几何约束,解决无训练多方向激活干预中的分布偏差和方向干扰问题,在GSM8K上保持98%准确率。

Comments 30 pages, 5 figures, 20 tables. Code and logs are available at: https://github.com/LuLu663939/gems-multi-semantic-steering

2606.20508 2026-06-19 cs.AI cs.LG 新提交 专题 70

What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?

安全对齐的LLM从混合顺从演示中学到了什么?

Sihui Dai, Mann Patel

专题命中 后训练 :涉及偏好优化训练阶段对安全的影响

AI总结 研究通过混合良性顺从演示和有害顺从演示,探究演示组成如何驱动有害顺从,发现演示内容、顺序和训练方法影响模型提取的信息。

2606.20482 2026-06-19 cs.CL cs.HC cs.LG 新提交 专题 70

Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Users

你的鼠标和眼睛悄悄泄露你的偏好:利用用户隐式反馈进行LLM对齐

Haw-Shiuan Chang, Jeffrey Gomez, Mehul Patwari, Aryan Sajith, Hamed Zamani

专题命中 后训练 :训练奖励模型用于DPO对齐

AI总结 针对显式反馈稀缺的问题,提出利用鼠标轨迹和眼动数据等隐式反馈训练奖励模型,将文本奖励模型准确率从55%提升至64%,并显著提高DPO对齐后响应质量。

2606.20475 2026-06-19 cs.LG 新提交 专题 65

Marginal Advantage Accumulation for Memory-Driven Agent Self-Evolution

边际优势累积用于记忆驱动智能体自我进化

Mingyu Yang, Keye Zheng, Congchao Cheng, Yujie Liu, Xingkang Lu, Fan Jiang, Yefei Zheng

专题命中 后训练 :涉及语言模型轨迹蒸馏,但非核心贡献。

AI总结 针对批量式轨迹蒸馏中跨批次证据缺失问题,提出边际优势累积(MAA)方法,通过差分信号构造、指数移动平均累积和语义身份合并,在16个设置中14个取得最佳结果,优化阶段token消耗减少约75%。

Comments 26 pages, 4 figures, 10 tables, 42 references

2606.20553 2026-06-19 cs.CR 新提交 专题 60

From Efficiency to Leakage -- Privacy Backdoor in Federated Language Model Fine-Tuning

从效率到泄露——联邦语言模型微调中的隐私后门

Shanghao Shi, Chaoyu Zhang, Heng Jin, Yang Xiao, Yevgeniy Vorobeychik, William Yeoh, Ning Zhang, Y. Thomas Hou, Wenjing Lou

专题命中 后训练 :涉及语言模型微调中的隐私泄露。

AI总结 提出NeuroImprint攻击,恶意参数服务器在参数高效微调中植入隐私后门,通过为每个样本分配独立神经元并限制单次更新,实现高保真重建训练文本。