arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.08802 2026-05-13 cs.CV

CoLVR: Enhancing Exploratory Latent Visual Reasoning via Contrastive Optimization

Ziyang Ding, Linjian Meng, Yiming Wu, Yuhan Li, Yuhao Liu, Zhen Zhao

发表机构 * Shandong University（山东大学）； Shanghai AI Laboratory（上海人工智能实验室）； Nanjing University（南京大学）； The University of Hong Kong（香港大学）

AI总结 CoLVR 是一种通过对比优化增强潜空间视觉推理探索能力的方法，旨在解决现有模型因依赖硬对齐目标而限制潜空间推理灵活性的问题。该方法引入了基于角度扰动的潜空间对比训练框架，以学习更加多样化和探索性强的表示，并结合强化学习的潜轨迹对比奖励进行后训练，进一步优化潜空间推理过程。实验表明，CoLVR 在多个基准测试中显著提升了潜空间表示的探索能力，并在跨域任务中表现出色。

2605.08754 2026-05-13 cs.AI

Value-Decomposed Reinforcement Learning Framework for Taxiway Routing with Hierarchical Conflict-Aware Observations

Shizhong Zhou, Haifeng Liu, Zheng Zhang, Shiyu Zhang, Bo Yang, Yi Lin

发表机构 * National Key Laboratory of Fundamental Science on Synthetic Vision, Sichuan University（合成视觉基础科学国家重点实验室，四川大学）； College of Computer Science, Sichuan University（计算机学院，四川大学）

AI总结本文提出了一种名为CaTR的强化学习框架，用于解决机场地面上的实时多架飞机滑行路径规划问题。该框架通过分层的冲突感知观测机制，结合基于网格的环境建模和动作掩码技术，能够有效捕捉当前及下游的交通冲突信息，并采用价值分解策略以平衡安全与效率的多目标优化。实验表明，CaTR在多种交通密度下均能实现优于传统规划和强化学习方法的安全与效率综合性能。

2605.08693 2026-05-13 cs.AI

SkillMaster: Toward Autonomous Skill Mastery in LLM Agents

Min Yang, Jinghua Piao, Xu Xia, Xiaochong Lan, Jiaju Chen, Yongshun Gong, Yong Li

发表机构 * Shandong University（山东大学）； Zhongguancun Academy（中关村学院）； Tsinghua University（清华大学）； Southeast University（东南大学）； University of Science and Technology of China（中国科学技术大学）

AI总结 SkillMaster 是一种旨在使大语言模型代理实现自主技能掌握的训练框架。该方法通过轨迹引导的技能复盘、反事实效用评估和双优势估计机制，使代理能够在任务解决过程中自主创建、优化和选择技能，从而提升其应对复杂任务的能力。实验表明，SkillMaster 在多个基准任务中显著优于现有方法，展示了代理从被动使用技能向主动学习和改进技能的能力转变。

2605.08600 2026-05-13 cs.CL

100,000+ Movie Reviews from Kazakhstan: Russian, Kazakh, and Code-Switched Texts

Rustem Yeshpanov

发表机构 * Independent Researcher（独立研究员）； Astana, Kazakhstan（哈萨克斯坦阿斯塔纳）

AI总结本文介绍了一个包含100,502条哈萨克斯坦电影评论的多语言语料库，涵盖俄语、哈萨克语及代码混合文本，时间跨度从2001年至2025年。评论经过人工标注语言和情感极性，并附有部分用户评分。研究通过对比传统文本特征方法与多语言Transformer模型在情感分类任务中的表现，发现后者在极性分类任务中具有明显优势，但在评分分类任务中仍面临类别不平衡和评分细微差异带来的挑战。

Comments 10 pages, 1 figure, 8 tables, to appear in Proceedings of the 6th International Conference on Natural Language Processing for the Digital Humanities (NLP4DH 2026)

2605.08571 2026-05-13 cs.RO

BEACON: Cross-Domain Co-Training of Generative Robot Policies via Best-Effort Adaptation

Antong Zhang, Han Qi, Heng Yang

发表机构 * Department of Computer Science, Brown University（布朗大学计算机科学系）； School of Engineering and Applied Sciences, Harvard University（哈佛大学工程与应用科学学院）

AI总结本文提出BEACON框架，旨在通过最佳努力适应实现跨领域协同训练，用于在源域有大量示范而目标域示范有限的情况下训练生成式机器人策略。该方法将跨域协同训练建模为差异感知的重要性重加权问题，同时学习基于扩散模型的视觉运动策略和样本级源权重，以最小化目标域泛化保证下的目标函数。通过可扩展的实例级差异估计器、策略与权重的随机交替更新以及多源扩展，BEACON在多种跨域场景中提升了策略的鲁棒性和数据效率，并隐式实现了特征对齐。

2605.08446 2026-05-13 cs.LG

Direct Bethe Free Energy Minimization for Bayesian Neural Network

Pavel Prochazka

发表机构 * Cisco Inc.（思科公司）

AI总结本文提出了一种通过直接最小化Bethe自由能来训练贝叶斯神经网络的方法，替代传统的变分下界最大化策略。该方法在树状因子图上能够精确计算Bethe自由能，支持概率层和确定层的混合结构，并且在权重后验限制为最后一层高斯分布时，能够得到解析可计算的损失函数。实验表明，该方法在预测性能上与标准方法相当，同时避免了变分族选择带来的Jensen间隙，并实现了单次梯度传递下的超参数优化。

Comments Submited to conference - fix typo in title + name

2605.08328 2026-05-13 cs.LG cs.CV

P-Flow: Proxy-gradient Flows for Linear Inverse Problems

Zehua Jiang, Fenghao Zhu, Xinquan Wang, Chongwen Huang, Zhaoyang Zhang

发表机构 * Zhejiang University（浙江大学）； University of Notre Dame（诺丁汉大学）

AI总结本文提出了一种名为 P-Flow 的新框架，用于解决线性逆问题，通过引入代理梯度来更新源点，有效避免了传统方法中因长链求导导致的数值不稳定和计算开销。该方法结合高维空间中的测度集中现象，采用高斯球面投影以确保先验分布的一致性，并基于贝叶斯理论和 Lipschitz 连续性进行了理论分析。实验表明，P-Flow 在多种图像修复任务中表现优异，尤其在极端退化条件下具有明显优势。

2605.08322 2026-05-13 cs.LG cs.AI

SDG-MoE: Signed Debate Graph Mixture-of-Experts

Stepan Kulibaba, Kirill Labzin, Artem Dzhalilov, Roman Pakhomov, Oleg Svidchenko, Alexander Gasnikov, Aleksei Shpilman

发表机构 * Innopolis University（因诺波利斯大学）； Sirius University（西里乌斯大学）； HSE University（俄罗斯高等经济大学）

AI总结本文提出了一种名为SDG-MoE的新颖稀疏混合专家（MoE）架构，旨在通过引入专家间的结构化交流机制提升模型性能。该方法在路由后引入了一个轻量级的迭代讨论步骤，包含支持图和批评图两个交互矩阵，以及基于分歧的锚定机制，以增强专家间的信息传递与协调。实验表明，SDG-MoE在多个基准数据集上显著优于传统MoE和无符号图通信基线，验证了其有效性与优越性。

2605.08083 2026-05-13 cs.CL

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu, Hongming Zhang, Heng Huang

发表机构 * UMD（马里兰大学）； UVA（弗吉尼亚大学）； WUSTL（华盛顿大学）； UNC（北卡罗来纳大学）； Google（谷歌）； Meta（元宇宙）

AI总结本文研究了如何在推理时通过分配额外计算资源来提升大语言模型的性能，提出了一种名为AutoTTS的环境驱动框架，用于自动发现高效的推理时扩展策略。该方法通过构建可控的环境，使策略搜索更加高效，并引入参数化和反馈机制以提升发现效率。实验表明，所发现的策略在数学推理任务中优于手动设计的基线，在成本与准确率的权衡上表现更优，且发现过程成本低廉。

Comments 25 pages

2605.07782 2026-05-13 cs.CL cs.PL

CktFormalizer: Autoformalization of Natural Language into Circuit Representations

Jing Xiong, Qi Han, Chenchen Ding, He Xiao, Zunhai Su, Chaofan Tao, Ngai Wong

发表机构 * The University of Hong Kong（香港大学）

AI总结 CktFormalizer 是一个将自然语言自动转化为电路表示的框架，旨在解决大语言模型生成的 Verilog 代码在综合和实现过程中常出现的缺陷问题。该框架通过嵌入在 Lean 4 中的依赖类型硬件描述语言，实现了类型检查、正确性保障和形式化证明，有效提升了生成电路的正确性和可实现性。实验表明，CktFormalizer 在保持仿真通过率的同时，显著提高了后端实现的成功率，并能通过自动化定理证明实现性能优化。

2605.07744 2026-05-13 cs.AI

Alternating Target-Path Planning for Scalable Multi-Agent Coordination

Yu Kumagai, Keisuke Okumura

发表机构 * Hitotsubashi University, Japan（日本立命堂大学）； National Institute of Advanced Industrial Science and Technology (AIST), Japan（日本国家先进工业科学和技术研究院）

AI总结本文研究了多智能体在同时分配目标和规划路径（TAPF）中的协调问题，提出了一种解耦目标分配与路径规划的迭代优化框架。该方法基于高效的次优多智能体路径规划求解器，通过反复规划路径并利用反馈信息优化目标分配，有效提升了算法的可扩展性。实验表明，该框架在保持较好解质量的同时，显著优于基于冲突搜索的传统方法，为实际大规模TAPF问题提供了可行的解决方案。

2605.07552 2026-05-13 cs.CV

VIMCAN: Visual-Inertial 3D Human Pose Estimation with Hybrid Mamba-Cross-Attention Network

Zepeng Yang, Junxuan Bai, Hao Li, Ju Dai, Junjun Pan, Yongfeng Yin, Bin Li

发表机构 * Beihang University（北航）； Peng Cheng Laboratory（鹏城实验室）； Capital University of Physical Education and Sports（首都体育学院）； Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences（中国科学院深圳先进技术研究院）

AI总结该论文提出了一种名为VIMCAN的混合架构，用于视觉-惯性融合的三维人体姿态估计。该方法结合了Mamba的高效序列建模能力和Cross-Attention的空间感知能力，有效解决了传统Transformer在处理长序列时计算复杂度高、难以实时处理的问题。实验表明，VIMCAN在多个数据集上取得了优于现有方法的精度，并能在普通消费级硬件上实现每秒60帧以上的实时推理。

Comments Accepted in CVPR 2026

2605.06940 2026-05-13 cs.CL cs.AI cs.LG

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

Souvik Pramanik, S. M. Riaz Rahman Antu, Shak Mohammad Abyad, Md. Ibrahim Khalil, Md. Shahriar Hussain

发表机构 * North South University（北南大学）

AI总结该研究提出MultiSoc-4D，一个用于诊断封闭集指令下大型语言模型（LLM）标注偏差的孟加拉语社交媒体数据集，包含超过58,000条来自六个来源的社交媒体评论，并在四个维度上进行标注。通过多模型协作标注与共享验证集的结构化流程，研究系统性地揭示了LLM在标注过程中普遍存在的“指令诱导标签坍缩”现象，即模型倾向于使用默认标签，导致对少数类别的检测严重不足。该研究还通过统计验证证明了这一现象形成的“标签一致性幻觉”，并评估了40多个LLM在训练流程中的标注偏差传播情况，为低资源语言的NLP标注研究提供了重要基准。

Comments 21 pages, 14 figures, 13 tables

2605.06870 2026-05-13 cs.LG

Continuous First, Discrete Later: VQ-VAEs Without Dimensional Collapse

Xinyu Zhao, Nikita Karagodin, Hamed Hassani, Sinan Hersek, Paul Pu Liang, Yury Polyanskiy

发表机构 * MIT（麻省理工学院）； University of Pennsylvania（宾夕法尼亚大学）； Google（谷歌）

AI总结本文研究了VQ-VAE在训练过程中出现的维度坍塌问题，即编码表示退化到极低维子空间的现象，并揭示了这一问题会导致难以突破的下界损失。作者提出了一种简单有效的解决方法——在引入VQ之前先进行自编码器的预训练（AE Warm-Up），从而恢复编码表示的维度。实验表明，该方法在图像和音频任务中均显著提升了重建质量与感知性能，同时提高了码本的有效维度。

2605.06732 2026-05-13 cs.LG

On Training in Imagination

Nadav Timor, Ravid Shwartz-Ziv, Micah Goldblum, Yann LeCun, David Harel

发表机构 * Weizmann Institute of Science（魏茨曼研究所）； New York University（纽约大学）； Columbia University（哥伦比亚大学）； New York University AMI Labs（纽约大学AMI实验室）

AI总结本文研究了基于想象的模型强化学习中，使用学习到的动力学模型和奖励模型进行策略训练时，模型误差对策略优化和回报的影响。作者扩展了现有分析，推导出在功率律假设下最优的样本分配比例，以最小化回报误差的上界，并指出降低动力学、奖励和策略的Lipschitz常数有助于紧化这一界。此外，作者分析了REINFORCE算法在存在噪声奖励情况下的表现，发现零均值噪声不影响梯度估计的无偏性，但会增加方差，并提出了在固定预算下如何权衡 rollout 数量与奖励噪声的优化问题。

2605.06440 2026-05-13 cs.LG cs.CV

Hyperbolic Concept Bottleneck Models

Daniel Uyterlinde, Swasti Shreya Mishra, Pascal Mettes

发表机构 * Informatics Institute, University of Amsterdam（阿姆斯特丹大学信息学院）

AI总结该论文提出了一种名为Hyperbolic Concept Bottleneck Models（HypCBM）的新型可解释神经网络框架，用于提升模型的可解释性。与传统将概念嵌入欧几里得空间的方法不同，HypCBM将概念组织在语义层次结构中，并利用双曲空间的几何特性，通过不对称的几何包含关系来表示概念激活，从而更自然地捕捉概念间的层次关系。该方法无需额外监督或学习模块即可实现稀疏且层次感知的激活，并在保持人类可解释性的同时，展现出更强的层次一致性和对输入噪声的鲁棒性。

Comments 24 pages, 14 figures

2605.06314 2026-05-13 cs.LG

When Does $\ell_2$-Boosting Overfit Benignly? High-Dimensional Risk Asymptotics and the $\ell_1$ Implicit Bias

Ye Su, Jian Li, Yong Liu

发表机构 * Shenzhen Institutes of Advanced Technology（深圳先进技术研究院）； School of Artificial Intelligence（人工智能学院）； Chinese Academy of Sciences（中国科学院）； Beijing Normal University（北京师范大学）； Gaoling School of Artificial Intelligence（海淀区人工智能学院）； Renmin University of China（中国人民大学）

AI总结本文研究了在高维设置下，$\ell_2$-Boosting 算法在 $\ell_1$ 隐含偏差下的良性过拟合行为。通过结合凸高斯极小极大定理与截断高斯矩的渐近展开，作者分析了连续时间 $\ell_2$-Boosting 的风险特性，揭示了其在纯噪声模型下以对数速率衰减的过拟合现象，并指出在存在信号时，该机制仍可能成立，但信号-噪声分解仍是开放问题。此外，作者还提出了一个无需调参的早停规则，能够在 $\ell_1$ 约束下达到最优的预测性能。

2605.06218 2026-05-13 cs.LG

AffineLens: Capturing the Continuous Piecewise Affine Functions of Neural Networks

Yi Wei, Xuan Qi, Furao Shen, Jian Zhao, Vittorio Murino, Cigdem Beyan

发表机构 * State Key Laboratory of Novel Software Technology School of Intelligence Science and Technology Nanjing University, Jiangsu, China（软件新技术国家重点实验室智能科学与技术学院南京大学江苏中国）； AI for Good Istituto Italiano di Tecnologia, Genoa, Italy DITEN University of Genoa, Genoa, Italy（AI for Good 意大利技术研究院，热那亚，意大利 DITEN 热那亚大学，热那亚，意大利）； State Key Laboratory of Novel Software Technology School of Artificial Intelligence Nanjing University, Jiangsu, China（软件新技术国家重点实验室人工智能学院南京大学江苏中国）； AI for Good Istituto Italiano di Tecnologia, Genoa, Italy Department of Computer Science University of Verona, Verona, Italy（AI for Good 意大利技术研究院，热那亚，意大利计算机科学系热那亚大学，热那亚，意大利）

AI总结 AffineLens 是一种用于分析神经网络中分段仿射函数结构的统一框架，旨在准确捕捉神经网络输入输出映射的连续分段仿射特性。该方法通过计算神经元诱导的超平面排列和多面体结构，逐层枚举并可视化网络的仿射区域，从而提供对网络表达能力的直观理解与量化评估。AffineLens 支持包括批量归一化、池化、残差连接等多种现代网络组件，并通过实证研究揭示了不同网络设计对函数几何特性的影响。

2605.05971 2026-05-13 cs.LG

Training Transformers for KV Cache Compressibility

Yoav Gelberg, Yam Eitan, Michael Bronstein, Yarin Gal, Haggai Maron

发表机构 * University of Oxford（牛津大学）； Technion – Israel Institute of Technology（技术ion理工学院）； AITHYRA ； NVIDIA

AI总结随着长上下文语言模型的发展，Key-Value（KV）缓存的内存和解码时访问成本已成为关键瓶颈。本文提出了一种在训练过程中引导Transformer模型学习可压缩表示的方法，即KV-压缩感知训练（KV-CAT），通过在训练时稀疏化KV缓存，促使模型生成更利于后续压缩的内部表示。实验表明，该方法有效提升了后续压缩方法在检索、长上下文问答和压缩前缀续写等任务中的性能表现。

Comments 32 pages, 4 figures

2605.05922 2026-05-13 cs.CV

Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

Yuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wan, Kuien Liu, Xiang Wang

发表机构 * University of Science and Technology of China（中国科学技术大学）； Kling Team, Kuaishou Technology（快手科技 Kling 团队）； Institute of Software Chinese Academy of Sciences（中国科学院软件研究所）

AI总结该论文提出了一种名为DeScore的视频奖励模型，旨在解决现有模型在推理与评分耦合时存在的优化瓶颈问题。其核心方法是将推理与评分过程解耦，先由多模态大语言模型生成详细的推理过程，再通过独立的评分模块预测最终奖励。该方法在保证模型可解释性和泛化能力的同时，提升了训练稳定性与效率。

2605.04946 2026-05-13 cs.LG stat.ML

Training-Time Batch Normalization Reshapes Local Partition Geometry in Piecewise-Affine Networks

Xuan Qi, Yi Wei, Fanqi Yu, Furao Shen, Vittorio Murino, Cigdem Beyan

发表机构 * AI for Good Istituto Italiano di Tecnologia（AI for Good 意大利技术研究院）； DITEN University of Genoa（DITEN Genoa大学）； State Key Laboratory of Novel Software Technology School of Intelligence Science and Technology（新型软件技术国家重点实验室智能科学与技术学院）； School of Artificial Intelligence Nanjing University（人工智能学院南京大学）； Department of Computer Science University of Verona（计算机科学系 Verona大学）

AI总结本文研究了训练过程中批量归一化（BN）在分段仿射网络中的几何影响，揭示了BN如何通过调整神经元的参考超平面，改变局部区域的划分结构。研究发现，BN在每个神经元上定义了一个以小批量中心为基准的超平面，其切换超平面的偏移量以标准化坐标表示，与原始偏置无关。这一机制提高了局部划分的精细程度，并在深度网络中具有局部传递性，为理解BN在训练阶段的函数级几何作用提供了新视角。

2605.04647 2026-05-13 cs.RO

ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

Huimin Wang, Yue Wang, Bihao Cui, Pengxiang Li, Ben Lu, Mingqian Wang, Tong Wang, Chuan Tang, Teng Zhang, Kun Zhan

发表机构 * LiAuto

AI总结本文提出 ReflectDrive-2，一种基于强化学习对齐的离散扩散规划器，用于自动驾驶任务。该方法通过独立的动作专家生成离散轨迹标记，并利用并行掩码解码生成轨迹，支持在原地进行轨迹编辑。通过两阶段训练策略，结合结构感知扰动和强化学习优化，显著提升了轨迹生成与编辑的性能。实验表明，ReflectDrive-2 在 NAVSIM 上实现了较高的 PDMS 分数，并具备较高的推理效率。

2605.04539 2026-05-13 cs.CL cs.AI

RLearner-LLM: Balancing Logical Grounding and Fluency in Large Language Models via Hybrid Direct Preference Optimization

Qiming Bao, Juho Leinonen, Paul Denny, Michael J. Witbrock

发表机构 * University of Auckland（奥克兰大学）； Aalto University（阿alto大学）

AI总结该论文提出了一种名为RLearner-LLM的新方法，旨在解决大型语言模型在知识密集型生成任务中逻辑准确性与流畅性之间的平衡问题。研究通过引入混合直接偏好优化（Hybrid-DPO）技术，结合基于DeBERTa-v3的自然语言推理信号和验证器LLM评分，无需人工标注即可提升模型的逻辑对齐能力。实验表明，该方法在多个学术领域中显著提升了模型的逻辑推理能力，同时保持了生成流畅性，并在多个基础模型上实现了有效的性能提升。

2605.02906 2026-05-13 cs.LG

An End-to-End Framework for Building Large Language Models for Software Operations

Jingkai He, Pengfei Chen, Chenghui Wu, Shuang Liang, Ye Li, Gou Tan, Xiadao Wen, Chuanfu Zhang

发表机构 * School of Systems Science and Engineering, Sun Yat-sen University（系统科学与工程学院，中山大学）； School of Computer Science and Engineering, Sun Yat-sen University（计算机科学与工程学院，中山大学）； Alibaba Cloud Computing（阿里云 computing）

AI总结本文提出了一种面向软件运维领域的端到端大语言模型构建框架 OpsLLM，旨在解决当前运维场景下大模型因数据质量低、知识碎片化和学习效率不足而难以实现高效智能运维的问题。该框架引入了人工参与的数据筛选机制和领域过程奖励模型，有效提升了模型在运维问答和根因分析任务中的准确性和可靠性。实验表明，OpsLLM 在多个难度级别的任务中均优于现有开源和闭源模型，并且已开源三个不同参数规模的版本及相应的微调数据集。

2605.00939 2026-05-13 cs.LG cs.AI

From Flat Facts to Sharp Hallucinations: Detecting Stubborn Errors via Gradient Sensitivity

Yee Zhing Liew, Andrew Huey Ping Tan, Anwar P. P. Abdul Majeed

发表机构 * School of Intelligent Manufacturing Ecosystem, Xi’an Jiaotong-Liverpool University, People’s Republic of China（智能制造生态系统学院，西安交通大学-利物浦大学，中华人民共和国）； Department of Computer Science, University of Liverpool, United Kingdom（计算机科学系，利物浦大学，英国）； Faculty of Engineering and Technology, Sunway University, Malaysia（工程与技术学院，Sunway大学，马来西亚）； School of Robotics, Xi’an Jiaotong-Liverpool University, People’s Republic of China（机器人学院，西安交通大学-利物浦大学，中华人民共和国）

AI总结本文研究了传统语言模型中难以检测的“顽固性幻觉”问题，即模型在错误信息上表现出高度自信的情况。作者提出了一种基于梯度敏感性的几何检测方法——嵌入扰动梯度敏感性（EPGS），通过在输入嵌入中加入高斯噪声并测量梯度幅值的变化，来区分稳定知识与脆弱记忆。实验表明，该方法在检测高置信度事实错误方面显著优于基于熵和表示的基线方法。

Comments Accepted to ICML 2026. Camera-ready version

2604.24801 2026-05-13 cs.LG cs.AI

Architecture Determines Observability of Transformers

Thomas Carmichael

发表机构 * Independent Researcher（独立研究者）

AI总结该研究探讨了Transformer模型中架构对可观测性的影响，指出自回归Transformer在输出置信度监控下仍可能产生无法被检测的错误。研究发现，激活信号中包含的决策质量信息主要由模型架构和训练过程决定，而非输出置信度本身。实验表明，通过控制输出置信度可大幅减少激活探针信号，而剩余信号的可观测性取决于架构和训练方式，为模型监控和训练设计提供了新的视角。

Comments 31 pages, 8 figures, 14 tables. v3 of arXiv:2604.24801. Code v5.1.0: https://github.com/tmcarmichael/nn-observability/tree/v5.1.0 Changelog: https://github.com/tmcarmichael/nn-observability/blob/v5.1.0/CHANGELOG.md Croissant: https://github.com/tmcarmichael/nn-observability/blob/v5.1.0/croissant.json

2604.22099 2026-05-13 cs.LG

Assessing the impact of dimensionality reduction on clustering performance -- a systematic study

Ousmane Assani-Amate, Mohammadreza Bakhtyari, Émilie Roy, Vladimir Makarenkov

发表机构 * Université du Québec à Montréal（魁北克大学蒙特利尔分校）； Mila - Quebec AI Institute（魁北克AI研究所）

AI总结本研究系统评估了五种降维技术对四种聚类算法性能的影响，旨在探讨降维在高维数据聚类中的作用。通过调整降维后的维度比例，并使用调整兰德指数（ARI）进行性能比较，研究发现选择合适的降维方法和降维程度对于提升聚类效果至关重要，且需根据数据结构和聚类算法特性进行适配。

2604.22026 2026-05-13 cs.AI cs.CY cs.DL

Rethinking Publication: A Certification Framework for AI-Enabled Research

Yang Lu, Rabimba Karanjai, Lei Xu, Weidong Shi

发表机构 * Department of Computer Science, University of Houston, Houston, Texas（休斯敦大学计算机科学系）

AI总结本文提出了一种用于评估AI生成研究成果的双重认证框架，旨在应对当前学术出版体系对人类作者假设的局限性。该框架将知识有效性与人类贡献程度的评估分离开来，前者确保研究成果的科学性，后者明确人类在研究过程中的参与程度。研究还提出了专门的基准投稿渠道，以促进完全自动化研究成果的透明发表，并强调应基于知识价值而非作者身份来评价研究贡献。

Comments correct references

详情

英文摘要

AI research pipelines can now generate academic work that may satisfy existing peer review standards for quality, novelty, and methodological rigor. However, the publication system was built around the assumption that research is produced by human authors. It therefore lacks a clear way to evaluate work when the knowledge claim may be valid but the producer is partly or fully automated. This paper proposes a two-layer certification framework for AI-generated research. The first layer evaluates whether the knowledge claim is sound. The second layer evaluates the level of human contribution. This separation allows journals and conferences to assess pipeline-generated work more consistently without creating new institutions. The framework uses normative analysis, conceptual design, and dry-run validation against representative submission cases. It classifies human contribution into three categories: Category A, where the work is reachable by an automated pipeline; Category B, where human direction is required at identifiable stages; and Category C, where the work goes beyond current pipeline capability, especially at the problem-formulation stage. The paper also proposes dedicated benchmark slots for fully disclosed automated research. These slots would provide a transparent publication path and help reviewers calibrate judgments over time. The key argument is that publication has historically certified two things at once: that the knowledge is valid and that a human produced it. AI research pipelines separate these two claims. By decoupling knowledge certification from authorship attribution, the proposed framework responds to a structural change already underway. It can be implemented within existing editorial systems, works even when attribution is uncertain, and recognizes human frontier contribution based on epistemic value rather than human origin alone.

URL PDF HTML ☆

赞 0 踩 0

2604.21052 2026-05-13 cs.CV cs.AI

StyleVAR: Controllable Image Style Transfer via Visual Autoregressive Modeling

Liqi Jing, Dingming Zhang, Peinian Li, Lichen Zhu, Yang Xu, Hanyu Xing

发表机构 * Duke University（杜克大学）； University of Southern California（南加州大学）； Xidian University（西安电子科技大学）

AI总结 StyleVAR 是一种基于视觉自回归建模（VAR）框架的可控图像风格迁移方法，通过将图像分解为多尺度表示并编码为离散码，利用变压器模型在条件离散序列建模中实现风格与内容的可控融合。该方法引入了混合交叉注意力机制和尺度相关的融合系数，以在保持自回归连续性的同时，有效结合风格与内容信息。实验表明，StyleVAR 在多个基准测试中优于传统 AdaIN 方法，在感知相似度和结构保持方面表现突出，尤其在风景和建筑场景中效果显著。

详情

英文摘要

We build on the Visual Autoregressive Modeling (VAR) framework and formulate style transfer as conditional discrete sequence modeling in a learned latent space. Images are decomposed into multi-scale representations and tokenized into discrete codes by a VQ-VAE; a transformer then autoregressively models the distribution of target tokens conditioned on style and content tokens. To inject style and content information, we introduce a blended cross-attention mechanism in which the evolving target representation attends to its own history, while style and content features act as queries that decide which aspects of this history to emphasize. A scale-dependent blending coefficient controls the relative influence of style and content at each stage, encouraging the synthesized representation to align with both the content structure and the style texture without breaking the autoregressive continuity of VAR. We train StyleVAR in two stages from a pretrained VAR checkpoint: supervised fine-tuning on a large triplet dataset of content--style--target images, followed by reinforcement fine-tuning with Group Relative Policy Optimization (GRPO) against a DreamSim-based perceptual reward, with per-action normalization weighting to rebalance credit across VAR's multi-scale hierarchy. Across three benchmarks spanning in-, near-, and out-of-distribution regimes, StyleVAR consistently outperforms an AdaIN baseline on Style Loss, Content Loss, LPIPS, SSIM, DreamSim, and CLIP similarity, and the GRPO stage yields further gains over the SFT checkpoint, most notably on the reward-aligned perceptual metrics. Qualitatively, the method transfers texture while maintaining semantic structure, especially for landscapes and architectural scenes, while a generalization gap on internet images and difficulty with human faces highlight the need for better content diversity and stronger structural priors.

URL PDF HTML ☆

赞 0 踩 0

2604.16684 2026-05-13 cs.LG stat.ML

DARLING: Detection Augmented Reinforcement Learning with Non-Stationary Guarantees

Argyrios Gerogiannis, Yu-Han Huang, Venugopal V. Veeravalli

发表机构 * ECE and CSL, The Grainger College of Engineering University of Illinois at Urbana-Champaign（电气与计算机工程系和计算机科学实验室，伊利诺伊大学厄巴纳-香槟分校）

AI总结本文研究了在非平稳有限时间回合马尔可夫决策过程（MDPs）中的无模型强化学习问题，且不预先知道非平稳性。针对分段平稳（PS）环境，即奖励和转移动态在未知时间点发生变化的情况，提出了一个名为DARLING的模块化方法，适用于表格和线性MDPs，无需提前知道变化时间点。DARLING在理论分析中改进了已知的最佳动态遗憾界，并在多种非平稳基准测试中表现出优于现有方法的性能。

Comments 50 pages, 8 figures

AI 大模型

视觉与机器人

科学与医疗

CoLVR: Enhancing Exploratory Latent Visual Reasoning via Contrastive Optimization

Value-Decomposed Reinforcement Learning Framework for Taxiway Routing with Hierarchical Conflict-Aware Observations

SkillMaster: Toward Autonomous Skill Mastery in LLM Agents

100,000+ Movie Reviews from Kazakhstan: Russian, Kazakh, and Code-Switched Texts

BEACON: Cross-Domain Co-Training of Generative Robot Policies via Best-Effort Adaptation

Direct Bethe Free Energy Minimization for Bayesian Neural Network

P-Flow: Proxy-gradient Flows for Linear Inverse Problems

SDG-MoE: Signed Debate Graph Mixture-of-Experts

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

CktFormalizer: Autoformalization of Natural Language into Circuit Representations

Alternating Target-Path Planning for Scalable Multi-Agent Coordination

VIMCAN: Visual-Inertial 3D Human Pose Estimation with Hybrid Mamba-Cross-Attention Network

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

Continuous First, Discrete Later: VQ-VAEs Without Dimensional Collapse

On Training in Imagination

Hyperbolic Concept Bottleneck Models

When Does $\ell_2$-Boosting Overfit Benignly? High-Dimensional Risk Asymptotics and the $\ell_1$ Implicit Bias

AffineLens: Capturing the Continuous Piecewise Affine Functions of Neural Networks

Training Transformers for KV Cache Compressibility

Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

Training-Time Batch Normalization Reshapes Local Partition Geometry in Piecewise-Affine Networks

ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

RLearner-LLM: Balancing Logical Grounding and Fluency in Large Language Models via Hybrid Direct Preference Optimization

An End-to-End Framework for Building Large Language Models for Software Operations

From Flat Facts to Sharp Hallucinations: Detecting Stubborn Errors via Gradient Sensitivity

Architecture Determines Observability of Transformers

Assessing the impact of dimensionality reduction on clustering performance -- a systematic study

Rethinking Publication: A Certification Framework for AI-Enabled Research

StyleVAR: Controllable Image Style Transfer via Visual Autoregressive Modeling

DARLING: Detection Augmented Reinforcement Learning with Non-Stationary Guarantees