arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2604.27859 2026-05-18 cs.AI cs.ET

Rethinking Agentic Reinforcement Learning In Large Language Models

Fangming Cui, Ruixiao Zhu, Cheng Fang, Sunan Li, Jiahong Li

发表机构 * Beijing Beijing China（北京北京中国）； Shanghai Beijing China（上海北京中国）

AI总结本文探讨了在大型语言模型（LLM）背景下对智能体强化学习（Agentic RL）的重新思考。研究关注如何将LLM的认知能力，如目标设定、长期规划、动态策略调整和交互推理，融入强化学习框架，以应对复杂、开放式的现实任务。文章深入分析了该范式的核心概念、方法创新与设计原则，并指出了当前面临的挑战及未来发展方向。

2604.26139 2026-05-18 cs.CL

HIVE: Hidden-Evidence Verification for Hallucination Detection in Diffusion Large Language Models

Guoshenghui Zhao, Tan Yu, Weijie Zhao

发表机构 * Rochester Institute of Technology（罗切斯特理工学院）； NVIDIA Corporation（英伟达公司）

AI总结本文提出了一种名为HIVE的隐藏证据验证框架，用于检测扩散大语言模型（D-LLMs）生成过程中的幻觉。HIVE通过从去噪轨迹中提取压缩的隐藏证据，并结合信息步层选择和前缀嵌入条件验证语言模型，实现了对幻觉的更精细检测，能够输出连续的幻觉评分及结构化的验证结果。实验表明，HIVE在多个基准测试中优于现有方法，验证了隐藏证据在提升幻觉检测性能中的有效性。

Comments 5 figures, appendix included

2604.17669 2026-05-18 cs.CV

Low Light Image Enhancement Challenge at NTIRE 2026

George Ciubotariu, Sharif S M A, Abdur Rehman, Fayaz Ali Dharejo, Rizwan Ali Naqvi, Marcos V. Conde, Radu Timofte, Zhi Jin, Hongjun Wu, Wenjian Zhang, Chang Ye, Xunpeng Yi, Qinglong Yan, Yibing Zhang, Zaynab Ali, Saiprasad Meesiyawar, Varda I Pattanshetty, Varsha I Pattanshetty, Nikhil Akalwadi, Padmashree Desai, Ramesh Ashok Tabib, Uma Mudenagudi, Hao Yang, Ruikun Zhang, Liyuan Pan, Furkan Kınlı, Donghun Ryou, Inju Ha, Junoh Kang, Bohyung Han, Wei Zhou, Yuval Haitman, Ariel Lapid, Reuven Peretz, Idit Diamant, Leilei Cao, Shuo Zhang, Praful Hambarde, Prateek Shaily, Jayant Kumar, Hardik Sharma, Aashish Negi, Sachin Chaudhary, Akshay Dudhane, Amit Shukla, MoHao Wu, Lin Wang, Jiachen Tu, Guoyi Xu, Yaoxin Jiang, Jiajia Liu, Yaokun Shi, Raul Balmez, Alexandru Brateanu, Ciprian Orhei, Cosmin Ancuti, Codruta O. Ancuti, Bilel Benjdira, Anas M. Ali, Wadii Boulila, Kaifan Qiao, Bofei Chen, Jingyi Xu, Duo Zhang, Xin Deng, Mai Xu, Shengxi Li, Lai Jiang, Harini A, Ananya N, Lakshanya K, Ying Xu, Xinyi Zhu, Shijun Shi, Jiangning Zhang, Yong Liu, Kai Hu, Jing Xu, Xianfang Zeng, Jinao Song, Guangsheng Tang, Cheng Li, Yuqiang Yang, Ziyi Wang, Yan Chen, Long Bao, Heng Sun, Mohab Kishawy, Jun Chen, Wan-Chi Siu, Yihao Cheng, Hon Man Hammond Lee, Chun-Chuen Hui

发表机构 * NTIRE 2026

AI总结本文综述了NTIRE 2026低光图像增强挑战赛，介绍了参赛者提出的各种解决方案及最终结果。该挑战赛旨在寻找能够有效提升低对比度和噪声图像清晰度与视觉吸引力的网络模型。共有22支队伍提交了有效作品，本文全面评估了当前在（联合去噪与）低光图像增强领域的先进方法，展示了该领域的重要进展，并基于新的数据集进行了分析。

2604.16925 2026-05-18 cs.CV

Rethinking Cross-Dose PET Denoising: Mitigating Averaging Effects via Residual Noise Learning

Yichao Liu, Zongru Shao, Yueyang Teng, Junwen Guo

发表机构 * IWR, Heidelberg University（海德堡大学IWR）； Silicon Austria Labs（Silicon Austria实验室）； College of Medicine and Biological Information Engineering, Key Laboratory of Intelligent Computing in Medical Image, Ministry of Education, Northeastern University（医学与生物信息工程学院，医学图像智能计算教育部重点实验室，东北大学）； Department of Epidemiology & Global Health, Umeå University（流行病学与全球健康系，乌梅大学）

AI总结本文研究了低剂量正电子发射断层扫描（LDPET）图像的跨剂量去噪问题，指出传统模型在不同剂量条件下泛化能力较差，主要由于噪声水平和统计特性差异导致。作者分析发现，现有方法在训练过程中隐式优化了异质噪声分布的期望，导致网络学习到的是跨剂量的平均去噪映射，无法准确建模特定剂量的噪声特性。为此，提出了一种统一的残差噪声学习框架，直接从低剂量图像中估计噪声，而非预测全剂量图像，实验表明该方法在多个医疗中心的大规模数据集上优于现有方法，显著提升了跨剂量去噪性能。

2604.15221 2026-05-18 cs.RO cs.CV

Vision-Based Safe Human-Robot Collaboration with Uncertainty Guarantees

Jakob Thumm, Marian Frei, Tianle Ni, Matthias Althoff, Marco Pavone

发表机构 * Department of Aeronautics and Astronautics, Stanford University（斯坦福大学航空航天系）； Chair of Imaging and Computer Vision, RWTH Aachen University（亚琛工业大学影像与计算机视觉教授职位）； School of Artificial Intelligence, Shanghai Jiao Tong University（上海交通大学人工智能学院）； Department of Computer Engineering, Technical University of Munich（慕尼黑技术大学计算机工程系）

AI总结本文提出了一种基于视觉的人体姿态估计与运动预测框架，能够在保证安全协作的前提下提供可验证的不确定性保障。该方法结合了对噪声不确定性的估计与分布外检测，以提升预测的置信度，并引入符合性预测集来确保预测结果在实际人机协作中的高可靠性。实验在真实的人体运动数据和实际人机协作场景中验证了方法的有效性。

2604.08302 2026-05-18 cs.LG cs.AI

DMax: Aggressive Parallel Decoding for dLLMs

Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang

发表机构 * National University of Singapore（新加坡国立大学）

AI总结本文提出了一种名为 DMax 的新方法，用于高效生成扩散语言模型（dLLMs）。该方法通过引入渐进式自优化机制和软并行解码策略，有效缓解了并行解码中的错误累积问题，从而在保持生成质量的同时实现更高效的并行生成。DMax 还提出了 On-Policy Uniform Training 训练策略，统一了掩码和非掩码模型的训练过程，显著提升了模型在多个基准测试中的生成效率与性能。

Comments Working in progress. Code is available at: https://github.com/czg1225/DMax

2604.04539 2026-05-18 cs.LG cs.RO

FlashSAC: Fast and Stable Off-Policy Reinforcement Learning for High-Dimensional Robot Control

Donghu Kim, Youngdo Lee, Minho Park, Kinam Kim, I Made Aswin Nahendra, Takuma Seno, Sehee Min, Daniel Palenicek, Florian Vogt, Danica Kragic, Jan Peters, Jaegul Choo, Hojoon Lee

发表机构 * KTH Royal Institute of Technology（皇家理工学院）； German Research Center for AI (DFKI)（德国人工智能研究中心）； Robotics Institute Germany (RIG)（德国机器人研究所）

AI总结本文提出了一种名为 FlashSAC 的快速且稳定的离线策略强化学习算法，用于解决高维机器人控制问题。该方法基于软演员评论家（Soft Actor-Critic）框架，通过增大模型规模和提升数据吞吐量来减少梯度更新次数，同时通过显式限制权重、特征和梯度的范数来保持稳定性。实验表明，FlashSAC 在多个模拟器中的超过 60 个任务上均优于 PPO 和其他先进离线策略方法，尤其在高维任务中表现出显著性能提升，并在模拟到现实的人形机器人运动任务中大幅缩短了训练时间。

Comments RSS'26

2604.04310 2026-05-18 cs.RO

frax: Fast Robot Kinematics and Dynamics in JAX

Daniel Morton, Marco Pavone

发表机构 * Departments of Mechanical Engineering and Aeronautics & Astronautics, Stanford University（机械工程系和航空与航天系，斯坦福大学）

AI总结本文介绍了一个基于 JAX 的机器人运动学与动力学库 frax，旨在提供高性能、易用且兼容 CPU 和加速器的解决方案。该库采用全向量化方法，支持实时控制与并行计算，并兼容自动微分，适用于优化方法。实验表明，frax 在 CPU 上可实现微秒级计算，适用于千赫兹控制频率，性能优于常见 Python 库并接近优化的 C++ 实现；在 GPU 上则能扩展到数千个实例，每秒可达上亿次动力学计算。

Comments ICRA 2026 Workshop on Frontiers of Optimization for Robotics

2604.02268 2026-05-18 cs.LG

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Zhengxi Lu, Zhiyuan Yao, Jinyang Wu, Chengcheng Han, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen

发表机构 * Zhejiang University（浙江大学）； Meituan（美团）； Tsinghua University（清华大学）

AI总结该研究探讨了如何将技能内化为模型参数，以实现无需运行时检索的零样本自主行为。为此，提出了一种基于上下文强化学习的框架SKILL0，通过训练时逐步减少技能上下文，引导模型学习工具调用和多轮任务完成。实验表明，SKILL0在多个智能体任务中显著优于传统强化学习方法，同时保持了高效的上下文使用效率。

2603.27043 2026-05-18 cs.CL

Introducing MELI: the Mandarin-English Language Interview Corpus

Suyuan Liu, Molly Babel

发表机构 * Department of Linguistics, University of British Columbia（不列颠哥伦比亚大学语言学系）

AI总结本文介绍了MELI语料库，一个包含51名 Mandarin-English 双语者29.8小时语音数据的开源语料库，涵盖阅读句子和关于语言变体、标准性及学习经历的自发访谈两种说话风格。语料库提供了逐字和音素级别的强制对齐转录，并记录了语言态度等元数据，支持跨语言及跨说话者的声学对比分析，有助于开展定量与定性研究。

Comments Accepted at LREC 2026 (14th International Conference on Language Resources and Evaluation), to appear in the conference proceedings

Journal ref In Proceedings of the Fifteenth Language Resources and Evaluation Conference (pp. 5896-5904). European Language Resources Association (ELRA) 2026

2603.23433 2026-05-18 cs.AI

Mecha-nudges for Machines

Giulio Frey, Kawin Ethayarajh

发表机构 * University of Chicago（芝加哥大学）

AI总结本文研究了AI智能体在互联网环境中作为决策者时，其决策可能受到环境变化的系统性影响，这一现象被称为“机械助推”（mecha-nudging）。作者结合经济学中的贝叶斯劝导理论和计算机科学中的可利用信息理论，提出了一种量化环境变化对AI影响的统一方法，并基于超过六百万个Etsy商品列表的数据分析发现，ChatGPT发布后，商品信息中用于预测AI推荐决策的机器可利用信息显著增加，而人类可利用信息则几乎没有变化。该研究首次提供了大规模实证证据，表明系统性的机械助推已在实际环境中发生，但尚未被广泛察觉。

2603.14764 2026-05-18 cs.CV cs.AI cs.LG

Topology-Preserving Polygon Augmentation for Segmentation in Structured Visual Domains

Sudip Laudari, Sang Hun Baek

发表机构 * Independent Researcher（独立研究者）

AI总结该论文研究了在结构化视觉领域（如建筑平面图分析）中保持多边形标注拓扑结构的图像增强方法。针对传统几何增强可能导致多边形区域分割、破坏语义连通性的缺陷，提出了一种轻量的拓扑保持增强策略，能够在不改变顶点顺序的前提下修复索引空间中的邻接关系。实验表明，该方法在常见几何变换下能实现接近完美的循环邻接保持（CAP），并有效提升了基于多边形的分割标注一致性。

Comments 10 pages, 6 figures

2603.10881 2026-05-18 cs.LG

LAtte: Hyperbolic Lorentz Attention for Cross-Subject EEG Classification

Ahmad Bdeir, Johannes Burchert, Tom Hanika, Lars Schmidt-Thieme, Niels Landwehr

发表机构 * Data Science Group（数据科学组）； ISMLL ； Universität Hildesheim（希尔德斯海姆大学）

AI总结本文提出了一种名为LAtte的框架，用于解决跨被试脑电图（EEG）分类中的泛化难题。该方法结合了洛伦兹注意力机制与基于双曲几何的InceptionTime编码器，通过将EEG信号分解为基线和任务相关偏差，提升特征表示的结构化程度。此外，模型引入了针对每个被试的低秩适配模块，并结合洛伦兹提升和双曲投影技术，增强模型的鲁棒性和适应性，在多个数据集上均取得了优于现有方法的分类性能。

2603.08063 2026-05-18 cs.CV

SkyLink: A Large Vision-Language Model Driven Re-ranking Framework for Cross-View UAV geolocalization

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao

发表机构 * Department of Data Science, City University of Hong Kong, Hong Kong（香港城市大学数据科学系）； Information Systems, City University of Hong Kong, Hong Kong（香港城市大学信息系统系）； College of Computer Science and Technology, Zhejiang University of Technology, Zhejiang（浙江工业大学计算机科学与技术学院）

AI总结 SkyLink 是一种基于大视觉-语言模型（LVLM）的跨视角无人机地理定位重排序框架，旨在提升无人机图像与卫星图像之间的匹配精度。该方法通过建模不同视角之间的视觉-语义关系，实现更有效的跨视角匹配，并引入一种关系感知损失函数以增强模型的判别能力和训练稳定性。实验表明，SkyLink 显著提升了现有模型在多种基准数据集上的重排序性能，尤其在复杂场景中表现突出。

2603.07514 2026-05-18 cs.LG cs.AI cs.CV

A Unified View of Score-Based and Drifting Models

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao

发表机构 * Sony AI（索尼人工智能）； Sony Group Corporation（索尼集团）； Stanford University（斯坦福大学）； Georgia Tech（佐治亚理工学院）

AI总结本文探讨了漂移模型与基于分数的生成模型之间的内在联系，揭示了漂移方法在本质上等价于对平滑分布进行分数匹配的目标。研究发现，使用高斯核时，均值漂移场精确对应于数据分布与模型分布的分数差异，这一结论基于Tweedie公式。对于实际常用的拉普拉斯核，理论与实验均表明其残差项在高维情况下可忽略，因此实际应用中的漂移方法近似于基于分数的生成方法。该研究为理解生成模型提供了统一的视角，并指出了漂移模型与扩散模型在运输方向上的结构性相似与差异。

2603.03243 2026-05-18 cs.RO

HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations

Xiaomeng Xu, Jisang Park, Han Zhang, Eric Cousineau, Aditya Bhat, Jose Barreiros, Dian Wang, Jeannette Bohg, Shuran Song

发表机构 * Stanford University（斯坦福大学）； Toyota Research Institute（丰田研究院）

AI总结本文提出了一种名为HoMMI的框架，用于从无需机器人的人类演示中直接学习全身移动操作任务。该框架通过增强UMI接口，引入以自我为中心的感知方式，实现了便携、可扩展的数据采集，但同时也带来了人机体感差距的问题。为此，研究者设计了一种跨体感的手眼策略，包括通用视觉表征、放松的头部动作表示以及协调全身运动的控制器，从而实现了复杂移动操作任务的策略迁移。

2603.01283 2026-05-18 cs.AI cs.LG

The Informational Cost of Agency: A Bounded Measure of Interaction Efficiency for Deployed Reinforcement Learning

Wael Hafez, Cameron Reid, Amit Nazeri

发表机构 * Semarx Research LLC（Semarx研究公司）

AI总结本文提出了一种名为“双可预测性”（Bipredictability，记为P）的信息论指标，用于量化智能体与环境之间的闭环交互在消除不确定性、提升共享可预测性方面的效率。该指标具有理论上的上限（小于0.5），并证明智能体的主动行为会抑制P值低于这一阈值，这一现象被称为“智能体的信息成本”。实验表明，P不仅在强化学习系统中有效，还适用于语言模型、视觉系统等不同领域，展示了其广泛的适用性；同时，基于P构建的信息数字孪生（IDT）架构在检测系统退化方面表现出更高的准确率和更低的延迟，为部署中的自主系统提供了新的可靠性评估手段。

Comments 12 pages, 2 figures

2602.23409 2026-05-18 cs.LG cs.AI cs.ET quant-ph

Long Range Frequency Tuning for QML

Michael Poppel, Markus Baumann, Sebastian Wölckert, Claudia Linnhoff-Popien, Jonas Stein

发表机构 * LMU Munich（慕尼黑大学）； Aqarios GmbH（Aqarios公司）

AI总结该研究针对变分量子电路中的频率编码问题，提出了一种新的初始化方法以提升其对高频函数的拟合能力。传统方法在固定编码下需要大量门操作，而可训练频率电路虽有潜力，但因频谱间隙导致梯度下降效果受限。本文提出的三进制网格初始化方法通过合理设置频率前缀，消除了频谱间隙的影响，显著提升了模型性能。实验表明，该方法在合成和真实数据集上均优于现有方法。

2602.22918 2026-05-18 cs.CL

Where Vision Becomes Text: Locating the OCR Routing Bottleneck in Vision-Language Models

Jonathan Steinberg, Oren Gal

发表机构 * Swarms & AI Lab (SAIL), University of Haifa（Swarms与AI实验室（SAIL），海法大学）

AI总结该研究探讨了视觉语言模型中光学字符识别（OCR）信息如何融入语言处理流程，并定位了OCR路由机制中的关键瓶颈。通过因果干预和激活差异分析，研究发现不同架构的OCR敏感层位置存在差异，且OCR信号具有高度低维特性，主成分分析方向在不同数据集间具有可迁移性。研究还揭示了在模块化OCR电路中，去除OCR信息可提升模型的计数性能，表明OCR可能干扰其他视觉处理任务。

2602.20630 2026-05-18 cs.CV

From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

Yepeng Liu, Hao Li, Liwen Yang, Fangzhen Li, Xudi Ge, Yuliang Gu, kuang Gao, Bing Wang, Guang Chen, Hangjun Ye, Yongchao Xu

发表机构 * School of Computer Science, Wuhan University（1 武汉大学计算机学院）； Xiaomi EV（2 小米电动车）

AI总结本文将关键点检测问题重新定义为一个序列决策过程，提出了一种基于强化学习的端到端框架 TraqPoint，旨在直接优化关键点在图像序列中的长期可追踪性。其核心创新在于引入了一种关注轨迹质量的奖励机制，通过策略梯度方法同时提升关键点在多视角下的一致性和区分度。实验表明，TraqPoint 在稀疏匹配任务中显著优于当前最先进的关键点检测与描述方法。

Comments Accepted by CVPR 2026 (Oral)

2602.20207 2026-05-18 cs.LG cs.AI

Golden Layers and Where to Find Them: Improved Knowledge Editing for Large Language Models Via Layer Gradient Analysis

Shrestha Datta, Hongfu Liu, Anshuman Chhabra

发表机构 * University of South Florida（佛罗里达州立大学）； Brandeis University（布兰迪大学）

AI总结本文研究了如何在大语言模型中高效地进行知识编辑，即在不破坏模型整体性能的前提下，针对特定查询更新模型的输出。作者提出了一种基于层梯度分析（LGA）的新方法，通过分析模型各层的梯度信息，高效识别出对知识编辑效果最佳的“黄金层”，从而避免了传统方法中繁琐的试错过程。实验表明，该方法在多种大语言模型和知识编辑任务中均表现出良好的有效性和鲁棒性。

2602.19069 2026-05-18 cs.AI

Asking the Right Questions: Improving Reasoning with Generated Stepping Stones

Hengyuan Hu, Tingchen Fu, Minqi Jiang, Alexander H Miller, Yoram Bachrach, Jakob Nicolaus Foerster

发表机构 * FAIR at Meta（Meta的FAIR）； Stanford University（斯坦福大学）； University of Oxford（牛津大学）

AI总结该研究探讨了如何通过生成中间“台阶问题”来提升大型语言模型在复杂推理任务中的表现。研究提出了一种名为ARQ的框架，通过引入问题生成器到默认推理流程中，帮助模型逐步分解任务、构建有用的中间步骤。实验表明，这些生成的台阶问题具有可迁移性，能够有效辅助不同能力的模型解决目标任务，并可通过后训练方法进一步优化生成质量。

2602.17363 2026-05-18 cs.LG

2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

Gabriel Mongaras, Eric C. Larson

发表机构 * Lyle School of Engineering（莱尔学校工程学院）； Southern Methodist University（南方 Methodist 大学）

AI总结本文提出了一种名为2Mamba的线性注意力模型，旨在弥补线性注意力在准确率上相对于softmax注意力的不足。通过简化并改进Mamba-2的核心组件，2Mamba在保持高内存效率的同时，达到了接近softmax注意力的精度，尤其在处理长上下文任务时表现突出。研究还探讨了提升线性注意力性能的关键因素，并提供了实验代码。

2602.17050 2026-05-18 cs.LG

Multi-Probe Zero Collision Hash (MPZCH): Mitigating Embedding Collisions and Enhancing Model Freshness in Large-Scale Recommenders

Ziliang Zhao, Bi Xue, Emma Lin, Tianqi Lu, Mengjiao Zhou, Kaustubh Vartak, Shakhzod Ali-Zade, Tao Li, Bin Kuang, Rui Jian, Bin Wen, Dennis van der Staay, Yixin Bao, Eddy Li, Chao Deng, Henry Wei, Songbin Liu, Qifan Wang, Kai Ren

发表机构 * Meta Platforms, Inc.（Meta平台公司）； OpenAI

AI总结在大规模推荐系统中，嵌入表是处理高基数分类特征的关键组件，但传统哈希索引方法在面对大量唯一ID时容易产生碰撞，影响模型性能与个性化质量。本文提出了一种基于线性探测的新型索引机制——多探针零碰撞哈希（MPZCH），能够有效缓解嵌入碰撞问题，并通过合理配置表大小实现几乎零碰撞。MPZCH引入辅助张量和高性能CUDA内核，支持可配置的探测与主动驱逐策略，防止过时嵌入的继承，提升新特征的学习效果，实验表明其在保持训练吞吐量和推理延迟的同时显著提升了嵌入的新鲜度与质量。

Comments 9 pages, 6 figures

2602.16363 2026-05-18 cs.LG

Improved Bounds for Reward-Agnostic and Reward-Free Exploration

Oran Ridel, Alon Cohen

发表机构 * Department of Engineering, Tel Aviv University, Tel Aviv, Israel（特拉维夫大学工程系，以色列特拉维夫）； Google Research, Tel Aviv, Israel（谷歌研究，以色列特拉维夫）

AI总结本文研究了无奖励和奖励无关的探索问题，在回合制有限时间马尔可夫决策过程（MDPs）中，智能体在没有外部奖励信号的情况下探索未知环境。针对奖励无关设置，作者提出了一种新的算法，显著放宽了对精度参数 $ε$ 的限制，并通过设计精心的奖励函数进行在线学习，构建用于数据收集的探索策略，从而实现对动力学的精确估计和后续的 $ε$-最优策略计算。此外，作者还建立了无奖励探索的紧致下界，填补了已知上界与下界之间的差距。

2602.16274 2026-05-18 cs.LG stat.ML

Regret and Sample Complexity of Online Q-Learning via Concentration of Stochastic Approximation with Time-Inhomogeneous Markov Chains

Rahul Singh, Siddharth Chandak, Eric Moulines, Vivek S. Borkar, Nicholas Bambos

发表机构 * MBZUAI, UAE（MBZUAI, 阿拉伯联合酋长国）； Stanford University, USA（斯坦福大学, 美国）； EPITA, France（EPITA, 法国）； Indian Institute of Technology Bombay, India（印度班加罗尔理工学院, 印度）

AI总结本文首次为无限时间折扣马尔可夫决策过程中的经典在线Q学习提供了悔恨界，无需依赖乐观或奖励项。研究分析了衰减温度的玻尔兹曼Q学习，并提出了一种结合ε_n-贪心与玻尔兹曼探索的平滑探索策略，证明其悔恨界对子优化间隙具有鲁棒性，达到近似O(N^{9/10})的上界。同时，作者还给出了高概率下的样本复杂度保证，并发展了一种适用于合缩马尔可夫随机逼近的高概率集中界，该结果具有独立研究价值。

2602.14896 2026-05-18 cs.LG

Algorithmic Simplification of Neural Networks with Mosaic-of-Motifs

Pedram Bakhtiarifard, Tong Chen, Jonathan Wenshøj, Erik B Dam, Raghavendra Selvan

发表机构 * Department of Computer Science, University of Copenhagen（哥本哈根大学计算机科学系）

AI总结本文探讨了深度神经网络为何适合压缩这一核心问题，提出从算法复杂度的角度进行解释。研究假设训练后的模型参数具有更多结构，因而算法复杂度更低，并引入了一种基于可重复模块（motif）的参数化方法，通过约束参数块的选择来引导优化过程趋向更简单的解。实验表明，该方法在保持模型性能的同时有效降低了网络的算法复杂度，为模型压缩提供了理论依据和新思路。

2602.12262 2026-05-18 cs.CL cs.LG

Few-Step Diffusion Language Models via Trajectory Self-Distillation

Tunyu Zhang, Xinxi Zhang, Ligong Han, Haizhou Shi, Xiaoxiao He, Zhuowei Li, Hao Wang, Kai Xu, Akash Srivastava, Chengzhi Mao, Hao Wang, Vladimir Pavlovic, Dimitris N. Metaxas

发表机构 * Rutgers University（罗格斯大学）； Red Hat AI Innovation（红帽AI创新）； MIT-IBM Watson AI Lab（麻省理工-IBM沃森人工智能实验室）

AI总结该论文研究了如何在扩散语言模型中实现高效且高质量的少步解码。为了解决少步解码导致的生成质量下降问题，作者提出了一种基于轨迹自蒸馏的框架，通过让少步学生模型学习完整步教师模型的生成轨迹，从而缓解因分词错误带来的性能损失。此外，引入了直接判别优化方法，进一步提升了模型在复杂推理任务中的表现，显著缩小了少步解码与完整步解码之间的性能差距。

2602.10687 2026-05-18 cs.CV cs.AI

OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL

Jinjie Shen, Jing Wu, Yaxiong Wang, Lechao Cheng, Shengeng Tang, Tianrui Hui, Nan Pu, Zhun Zhong

发表机构 * School of Computer Science and Information Engineering, Hefei University of Technology, Hefei, China（合肥工业大学计算机科学与信息工程学院）； Wuhan University, Wuhan, China（武汉大学）； Lab for Intelligence and visiON (LION)（智能视觉实验室）

AI总结现有伪造检测方法多局限于单模态或双模态设置，难以应对现实中的多模态虚假信息。本文提出OmniVL-Guard，一个基于平衡强化学习的统一视觉-语言伪造检测与定位框架，旨在解决多模态交互与多任务优化中的偏差问题。该方法包含自进化推理路径生成和自适应奖励缩放策略优化两个核心设计，有效提升了检测与定位的综合性能，并在多个数据集上展现出优越的零样本泛化能力。

Comments Accepted by ICML 2026

2602.09297 2026-05-18 cs.LG

Laplacian Heads Improve Transformers by Smoothing Token Representations

Yuchong Zhang, Vardan Papyan

发表机构 * University of Toronto（多伦多大学）； Vector Institute（向量研究所）

AI总结本文提出了一种改进Transformer模型的方法，通过引入拉普拉斯头（Laplacian Heads）来平滑令牌表示。该方法将部分注意力头的softmax矩阵替换为对应的拉普拉斯矩阵，从而在更新令牌表示时同时控制序列内的方差，并在图结构视角下解释为热扩散过程。实验表明，该方法在监督学习、语言建模和自监督学习任务中均能提升性能，且有助于增强令牌表示的可分性和结构对齐，挑战了传统认为令牌过度平滑有害的观点。

AI 大模型

视觉与机器人

科学与医疗