arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.13054 2026-05-14 cs.LG cs.AI

Bridging Domain Gaps with Target-Aligned Generation for Offline Reinforcement Learning

Minung Kim, Jeongmo Kim, Gwanwoo Choi, Seungyul Han

发表机构 * Ulsan National Institute of Science and Technology, UNIST（乌山国立科学技术研究院，UNIST）

AI总结该论文研究了如何在仅有预收集数据的情况下，将源域的策略适应到目标域的离线强化学习问题，特别是在目标域数据极为有限的情况下。为了解决域间分布差异带来的挑战，作者提出了目标对齐的覆盖扩展（TCE）框架，通过理论分析指导源数据的使用方式，包括直接引入接近目标域的转移或通过目标对齐生成扩展状态覆盖。实验表明，TCE在多种跨域环境中显著优于现有的离线强化学习方法。

2605.13049 2026-05-14 cs.CV

Uncertainty-aware Spatial-Frequency Registration and Fusion for Infrared and Visible Images

Xingyuan Li, Haoyuan Xu, Xingyue Zhu, Jun Ma, Yang Zou, Zhiying Jiang, Jinyuan Liu

发表机构 * Dalian University of Technology（大连理工大学）； Northwestern Polytechnical University（西北工业大学）； Dalian Maritime University（大连海事大学）

AI总结红外与可见光图像融合（IVIF）在复杂环境下具有广泛应用，但未对齐条件下的融合面临固有的错位问题。现有方法多采用粗到细的变形参数预测或多尺度变形场估计，却忽视了注册过程中的累积误差，影响融合质量。本文提出了一种融合空间-频率域注册与融合的SFRF框架，通过引入不确定性估计和红外热辐射分布一致性，统一处理注册误差累积问题，提升跨空间与频率域的融合鲁棒性。该方法通过多尺度迭代注册和双分支空间-频率融合模块，实现了更精确的对齐与更高质量的图像重建。

Comments 10 pages, 5 figures, 4 tables

2605.13047 2026-05-14 cs.CV cs.AI

Revealing the Gap in Human and VLM Scene Perception through Counterfactual Semantic Saliency

Ziqi Wen, Parsa Madinei, Miguel P. Eckstein

发表机构 * Department of Computer Science, University of California, Santa Barbara（加州大学圣巴巴拉分校计算机科学系）； Department of Psychological and Brain Sciences, University of California, Santa Barbara（加州大学圣巴巴拉分校心理学与脑科学系）

AI总结该研究探讨了视觉语言模型（VLM）在高层次语义场景理解方面与人类感知的差异。为此，作者提出了一种黑盒、模型无关的方法——反事实语义显著性（CSS），通过衡量物体在场景中被移除后引起的语义变化，量化其重要性。实验结果表明，VLM在理解场景时表现出对大物体、画面中心物体和高显著性物体的过度依赖，而对场景中人物的依赖则低于人类，揭示了模型与人类在语义理解上的显著差距。

2605.13046 2026-05-14 cs.AI

An Agentic LLM-Based Framework for Population-Scale Mental Health Screening

Giuliano Lorenzoni, Paulo Alencar, Donald Cowan

发表机构 * University of Waterloo（滑铁卢大学）

AI总结本文提出了一种基于智能体的大型语言模型（LLM）框架，用于大规模人群心理健康筛查。该框架通过将每个处理阶段封装为由明确策略和代理引导评估驱动的LangChain智能体，实现了对非结构化临床信息的处理与个性化适应。研究展示了该框架在基于对话记录的抑郁检测中的应用，验证了其在稳定配置收敛、成本控制和避免性能退化方面的有效性，为大规模临床数据下的心理健康筛查提供了可信、可复现且适应性强的解决方案。

Comments 8 pages, conference paper presented at IEEE BigData 2025, Macau

2605.13045 2026-05-14 cs.LG cs.CL

Large Language Models Lack Temporal Awareness of Medical Knowledge

Zihan Guan, Qiao Jin, Guangzhi Xiong, Fangyuan Chen, Mengxuan Hu, Qingyu Chen, Yifan Peng, Zhiyong Lu, Anil Vullikanti

发表机构 * University of Virginia（弗吉尼亚大学）； National Institutes of Health（美国国家卫生研究院）； Dana-Farber Cancer Institute（达纳-法伯癌症研究所）； Yale University（耶鲁大学）； Weill Cornell Medicine（韦氏 Cornell 医学院）

AI总结现有评估大语言模型（LLM）医学知识的方法多基于静态的考试式基准，未能反映医学知识随时间动态变化的特性。为此，研究者构建了TempoMed-Bench，首个用于评估LLM时间感知能力的医学领域基准，揭示了LLM在时间特定医学知识上的不足，包括知识随时间逐渐退化、对过时知识的遗忘以及预测结果的时间不一致性等问题。该工作指出了LLM在医学知识时间感知方面的关键挑战，并为未来研究提供了方向。

Comments 35 pages, 18 figures

详情

英文摘要

The existing methods for evaluating the medical knowledge of Large Language Models (LLMs) are largely based on atemporal examination-style benchmarks, while in reality, medical knowledge is inherently dynamic and continuously evolves as new evidence emerges and treatments are approved. Consequently, evaluating medical knowledge without a temporal context may provide an incomplete assessment of whether LLMs can accurately reason about time-specific medical knowledge. Moreover, most medical data are historical, requiring the models not only to recall the correct knowledge, but also to know when that knowledge is correct. To bridge the gap, we built TempoMed-Bench, the first-of-its-kind benchmark for evaluating the temporal awareness of the LLMs in the medical domain through evolving guideline knowledge. Based on the TempoMed-Bench, our evaluation analysis first reveals that LLMs lack temporal awareness in medical knowledge through the key findings: (1) model performance on up-to-date medical knowledge exhibits a gradual linear decline over time rather than a sharp knowledge-cutoff behavior, suggesting that parametric medical knowledge is not strictly bounded by knowledge cutoffs; (2) LLMs consistently struggle more with recalling outdated historical medical knowledge than with up-to-date recommendations: accuracy of historical knowledge is only 25.37%-53.89% of up-to-date knowledge, indicating potential knowledge forgetting effects during training; and (3) LLMs often exhibit temporally inconsistent behaviors, where predictions fluctuate irregularly across neighboring years. We also show that the temporal awareness problem is a challenge that cannot be easily solved when integrated with agentic search tools (-3.15%-14.14%). This work highlights an important yet underexplored challenge and motivates future research on developing LLMs that can better encode time-specific medical knowledge.

URL PDF HTML ☆

赞 0 踩 0

2605.13043 2026-05-14 cs.CL

Adaptive Steering and Remasking for Safe Generation in Diffusion Language Models

Yejin Lee, Yo-Sub Han

发表机构 * Department of Computer Science（计算机科学系）； Yonsei University（延世大学）

AI总结扩散语言模型（DLMs）通过迭代去噪和双向精炼生成文本，但在中间去噪步骤中生成的有害内容可能传播到后续过程，导致最终输出不安全。为此，本文提出了一种基于去噪过程中逐步干预的推理时防御框架，通过对比安全方向（SGD）检测有害语义并进行重掩码和自适应引导，从而在不牺牲生成质量的前提下提升模型安全性。实验表明，该方法显著降低了越狱成功率，同时保持了接近原始模型的生成质量。

Comments 17 pages, 3 figures

2605.13041 2026-05-14 cs.CV

EgoForce: Robust Online Egocentric Motion Reconstruction via Diffusion Forcing

Inwoo Hwang, Donggeun Lim, Hojun Jang, Young Min Kim

发表机构 * Seoul National University（首尔国立大学）

AI总结 EgoForce 是一种用于从噪声的自中心视角输入中在线重建长期全身运动的框架。该方法采用基于扩散的模型，并引入时间非对称的噪声调度策略，以应对实时应用中稀疏和噪声观测的挑战。通过建模时间演化的不确定性并逐步去噪，EgoForce 在严格因果约束下生成稳定且连贯的全身运动，实验表明其在复杂自中心场景中优于现有在线和离线方法。

Comments Project page: https://inwoohwang.me/EgoForce

2605.13038 2026-05-14 cs.CV cs.AI

CoGE: Sim-to-Real Online Geometric Estimation for Monocular Colonoscopy

Liangjing Shao, Beilei Cui, Hongliang Ren

发表机构 * Department of Electronic Engineering, The Chinese University of Hong Kong, Hong Kong SAR, China（香港中文大学电子工程系，香港特别行政区，中国）； Shenzhen Loop Area Institute, China（深圳环湖研究所，中国）

AI总结本文提出CoGE，一种用于结肠镜检查的单目在线几何估计框架，旨在解决实际场景中深度估计和场景重建的难题。该方法通过引入基于Retinex理论的光照感知监督模块和基于小波分解的结构感知感知模块，有效应对结肠镜场景中的光照差异和结构特征提取问题。实验表明，仅使用模拟数据训练的CoGE在模拟和真实场景中均取得了最先进的几何估计性能。

Comments Early Accepted by MICCAI 2026

2605.13037 2026-05-14 cs.AI

MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning

Yuxin Liu, Ziang Ye, Yueqing Sun, Mingye Zhu, Jinwei Xiao, Zhuowen Han, Qi GU, Xunliang Cai, Lei Zhang

发表机构 * University of Science and Technology of China（中国科学技术大学）； Meituan（美团）； Institution of Automation, Chinese Academy of Sciences（中国科学院自动化研究所）； Tianjin University（天津大学）

AI总结当前交互式大语言模型代理依赖于目标引导的逐步规划，环境理解是在执行过程中被动获取的，导致环境感知延迟和知识瓶颈问题。本文提出了一种“先地图后行动”的MAP范式，通过全局探索、任务映射和知识增强执行三个阶段，提前建立环境认知地图，从而提升任务执行效率。实验表明，MAP在多个基准测试中均取得显著提升，并且基于MAP的轨迹数据集MAP-2K在训练中表现优于专家轨迹，说明环境理解比模仿更为关键。

2605.13034 2026-05-14 cs.CV cs.IR

ViDR: Grounding Multimodal Deep Research Reports in Source Visual Evidence

Zhuofan Shi, Peilun Jia, Baoqin Sun, Haiyang Shen, Sixiong Xie, Yun Ma, Xiang Jing

发表机构 * School of Software and Microelectronics, Peking University（北京大学软件与微电子学院）； National Key Laboratory of Data Space Technology and System（数据空间技术与系统国家重点实验室）； School of Software Engineering, Beijing Jiaotong University（北京交通大学软件学院）； College of Computer Science and Electronic Engineering, Hunan University（湖南大学计算机科学与电子工程学院）

AI总结 ViDR 是一种多模态深度研究框架，旨在通过源图示作为证据来生成内容详实且有依据的研究报告。该方法将源图示视为可检索、可解释、可追踪和可验证的证据对象，并结合上下文感知过滤、大纲感知重排序和视觉语言模型分析等技术，提升图示证据的准确性和相关性。ViDR 还引入了 MMR Bench+ 评估基准，实验证明其在报告质量、图示整合和可验证性方面优于现有主流模型，凸显了源视觉证据在多模态深度研究中的重要性。

2605.13030 2026-05-14 cs.LG cs.AI

FeatCal: Feature Calibration for Post-Merging Models

Yanggan Gu, Shuo Cai, Zihao Wang, Wenjun Wang, Yuanyi Wang, Pengkai Wang, Sirui Huang, Su Lu, Jianmin Wu, Hongxia Yang

发表机构 * The Hong Kong Polytechnic University (PolyU)（香港理工大学）； The Chinese University of Hong Kong（香港中文大学）； PolyU-Daya Bay Technology and Innovation Research Institute（PolyU-大亚湾技术与创新研究院）

AI总结 FeatCal 是一种针对模型合并后性能下降问题的特征校准方法，通过分析合并模型与专家模型之间的特征漂移，提出了一种层序校准策略，有效提升了合并模型的表现。该方法利用少量校准数据，以闭式解形式逐层调整模型权重，无需梯度下降或额外模块，既保持了合并模型的优势，又显著提升了任务性能。实验表明，FeatCal 在多个基准测试中优于现有校准方法，且在样本效率和校准成本方面表现更优。

2605.13028 2026-05-14 cs.RO cs.SY eess.SY

Local Conformal Calibration of Dynamics Uncertainty from Semantic Images

Luís Marques, Dmitry Berenson

发表机构 * Robotics Department, University of Michigan（密歇根大学机器人系）

AI总结本文提出了一种基于符合性预测的算法OCULAR，用于从语义图像中对动态不确定性进行局部校准，从而为未知测试环境提供不确定性量化保证。该方法利用视觉相似环境的数据，对任意保真度的线性高斯动力学模型进行可证明的校准，能够在存在随机扰动和模型偏差的情况下，保证预测区域以用户设定的概率包含未来系统状态。该方法无需对真实系统动力学做出强假设，且能够区分不同输入导致的不确定性差异，有助于实现概率安全规划，并在多个实验场景中验证了其有效性。

Comments 26 pages, 8 figures. Accepted to the 17th World Symposium on the Algorithmic Foundations of Robotics (WAFR) 2026

2605.13027 2026-05-14 cs.CV

PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution

Zihang Xu, Xiaoyang Liu, Zheng Chen, Yulun Zhang, Xiaokang Yang

发表机构 * Shanghai Jiao Tong University（上海交通大学）

AI总结本文提出了一种基于扩散模型的文本图像超分辨率方法PRISM，旨在解决在严重退化情况下文本细节生成中的可靠性与结构准确性问题。该方法通过引入流匹配先验校正（FMPR）和结构引导的不确定性感知残差编码器（SURE），分别提升全局文本先验的可靠性与局部笔画边界的精确性。实验表明，PRISM在合成和真实数据集上均取得了最先进的性能，且推理速度达到毫秒级。

Comments Code is available at https://github.com/faithxuz/PRISM

2605.13026 2026-05-14 cs.LG cs.AI cs.CL

Understanding and Accelerating the Training of Masked Diffusion Language Models

Chunsan Hong, Sanghyun Lee, Chieh-Hsin Lai, Satoshi Hayakawa, Yuhta Takida, Yuki Mitsufuji, Seungryong Kim, Jong Chul Ye

发表机构 * KAIST（韩国科学技术院）； Sony AI（索尼人工智能）； University of Tokyo（东京大学）； Sony Group Corporation（索尼集团）

AI总结本文研究了掩码扩散语言模型（MDMs）训练速度较慢的问题，并提出了加速训练的有效方法。通过分析发现，语言的局部性偏差是导致训练缓慢的主要原因，作者提出了一种基于钟形时间采样的训练策略，显著提升了训练效率。实验表明，该方法在保持最终性能的同时，使MDMs在LM1B基准上的训练速度提升了约4倍，并在生成困惑度和下游任务表现上也取得了更快的提升。

Comments Preprint

2605.13025 2026-05-14 cs.LG cs.GT

Offline Two-Player Zero-Sum Markov Games with KL Regularization

Claire Chen, Yuheng Zhang, Xinyu Liu, Zixuan Xie, Shuze Daniel Liu, Nan Jiang

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； California Institute of Technology（加州理工学院）； University of Virginia（弗吉尼亚大学）； Purdue University（Purdue 大学）； Massachusetts Institute of Technology（麻省理工学院）

AI总结本文研究了在离线两人零和马尔可夫博弈中学习纳什均衡的问题。不同于现有方法依赖显式悲观策略应对分布偏移，作者证明仅使用KL正则化即可稳定学习过程并保证收敛。文中提出了正则化离线序贯均衡（ROSE）理论框架，实现了在单边可集中性条件下的快速收敛速率$\widetilde{\mathcal{O}}(1/n)$，并设计了基于最小二乘值估计和迭代自博弈更新的实用无模型算法SOS-MD，其最终迭代结果在自博弈次数$T$下也达到了相近的统计收敛速率。

2605.13021 2026-05-14 cs.LG cs.AI

Rethinking Efficient Graph Coarsening via a Non-Selfishness Principle

Xu Bai, Bin Lu, Kun Zhang, Shengbo Chen, Xinbing Wang, Chenghu Zhou, Meng Jin

发表机构 * School of Information Science and Electronic Engineering, Shanghai Jiao Tong University, Shanghai, China（上海交通大学信息科学与电子工程学院）； School of Artificial Intelligence, Shanghai Jiao Tong University, Shanghai, China（上海交通大学人工智能学院）； School of Environment Science and Engineering, Shanghai Jiao Tong University, Shanghai, China（上海交通大学环境科学与工程学院）； School of Artificial Intelligence, Nanchang University, Nanchang, China（南昌大学人工智能学院）； Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing, China（中国科学院地理科学与资源研究所）

AI总结本文提出了一种基于非自私性原理的高效图粗化方法NOPE，旨在解决传统图粗化方法中因节点独立匹配带来的高计算和内存开销问题。该方法通过优先考虑邻域的集体影响，实现了线性内存消耗和接近线性的计算复杂度，并进一步提出了更快的变体NOPE*，在局部各向同性假设下将干扰评估复杂度从O(δ·d)降低至O(d)，显著提升了高度节点的处理效率。实验表明，NOPE*相比原方法速度提升1.8到10倍，且在图学习任务中表现优异，甚至优于基于大语言模型的图推理方法。

2605.13018 2026-05-14 cs.CV

OCH3R: Object-Centric Holistic 3D Reconstruction

Yi Du, Yang You, Xiang Wan, Leonidas Guibas

发表机构 * Stanford University（斯坦福大学）

AI总结 OCH3R 是一种面向对象的统一三维重建框架，能够从单张RGB图像中同时预测场景中所有物体的6D姿态及其详细三维重建结果。其核心方法基于一种变压器架构，通过预测每个像素的类别嵌入、度量深度、归一化物体坐标（NOCS）以及每个物体的固定数量的三维高斯分布，实现端到端的一次性推理。该方法通过将预测的高斯分布转换到规范空间并与预渲染的真值对齐，避免了高昂的逐图像标注成本，显著提升了重建精度与推理效率。

2605.13013 2026-05-14 cs.LG

JEDI: Joint Embedding Diffusion World Model for Online Model-Based Reinforcement Learning

Jing Yu Lim, Rushi Shah, Zarif Ikram, Samson Yu, Haozhe Ma, Tze-Yun Leong, Dianbo Liu

发表机构 * National University of Singapore（新加坡国立大学）

AI总结本文提出了一种名为 JEDI 的端到端联合嵌入扩散世界模型，用于在线基于模型的强化学习。该模型结合了 JEPA 预测表征学习与扩散去噪目标，直接从扩散损失中学习潜在空间，避免了传统方法中预训练编码器的依赖。JEDI 在计算效率和性能上均优于现有方法，在 Atari100k 环境中表现出色，同时显著降低了显存占用和训练、采样时间。

2605.13010 2026-05-14 cs.CV cs.AI cs.SY eess.SY math.OC

Amortized Guidance for Image Inpainting with Pretrained Diffusion Models

Yilie Huang, Xun Yu Zhou

发表机构 * Department of Industrial Engineering and Operations Research, Columbia University, New York, NY 10027, USA（工业工程与运筹学系，哥伦比亚大学，纽约，NY 10027，美国）； Department of Industrial Engineering and Operations Research & Data Science Institute, Columbia University, New York, NY 10027, USA（工业工程与运筹学系及数据科学研究所，哥伦比亚大学，纽约，NY 10027，美国）

AI总结本文研究了基于生成扩散模型的图像修复问题，提出了一种名为AID的方法，在保持预训练扩散模型主干不变的前提下，通过离线训练一个小型可复用的引导模块，实现对多张掩码图像的高效修复。该方法将问题建模为带有监督终端目标的确定性引导问题，并通过引入辅助高斯形式，推导出一种可在高维空间中学习的随机化问题求解方案，从而设计出一种基于数据驱动的连续时间策略-价值算法。实验表明，AID在多个数据集和掩码类型上均优于现有固定主干和摊销修复方法，在修复质量与速度之间取得了更好的平衡。

2605.13006 2026-05-14 cs.RO cs.MA

Occlusion-Based Object Transportation Around Obstacles With a Swarm of Miniature Robots

Breno Cunha Queiroz, Daniel MacRae

发表机构 * Faculty of Science and Engineering, Rijksuniversiteit Groningen（格罗宁根大学科学与工程学院）

AI总结本文研究了如何利用微型机器人集群在障碍物周围运输物体的问题。核心方法是在原有基于遮挡的策略基础上，引入子目标机制，使机器人能够通过协作形成可见路径链，从而在不依赖通信和保持去中心化控制的前提下绕过障碍。实验表明，该方法在不同初始位置和多种形状障碍物的情况下均表现出良好的鲁棒性和通用性。

Comments 25 pages, 9 figures, 6 tables. Accepted for publication in the journal Swarm Intelligence

Journal ref Swarm Intelligence, 2024

2605.12997 2026-05-14 cs.LG

Frequency Bias and OOD Generalization in Neural Operators under a Variable-Coefficient Wave Equation

Runlong Xie, An Luo

发表机构 * Independent Researcher（独立研究者）； School of Statistics, University of Minnesota, MN, USA（明尼苏达大学统计学系）

AI总结本文研究了神经算子在变系数波方程下的频率偏差与分布外泛化能力。通过对比傅里叶神经算子（FNO）和深度算子网络（DeepONet）在结构化分布外场景下的表现，发现FNO在高频输入下误差显著增加，而DeepONet则表现出更稳定的退化趋势。研究揭示了不同架构对频率结构的表示差异是导致泛化性能不同的关键因素，突显了当前神经算子在分布外场景下泛化能力的不足及架构设计的重要性。

2605.12995 2026-05-14 cs.LG

F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking

Rohan Surana, Gagan Mundada, Junda Wu, Xintong Li, Yizhu Jiao, Bowen Jin, Sizhe Zhou, Tong Yu, Ritwik Sinha, Jiawei Han, Jingbo Shang, Julian McAuley

发表机构 * UC San Diego（南加州大学）； University of Illinois at Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； Adobe Research（Adobe研究院）

AI总结本文提出了一种统一的生成与排序优化框架F-GRPO，旨在解决传统检索系统中生成与排序分离导致的效用不匹配问题。该方法通过因子化分组相对策略优化，在单一的语言模型骨干网络中联合优化候选生成与排序过程，利用顺序不变的覆盖奖励和位置感知的效用奖励进行联合训练。实验表明，F-GRPO在多个基准任务中优于现有生成与排序分离的方法及监督学习模型，且在推理时无需架构修改。

详情

英文摘要

Traditional retrieval pipelines optimize utility through stages of candidate retrieval and reranking, where ranking operates over a predefined candidate set. Large Language Models (LLMs) broaden this into a generative process: given a candidate pool, an LLM can generate a subset and order it within a single autoregressive pass. However, this flexibility introduces a new optimization challenge: the model must search a combinatorial output space while receiving utility feedback only after the full ranked list is generated. Because this feedback is defined over the completed sequence, it cannot distinguish whether a poor result arises from failing to generate a relevant subset or from failing to rank that subset correctly. This credit assignment gap makes end-to-end optimization unstable and sample-inefficient. Existing systems often address this by separating candidate generation from ranking. However, such decoupling remains misaligned with downstream utility because ranking is limited by the candidate set it receives. To bridge this gap, we propose a unified framework that performs both within a single autoregressive rollout and optimizes them end-to-end via factorized group-relative policy optimization (F-GRPO). Our framework factorizes the policy into candidate generation and ranking while sharing a single LLM backbone, and jointly trains them with an order-invariant coverage reward and a position-aware utility reward. To address the resulting phase-specific credit assignment problem, we use separate group-relative advantages for generation and ranking within a two-phase sequence-level objective. Across sequential recommendation and multi-hop question answering benchmarks, F-GRPO improves top-ranked performance over GRPO and decoupled baselines, outperforms supervised alternatives, and remains competitive with strong zero-shot rerankers, with no architectural changes at inference time.

URL PDF HTML ☆

赞 0 踩 0

2605.12994 2026-05-14 cs.LG

DP-Muon: Differentially Private Optimization via Matrix-Orthogonalized Momentum

Jihwan Kim, Chenglin Fan

发表机构 * Seoul National University（首尔国立大学）

AI总结本文提出了一种名为DP-Muon的差分隐私优化方法，该方法基于矩阵正交化动量优化器Muon，通过逐样本梯度裁剪、添加高斯噪声以及后续动量和牛顿-舒尔正交化处理，实现了隐私保护下的模型训练。研究证明DP-Muon能够继承对应的子采样高斯会计机制的隐私保证，且正交化处理不会引入额外隐私成本。此外，文章还分析了差分隐私对Muon优化过程的影响，并提出了一种偏差校正的变体DP-MuonBC，在保持相同隐私保障的同时进一步提升了模型性能。

Comments 26 pages

2605.12988 2026-05-14 cs.AI cs.CY cs.IR

Retrieval-Augmented Tutoring for Algorithm Tracing and Problem-Solving in AI Education

Mragisha Jain, Tirth Bhatt, Griffin Pitts, Aum Pandya, Peter Brusilovsky, Narges Norouzi, Arto Hellas, Juho Leinonen, Bita Akram

发表机构 * North Carolina State University（北卡罗来纳州立大学）； University of Pittsburgh（匹兹堡大学）； University of California, Berkeley（加州大学伯克利分校）； Aalto University（阿尔托大学）

AI总结本文提出了一种基于检索增强生成（RAG）的智能辅导系统KITE，旨在辅助算法学习中的推理与问题求解。KITE通过意图感知的苏格拉底式响应策略，为学生提供针对性的提示、引导性问题和渐进式支持，同时结合多模态检索技术确保回答与课程内容一致。实验表明，KITE能够生成内容相关且教学效果良好的回应，并有效提升学生模型在算法问题上的后续回答准确性，为算法教育提供了新的辅导架构与评估方法。

Comments Paper accepted to the 21st Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2026), co-located with ACL 2026

2605.12983 2026-05-14 cs.LG cs.CC

Decision Tree Learning on Product Spaces

Arshia Soltani Moakahr, Faraz Ghahremani, Kiarash Banihashem, MohammadTaghi Hajiaghayi

发表机构 * Department of Computer Science, University of Maryland, College Park, USA（大学计算机科学系，马里兰大学，College Park，美国）

AI总结本文研究了在乘积分布下决策树的学习问题，针对广泛使用的自顶向下贪心启发式方法进行了理论分析。作者扩展了 Blanc 等人关于均匀分布下贪心方法的理论保证，证明了在任意乘积分布下，该方法仍能构造出近似最优的决策树，其规模随最优树的平均深度和最大深度呈指数增长。此外，作者提出了一种无需先验参数的算法，具有更强的实用性和更广的适用性。

Comments ICML 2026

2605.12980 2026-05-14 cs.LG cs.AI

CoRe-Gen: Robust Spectrum-to-Structure Generation under Imperfect Fingerprint Conditions

Tianbo Liu, Chixiang Lu, Jing Hao, Hengyu Zhang, Lifei Wang, Haibo Jiang, Xiaojuan Qi

发表机构 * The University of Hong Kong（香港大学）； The Chinese University of Hong Kong（香港中文大学）； Zhejiang Shuren University（浙江师范大学）

AI总结从串联质谱（MS/MS）解析分子结构是一个具有挑战性的问题，尤其是在超出数据库覆盖范围的从头生成任务中。本文提出了一种名为CoRe-Gen的方法，通过合成光谱预训练编码器、在解码器训练中引入频率感知的指纹噪声匹配，以及结合结构感知的自回归解码和化学约束，有效缓解了预测指纹误差带来的生成偏差。实验表明，CoRe-Gen在多个基准测试中取得了新的性能纪录，同时保持了自回归解码的高效性，为实际条件下的谱-结构生成提供了实用且可扩展的解决方案。

2605.12978 2026-05-14 cs.AI

Useful Memories Become Faulty When Continuously Updated by LLMs

Dylan Zhang, Yanshan Lin, Zhengkun Wu, Yihang Sun, Bingxuan Li, Dianqi Li, Hao Peng

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； IIIS, Tsinghua University（清华大学人工智能研究院）

AI总结本文研究了大型语言模型（LLMs）在持续更新记忆时可能出现的错误问题。研究发现，尽管通过记忆整合（consolidation）可以提升智能体的学习效果，但随着更新的进行，记忆的实用性会先上升后下降，甚至低于无记忆基准。实验表明，即使是基于正确解法的记忆整合，也可能导致模型在后续任务中表现下降，因此应谨慎处理记忆更新，保留原始经验作为关键证据，以提高智能体记忆的可靠性。

2605.12975 2026-05-14 cs.AI

Retrieval is Cheap, Show Me the Code: Executable Multi-Hop Reasoning for Retrieval-Augmented Generation

Jiashuo Sun, Jimeng Shi, Yixuan Xie, Saizhuo Wang, Jash Rajesh Parekh, Pengcheng Jiang, Zhiyi Shi, Jiajun Fan, Qinglong Zheng, Peiran Li, Shaowen Wang, Ge Liu, Jiawei Han

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； Hong Kong University of Science and Technology（香港科学与技术大学）； Texas A&M University（德克萨斯农工大学）

AI总结该论文提出了一种名为 PyRAG 的可执行多跳推理框架，用于增强检索生成（RAG）在复杂问答任务中的表现。不同于传统基于自然语言的推理方式，PyRAG 将多跳推理过程转化为可执行的 Python 程序，利用检索和问答工具进行结构化计算，从而实现中间状态的显式表达和确定性反馈。实验表明，PyRAG 在多个多跳问答数据集上显著优于现有方法，尤其在组合性任务中表现突出。

Comments 32 pages, 20 figures, 4 tables

2605.12967 2026-05-14 cs.CV

ImageAttributionBench: How Far Are We from Generalizable Attribution?

Tingshu Mou, Zhipeng Wei, Chao Gong, Jingjing Chen, Xingjun Ma

发表机构 * Fudan University（复旦大学）； University of California, Berkeley（加州大学伯克利分校）

AI总结随着生成式AI的快速发展，合成图像的逼真度和多样性不断提高，给图像来源识别和虚假信息检测带来了严峻挑战。为此，本文提出ImageAttributionBench，一个包含多种先进生成模型合成图像的综合性数据集，旨在推动更具鲁棒性和泛化能力的图像归属方法研究。实验表明，当前主流归属方法在该数据集上的表现较差，揭示了其在面对语义变化和图像退化时的局限性，为未来研究提供了严格的评估基准。

2605.12966 2026-05-14 cs.AI

Position: Agentic AI System Is a Foreseeable Pathway to AGI

Junwei Liao, Shuai Li, Muning Wen, Jun Wang, Weinan Zhang

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Shanghai Innovation Institute（上海创新研究院）； University College London（伦敦大学学院）

AI总结本文质疑单一模型规模扩展是实现人工通用智能（AGI）的唯一路径，提出代理式人工智能（Agentic AI）是应对现实任务复杂性和异质性分布的必要范式。通过理论推导，文章对比了单一学习器与代理系统的优化约束，展示了代理式AI在泛化能力和样本效率上的指数级优势，并探讨了其与专家混合模型的关系，呼吁加强对代理式AI的研究。

Comments Accepted by ICML'26 Position Track

AI 大模型

视觉与机器人

科学与医疗