arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.12316 2026-05-13 cs.LG

Autoregressive Learning in Joint KL: Sharp Oracle Bounds and Lower Bounds

Yunbei Xu, Yuzhe Yuan, Ruohan Zhan

发表机构 * National University of Singapore（新加坡国立大学）； University College London（伦敦大学学院）

AI总结本文研究了在模型误设条件下，使用联合KL散度度量的自回归模型和下一个token预测中，序列长度对近似误差和估计误差的影响。通过建立匹配的上界和下界，作者首次完整刻画了长序列误差行为，并改进了现有工作的收敛速率与最优性分析。研究揭示了联合KL散度在近似误差上具有与序列长度无关的优势，同时证明了序列长度对估计误差的下界为Ω(H)，与高效算法的上界一致，从而统一了训练目标、评估指标和近似度量之间的关系。

2605.12313 2026-05-13 cs.CL cs.IR

Overview of the MedHopQA track at BioCreative IX: track description, participation and evaluation of systems for multi-hop medical question answering

Rezarta Islamaj, Joey Chan, Robert Leaman, Jongmyung Jung, Hyeongsoon Hwang, Quoc-An Nguyen, Hoang-Quynh Le, Harikrishnan Gurushankar Saisudha, Ganesh Chandrasekar, Rustam R. Taktashov, Nadezhda Yu. Bizyukova, Sofia I. R. Conceição, Paulo R. C. Lopes, Reem Abdel Salam, Mary Adewunmi, Zhiyong Lu

发表机构 * National Library of Medicine (NLM), National Institutes of Health (NIH)（美国国家医学图书馆（NLM）、国家卫生研究院（NIH））； University of Illinois at Urbana Champaign（伊利诺伊大学厄巴纳-香槟分校）； Korea University（韩国大学）； VNU University of Engineering and Technology, Hanoi, Vietnam（越南河内工程大学）； Concordia University, Montreal, QC, CA（蒙特利尔大学）； Institute of Biomedical Chemistry (IBMC), 10 bld. 8, Pogodinskaya str., 119121 Moscow, Russia（俄罗斯生物医学化学研究所（IBMC））； LASIGE, Departamento de Informática, Faculdade de Ciências, Universidade de Lisboa, 1749-016 Lisbon, Portugal（葡萄牙里斯本大学 LASIGE 实验室）； Faculty of Engineering, Computer Engineering Department Cairo University（埃及开罗大学工程学院）； Menzies School of Health Research, Charles Darwin University, NT, Australia（澳大利亚查尔斯达尔文大学梅恩兹健康研究中心）； CaresAI, Australia（澳大利亚 CaresAI）

AI总结 BioCreative IX 的 MedHopQA 共享任务旨在评估大型语言模型在多跳医学问答中的推理能力，提出了包含1000个复杂问答对的新型数据集，每个问题需结合两个不同维基页面的信息进行两跳推理，特别关注罕见疾病相关问题。任务吸引了13支队伍的48次提交，结果表明基于检索增强生成（RAG）等策略的系统显著优于基线模型，最佳系统在概念准确度（MedCPT）和精确匹配（EM）指标上分别达到89.30%和87.30%。该数据集已公开，以推动医学多跳问答领域的发展。

2605.12312 2026-05-13 cs.LG cs.AI

Transferable Delay-Aware Reinforcement Learning via Implicit Causal Graph Modeling

Chenran Zhao, Dianxi Shi, Yaowen Zhang, Chunping Qiu, Shaowu Yang

发表机构 * College of Computer Science and Technology, National University of Defense Technology（计算机科学与技术学院，国防科技大学）； Intelligent Game and Decision Lab (IGDL)（智能游戏与决策实验室）； Institute of Military Transportation（军事交通运输研究院）； School of Artificial Intelligence, Hebei University of Technology（人工智能学院，河北工业大学）

AI总结本文研究了在存在随机延迟的跨任务强化学习场景中，如何提高策略的可迁移性和适应性。为了解决延迟导致的动作与状态反馈时间错位以及任务目标变化带来的知识复用困难，作者提出了一种基于隐式因果图建模的可迁移延迟感知强化学习方法。该方法通过场节点编码器将高维观测转化为具有节点语义的潜在状态，并利用消息传递机制学习节点间的动态因果依赖关系，从而获得可迁移的结构化表示和环境动态知识，有效提升了跨任务学习的效率与性能。

2605.12310 2026-05-13 cs.SD

Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harmonic Modeling

Chen Geng, Meng Chen, Ruohua Zhou, Ruolan Liu, Weifeng Zhao

发表机构 * School of Intelligence Science and Technology（智能科学与技术学院）； Beijing University of Civil Engineering and Architecture（北京建筑大学）； Lyra Lab, Tencent Music Entertainment（腾讯音乐娱乐Lyra实验室）； Beijing Key Laboratory of Super Intelligent Technology for Urban Architecture（北京超智能城市建筑技术重点实验室）

AI总结本文提出了一种名为 Poly-SVC 的多声部感知歌唱语音转换系统，旨在在保留歌词和旋律的前提下，将源歌手的歌声转换为目标歌手的声音。该方法创新性地处理了伴奏录音中的残余和声问题，通过基于常数 Q 变换的音高提取器、随机采样器以及基于条件流匹配的扩散解码器，实现了对旋律与和声特征的融合，从而生成自然且富有表现力的多声部输出。实验表明，Poly-SVC 在自然度、音色相似性和和声重建方面均优于现有基线模型。

Comments Accepted by ICASSP 2026

2605.12308 2026-05-13 cs.LG

In-context learning to predict critical transitions in dynamical systems

Yunus Sevinchan, Juan Nathaniel, Kai Ueltzhöffer, Carla Roesch, Tobias Weber, Vaios Laschos, Hang Fan, Gregor Ramien, Johannes Haux, Pierre Gentine, Benjamin Herdeanu

发表机构 * Columbia University（哥伦比亚大学）； University of Edinburgh（爱丁堡大学）； kausable Heidelberg（海德堡kausable）

AI总结该研究旨在解决动态系统中临界转变的早期预警问题，这类转变通常具有突发性和不可逆性，且在现实世界中观测数据稀缺。为此，作者提出了一种基于上下文学习的深度学习框架TipPFN，通过合成数据生成器训练模型，使其能够灵活适应不同规模、复杂度和维度的上下文信息。该方法在未见过的临界转变场景、仿真到现实案例以及真实观测数据中均表现出先进的早期检测能力，为构建可靠的预警系统提供了新思路。

Comments 14+38 pages, 5+23 figures

2605.12306 2026-05-13 cs.LG cs.AI cs.CV

KAN-CL: Per-Knot Importance Regularization for Continual Learning with Kolmogorov-Arnold Networks

Minjong Cheon

发表机构 * Sejong University Department of Computer Science and Engineering（世宗大学计算机科学与工程系）

AI总结本文提出了一种名为KAN-CL的持续学习框架，旨在解决任务间参数干扰导致的灾难性遗忘问题。该方法利用Kolmogorov-Arnold网络（KAN）的紧支撑样条参数化特性，在每个样条节点层面进行重要性加权锚定，从而实现更精细的参数正则化。实验表明，KAN-CL在多个基准数据集上显著降低了遗忘率，同时保持了较高的分类精度，并通过神经切线核分析进一步揭示了其理论优势。

2605.12305 2026-05-13 cs.CV

Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation

Yabo Zhang, Kunchang Li, Dewei Zhou, Xinyu Huang, Xun Wang

发表机构 * ByteDance Seed（字节跳动种子）

AI总结该研究针对多模态语言模型在处理复杂交错指令时生成图像的性能不足问题，提出了一种统一的视觉生成模型INSET，将图像作为文本指令中的原生词汇嵌入，从而更精确地匹配描述与视觉目标。通过引入可扩展的数据引擎生成大量高质量交错样本，并在多项任务中展现出优于现有方法的多图像一致性和文本对齐能力，同时支持多模态图像编辑等扩展应用。

2605.12301 2026-05-13 cs.LG math.ST stat.TH

Approximation of Maximally Monotone Operators : A Graph Convergence Perspective

Takashi Furuya, Yury Korolev, Takaharu Yaguchi

发表机构 * Doshisha University（滋贺大学）； RIKEN AIP（理化学研究所AIP）； University of Bath（巴斯大学）； Kyushu University（九州大学）

AI总结该论文研究了如何通过图收敛方法对极大单调算子进行逼近，这类算子在数学和机器学习中具有重要应用。传统上的均匀或 $L^p$ 近似方法在处理此类算子时存在局限，作者提出利用图收敛（Painlevé-Kuratowski 收敛）作为逼近框架，证明了任何极大单调算子均可通过编码-解码结构进行局部图收敛逼近，并构建了保持极大单调性质的结构化近似方法。这一成果为处理不连续或集值算子的算子学习提供了新的理论基础和方法。

2605.12299 2026-05-13 cs.CL

GKnow: Measuring the Entanglement of Gender Bias and Factual Gender

Leonor Veloso, Hinrich Schütze

发表机构 * Center for Information and Language Processing, LMU Munich（信息与语言处理中心，慕尼黑大学）； Munich Center for Machine Learning (MCML)（慕尼黑机器学习中心（MCML））

AI总结该研究提出了一种名为GKnow的基准，用于评估语言模型在不同性别相关预测任务中的性别知识和性别偏见。研究发现，性别偏见与事实性性别在神经网络的电路和单个神经元层面高度纠缠，导致神经元消融等去偏方法效果不可靠。GKnow有助于识别和分析负责性别预测的模型组件，并揭示现有性别偏见评估基准可能掩盖事实性性别知识下降的问题。

Comments Accepted to ACL 2026

2605.12297 2026-05-13 cs.CV cs.RO eess.IV

EgoEV-HandPose: Egocentric 3D Hand Pose Estimation and Gesture Recognition with Stereo Event Cameras

Luming Wang, Hao Shi, Jiajun Zhai, Kailun Yang, Kaiwei Wang

发表机构 * National Research Center for Optical Instrumentation, Zhejiang University（浙江大学光学仪器国家研究中心）； School of Artificial Intelligence and Robotics and the National Engineering Research Center of Robot Visual Perception and Control Technology, Hunan University（湖南大学人工智能与机器人学院和机器人视觉感知与控制技术国家工程研究中心）； Ant Group Company Ltd.（蚂蚁集团有限公司）

AI总结本文提出EgoEV-HandPose，一种基于立体事件相机的端到端框架，用于解决第一人称视角下的3D双手姿态估计与手势识别问题。核心方法KeypointBEV通过将特征提升至统一的鸟瞰视角，并结合迭代重投影引导的优化循环，有效解决了深度不确定性与运动模糊问题。同时，研究还发布了首个大规模真实场景立体事件相机数据集EgoEVHands，显著提升了低光和双手遮挡场景下的性能，为事件相机在第一人称感知领域的发展提供了新基准。

Comments Extended version of SMC 2025 paper arXiv:2503.12419. The established dataset and source code will be publicly released at https://github.com/ZJUWang01/EgoEV-HandPose

2605.12294 2026-05-13 cs.AI

Executable Agentic Memory for GUI Agent

Zerui Qin, Sheng Yue, Xingyuan Hua, Yongjian Fu, Ju Ren

发表机构 * Tsinghua University, China（清华大学, 中国）； Sun Yat-sen University, China（中山大学, 中国）

AI总结本文提出了一种名为可执行智能体记忆（EAM）的新方法，用于提升图形用户界面（GUI）智能体在长期任务中的稳定性和效率。EAM 通过构建结构化的知识图谱，将自由生成的规划过程转化为基于检索与执行的流程，并结合状态感知的深度优先搜索和动作分组挖掘技术，实现高效的记忆构建。此外，引入基于价值引导的图搜索机制，利用轻量级Q函数模型指导蒙特卡洛树搜索，从而在保证规划效率的同时，显著提升了任务执行的成功率与成本效益。

2605.12292 2026-05-13 cs.LG

STRABLE: Benchmarking Tabular Machine Learning with Strings

Gioia Blayer, Myung Jun Kim, Félix Lefebvre, Lennart Purucker, Alan Arazi, Eilam Shapira, Roi Reichart, Frank Hutter, Marine Le Morvan, David Holzmüller, Gaël Varoquaux

发表机构 * SODA Team, INRIA Saclay（SODA团队，INRIA萨克莱实验室）； Probabl ； University of Freiburg（弗赖堡大学）； Prior Labs ； ELLIS Institute Tübingen（图宾根ELLIS研究所）； Technion – Israel Institute of Technology（技术ion-以色列理工学院）

AI总结该论文提出了STRABLE，一个包含108个真实应用场景表格的基准数据集，用于评估包含字符串和数值的表格机器学习方法。研究探讨了在表格数据中是否需要专门处理字符串的模型，或是将其编码为数值即可，并比较了不同处理方式的效果。实验表明，针对以分类变量为主的表格，使用简单字符串嵌入与先进表格学习模型结合即可取得良好效果，而以自由文本为主的表格则更适合使用大型语言模型编码。STRABLE为字符串表格学习提供了可靠的基准，有助于推动该领域研究。

2605.12290 2026-05-13 cs.LG

Targeted Neuron Modulation via Contrastive Pair Search

Sam Herring, Jake Naviasky, Karan Malhotra

发表机构 * Nous Research（Nous研究）

AI总结该研究探讨了语言模型如何通过指令微调拒绝有害请求的机制，并提出了一种名为对比神经元归因（CNA）的新方法，能够识别出少量关键神经元，这些神经元在区分有害和无害提示中起关键作用。实验表明，通过干预这些神经元可以有效降低模型的拒绝率，同时保持输出质量，而基础模型则缺乏这种可干预的拒绝机制。研究揭示了对齐微调如何将原有的判别结构转化为可操控的拒绝门控，为行为调控提供了更可靠的方法。

2605.12289 2026-05-13 cs.LG cs.AI

PriorZero: Bridging Language Priors and World Models for Decision Making

Junyu Xiong, Yuan Pu, Jia Tang, Yazhe Niu

发表机构 * University of Science and Technology of China（中国科学技术大学）； Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）； Nanjing University of Aeronautics and Astronautics（南京航空航天大学）； The Chinese University of Hong Kong MMLab（香港中文大学MMLab）

AI总结本文提出了一种名为 PriorZero 的统一框架，旨在将大型语言模型（LLM）的语言先验知识与基于世界模型的规划相结合，以提升强化学习代理在长期任务中的决策能力。该方法通过解耦的 rollout-训练设计，将 LLM 的概念先验仅注入蒙特卡洛树搜索（MCTS）的根节点，从而在保持世界模型深度前瞻能力的同时，引导搜索向语义上有潜力的动作聚焦。实验表明，PriorZero 在多个基准任务中显著提升了探索效率和最终性能，为基于 LLM 的决策制定提供了一个有前景的框架。

Comments 30 pages, 12 figures

2605.12282 2026-05-13 cs.CV

Large-Small Model Collaboration for Farmland Semantic Change Detection

Xinjia Li, Rui Wang, Qiurong Peng, Lingfei Ye, Dengrong Zhang, Haoyu Zhang

发表机构 * College of Information Science and Technology, Hangzhou Normal University（杭州师范大学信息科学与技术学院）

AI总结本文针对精细农田语义变化检测（SCD）中存在的标注不足和伪变化干扰问题，构建了一个大规模细粒度农田变化检测基准HZNU-FCD，并提出了一种大模型与小模型协作的检测框架。该框架结合了任务驱动的小型视觉模型FD-Mamba和冻结的大型视觉-语言模型，通过跨模态逻辑仲裁和硬区域协同训练策略，有效提升了边界保持和小区域变化检测的精度。实验表明，该方法在多个数据集上均取得了优异的性能，展现出良好的鲁棒性和泛化能力。

详情

英文摘要

Farmland Semantic Change Detection (SCD) is essential for cultivated land protection, yet existing benchmarks and models remain insufficient for fine-grained farmland conversion monitoring. Current datasets often lack dedicated "from-to" annotations, while visual change detection models are easily disturbed by phenology-induced pseudo-changes caused by crop rotation, seasonal variation, and illumination differences. To address these challenges, we construct HZNU-FCD, a large-scale fine-grained farmland SCD benchmark with a unified five-class farmland-to-non-farmland annotation protocol. It contains 4,588 bitemporal image pairs with pixel-level labels for practical farmland protection. Based on this benchmark, we propose a large-small collaborative SCD framework that integrates a task-driven small visual model with a frozen large vision-language model. The small model, Fine-grained Difference-aware Mamba (FD-Mamba), learns dense change representations for boundary preservation and small-region localization. The large-model pathway, Cross-modal Logical Arbitration (CMLA), introduces CLIP-based textual priors for prompt-guided semantic arbitration and pseudo-change suppression. To enable effective collaboration, we design a hard-region co-training strategy that supervises the CMLA semantic score map only on low-confidence pixels. Experiments show that our method achieves 97.63% F1, 96.32% IoU, and 96.35% SCD_IoU_mean on HZNU-FCD with only 6.65M trainable parameters. Compared with the multimodal ChangeCLIP-ViT, which leverages vision-language information for change detection, our method improves F1 by 10.19 percentage points on HZNU-FCD. It also achieves 91.43% F1 and 84.21% IoU on LEVIR-CD, and 93.85% F1 and 88.41% IoU on WHU-CD, demonstrating strong robustness and generalization. The code is available at https://github.com/Lovelymili/FD-Mamba.

URL PDF HTML ☆

赞 0 踩 0

2605.12281 2026-05-13 cs.CL cs.LG

What makes a word hard to learn? Modeling L1 influence on English vocabulary difficulty

Jonas Mayer Martins, Zhuojing Huang, Aaricia Herygers, Lisa Beinborn

发表机构 * University of Göttingen（哥廷根大学）

AI总结本研究探讨了英语词汇对以西班牙语、德语或汉语为母语的学习者而言为何难以掌握，并计算建模了词汇难度，考虑了词汇的熟悉度、语义、表层形式及跨语言迁移等因素。通过Shapley值分析，发现词汇熟悉度是所有三类学习者共通的主要影响因素，而西班牙语和德语学习者还受到正字法迁移的影响，而汉语学习者则主要依赖熟悉度和表层特征。该模型提供了可解释的、针对不同母语背景的学习者定制化的词汇难度评估，有助于设计更有效的词汇教学方案。

Comments Submitted to BEA 2026 at ACL. 18 pages, 13 figures

2605.12278 2026-05-13 cs.LG

Hypernetworks for Dynamic Feature Selection

Javier Fumanal-Idocin, Raquel Fernandez-Peralta, Javier Andreu-Perez

发表机构 * University of Essex（埃塞克斯大学）； Slovak Academy of Sciences（斯洛伐克科学院）

AI总结本文研究了动态特征选择（DFS）框架中的结构限制，并提出了一种基于超网络的新型方法Hyper-DFS，该方法能够按需生成特定特征子集的分类器参数，从而在保证泛化性能的同时降低结构复杂度。通过引入Set Transformer编码，Hyper-DFS还构建了平滑的条件空间，使功能相似的任务在几何上更接近。实验表明，Hyper-DFS在合成数据、真实表格数据以及多个图像数据集上均优于现有方法，并在未见过的特征子集上展现出更强的零样本泛化能力。

2605.12276 2026-05-13 cs.AI

NARA: Anchor-Conditioned Relation-Aware Contextualization of Heterogeneous Geoentities

Jina Kim, Gengchen Mai, Lingyi Zhao, Khurram Shafique, Yao-Yi Chiang

发表机构 * Department of Computer Science and Engineering, University of Minnesota（明尼苏达大学计算机科学与工程系）； Department of Geography and the Environment, University of Texas at Austin（德克萨斯大学奥斯汀分校地理与环境系）； Novateur Research Solutions（Novateur研究解决方案）

AI总结该研究提出了一种名为NARA的自监督学习框架，用于处理异构矢量地理实体的数据，旨在解决现有方法在统一建模几何、语义和空间关系方面的不足。NARA通过联合建模语义、几何结构和空间关系，实现了对点、线、面等不同类型的地理实体的上下文感知表征。实验表明，该方法在建筑功能分类、交通速度预测和兴趣点推荐等任务中均优于现有方法，验证了其在统一关系建模方面的有效性。

2605.12266 2026-05-13 cs.CV

CAD-feature enhanced machine learning for manufacturing effort estimation on sheet metal bending parts

Matteo Ballegeer, Toon Van Camp, Willem Jaspers, Alp Bayar, Aung Nyein Soe, Martin Roelfs, Dries F. Benoit, Bieke Decraemer, Joost R. Duflou

发表机构 * Data Analytics Research Group, Ghent University（根特大学数据分析研究组）； Corelab CodesignS, Flanders Make（核心实验室CodesignS，弗拉芒制作）； Department of Mechanical Engineering, KU Leuven/Flanders Make（机械工程系，根特大学/弗拉芒制作）

AI总结该研究针对钣金弯曲零件的制造努力估计问题，提出了一种结合CAD特征与图神经网络的混合方法。通过在B-rep拓扑图中引入基于规则模块识别的制造特征，如弯折特性、翻边长度等，增强了模型对工艺相关几何模式的学习能力。实验表明，该方法在合成数据集和真实工业数据集上均显著提升了预测精度，验证了领域知识与图学习结合在制造可行性评估中的有效性。

2605.12265 2026-05-13 cs.AI

How Useful Is Cross-Domain Generalization for Training LLM Monitors?

Sam Martin, Fabien Roger

发表机构 * Anthropic Fellows Program（Anthropic 后备计划）

AI总结本文研究了在有限训练数据下使用提示语言模型进行分类的有效性，并探讨了跨领域泛化对训练大语言模型分类器的作用。研究发现，通过多任务提示训练可以在相邻领域提升分类性能，但在某些边缘情况下，微调模型会因提示变化而失效。研究还表明，将分类训练与通用指令遵循训练结合，能够在保持分类性能的同时缓解泛化失败问题，并发现这种无思考的分类训练在构建其他分类器和监控系统中可能具有实用价值。

2605.12262 2026-05-13 cs.AI cs.LG

Missingness-MDPs: Bridging the Theory of Missing Data and POMDPs

Joshua Wendland, Markel Zubia, Roman Andriushchenko, Maris F. L. Galesloot, Milan Ceska, Henrik von Kleist, Thiago D. Simao, Maximilian Weininger, Nils Jansen

发表机构 * Ruhr University Bochum（博德姆鲁尔大学）； Brno University of Technology（布拉格技术大学）； Radboud University Nijmegen（拉德博德大学奈杰姆）； Harvard University（哈佛大学）； Eindhoven University of Technology（埃因霍温理工大学）

AI总结本文提出了一种新的部分可观测马尔可夫决策过程（POMDP）子类——缺失性-MDP（miss-MDP），将缺失数据理论融入强化学习框架中。该模型通过缺失函数描述状态特征在不同时间步缺失的概率，针对未知缺失函数的情况，提出基于不同缺失类型结构特性的算法，从观测数据中学习缺失函数，并据此生成近似最优策略。理论证明所得到的策略在真实 miss-MDP 中具有高概率的 ε-最优性，实验结果也验证了方法的有效性。

2605.12261 2026-05-13 cs.LG

Delay-Empowered Causal Hierarchical Reinforcement Learning

Chenran Zhao, Dianxi Shi, Haotian Wang, Mengzhu Wang, Yaowen Zhang, Chunping Qiu, Shaowu Yang

发表机构 * College of Computer Science and Technology, National University of Defense Technology（国防科技大学计算机科学与技术学院）； Intelligent Game and Decision Lab (IGDL)（智能游戏与决策实验室）； Institute of Military Transportation（军事交通运输研究院）； School of Artificial Intelligence, Hebei University of Technology（河北工业大学人工智能学院）

AI总结许多现实任务中存在延迟效应，即动作的后果会在不同时间滞后后才显现。现有延迟感知的强化学习方法通常依赖状态增强、延迟分布的先验知识或非延迟数据，限制了其泛化能力。本文提出了一种延迟赋能的因果分层强化学习方法（DECHRL），该方法显式建模状态转移的因果结构及其相关的随机延迟分布，并将其融入延迟感知的赋能目标中，引导智能体主动探索可控性高的状态，从而在时间不确定性下提升性能。实验表明，DECHRL在具有随机延迟的修改版2D-Minecraft和MiniGrid环境中显著优于基线方法。

2605.12259 2026-05-13 cs.CV

From Image Hashing to Scene Change Detection

Anh-Kiet Duong, Marie-Claire Iatrides, Petra Gomez-Krämer, Jean-Michel Carozza

发表机构 * L3i Laboratory（L3i实验室）； La Rochelle University（拉罗谢尔大学）； LIENSs Laboratory（LIENSs实验室）； Association Ferrocampus（Ferrocampus协会）

AI总结图像哈希技术虽能高效存储和检索图像，但其全局比较特性无法定位具体变化区域，限制了其在场景变化检测中的应用。本文从场景变化检测的角度重新审视图像哈希，提出了一种基于块的哈希框架HashSCD，能够在哈明空间中直接实现全局变化检测与局部变化定位，无需对历史图像重复推理。该方法通过对比学习进行无监督训练，在保证性能的同时显著降低了计算和存储开销。

Comments 18 pages; accepted to ICPR 2026

2605.12258 2026-05-13 cs.LG

Instruction Lens Score: Your Instruction Contributes a Powerful Object Hallucination Detector for Multimodal Large Language Models

Runhe Lai, Xinhua Lu, Yanqi Wu, Jinlun Ye, Weijiang Yu, Ruixuan Wang

发表机构 * School of Computer Science and Engineering, Sun Yat-sen University, Guangzhou, China（中山大学计算机科学与工程学院，广州，中国）； Peng Cheng Laboratory, Shenzhen, China（鹏城实验室，深圳，中国）； Key Laboratory of Machine Intelligence and Advanced Computing, MOE, Guangzhou, China（机器智能与高级计算关键实验室，教育部，广州，中国）

AI总结多模态大语言模型在实际应用中仍面临物体幻觉的挑战。本文深入分析了指令令牌嵌入，发现其隐含编码了视觉信息并能有效过滤误导性视觉嵌入带来的错误信息，基于此提出了一种无需额外训练或辅助模型的物体幻觉检测方法——指令透镜分数（InsLen）。该方法结合校准局部分数与上下文一致性分数，实验表明其在多个基准和不同模型架构上均优于现有方法，具有良好的有效性和鲁棒性。

Comments Accepted by ICML-2026

2605.12255 2026-05-13 cs.AI cs.CY cs.LG

Why Conclusions Diverge from the Same Observations: Formalizing World-Model Non-Identifiability via an Inference

Toru Takahashi

发表机构 * Human Informatics and Systems Laboratory, Doshisha University, Kyoto, Japan（大阪大学人文学与系统实验室，京都，日本）； Linked Open Data Initiative, NPO, Tokyo, Japan（开放数据倡议，东京，日本）； Keio Research Institute at SFC, Fujisawa, Japan（庆应义塾大学SFC研究所， Fujisawa，日本）； Stroly Inc., Kyoto, Japan（Stroly公司，京都，日本）

AI总结本文探讨了为何人们在面对相同观察时会产生不同结论的问题，指出这种分歧源于推理与学习过程中的非可识别性，而非对方认知缺陷。研究将非可识别性分为两个层次：在相同世界模型下因推理设置不同导致结论差异，以及推理设置本身影响数据暴露和更新规则，进而导致世界模型的差异。文章引入推理配置的概念，分析了分歧如何受计算、观察和协调等约束条件的影响，并将其与深度表征学习中的相关概念联系起来，通过AI监管辩论的案例加以说明。

Comments 12 pages, 2 figures, 1 table. Extended English version of a paper accepted for presentation at JSAI 2026

2605.12252 2026-05-13 cs.CV

H3D-MarNet: Wavelet-Guided Dual-Path Learning for Metal Artifact Suppression and CT Modality Transformation for Radiotherapy Workflows

Mubashara Rehman, Niki Martinel, Michele Avanzo, Riccardo Spizzo, Christian Micheloni

发表机构 * Machine Learning and Perception Lab, Università degli Studi di Udine（机器学习与感知实验室，乌迪内大学）； Centro di Riferimento Oncologico di Aviano IRCCS（阿维亚诺肿瘤参考中心）

AI总结该研究提出了一种名为H3D-MarNet的两阶段框架，用于从千伏CT（kVCT）到兆伏CT（MVCT）的去金属伪影和CT模态转换，以提升放疗流程中的图像质量。第一阶段通过小波引导的预处理模块，在去除金属伪影的同时保留解剖结构；第二阶段采用结合卷积神经网络和Transformer的Domain-TransNet，通过注意力机制融合局部细节与全局上下文信息，实现高保真的CT模态转换。实验表明，该方法在伪影严重区域取得了较高的PSNR和SSIM指标，显示出其在临床放疗中的应用潜力。

Comments Accepted for publication at the 28th International Conference on Pattern Recognition, Lyon, France August, 17-22, 2026

2605.12247 2026-05-13 cs.RO

SI-Diff: A Framework for Learning Search and High-Precision Insertion with a Force-Domain Diffusion Policy

Yibo Liu, Stanko Oparnica, Simon Shewchun-Jakaitis, Guoyi Fu, Jie Wang, Jun Yang, Anand Jagannathan, Tony Hong-Yau Lo

发表机构 * Epson Canada（爱普生加拿大）； Queen’s University（皇后大学）

AI总结在机器人接触丰富的装配任务中，由于相对位姿的不确定性，如错位和微小间隙，搜索和高精度插入面临重大挑战。本文提出SI-Diff框架，通过力域扩散策略统一学习搜索与高精度插入动作，引入新的模式条件机制以在单一模型中捕捉不同动作行为，并设计新的搜索教师策略生成多样化轨迹，从而提升模型对初始位姿偏差的容忍度和对未知形状的泛化能力。

Comments 9 pages, 8 figures

2605.12245 2026-05-13 cs.LG

SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization

Chengzhu Bao, Xianglong Yan, Zhiteng Li, Guangshuo Qin, Guanghua Yu, Yulun Zhang

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Tencent Hunyuan（腾讯文心）

AI总结 SOAR 是一种针对 NVFP4 量化格式的后训练量化框架，旨在提升大语言模型在 4 位微缩量化下的重建精度。该方法提出闭式联合尺度优化（CJSO）和解耦尺度搜索（DSS）技术，通过联合优化全局与块级尺度并解耦量化与反量化尺度，有效缓解了传统方法中尺度选择不灵活和精度损失的问题。实验表明，SOAR 在多个大语言模型上均优于现有 NVFP4 量化方法，在相同内存占用下实现了更高的精度。

2605.12243 2026-05-13 cs.CL

PreScam: A Benchmark for Predicting Scam Progression from Early Conversations

Weixiang Sun, Shang Ma, Yiyang Li, Tianyi Ma, Zehong Wang, Colby Nelson, Xusheng Xiao, Yanfang Ye

发表机构 * University of Notre Dame（诺丁汉大学）； Arizona State University（亚利桑那州立大学）

AI总结 PreScam 是一个用于从早期对话中预测诈骗进展的基准数据集，旨在研究如情感诈骗和投资诈骗等多轮对话型诈骗的演变过程。该数据集基于用户提交的诈骗报告构建，包含11,573个涵盖20类诈骗的对话实例，并按照诈骗生命周期进行结构化标注，标注内容包括诈骗者的心理操作和受害者的回应。研究通过两个任务评估模型能力，结果显示当前模型在捕捉诈骗线索方面有一定成效，但在追踪风险升级和跨轮次操控方面仍存在较大挑战。

2605.12242 2026-05-13 cs.CL cs.AI

Mind the Pause: Disfluency-Aware Objective Tuning for Multilingual Speech Correction with LLMs

Deepak Kumar, Baban Gain, Asif Ekbal

发表机构 * Department of Computer Science and Engineering（计算机科学与工程系）； Indian Institute of Technology Patna（印度理工学院帕纳瓦）

AI总结自动语音识别（ASR）生成的文本常包含停顿、重复和误起等不流畅现象，影响可读性和下游应用效果。本文提出一种基于大语言模型（LLM）的多语言语音文本流畅性修正方法，通过序列标注识别不流畅词元，并结合指令微调与对比学习优化模型，使其在去除不流畅内容的同时保持语义和语法完整性。实验表明，该方法在印地语、孟加拉语和马拉地语上显著优于现有基线模型，验证了其有效性与实用性。

Comments Accepted to ACL 2026 (Main)