arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.10317 2026-05-12 cs.LG cs.AI

Relations Are Channels: Knowledge Graph Embedding via Kraus Decompositions

Sayan Kumar Chaki

发表机构 * Inria, Laboratoire Hubert Curien, Université Jean Monnet（法国国家科学研究中心（Inria）、Hubert Curien实验室、让·莫内大学）

AI总结本文提出了一种基于Kraus分解的知识图谱嵌入方法，通过引入线性、迹保持和完全正性三个结构公理，将关系操作符形式化为Kraus通道，从而为关系建模提供了理论基础。该方法不仅能够自然处理多对多关系，还支持多跳推理并消除了对实体嵌入范数的约束，同时提出了首个具有理论依据的关系复杂度度量。实验表明，该模型在多对多关系任务上显著优于现有方法。

2605.10315 2026-05-12 cs.LG cs.AI

Active Tabular Augmentation via Policy-Guided Diffusion Inpainting

Zheyu Zhang, Shuo Yang, Bardh Prenkaj, Gjergji Kasneci

发表机构 * Technical University of Munich（慕尼黑技术大学）； Munich Center for Machine Learning (MCML)（慕尼黑机器学习中心（MCML））

AI总结本文研究了在数据稀缺场景下如何通过生成表格数据来提升下游模型性能的问题。传统方法侧重于生成数据的分布保真度，但未能有效提升模型表现。为此，作者提出了TAP方法，结合扩散补全技术与条件策略，动态选择生成内容和注入时机，以最大化对当前学习器的提升效果。实验表明，TAP在多个真实数据集上显著优于现有方法，分类准确率提升最高达15.6个百分点，回归任务的RMSE降低最高达32%。

Comments Accepted for publication at ICML 2026

2605.10313 2026-05-12 cs.LG math.OC

Signature Approach for Contextual Bandits with Nonlinear and Path-dependent Rewards

Xin Guo, Grace He, Xinyu Li

发表机构 * University of California, Berkeley（加州大学伯克利分校）； University of Oxford（牛津大学）

AI总结本文研究具有非线性和路径依赖奖励的上下文多臂老虎机问题，提出了一种基于签名变换的新方法，将连续路径依赖的奖励函数在签名空间中近似为线性函数，从而能够高效地应用线性上下文老虎机算法并保留序列结构信息。基于该框架，作者设计了签名驱动的离散上置信界算法DisSigUCB，并在一定假设下证明了其高概率数据依赖的次线性遗憾界。实验表明，该算法在非线性和路径依赖场景下优于传统线性和核方法。

2605.10298 2026-05-12 cs.LG

Set Prediction for Next-Day Active Fire Forecasting

Yuchen Bai, Georgios Athanasiou, Xin Yu, Diogenis Antonopoulos, Ioannis Papoutsis, Stijn Hantson, Nuno Carvalhais

发表机构 * Max Planck Institute for Biogeochemistry（马克斯·普朗克生物地球化学研究所）； Orion Lab（奥里昂实验室）； University of Utah（犹他大学）； National Observatory of Athens（雅典国家天文台）； Earth System Science Program, School of Sciences and Engineering, Universidad del Rosario（地球系统科学计划，科学与工程学院，罗萨里奥大学）； Departamento de Ciências e Engenharia do Ambiente, Faculdade de Ciências e Tecnologia, Universidade Nova Lisboa（环境科学与工程系，科学与技术学院，新里斯本大学）； ELLIS Unit Jena（耶纳ELLIS单位）

AI总结本文提出了一种名为WISP的模型，用于高分辨率的次日主动火点预测，将火点预测问题重新定义为点集预测任务。该模型基于48小时的多源数据，如气象、植被、地理和历史火点信息，在375米网格上预测未来火点集群中心的固定大小排名集合，并通过匈牙利匹配进行端到端训练。实验表明，该方法在全局测试集上取得了较高的平均精度和火点覆盖度，为高分辨率火灾预测提供了新的方法和基准。

2605.10296 2026-05-12 cs.CL cs.AI cs.IR cs.LG

Qwen Goes Brrr: Off-the-Shelf RAG for Ukrainian Multi-Domain Document Understanding

Anton Bazdyrev, Ivan Bashtovyi, Ivan Havlytskyi, Oleksandr Kharytonov, Artur Khodakovskyi

发表机构 * National Technical University of Ukraine（乌克兰国家技术大学）

AI总结本文研究了如何利用现成的检索增强生成（RAG）方法解决乌克兰语多领域文档理解任务，具体为从PDF文档中回答多项选择题并定位支持信息。作者提出了一种基于上下文分块、问题感知的密集检索与重排序以及受限答案生成的管道，有效提升了系统性能。实验表明，使用Qwen系列模型进行检索与重排序能够显著提高召回率和答案准确率，在公开和私有测试集上均取得优异成绩，验证了结构保留和答案空间感知在严格竞赛条件下的有效性。

Comments Accepted to The Fifth Ukrainian Natural Language Processing Conference (UNLP 2026)

2605.10295 2026-05-12 cs.CL

DECO-MWE: building a linguistic resource of Korean multiword expressions for feature-based sentiment analysis

Jaeho Han, Changhoe Hwang, Seongyong Choi, Gwanghoon Yoo, Eric Laporte, Jeesun Nam

发表机构 * DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies, Korea（DICORA，语言学与认知科学系，韩国民法大学，韩国）； Université Paris-Est, LIGM, CNRS, UPEM, ESIEE, ENPC, France（巴黎-est大学，LIGM，法国国家科学研究中心，UPEM，ESIEE，ENPC，法国）

AI总结本文旨在构建一个用于基于特征的情感分析的韩语多词表达（MWE）语言资源DECO-MWE。为高效构建情感相关的MWE资源，研究采用局部语法图（LGG）方法，将DECO-MWE形式化为有限状态转换器，以表达MWE的词法和句法限制。通过构建化妆品评论语料库并进行实证分析，研究识别出四类MWE，并在测试语料中实现了0.806的F值，为基于特征的情感分析提供了通用的多词表达词典和可复用的有限状态处理方法。

Journal ref 13th Workshop on Asian Language Resources, May 2018, Miyazaki, Japan, pp.14-20

2605.10293 2026-05-12 cs.LG cs.AI

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Maris F. L. Galesloot, Thomas Rhemrev, Nils Jansen

发表机构 * Radboud University Nijmegen The Netherlands ； Ruhr University\,\&\,Radboud University Bochum Germany ； Radboud University ； Ruhr University\,\&\,Radboud University

AI总结本文研究了如何在离线强化学习中实现安全策略改进的问题，提出了鲁棒的概率屏蔽方法，通过结合安全策略改进（SPI）与屏蔽技术，仅利用已有数据集和安全状态知识，在策略优化过程中提供性能与安全性的双重保障。该方法能够在高概率下确保改进后的策略既优于基线策略，又满足安全约束，实验表明其在数据量较少时表现出更优的平均与最差情况性能。

2605.10292 2026-05-12 cs.LG cs.AI

LeapTS: Rethinking Time Series Forecasting as Adaptive Multi-Horizon Scheduling

Sheng Pan, Ming Jin, Bo Du, Shirui Pan

发表机构 * Griffith University（格里菲斯大学）

AI总结本文提出了一种名为 LeapTS 的新型时间序列预测框架，将传统固定映射的预测任务重新定义为动态的多步调度过程，以更好地适应未来时间点的演变。LeapTS 通过分层控制器和神经控制微分方程实现多级决策，动态选择预测尺度和推进步长，从而提升模型对非平稳动态的捕捉能力。实验表明，LeapTS 在多个真实和合成数据集上显著提升了预测性能，并实现了比基于 Transformer 的模型更快的推理速度。

2605.10286 2026-05-12 cs.AI

AgentRx: A Benchmark Study of LLM Agents for Multimodal Clinical Prediction Tasks

Baraa Al Jorf, Farah E. Shamout

发表机构 * New York University Abu Dhabi（纽约大学阿布扎克分校）

AI总结本文提出并评估了基于大语言模型（LLM）的智能体在多模态临床预测任务中的性能，研究了其在电子健康记录、医学影像、报告和临床笔记等异构数据上的表现。通过大规模真实医疗数据的系统性实验，发现单一智能体框架在多模态任务中优于简单的多智能体系统，具有更强的数据处理能力和校准效果。该研究为医疗领域智能体系统的进一步发展提供了新的基准，并开源了代码和评估框架。

Comments Accepted at the AHLI Conference on Health, Inference, and Learning 2026

2605.10281 2026-05-12 cs.SD cs.AI

Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs

Konstantinos Soiledis, Maximos Kaliakatsos-Papakostas, Dimos Makris, Konstantinos Tsamis

发表机构 * Dept. of Music Technology and Acoustics, Hellenic Mediterranean University（音乐技术与声学系，希腊地中海大学）

AI总结本文研究如何从带有微时值和力度信息的表达性鼓点网格（MIDI表示）直接生成逼真的鼓音频，提出了一种基于神经音频编解码器的方法。该方法使用基于Transformer的模型将鼓点网格映射为编解码器的离散码元序列，并通过预训练的编解码器解码器生成波形音频。实验表明，该方法在大型人类鼓演奏数据集E-GMD上表现出良好的音频保真度和音乐对齐性，为鼓点到音频的生成提供了有效途径，并为打击乐合成中的音频码元选择提供了实用参考。

2605.10279 2026-05-12 cs.LG

DeepLog: A Software Framework for Modular Neurosymbolic AI

Robin Manhaeve, Stefano Colamonaco, Vincent Derkinderen, Rik Adriaensen, Lucas Van Praet, Luc De Raedt, Giuseppe Marra

发表机构 * Department of Computer Science and Leuven.AI（计算机科学系和Leuven.AI）

AI总结 DeepLog 是一个基于 PyTorch 的模块化神经符号人工智能框架，旨在将逻辑推理与深度学习统一在一个操作流程中。该框架通过将多种神经符号语言作为高层规范进行自动编译，生成优化的算术电路，从而降低了机器学习实践者的使用门槛，并为神经符号系统开发者提供了一个高性能的共享平台。其核心贡献在于实现了神经符号系统的模块化与通用化，便于不同方法的集成与实验。

Comments Preprint accepted at IJCAI2026 Demo Track

2605.10278 2026-05-12 cs.LG

Predictive Radiomics for Evaluation of Cancer Immune SignaturE in Glioblastoma: the PRECISE-GBM study

Prajwal Ghimire, Junjie Li, Liu Yaou, Marc Modat, Thomas Booth

发表机构 * School of Biomedical Engineering & Imaging Sciences, King’s College London, UK（伦敦国王学院生物医学工程与成像科学学院）； Department of Neurosurgery, King’s College Hospital, London, UK（伦敦国王学院医院神经外科部门）； Department of Neuroradiology, Beijing Tiantan Hospital, Beijing, China（北京天坛医院神经放射科部门）； Department of Neuroradiology, King’s College Hospital, London, UK（伦敦国王学院医院神经放射科部门）

AI总结本研究旨在通过影像基因组学方法，开发并验证用于评估IDH野生型胶质母细胞瘤免疫特征的影像生物标志物。研究利用多中心回顾性数据，结合深度学习分割的MRI影像特征与基因组数据，构建并验证了基于放射组学的免疫签名预测模型。结果表明，所提出的模型能够非侵入性地预测巨噬细胞M0亚型的免疫特征，具有良好的稳定性和泛化能力，有望用于指导胶质母细胞瘤患者的免疫治疗分层。

Comments Abstract : 226; Importance of study: 109; Manuscript: 5690 (excluding references) Figures: 4, Tables: 2 Supplemental File: 1

Journal ref Neuro-Oncology Advances 2026. Published online May 2, 2026

详情

DOI: 10.1093/noajnl/vdag115

英文摘要

Background: Radiogenomics allows identification of radiological biomarkers for genomic phenotypes. In glioblastoma, these biomarkers could potentially complement patient stratification strategies. We aim to develop and analytically validate radiological biomarkers that capture immune cell signatures within IDH-wildtype glioblastoma microenvironment using radiogenomic analysis. Methods: This was a retrospective multicenter study using curated open-access anonymized imaging and genomic data from TCGA-GBM, CPTAC, IvyGAP, REMBRANDT and CGGA datasets. Imaging data consisted of MRI-based radiomic features extracted from necrotic core, enhancing and edema regions of deep learning-based auto-segmented tumors. Radiomic feature selections were performed using nested cross-validated LASSO. Support vector machine and ensemble models were trained using seventeen immune and cell-specific score labels extracted from deconvoluted transcriptomic data using pan-cancer and glioblastoma immune signature matrices as reference standards. Seventeen classifier models trained in three cross-cohort strategies were validated on three held-out datasets assessing stability and generalizability. Results: One-hundred-and-seventy-six patients were included in the study. The immune-related radiomic signatures obtained after feature selection were shape, first order and higher order radiomic features. Models predicting macrophage subtype immune signature showed stable mean performance on balanced accuracy (0.67) and precision (0.89) metrics for three independent holdout datasets with ensemble model outperforming support vector machine model. Conclusion: Radiogenomic models non-invasively predicted the macrophage subtype M0 immune signature in IDH-wildtype glioblastoma. These biomarkers have the potential to stratify patients for immunotherapy within prospective glioblastoma clinical trials.

URL PDF HTML ☆

赞 0 踩 0

2605.10277 2026-05-12 cs.LG math.AP stat.ML

Generalization Error Bounds for Picard-Type Operator Learning in Nonlinear Parabolic PDEs

Koichi Taniguchi, Sho Sonoda

发表机构 * Department of Mathematical and Systems Engineering, Faculty of Engineering（工学系数学与系统工程系）； RIKEN AIP / CyberAgent（RIKEN AIP/ CyberAgent）

AI总结本文研究了基于Duhamel-Picard迭代的非线性抛物型偏微分方程（PDE）解算子的学习问题，提出了一个抽象的状态转移模型框架，并推导了与实现无关的泛化误差界，将实现误差与估计误差分离。核心贡献在于揭示了增加Picard迭代深度可以减少截断误差，同时避免熵估计误差的无界增长，并将该理论应用于环面上非线性热方程的Picard型傅里叶神经算子实现中。

Comments 39 pages

2605.10275 2026-05-12 cs.CV

PolarVSR: A Unified Framework and Benchmark for Continuous Space-Time Polarization Video Reconstruction

Chenggong Li, Yidong Luo, Junchao Zhang, Boxin Shi, Degui Yang

发表机构 * School of Automation, Central South University（中南大学自动化学院）； Hunan Provincial Key Laboratory of Optic-Electronic Intelligent Measurement and Control（湖南省光学电子智能测量控制重点实验室）； Zhejiang University（浙江大学）； School of Engineering, Westlake University（西湖大学工程学院）； State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University（北京大学计算机学院多媒体信息处理国家重点实验室）； National Engineering Research Center of Visual Technology, School of Computer Science, Peking University（视觉技术国家工程研究中心，北京大学计算机学院）

AI总结本文提出了一种统一的时空极化视频重建框架PolarVSR，旨在解决主流分焦平面极化成像中从混色阵列中恢复极化参数这一具有挑战性的逆问题。该方法通过联合建模空间与时间上的极化方向，并结合极化感知的隐式神经表示，实现了连续且高保真的超分辨率重建。同时，引入了基于光流引导的极化变化损失以优化极化动态，还建立了首个大规模彩色DoFP极化视频基准数据集，实验结果验证了方法的有效性。

2605.10272 2026-05-12 cs.LG cs.AI cs.CR cs.DC

DP-LAC: Lightweight Adaptive Clipping for Differentially Private Federated Fine-tuning of Language Models

Haaris Mehmood, Jie Xu, Karthikeyan Saravanan, Rogier Van Dalen, Mete Ozay

发表机构 * Samsung AI Centre Cambridge（三星剑桥人工智能中心）

AI总结本文提出了一种轻量级自适应剪切方法DP-LAC，用于在联邦学习中实现语言模型的差分隐私微调。该方法通过私有直方图估计初步确定剪切阈值，并在训练过程中动态调整该阈值，而无需额外消耗隐私预算或引入新超参数。实验表明，DP-LAC在准确率上优于现有自适应剪切方法和传统DP-SGD，平均提升了6.6%。

Comments Accepted at ICASSP 2026

2605.10269 2026-05-12 cs.CV cs.RO

Increasing the Efficiency of DETR for Maritime High-Resolution Images

Tinsae Yehuala, Hao Cheng, Ville Lehtola

发表机构 * Dept. of Earth Observation Science, ITC Faculty, University of Twente（地球观测科学系，ITC学院，特文特大学）

AI总结本文针对海上无人水面船舶（USV）安全导航中高分辨率图像的目标检测需求，研究如何提升DETR模型的检测效率。作者采用基于状态空间模型（SSM）的Vision Mamba（ViM）作为主干网络，结合序列化图像分块处理与特征金字塔网络设计，有效提升了对远距离、小目标及大尺度变化的检测能力。通过引入令牌剪枝等优化策略，该方法在保持检测精度的同时显著降低了计算和内存开销，为海上实时目标检测提供了更高效可靠的解决方案。

2605.10268 2026-05-12 cs.CL cs.AI

MemReread: Enhancing Agentic Long-Context Reasoning via Memory-Guided Rereading

Baibei Ji, Xiaoyang Weng, Juntao Li, Zecheng Tang, Yihang Lou, Min Zhang

发表机构 * Soochow University（苏州大学）； Peking University（北京大学）

AI总结为了解决长上下文推理任务中标准注意力机制带来的二次复杂度问题，研究提出了一种基于智能体记忆的方法，通过动态更新记忆来线性处理文档块。然而，现有方法在记忆覆盖过程中可能丢失潜在证据，为此，MemReread 引入了基于问题分解和重读的机制，在最终记忆不足时触发重读，从而恢复被提前丢弃的间接事实，支持非线性推理同时保持文档理解的逻辑流程。此外，研究还引入强化学习框架，提升模型对长文本的外推能力，并根据任务复杂度动态控制重读次数，有效平衡了性能与计算开销。

2605.10261 2026-05-12 cs.AI cs.LG

E-TCAV: Formalizing Penultimate Proxies for Efficient Concept Based Interpretability

Hasib Aslam, Muhammad Ali Chattha, Muhammad Taha Mukhtar, Muhammad Imran Malik, Andreas Dengel, Sheraz Ahmed

发表机构 * National University of Sciences and Technology（国立科学与技术大学）； German Research Centre for Artificial Intelligence（德国人工智能研究中心）

AI总结本文提出了一种名为E-TCAV的高效概念解释框架，用于解决传统TCAV方法在计算开销、层间评分不一致和统计稳定性方面的不足。通过深入分析TCAV方法的三个关键方面，E-TCAV利用最终层作为早期层的快速代理，显著提升了计算效率，并在多个网络架构和数据集上验证了其有效性。实验表明，最终层与倒数第二层在TCAV评分上高度一致，且评分方差主要由潜在分类器的选择引起，从而为高效模型调试和实时概念引导训练提供了可行方案。

2605.10257 2026-05-12 cs.AI

Towards Autonomous Railway Operations: A Semi-Hierarchical Deep Reinforcement Learning Approach to the Vehicle Rescheduling Problem

Alberto Castagna, Stefan Zahlner, Adrian Egli, Christian Eichenberger, Daniel Boos, Manuel Meyer, Anton Fuxjager

发表机构 * enliteAI ； SBB CFF FFS ； Flatland Association

AI总结本文研究了如何通过半分层深度强化学习方法解决铁路车辆调度中的突发干扰问题，以提升铁路运营的自动化水平。该方法针对铁路操作中的调度与路径规划任务，设计了专门的动作和观测空间，使策略能够专注于不同层次的决策，从而有效应对调度决策少而路径更新频繁的问题。实验表明，该方法在协调性、资源利用率和系统鲁棒性方面优于传统启发式方法和单一强化学习方法，显著提高了列车到达目的地的数量，并在高密度交通下保持了较低的死锁率。

2605.10256 2026-05-12 cs.SD cs.AI

A Cold Diffusion Approach for Percussive Dereverberation

Dimos Makris, András Barják, Maximos Kaliakatsos-Papakostas

发表机构 * Department of Music Technology（音乐技术系）； Acoustics Hellenic Mediterranean University（声学希伯伦地中海大学）

AI总结本文提出了一种用于打击乐去混响的冷扩散框架，针对当前音频去混响研究主要集中在语音而忽视打击乐信号的问题，通过将混响建模为从无混响信号到混响信号的确定性退化过程，逐步生成混响效果。研究引入了两种逆过程参数化方法，并采用UNet和扩散Transformer作为模型架构，在包含真实和电子鼓录音的数据集上进行训练与评估，实验表明该方法在多个指标上优于现有的基于分数和条件扩散的基线模型。

Comments Accepted for the 2026 IEEE World Congress on Computational Intelligence, IJCNN Track, 21-26 June 2026, Maastricht, the Netherlands

2605.10251 2026-05-12 cs.CV

Efficient Hybrid CNN-GNN Architecture for Monocular Depth Estimation

Ishan Narayan

发表机构 * IMCS Lab, CSIR-CSIO（IMCS实验室，CSIR-CSIO）

AI总结本文提出了一种名为GraphDepth的单目深度估计架构，通过在卷积编码器-解码器框架中引入图神经网络（GNN），有效建模了局部卷积难以捕捉的长距离空间关系。该方法在ResNet-101 U-Net主干网络的多尺度位置嵌入高效的GraphSAGE层，并结合通道注意力门控跳跃连接和异方差不确定性估计模块，提升了深度估计的精度与鲁棒性。实验表明，与基于Transformer的混合模型相比，GraphDepth在保持相近全局感受野的同时，计算效率更高，且在多个基准数据集上取得了优异的性能表现。

2605.10247 2026-05-12 cs.LG

Teaching LLMs to See Graphs: Unifying Text and Structural Reasoning

Dario Vajda

发表机构 * Faculty of Computer and Information Science University of Ljubljana（计算机与信息科学系卢布尔雅纳大学）

AI总结本文研究如何使大语言模型（LLMs）更有效地处理图结构数据，提出了一种名为Graph Transformer Language Model（GTLM）的新架构，该模型通过在注意力模块中引入图感知的注意偏差，使LLM能够原生处理图结构，同时避免了传统方法中将文本属性压缩为单一标记所带来的语义瓶颈。GTLM参数效率极高，仅增加0.015%的参数即可实现与图神经网络（GNN）相当甚至更优的性能，并在多个图结构基准测试中表现出色，展示了其在图推理任务中的优越性。

2605.10242 2026-05-12 cs.LG cs.AI

When Normality Shifts: Risk-Aware Test-Time Adaptation for Unsupervised Tabular Anomaly Detection

Wei Huang, Hezhe Qiao, Kailai Zhang, Zaisheng Ye, Yu-Ming Shang, Xiangling Fu

发表机构 * IEEE Publication Technology Group（IEEE出版技术组）； Piscataway, NJ（新泽西州皮斯基塔威）

AI总结本文研究了无监督表格异常检测中因训练数据有限导致的正常模式不完整问题，并提出了一个风险感知的测试时自适应方法RTTAD。该方法通过训练阶段的协作双任务学习建立鲁棒的正常先验，并在测试阶段引入测试时对比学习模块，利用高置信度的伪正常样本进行模型更新，同时抑制异常样本的影响，从而有效应对正常模式偏移问题。实验表明，RTTAD在15个表格数据集上取得了最先进的检测性能。

Comments 13 pages, 6 figures

2605.10241 2026-05-12 cs.CL cs.LG

Building Korean linguistic resource for NLU data generation of banking app CS dialog system

Jeongwoo Yoon, On-yu Park, Changhoe Hwang, Gwanghoon Yoo, Eric Laporte, Jeesun Nam

发表机构 * DICORA, Hankuk University of Foreign Studies（DICORA，韩国外国语大学）； Université Gustave Eiffel（古斯塔夫·伊费尔大学）

AI总结本文旨在构建用于银行客户服务对话系统自然语言理解（NLU）的韩语标注训练数据，提出了一种名为FIAD的金融领域标注数据集，并基于银行应用评论语料库识别出韩语请求语句中的三种语言模式，利用局部语法图（LGGs）生成涵盖多种意图和实体的标注数据。实验表明，基于FIAD生成的数据训练的模型在意图和主题识别任务上取得了较高的准确率，验证了该资源的有效性。

Journal ref 29th International Conference on Computational Linguistics (COLING), Workshop on Pattern-based Approaches to NLP in the Age of Deep Learning (Pan-DL), Oct 2022, Gyeongju, South Korea, pp.29-37

2605.10237 2026-05-12 cs.LG

The Benefits of Temporal Correlations: SGD Learns k-Juntas from Random Walks Efficiently

Elisabetta Cornacchia, Dan Mikulincer, Elchanan Mossel

发表机构 * Bocconi University（博科尼大学）； University of Washington（华盛顿大学）； Massachusetts Institute of Technology（麻省理工学院）

AI总结本文研究了数据中的时间相关性如何使某些稀疏学习问题能够被梯度方法高效求解。研究聚焦于布尔k-juntas这一经典稀疏学习问题，发现当样本由超立方体上的懒惰随机游走生成时，使用带时间差分损失的两层ReLU网络进行训练，可以高效学习该问题，样本复杂度几乎与环境维度线性相关。相比之下，使用标准凸点wise损失的大批量梯度方法则无法获得相同优势。

Comments 10 pages main body, 3 figures

2605.10230 2026-05-12 cs.LG

FORGE: Fragment-Oriented Ranking and Generation for Context-Aware Molecular Optimization

Qingchuan Zhang, He Cao, Hao Li, Yanjun Shao, Zhiyuan Liu, Shihang Wang, Shufang Xie, Shenghua Gao, Xinwu Ye

发表机构 * University of Science and Technology of China（中国科学技术大学）； International Digital Economy Academy（国际数字经济学院）； Peking University（北京大学）； Yale University（耶鲁大学）； National University of Singapore（新加坡国立大学）； Macao Polytechnic University（澳门理工学院）； Zhongguancun Academy（中关村学院）； University of Hong Kong（香港大学）

AI总结 FORGE 是一种面向分子优化的两阶段框架，旨在通过局部编辑在保持分子结构相似性的前提下提升其性质。该方法利用自动挖掘的片段编辑对替代人工标注，第一阶段基于分子上下文对候选片段进行排序以注入化学先验知识，第二阶段生成具体的片段替换方案。FORGE 在多个基准测试中表现优于现有方法，展示了基于片段级监督的分子优化新路径。

2605.10229 2026-05-12 cs.CV cs.CY

VPD-100K: Towards Generalizable and Fine-grained Visual Privacy Protection

Xiaobin Hu, Enpu Zuo, Lanping Hu, Kaiwen Yang, Dianshu Liao, Tianyi Zhang, Bo Yin, Yinsi Zhou, Shidong Pan, Xiaoyu Sun

发表机构 * National University of Singapore（新加坡国立大学）； Australian National University（澳大利亚国立大学）； New York University（纽约大学）； The University of New South Wales（新南威尔士大学）

AI总结随着视觉数据共享的普及，隐私保护成为一项重要需求，但现有隐私检测算法因缺乏全面数据集而面临挑战。为此，本文提出一个大规模、细粒度的视觉隐私数据集 VPD-100K，涵盖人类存在、屏幕上的个人身份信息、物理标识符和位置指示等四个领域，包含10万张图像和19万标注对象实例，具有长尾分布、小目标和高视觉复杂度等特点。同时，研究设计了一种基于频率增强的轻量模块，有效提升了对敏感信息细微特征的捕捉能力，实验表明该数据集和方法在多种基准测试中均表现出色。

Comments Accepted at the 43rd International Conference on Machine Learning (ICML 2026)

2605.10224 2026-05-12 cs.AI

Hypothesis-Driven Deep Research with Large Language Models: A Structured Methodology for Automated Knowledge Discovery

Michael Chin

发表机构 * Independent Researcher（独立研究者）

AI总结本文提出了一种基于假设驱动的深度研究方法（HDRI），旨在通过将假设作为研究过程的组织工具，提升人工智能辅助科研的系统性和主动性。该方法引入了六项核心原则和八阶段流程，重点创新包括基于缺口驱动的迭代研究机制和可追溯的事实推理框架，从而实现自动化的知识发现与验证。实验表明，该方法在事实密度、主体匹配准确率和多源验证置信度等方面均有显著提升，并通过五个案例验证了其实际应用价值。

2605.10223 2026-05-12 cs.AI cs.SE

Beyond Autonomy: A Dynamic Tiered AgentRunner Framework for Governable and Resilient Enterprise AI Execution

Kai Pan, Rong Hou

发表机构 * a2alab（a2alab实验室）

AI总结当前大型语言模型代理框架过于强调自主性，缺乏企业级部署所需的安全可控机制。本文提出了一种动态分层的AgentRunner框架，通过风险自适应分层、权力分离架构和设计韧性机制，实现了在安全性与效率之间的帕累托最优平衡，为企业级AI执行提供了更安全、可控和可靠的解决方案。

Comments 9 pages, 2 figures, 3 tables

2605.10218 2026-05-12 cs.CL

Relative Score Policy Optimization for Diffusion Language Models

Zichao Yu, Shengze Xu, Bingqing Jiang, Wenyi Zhang, Difan Zou

发表机构 * University of Science and Technology of China（中国科学技术大学）； The Chinese University of Hong Kong（香港中文大学）； The University of Hong Kong（香港大学）

AI总结扩散语言模型（dLLMs）在并行和高效文本生成方面具有潜力，但其推理能力的提升需要有效的后训练方法。传统基于可验证奖励的强化学习（RLVR）方法因缺乏可计算的序列级对数比率而难以直接应用于dLLMs，导致依赖高方差的ELBO近似，影响训练稳定性。本文提出了一种新的RLVR方法——相对得分策略优化（RSPO），通过将奖励优势解释为当前策略与参考策略之间的相对对数比率目标，从而校准噪声估计，提升策略更新的准确性。实验表明，RSPO在规划任务中表现出显著优势，在数学推理任务中也具有竞争力。

AI 大模型

视觉与机器人

科学与医疗