arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.13663 2026-05-14 cs.CL cs.CY

Fine-tuning with Hierarchical Prompting for Robust Propaganda Classification Across Annotation Schemas

Lukas Stähelin, Veronika Solopova, Max Upravitelev, David Kaplan, Ariana Sahitaj, Premtim Sahitaj, Charlott Jakob, Sebastian Möller, Vera Schmitt

发表机构 * Technische Universität Berlin, QU Lab, XplaiNLP Group（技术大学柏林，QU实验室，XplaiNLP小组）； German Research Center for Artificial Intelligence (DFKI)（德国人工智能研究中心（DFKI））； Centre for European Research in Trusted AI (CERTAIN)（可信AI欧洲研究中心（CERTAIN））

AI总结本文研究了如何在不同标注体系下提升社交媒体中宣传内容分类的鲁棒性，提出了一种基于意图的宣传技术分类体系，并与现有标注标准进行对比。通过四种大型语言模型的实验，发现微调对于提升分类性能至关重要，且提出的分层提示方法（HiPP）在微调后，特别是在标注分歧较大的体系中表现出色。研究还发布了基于新标注体系的HQP数据集，为未来研究提供了更具挑战性的基准。

2605.13651 2026-05-14 cs.SD cs.AI

NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating

Zhongju Yuan, Geraint Wiggins, Dick Botteldooren

发表机构 * WAVES Research Group, Ghent University, Gent, Belgium（根特大学WAVES研究组，比利时根特）； AI Lab, Vrije Universiteit Brussel, Brussel, Belgium（布鲁塞尔自由大学AI实验室，比利时布鲁塞尔）； EECS, Queen Mary University of London, London, UK（伦敦大学学院女王学院电子工程与计算机科学系，英国伦敦）

AI总结本文提出了一种无需训练的神经听觉注意力认知架构NAACA，用于解决长时音频中显著事件检测的注意力瓶颈问题。其核心是受神经系统启发的振荡工作记忆（OWM），能够通过感知显著性触发高层语言模型处理，从而提升事件检测精度并减少不必要的计算。实验表明，NAACA在XD-Violence数据集上显著提升了检测性能，并在城市声景数据集上表现出对噪声和突发停顿的良好鲁棒性。

Comments Accepted as a regular paper by ICML 2026

2605.13647 2026-05-14 cs.CL

FlowCompile: An Optimizing Compiler for Structured LLM Workflows

Junyan Li, Zhang-Wei Hong, Maohao Shen, Yang Zhang, Chuang Gan

发表机构 * UMass Amherst（马萨诸塞大学阿姆赫斯特分校）； MIT-IBM Watson AI Lab（麻省理工-IBM沃森人工智能实验室）

AI总结 FlowCompile 是一个针对结构化大语言模型（LLM）工作流的优化编译器，旨在解决在预定义图结构中多个子代理协同执行时，如何在准确率与延迟之间取得最佳平衡的问题。该方法借鉴了机器学习编译器的思想，在部署前对工作流的设计空间进行全局探索，生成一组可复用的、覆盖不同精度-延迟权衡的工作流配置。实验表明，FlowCompile 在多种工作流和基准测试中均优于启发式优化和基于路由的方法，最高可带来6.4倍的加速效果。

2605.13641 2026-05-14 cs.LG cs.CL

Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization

Yang Bai, Kaiyuan Liu, Ziyuan Zhuang, Jiahong Zhou, Rongxiang Weng, Xin Chen, Jingang Wang, Xunliang Cai

发表机构 * Meituan, China（美团，中国）

AI总结该论文研究了复杂强化学习环境中多任务和混合奖励设定下的策略优化问题，针对异构奖励分布和奖励维度相关性带来的挑战，提出了一种名为RDPO的奖励处理方法。RDPO通过幅度感知分位数归一化和马哈拉诺比白化技术，分别稳定奖励分配并减少相关性冗余，从而提升策略训练的稳定性与效果。实验表明，该方法在LongCat-Flash的后训练中有效增强了指令遵循能力、写作质量和对复杂提示的鲁棒性，同时在推理和编程任务上保持了良好的竞争力。

2605.13639 2026-05-14 cs.LG math.OC stat.ML

Achieving $ε^{-2}$ Sample Complexity for Single-Loop Actor-Critic under Minimal Assumptions

Ishaq Hamza, Zaiwei Chen

发表机构 * IISc（印度斯里尼瓦西大学）； Purdue IE（普渡大学工业工程学院）

AI总结本文研究了强化学习中无策略actor-critic方法在单循环实现下的样本复杂度问题，在仅假设存在能诱导不可约马尔可夫链的策略的前提下，证明了在单循环、单时间尺度框架下，首次实现了$\tilde{\mathcal{O}}(ε^{-2})$的样本复杂度保证，用于找到一个$ε$-最优策略。相比以往需要嵌套循环或强算法依赖假设的工作，本文通过构建耦合的Lyapunov漂移框架，解决了单循环更新和非策略学习带来的挑战，为actor和critic分别建立了几何收敛率和$\tilde{\mathcal{O}}(1/T)$收敛率，并通过交叉支配性质将两者结合，具有重要的理论意义和应用潜力。

2605.13632 2026-05-14 cs.RO cs.CV

Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models

Yiran Ling, Qing Lian, Jinghang Li, Qing Jiang, Tianming Zhang, Xiaoke Jiang, Chuanxiu Liu, Jie Liu, Lei Zhang

发表机构 * Futian Laboratory（福田实验室）； Faculty of Computing, Harbin Institute of Technology（哈尔滨工业大学计算机学院）； International Digital Economy Academy (IDEA)（国际数字经济学院（IDEA））； School of Robotics, Hunan University（湖南大学机器人学院）； South China University of Technology（华南理工大学）； Visincept（Visincept公司）； National Key Laboratory of Smart Farm Technologies and Systems（智能农业技术与系统国家重点实验室）

AI总结本文提出了一种名为GTA-VLA的交互式视觉-语言-动作框架，通过允许用户使用显式视觉线索引导机器人策略，实现空间可操控的具身推理。该框架引入了用户可选的空间先验引导机制，并将其与内部任务规划相结合，生成统一的视觉-空间推理链，从而提升机器人在复杂或未知环境中的任务成功率。实验表明，该方法在标准基准测试中表现优异，并在面对视觉变化和空间歧义时展现出更强的鲁棒性和恢复能力。

2605.13625 2026-05-14 cs.AI

How to Interpret Agent Behavior

Jie Gao, Kaiser Sun, Jen-tse Huang, Katherine Van Koevering, Sijie Ji, Heyuan Huang, Weiyan Shi, Zhuoran Lu, Ziang Xiao, Daniel Khashabi, Mark Dredze

发表机构 * Johns Hopkins University（约翰霍普金斯大学）； California Institute of Technology（加州理工学院）； Northeastern University（东北大学）； Purdue University（普渡大学）

AI总结本文研究了如何解释自主智能体（如 Claude Code 和 Codex）在运行时的行为，提出了一个名为 ACT*ONOMY 的行为分类体系，用于描述和分析智能体的运行轨迹。该方法结合了行动分类和理论框架，构建了一个包含 10 个动作、46 个子动作和 120 个叶子类别的三级层次结构，并提供了一个支持动态更新和扩展的开源分析平台。实验表明，ACT*ONOMY 能够有效比较不同智能体的行为特征，识别运行中的异常模式，为研究人员和用户提供了一致的分析语言，有助于提升对智能体行为的理解与管控。

Comments 34 pages in total

2605.13624 2026-05-14 cs.CL

Edit-level Majority Voting Mitigates Over-Correction in LLM-based Grammatical Error Correction

Takumi Goto, Yusuke Sakai, Taro Watanabe

发表机构 * Nara Institute of Science and Technology（奈良科学技术研究所）

AI总结本文研究了基于大语言模型的语法错误纠正中常见的过度修正问题，提出了一种无需训练的推理方法，通过单个模型生成多个候选修正结果并进行编辑级多数投票，有效缓解了过度修正现象。该方法在多个语言的九个基准测试中表现优于贪心解码和最大后验概率解码，在不同指令提示下也保持了稳定的修正质量。

Comments BEA Workshop 2026

2605.13623 2026-05-14 cs.LG

Multimodal Graph-based Classification of Esophageal Motility Disorders

Alexander Geiger, Lars Wagner, Daniel Rueckert, Alois Knoll, Dirk Wilhelm, Alissa Jell

发表机构 * Technical University of Munich, School of Medicine and Health, TUM University Hospital Rechts der Isar（慕尼黑技术大学医学院与健康学院，TUM医院Rechts der Isar分院）； Technical University of Munich, School of Computation, Information and Technology（慕尼黑技术大学计算、信息与技术学院）

AI总结本文研究了基于多模态图神经网络的食管运动障碍分类方法，旨在解决高分辨率阻抗测压（HRIM）数据复杂且临床解释易变的问题。该方法结合HRIM记录、患者个体信息，并利用图模型对食管生理特性进行建模，通过图神经网络学习具有生理意义的表示，并与患者特征融合实现多类别分类。实验表明，该多模态方法在分类性能上优于仅依赖HRIM特征或基于视觉的分类方法，验证了图模型与患者信息融合的有效性。

详情

英文摘要

Diagnosing esophageal motility disorders pose significant challenges due to the complexity of high-resolution impedance manometry (HRIM) data and variability in clinical interpretation. This work explores the feasibility of a multimodal Machine Learning (ML)-based classification approach that combines HRIM recordings with patient-specific information and incorporates a graph-based modeling of esophageal physiology. We analyze HRIM recordings with corresponding patient information from 104 patients with esophageal motility disorders. Patient data includes demographic, clinical, and symptom information extracted from structured questionnaires and free-text notes using keyword detection and large language model-based processing. HRIM data is represented as spatio-temporal graphs, where nodes correspond to pressure values along the esophagus and edges encode spatial adjacency and impedance dynamics. A graph neural network (GNN) is applied to learn physiologically meaningful representations, which are fused with patient embeddings for multi-category, multi-class classification of swallow events. The impact of patient features and graph-based modeling is evaluated by ablation studies and comparison to vision-based classifier baselines. The proposed multimodal approach indicates improvements over models that rely solely on HRIM-derived features across all classification categories. Additionally, the graph-based modeling provides gains compared to vision-based baselines. Our experiments systematically assess the complementary contribution of multiple modalities, as well as demonstrate the feasibility of our proposed graph-based approach. Our initial findings demonstrate that integrating patient-level data with graph-based representations of HRIM signals appears to be a promising direction for more accurate classification of esophageal motility disorders.

URL PDF HTML ☆

赞 0 踩 0

2605.13621 2026-05-14 cs.CV

WD-FQDet: Multispectral Detection Transformer via Wavelet Decomposition and Frequency-aware Query Learning

Chunjin Yang, Xiwei Zhang, Yiming Xiao, Fanman Meng

发表机构 * University of Electronic Science and Technology of China（电子科学与技术大学）

AI总结 WD-FQDet 是一种基于小波分解和频率感知查询学习的多光谱检测Transformer框架，旨在解决红外与可见光图像融合检测中模态共享特征偏差和模态特有特征不足的问题。该方法通过低频域对齐和高频域保留模块，分别增强跨模态特征的一致性和模态特有特征的表达，并引入频率感知的查询选择机制动态调节不同特征的贡献。实验表明，WD-FQDet 在多个数据集上取得了领先的检测性能。

2605.13613 2026-05-14 cs.RO

Design of Magnetic Continuum Robots with Tunable Force Response Using Rotational Ring Pairs

Alex Sayres, Giovanni Pittiglio

发表机构 * FuTURE Lab, Department of Robotics Engineering, Worcester Polytechnic Insitute (WPI)（未来实验室，机器人工程系，沃斯通理工学院）

AI总结本文提出了一种新型的连续体机器人设计，能够在线调节其末端的磁响应特性，从而实现对有效磁场方向和强度的动态调整，无需依赖外部磁场控制即可引入转向自由度。该设计突破了传统机器人依赖固定内部磁性结构的限制，适用于可控和固定磁场环境，有望拓展其在医疗等领域的应用。实验表明，该机器人最大末端偏转可达其长度的23%，并基于修正梁理论建立了力学模型，实现了较高的轨迹跟踪精度。

Comments 7 pages, 6 figures, Accepted to ISMR 2026

2605.13612 2026-05-14 cs.LG cond-mat.dis-nn stat.ML

Deep Learning as Neural Low-Degree Filtering: A Spectral Theory of Hierarchical Feature Learning

Yatin Dandi, Matteo Vilucchio, Luca Arnaboldi, Hugo Tabanelli, Florent Krzakala

发表机构 * Information Learning and Physics Laboratory, École Polytechnique Fédérale de Lausanne (EPFL)（信息学习与物理实验室，瑞士联邦理工学院（EPFL））； Statistical Physics of Computation Laboratory, École Polytechnique Fédérale de Lausanne (EPFL)（计算统计物理实验室，瑞士联邦理工学院（EPFL））

AI总结本文提出了一种名为“神经低度滤波”（Neural LoFi）的理论框架，用于解释深度神经网络如何通过层次化特征学习从数据中提取有用表示。该方法将基于梯度的训练过程简化为一种显式的迭代谱方法，每一层网络通过选择与标签具有最大低度相关性的方向来逐步构建特征。该理论不仅提供了对深度学习中特征演化机制的数学解释，还通过实验验证了其在全连接和卷积网络中的有效性，展示了其在特征选择和结构滤波方面的优越性。

Comments 62 pages, many figures, companion codes in https://github.com/IdePHICS/Neural-LoFi-Theory

2605.13604 2026-05-14 cs.CV

Rethinking Graph Convolution for 2D-to-3D Hand Pose Lifting

Chanyoung Kim, Donghyun Kim, Dong-Hyun Sim, Seong Jae Hwang, Youngjoong Kwon

发表机构 * Emory University（埃默里大学）； Yonsei University（延世大学）； WHATs Lab（WHATs实验室）

AI总结本文重新审视了图卷积网络在2D到3D手部姿态提升中的应用，探讨了是否应采用固定邻接图来编码手部骨骼结构。研究通过在FPHA数据集上进行参数匹配的消融实验，发现多头自注意力机制在性能上显著优于传统图卷积方法，并进一步表明基于软结构先验的图距离位置编码比硬邻接约束更有效。实验结果表明，自适应空间注意力比固定图卷积更能有效提升手部姿态估计的精度。

2605.13601 2026-05-14 cs.AI cs.MA

Unweighted ranking for value-based decision making with uncertainty

Aarón López García, Natalia Criado, Jose Such

发表机构 * Valencian Research Institute for Artificial Intelligence（瓦伦西亚人工智能研究 institute）； Universitat Politècnica de València（瓦伦西亚理工大学）

AI总结随着智能系统在社会中越来越多地用于自主决策，其对人类价值观的遵循引发了广泛关注。本文提出了一种基于模糊逻辑的无权重价值决策框架（FUW-VBDM），通过引入定性和定量标准，提升决策的人本特性，并消除利益相关者主观赋权带来的偏差。为此，作者设计了Rankzzy方法，结合模糊推理量化不确定性，并在大规模案例中验证了其计算效率和排名性能的优势。

Comments 21 pages

2605.13600 2026-05-14 cs.CV

Sparse Code Uplifting for Efficient 3D Language Gaussian Splatting

Lovre Antonio Budimir, Yushi Guan, Steve Ryhner, Sven Lončarić, Nandita Vijaykumar

发表机构 * Faculty of Electrical Engineering and Computing（电子工程与计算学院）； Department of Computer Science（计算机科学系）； Vector Institute（向量研究所）

AI总结本文提出了一种名为SCOUP的高效三维语言高斯溅射方法，旨在解决在开放词汇三维场景理解中，如何高效关联高维视觉-语言嵌入与大量三维高斯点的问题。该方法通过解耦语言表示学习与三维高斯优化，利用二维图像区域的特征学习稀疏编码表示，并通过加权稀疏聚合将其提升至三维高斯点，从而实现高效的存储与快速渲染。实验表明，SCOUP在训练速度和内存效率上均有显著提升，并在多个基准测试中达到了与现有方法相当或更优的开放词汇查询准确率。

Comments 18 pages (9 pages main paper), 10 figures, preprint

2605.13597 2026-05-14 cs.LG

Rethinking Generalization in Graph Neural Networks: A Structural Complexity Perspective

Peiyao Wang, Liang Bai, Xian Yang, Richard Yi Da Xu, Jiye Liang

发表机构 * Institute of Intelligent Information Processing（智能信息处理研究院）； Shanxi University（山西大学）； Alliance Manchester Business School University of Manchester（曼彻斯特大学曼彻斯特商业学院）； University of Manchester（曼彻斯特大学）； Department of Mathematics（数学系）； Hong Kong Baptist University（香港 Baptist 大学）

AI总结本文从结构复杂度的角度重新思考图神经网络（GNN）的泛化能力，探讨图结构对模型泛化的影响。研究证明，图中边的增加会使输入表示过度适应输出模型，导致过拟合，并提出了一种基于有效边数量的结构复杂度度量，推导出相应的泛化界。基于这些理论发现，作者进一步提出了一种结构熵正则化方法，通过调控有效边的数量来平衡欠拟合与过拟合，从而提升GNN的泛化性能。

Comments 44 pages, 10 figures

2605.13596 2026-05-14 cs.CL

Creativity Bias: How Machine Evaluation Struggles with Creativity in Literary Translations

Kyo Gerrits, Rik van Noord, Ana Guerberof Arenas

发表机构 * Centre for Language and Cognition, University of Groningen（语言认知中心，格罗宁根大学）

AI总结本文研究了自动评估指标（AEMs）和大语言模型作为评委的评估方法在文学翻译中的表现，涉及多种语言、体裁和翻译方式。通过构建包含人类翻译、机器翻译和后编辑的多模态数据集，并由专业文学翻译者标注创造力相关指标，研究发现这些自动评估方法与专业评价在创造力方面关联性较低，尤其对文学性较强的体裁如诗歌评估效果更差。研究还指出，基于大语言模型的评估存在系统性偏差，倾向于青睐机器翻译文本，而对具有创造性和文化适应性的翻译方案进行惩罚，凸显了当前自动评估工具在文学翻译领域存在的根本性局限。

Comments This paper has been accepted to the EAMT Conference 2026 in Tilburg on June 15-18 2026

2605.13595 2026-05-14 cs.CL

Inducing Artificial Uncertainty in Language Models

Sophia Hager, Simon Zeng, Nicholas Andrews

发表机构 * Johns Hopkins University（约翰霍普金斯大学）； Microsoft（微软）

AI总结在安全关键型应用中，语言模型需要能够用有意义的概率表达其不确定性。本文提出了一种在语言模型中诱导人工不确定性的方法，以解决在缺乏挑战性数据的情况下训练不确定性量化方法的难题。通过在简单数据上引入人工不确定性，并使用专门训练的探针进行识别，该方法在保持模型性能的同时，显著提升了模型在困难数据上的校准能力。

2605.13591 2026-05-14 cs.CV

Real2Sim: A Physics-driven and Editable Gaussian Splatting Framework for Autonomous Driving Scenes

Kaicong Huang, Talha Azfar, Weisong Shi, Ruimin Ke

发表机构 * Department of Civil and Environmental Engineering, Rensselaer Polytechnic Institute（拉特克利夫理工学院土木与环境工程系）； Department of Computer and Information Sciences, University of Delaware（德雷塞尔大学计算机与信息科学系）

AI总结本文提出了一种名为 Real2Sim 的物理驱动且可编辑的高斯点喷射框架，用于自动驾驶场景的生成。该方法结合了4D高斯点喷射与可微分的材料点方法求解器，能够重建具有时间连续性的动态驾驶场景，支持实例级编辑，并模拟真实的物体间及物体与环境之间的交互。该框架能够在保证物理合理性的前提下生成高保真的多样化场景，包括碰撞等复杂情况，实验表明其在渲染、重建、编辑及物理模拟方面表现优异，具有在自动驾驶感知、轨迹预测等任务中广泛应用的潜力。

2605.13583 2026-05-14 cs.CV

Phy-CoSF: Physics-Guided Continuous Spectral Fields Reconstruction and Super-Resolution for Snapshot Compressive Imaging

Wudi Chen, Zhiyuan Zha, Xin Yuan, Shigang Wang, Bihan Wen, Jiantao Zhou, Gang Yan, Zipei Fan, Ce Zhu

发表机构 * College of Communication Engineering, Jilin University, Changchun 130012, China. ； School of Engineering, Westlake University, Hangzhou, Zhejiang 310024, China. ； School of Electrical \& Electronic Engineering, Nanyang Technological University, Singapore 639798. ； Department of Computer ； Information Science, University of Macau, Macau 999078, China. ； College of Computer Science ； Technology, Jilin University, Changchun 130012, China. ； College of Artificial Intelligence, Jilin University, Changchun 130012, China. ； School of Information ； Communication Engineering, University of Electronic Science

AI总结本文提出了一种名为Phy-CoSF的方法，用于解决快照压缩成像（CASSI）系统中高光谱图像的连续光谱重建与超分辨率问题。该方法结合深度展开网络与隐式神经表示，建立了一种新的连续光谱重建范式，能够生成任意波长的高保真高光谱图像。核心模块连续光谱场（CoSF）通过跨域特征融合和动态先验机制，显著提升了重建精度和光谱细节保留能力，实验表明其在多个指标上优于现有先进方法。

Comments 15 pages, 10 figures, accepted by ICML 2026!

2605.13581 2026-05-14 cs.CV

HIR-ALIGN: Enhancing Hyperspectral Image Restoration via Diffusion-Based Data Generation

Li Pang, Heng Zhao, Yijia Zhang, Deyu Meng, Xiangyong Cao

发表机构 * School of Mathematics and Statistics, Xi’an Jiaotong University（西安交通大学数学与统计学学院）； School of Computer Science and Technology, Xi’an Jiaotong University（西安交通大学计算机科学与技术学院）； School of Mathematics and Statistics and the Ministry of Education Key Laboratory for Intelligent Networks and Network Security, Xi’an Jiaotong University（西安交通大学数学与统计学学院和教育部智能网络与网络安全重点实验室）； Pazhou Laboratory (Huangpu), Guangzhou（广州黄埔 Pazhou 实验室）

AI总结高光谱图像（HSI）修复在实际应用中面临噪声、模糊和分辨率下降等问题，而现有模型在缺乏干净参考的靶域数据上表现不佳。为此，本文提出HIR-ALIGN框架，通过扩散模型生成与靶域分布匹配的合成数据，增强修复效果。该方法包含代理生成、分布自适应合成和对齐监督微调三个阶段，有效提升了在靶域上的修复性能，并在去噪和超分辨率任务中展现出优于现有方法的实验结果。

详情

英文摘要

Hyperspectral image (HSI) restoration is crucial for reliable analysis, as real HSIs suffer from degradations like noise, blur, and resolution loss. However, existing models trained on source data often fail on target domains lacking clean references, a common occurrence in practice. To address this issue, we present HIR-ALIGN, a plug-and-play target-adaptive augmentation framework that enhances hyperspectral image restoration by augmenting limited training images with synthetic data that closely matches the target distribution using no extra data. It consists of three stages: (i) proxy generation, where off-the-shelf restoration models restore degraded target observations to produce semantics-preserving proxy HSIs that approximate target-domain clean images; (ii) distribution-adaptive synthesis, where a blur-robust unCLIP diffusion model generates target-aligned RGBs from proxy RGBs, with prompt conditioning and embedding-space noise initialization. Then, a warp-based spectral transfer module synthesizes HSIs by aligning each generated RGB with the proxy RGB, estimating soft patch-wise transport weights, and applying these weights and learnable local interpolation kernels to the proxy HSI; and (iii) aligned supervised finetuning, where restoration networks pretrained on the source distribution are finetuned using both the proxy HSIs and synthesized target-aligned HSIs, and are then deployed on degraded target images. We further provide theoretical analysis showing that augmentation-based finetuning can achieve lower target-domain restoration risk by jointly improving target distribution coverage and controlling spectral bias. Extensive experiments on simulated and real datasets across denoising and super-resolution tasks demonstrate that HIR-ALIGN consistently improves source-only supervised baselines, outperforming both source-only counterparts and representative unsupervised methods.

URL PDF HTML ☆

赞 0 踩 0

2605.13579 2026-05-14 cs.AI

Position: Assistive Agents Need Accessibility Alignment

Jie Hu, Changyuan Yan, Yu Zheng, Ziqian Wang, Jiaming Zhang

发表机构 * School of Artificial Intelligence and Robotics（人工智能与机器人学院）； Hunan University（湖南大学）； Changsha, China（中国长沙）

AI总结该论文探讨了为盲人和视力障碍用户设计的辅助智能体所面临的可访问性对齐问题，指出当前多数智能体系统基于视力正常用户的交互假设进行设计和评估，导致在辅助场景中频繁失效。研究分析了778个辅助任务实例，揭示了当前智能体在验证、风险和交互约束方面与视力障碍用户需求之间的不匹配，并提出将可访问性视为对齐问题，引入可访问性对齐概念，构建了一个贯穿用户研究、系统设计、部署与迭代的生命周期设计流程，推动更具包容性的智能体设计方向。

Comments 9 pages, 1 figures, Accepted to ICML 2026

2605.13570 2026-05-14 cs.AI cs.LG

Learning Local Constraints for Reinforcement-Learned Content Generators

Debosmita Bhaumik, Julian Togelius, Georgios N. Yannakakis, Ahmed Khalifa

发表机构 * Institute of Digital Games（数字游戏研究所）； Game Innovation Lab（游戏创新实验室）

AI总结本文研究如何结合基于约束的游戏内容生成方法（如Wave Function Collapse）与强化学习生成方法，以同时保证生成内容的局部视觉合理性和全局可玩性。作者提出通过将WFC学习到的局部约束应用于强化学习生成器的动作空间，使生成器在满足全局属性的同时遵循局部规则。实验表明，该混合方法在适当调参后能够生成视觉美观且可玩的平台解谜游戏关卡，如《Lode Runner》。

2605.13568 2026-05-14 cs.LG cs.AI

Dynamical Predictive Modelling of Cardiovascular Disease Progression Post-Myocardial Infarction via ECG-Trained Artificial Intelligence Model

Riccardo Cavarra, Lupo Lovatelli, Shaheim Ogbomo-Harmitt, Shahid Aziz, Adelaide De Vecchi, Andrew King, Oleg Aslanidi

发表机构 * King’s College London（伦敦国王学院）； St Thomas’ Hospital（圣 Thomas 医院）； North Bristol NHS Trust（北布里斯托尔国家健康服务信托）

AI总结该研究旨在利用心电图（ECG）数据预测心肌梗死（MI）后心血管疾病的发展情况。研究提出了一种基于对比学习的预训练人工智能模型，结合患者特定的时序信息与监督多任务学习头，并在少量标注数据下进行微调，从而提升预测性能。实验表明，该模型在有限数据条件下优于从头训练的模型，证明了临床结构化ECG建模在疾病进展预测中的有效性。

Comments submitted to the 9th International Conference on Computational and Mathematical Biomedical Engineering, 4 pages, 1 figure, 1 table

2605.13565 2026-05-14 cs.CV

Qwen-Image-VAE-2.0 Technical Report

Zekai Zhang, Deqing Li, Kuan Cao, Yujia Wu, Chenfei Wu, Yu Wu, Liang Peng, Hao Meng, Jiahao Li, Jie Zhang, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Shengming Yin, Tianhe Wu, Xiao Xu, Xiaoyue Chen, Yan Shu, Yanran Zhang, Yilei Chen, Yixian Xu, Yuxiang Chen, Zhendong Wang, Zihao Liu, Zikai Zhou, Yiliang Gu, Yi Wang, Xiaoxiao Xu, Lin Qu

发表机构 * Qwen Team（通义实验室）

AI总结本文介绍了 Qwen-Image-VAE-2.0，一套在重建保真度和扩散能力方面取得显著进展的高压缩变分自编码器（VAE）。通过引入全局跳接连接和扩展潜在通道，模型有效解决了高压缩下的重建瓶颈，并结合大规模图像训练和合成渲染引擎提升了文本密集场景的表现。研究还提出了一种增强的语义对齐策略以优化高维潜在空间的收敛性，并采用非对称且无需注意力机制的编解码结构以提高计算效率。实验表明，该模型在多个基准测试中达到先进水平，尤其在高压缩比下表现出卓越的重建和扩散能力。

2605.13560 2026-05-14 cs.LG

Uncertainty-Aware Prediction of Lung Tumor Growth from Sparse Longitudinal CT Data via Bayesian Physics-Informed Neural Networks

Lingfei Kong, Haoran Ma

发表机构 * Department of Mathematics, Vanderbilt University（范德比大学数学系）； John A. Paulson School of Engineering and Applied Science, Harvard University（哈佛大学约翰·A·保罗森工程与应用科学学院）

AI总结本文研究如何从稀疏且不规则的纵向CT数据中预测肺部肿瘤生长，并考虑测量误差的影响。研究提出了一种结合Gompertz生长模型与贝叶斯推断的物理信息神经网络方法，在对数体积域中进行低维贝叶斯估计，通过两阶段推理策略（最大后验估计与哈密顿蒙特卡洛采样）实现预测分布与不确定性区间的估计。该方法在国家肺癌筛查试验数据集上进行了验证，结果显示其能够准确捕捉肿瘤异质性生长模式，并在少量观测条件下提供校准良好的不确定性估计，具有重要的临床应用潜力。

Comments 8 pages, 15 figures

2605.13554 2026-05-14 cs.LG cs.AI

Self-Supervised On-Policy Reinforcement Learning via Contrastive Proximal Policy Optimisation

Asim Osman, Sasha Abramowitz, Mark Bergh, Ulrich Armel Mbou Sob, Ruan John de Kock, Omayma Mahjoub, Oussama Hidaoui, Noah De Nicola, Arnol Manuel Fokam, Felix Chalumeau, Daniel Rajaonarivonivelomanantsoa, Siddarth Singh, Refiloe Shabe, Juan Claude Formanek, Simon Verster Du Toit, Arnu Pretorius

发表机构 * InstaDeep ； AIMS ； University of Stellenbosch（斯特伦博斯大学）

AI总结本文提出了一种基于对比学习的策略优化算法——对比近端策略优化（CPPO），用于实现无需人工设计奖励函数的自监督强化学习。该方法通过对比状态-动作与目标的表示学习Q值，并直接在策略上优化这些对比Q值，从而实现了端到端的自监督训练。实验表明，CPPO在多种连续和离散动作空间的单智能体和协作多智能体任务中，不仅显著优于现有对比强化学习方法，还在多数任务中达到了使用人工密集奖励的PPO算法的性能水平。

2605.13551 2026-05-14 cs.LG

Mixed neural posterior estimation for simulators with discrete and continuous parameters

Jan Boelts, Cornelius Schröder, Jonas Beck, Jakob H. Macke, Michael Deistler, Daniel Gedon

发表机构 * appliedAI Institute for Europe（appliedAI欧洲研究院）； Machine Learning in Science, University of Tübingen（图宾根大学机器学习科学系）； Tübingen AI Center（图宾根人工智能中心）； Hertie Institute for AI in Brain Health, University of Tübingen（图宾根大学脑健康人工智能研究院）； Max Planck Institute for Intelligent Systems（智能系统马克斯·普朗克研究所）； Max Planck Institute for Biological Intelligence（生物智能马克斯·普朗克研究所）

AI总结该论文研究了如何在包含离散和连续参数的混合参数空间中进行神经后验估计。作者提出了一种联合处理离散和连续参数的推理网络，通过将联合后验分解为离散和连续部分，并结合自回归分类器与生成模型进行联合训练，从而扩展了传统NPE方法。实验表明，该方法在多个可解析示例和实际科学模拟器中均能生成准确且校准良好的后验分布，并已集成到sbi Python工具包中。

2605.13544 2026-05-14 cs.CV

CA-GCL: Cross-Anatomy Global-Local Contrastive Learning for Robust 3D Medical Image Understanding

Hanwen Zhang, Yao Liu, Die Dai, Jiaye Yang, Qiao Liu, Yutong Xie, Peng Wang

发表机构 * University of Electronic Science and Technology of China（电子科技大学）； Mohamed bin Zayed University of Artificial Intelligence（莫扎德人工智能大学）

AI总结本文提出了一种名为CA-GCL的跨解剖全局-局部对比学习框架，旨在提升三维医学图像理解的鲁棒性。该方法通过引入全局对比目标，增强解剖类别在潜在空间中的区分度，同时结合临床感知的文本增强策略，以应对描述不完整的问题。实验表明，CA-GCL在零样本异常检测任务中优于现有方法，且在不同数据集间具有良好的泛化能力，显著提升了模型对提示变化的稳定性。

2605.13542 2026-05-14 cs.AI cs.CL cs.LG cs.MA

RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation

Chengzhi Shen, Weixiang Shen, Tobias Susetzky, Chen, Chen, Jun Li, Yuyuan Liu, Xuepeng Zhang, Zhenyu Gong, Daniel Rueckert, Jiazhen Pan

发表机构 * Technical University of Munich（慕尼黑技术大学）； TUM University Hospital（TUM大学医院）； LMU Munich（慕尼黑大学）； University of Sheffield（谢菲尔德大学）； University of Oxford（牛津大学）； Zhongshan Hospital Fudan University（复旦大学中山医院）； Sun Yat-sen University Cancer Center（中山大学肿瘤中心）； Imperial College London（伦敦帝国学院）； Munich Center for Machine Learning（慕尼黑机器学习中心）； relAI – Konrad Zuse School of Excellence in Reliable AI（relAI – 卡诺夫茨卓越可靠人工智能学校）

AI总结本文提出RealICU，一个基于真实重症监护（ICU）临床数据构建的新型基准，用于评估大型语言模型在复杂、长期医疗决策任务中的表现。该基准通过资深医生对完整患者轨迹进行回顾标注，定义了四个与临床决策相关的任务，揭示了现有大语言模型在医疗建议中的召回与安全性的权衡以及对早期患者信息的过度依赖问题。RealICU为研究和改进高风险医疗场景下的AI决策支持系统提供了可靠的实验平台。