arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.13228 2026-05-14 cs.CV cs.AI

ReTool-Video: Recursive Tool-Using Video Agents with Meta-Augmented Tool Grounding

Xiao Liu, Nayu Liu, Junnan Zhu, Ruirui Chen, Guohui Xiang, Changjian Wang, Kaiwen Wei, Rongzhen Li, Jiang Zhong

发表机构 * Chongqing University（重庆大学）； Tianjin University（天津大学）； MAIS, Institute of Automation, Chinese Academy of Sciences（自动化研究所，中国科学院MAIS）； Institute of High Performance Computing (IHPC), Agency for Science, Technology and Research (A*STAR), Singapore（新加坡科技研究局高性能计算研究所）； Chongqing National Data AI Research Institute, AI Research Lab（重庆国家数据AI研究院，AI研究实验室）

AI总结该论文提出了一种名为 ReTool-Video 的递归工具使用视频代理方法，旨在提升视频理解中复杂推理和跨模态分析的能力。为了解决现有视频代理在工具粒度和动作空间上的局限，研究构建了包含134个工具的 MetaAug-Video 工具库（MVTL），支持细粒度操作和多级信息访问，并设计了递归工具调用机制，将高层视频意图逐步分解为可执行的工具链。实验表明，该方法在多个基准测试中表现优异，显著提升了复杂视频理解的稳定性和效果。

2605.13225 2026-05-14 cs.LG

Mix, Don't Tune: Bilingual Pre-Training Outperforms Hyperparameter Search in Data-Constrained Settings

Paul Jeha, Anastasiia Sedova, Louis Béthune, Skyler Seto, Jes Frellsen, Pierre Ablin, Natalie Schluter

发表机构 * Apple（苹果公司）； DTU（丹麦技术大学）

AI总结在数据受限的语言模型预训练中，研究对比了超参数调优和双语数据混合两种方法，发现数据混合在验证损失和下游任务准确率上均优于超参数调优，且效果随模型规模增大而增强。研究进一步量化了数据混合的增益，表明其效果相当于增加了2到13倍的目标语言数据，并揭示了验证损失无法全面反映混合带来的好处。基于实验结果，作者建议在数据受限场景中优先采用高资源语言的数据混合，并通过μP方法迁移超参数设置。

2605.13223 2026-05-14 cs.CV

Skill-Aligned Annotation for Reliable Evaluation in Text-to-Image Generation

Abdelrahman Eldesokey, Merey Ramazanova, Ahmad Sait, Ansar Khangeldin, Karen Sanchez, Tong Zhang, Bernard Ghanem

发表机构 * King Abdullah University of Science and Technology（卡斯泰大学）

AI总结随着文本到图像生成技术的快速发展，可靠的模型评估变得尤为重要。本文提出了一种技能对齐注释方法，使注释策略更符合不同评估技能的本质特征，从而提升评估的一致性和稳定性。研究还构建了一个自动化评估流程，实现了可扩展的细粒度评估，并强调改进评估基础可以提高效率，而无需单纯增加注释工作量。

Comments Project Page: https://abdo-eldesokey.github.io/skill-aligned-eval/

2605.13221 2026-05-14 cs.AI cs.LG

An Agentic AI Framework with Large Language Models and Chain-of-Thought for UAV-Assisted Logistics Scheduling with Mobile Edge Computing

Hanwen Zhang, Dusit Niyato, Wei Zhang, Xin Lou, Malcolm Yoke Hean Low

发表机构 * Nanyang Technological University（南洋理工大学）； Singapore Institute of Technology（新加坡理工学院）； Seatrium New Energy Laboratory（Seatrium 新能源实验室）； Ministry of Education (MOE) Tier 1（教育部 Tier 1）； Research Innovation and Enterprise (RIE) 2025 Industry Alignment Fund-Industry Collaboration Projects (IAF-ICP)（研究创新与企业 (RIE) 2025 行业对齐基金-行业合作项目 (IAF-ICP)）

AI总结本文研究了无人机辅助物流调度中结合边缘计算的混合调度问题，该问题涉及物理物流决策与计算任务调度的耦合。为解决这一挑战，作者提出了一种基于智能体AI的优化框架，结合大语言模型与链式推理技术将用户输入转化为可解释的数学模型，并设计了一种基于近端策略优化的分层深度强化学习方法，以优化无人机路径规划与任务执行资源分配。实验表明，该框架在任务截止时间满足率和产品收集成功率方面表现出色，性能稳定且优于传统方法。

Comments 15 pages

2605.13218 2026-05-14 cs.LG

Machine Learning-Driven Multimodal Spectroscopic Liquid Biopsy for Early Multicancer Detection

Alejandro Leonardo García Navarro, Javier Cachón Ortiz, Javier González Colsa, Samuel García Díaz, Carlos Viadero Valderrama

发表机构 * Signal Processing Group（信号处理组）； Gregorio Marañón Health Research Institute（格雷戈里奥·马兰农健康研究中心）； Amber Health Solutions（艾默健康解决方案）

AI总结该研究提出了一种基于多种光谱技术与机器学习的多模态液态活检方法，用于早期多癌种检测。通过结合傅里叶变换红外光谱（FTIR）、拉曼光谱和激发-发射矩阵（EEM）荧光光谱，并利用机器学习进行数据融合与分类，实现了对乳腺癌和结直肠癌的高精度检测。实验结果表明，多模态融合方法在灵敏度和特异性方面表现出更均衡的优异性能，ROC-AUC值分别达到0.997和0.994。

2605.13208 2026-05-14 cs.RO

Calibration-Free Gas Source Localization with Mobile Robots: Source Term Estimation Based on Concentration Measurement Ranking

Wanting Jin, Agatha Duranceau, İzzet Kağan Erünsal, Alcherio Martinoli

发表机构 * Distributed Intelligent Systems and Algorithms Laboratory, School of Architecture, Civil and Environmental Engineering, École Polytechnique Fédérale de Lausanne (EPFL)（分布式智能系统与算法实验室，建筑、 civil 和环境工程学院，洛桑联邦理工学院（EPFL））

AI总结本文研究了无需校准的移动机器人气体源定位问题，提出了一种基于浓度测量排名的源项估计方法。该方法通过比较动态采集数据与物理扩散模型之间的浓度排名差异，估计气体源在环境中的概率分布，从而实现高效定位。该方法避免了低成本传感器校准的需求，在仿真和实际实验中均表现出良好的定位精度，适用于真实场景中的应急监测等应用。

Comments This paper has been accepted for publication in the IEEE International Conference on Robotics and Automation (ICRA), 2026

2605.13207 2026-05-14 cs.LG

Switching Successor Measures for Hierarchical Zero-shot Reinforcement Learning

Stefan Stojanovic, Alexandre Proutiere

发表机构 * KTH（瑞典皇家理工学院）； KTH, Digital Futures（瑞典皇家理工学院，数字未来）

AI总结本文研究了如何在零样本强化学习中实现分层控制，提出了一种称为“切换继承者度量”的方法，无需额外监督、固定时间范围或手动设计子目标即可实现分层决策。该方法基于经典继承者度量进行扩展，保持其结构特性，并在此基础上设计了FB $π$-Switch算法，能够从正向-反向表示中直接提取高层子目标策略和底层控制策略，从而实现分层行为。实验表明，该方法在目标条件任务和一般奖励任务中均优于非分层基线，并在目标条件任务中达到现有分层方法的性能水平。

2605.13202 2026-05-14 cs.CV cs.AI

STAR: Semantic-Temporal Adaptive Representation Learning for Few-Shot Action Recognition

Hongli Liu, Yu Wang, Shengjie Zhao

发表机构 * School of Computer Science and Technology, Tongji University（同济大学计算机科学与技术学院）； Engineering Research Center of Key Software Technologies for Smart City Perception and Planning, Ministry of Education（教育部智能城市感知与规划关键软件技术工程研究中心）

AI总结本文研究了少样本动作识别（FSAR）中的语义-时序对齐问题，提出了一种统一的语义-时序自适应表示学习框架STAR。该方法通过引入时序语义注意力机制和语义时序原型细化模块，有效解决了文本提示与动作序列中稀疏视觉线索的对齐问题，并增强了对多尺度时序动态的建模能力。实验表明，STAR在多个基准数据集上均优于现有方法，验证了其在有限样本条件下的有效性。

Comments Accepted for publication in IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)

详情

DOI: 10.1109/TCSVT.2026.3688705

英文摘要

Few-shot action recognition (FSAR) requires models to generalize to novel action categories from only a handful of annotated samples. Despite progress with vision-language models, existing approaches still suffer from semantic-temporal misalignment, where static textual prompts fail to capture decisive visual cues that appear sparsely across sequences, and from inadequate modeling of multi-scale temporal dynamics, as short-term discriminative cues and long-range dependencies are often either oversmoothed or fragmented. To address these challenges, we propose Semantic Temporal Adaptive Representation Learning (STAR), a unified framework, consisting of a semantic-alignment component and a temporal-aware component, effectively bridging the semantic and temporal gaps and transferring the sequence modeling capability of Mamba into the FSAR. The semantic alignment module introduces a Temporal Semantic Attention (TSA) mechanism, which performs frame-level cross-modal alignment with textual cues, ensuring fine-grained semantic-temporal consistency. The temporal-aware module incorporates a Semantic Temporal Prototype Refiner (STPR) that integrates semantic-guided Mamba blocks with multi-frequency temporal sampling and bidirectional state-space refinement, yielding semantically aligned prototypes with enhanced discriminative fidelity and temporal consistency. Furthermore, temporally dependent class descriptors derived from large language models (LLMs) provide long-range semantic guidance. Extensive experiments on five FSAR benchmarks demonstrate the consistent superiority of STAR over state-of-the-art methods. For instance, STAR achieves up to 8.1% and 6.7% gains on the SSv2-Full and SSv2-Small datasets under the 1-shot setting, and 7.3% on HMDB51, validating its effectiveness under limited supervision. The code is available at https://github.com/HongliLiu1/STAR-main.

URL PDF HTML ☆

赞 0 踩 0

2605.13200 2026-05-14 cs.LG cs.ET

A Hybrid Tucker-LSTM Tensor Network Model for SOC Prediction in Electric Vehicles

Han Wang, Ying Wang, Bing Wang

发表机构 * College of Computer and Information Science（计算机与信息科学学院）； School of Culture Tourism（文化旅游学院）； Digital Intelligence Center（数字智能中心）； China Automotive Engineering Research Institute Co., Ltd.（中国汽车工程研究院股份有限公司）

AI总结本文提出了一种结合 Tucker 张量分解与长短期记忆网络（LSTM）的混合模型，用于电动汽车电池荷电状态（SOC）的预测。该方法利用全生命周期的电动汽车实际运行数据，通过 Tucker 分解在保持时间结构的同时降低数据维度，从而提升 LSTM 的预测性能。实验结果表明，该混合模型在多个评估指标上均优于传统 LSTM，显著提高了 SOC 预测的准确性，为基于张量分析的电池管理系统提供了新的研究方向。

2605.13197 2026-05-14 cs.LG cs.AI

McCast: Memory-Guided Latent Drift Correction for Long-Horizon Precipitation Nowcasting

Penghui Wen, Yu Luo, Lintao Wang, Mengwei He, Patrick Filippi, Thomas Francis Bishop, Zhiyong Wang

发表机构 * School of Computer Science, The University of Sydney, Australia（悉尼大学计算机科学学院，澳大利亚）； School of Life and Environmental Science, The University of Sydney, Australia（悉尼大学生命与环境科学学院，澳大利亚）

AI总结现有的降水临近预报方法通常采用自回归框架，但这种方法在长时间预测中容易累积误差，导致预报偏离物理合理的演变轨迹。为了解决这一问题，本文提出 McCast，一种基于记忆引导的潜在漂移校正方法，通过引入时序组织的记忆库，主动校正自回归过程中的潜在演变偏差，从而生成更加时序一致且可靠的长期预报。实验表明，McCast 在 SEVIR 和 MeteoNet 两个基准数据集上取得了最先进的性能，尤其在长期预报任务中表现突出。

2605.13194 2026-05-14 cs.LG cs.AI

ECG-NAT: A Self-supervised Neighborhood Attention Transformer for Multi-lead Electrocardiogram Classification

Mahsa Gazeran, Sayvan Soleymanbaigi, Fatemeh Daneshfar, Amjad Seyedi, Fardin Akhlaghian Tab

发表机构 * Department of Computer Engineering, University of Kurdistan（库尔德斯坦大学计算机工程系）； Department of Mathematics and Operational Research, University of Mons（蒙斯大学数学与运筹学系）

AI总结本文提出了一种名为ECG-NAT的自监督邻域注意力变换器，用于多导联心电图（ECG）分类。该方法通过分两阶段训练：首先使用掩码自编码器在未标注数据上进行生成式预训练，学习鲁棒的跨数据集特征表示；随后通过结合监督对比损失和交叉熵损失的双损失函数进行判别式微调，提升分类性能。ECG-NAT采用分层注意力机制，高效捕捉从细粒度心跳形态到更广泛节律模式的多尺度时间特征，在少量标注数据下仍能取得优异的分类准确率，适用于实时心电诊断场景。

2605.13192 2026-05-14 cs.RO

Dynamics Computation of Soft-Rigid Hybrid-Link System and Its Application to Motion Analysis of an Athlete Wearing Sport Prosthesis

Sunghee Kim, Yuta Shimane, Taiki Ishigaki, Ko Yamamoto

发表机构 * Department of Mechano-Informatics, University of Tokyo（东京大学机械信息学系）； Research Institute for Science and Technology, Tokyo University of Science（东京科学大学研究所）

AI总结本文提出了一种基于软刚混合连杆系统的运动分析框架，用于分析佩戴运动专用柔性假肢的运动员动作。该方法通过统一建模刚性人体骨骼与柔性假肢的相互作用力，解决了传统刚体多连杆模型难以处理柔性部件的问题。研究应用混合连杆系统的逆运动学进行动作重建，并通过逆动力学估计关节力矩和地面反作用力，实验表明地面反作用力估计误差约为12%，同时考虑了截肢后的肌肉力与假肢变形的相互作用。

Journal ref Advanced Robotics, Vol.40, No.4, 2026

2605.13190 2026-05-14 cs.LG cs.AI

N-vium: Mixture-of-Exits Transformer for Accelerated Exact Generation

Aleksander Lorenc, Frédéric Berdoz, Joël Mathys, Roger Wattenhofer

发表机构 * ETH Zurich（苏黎世联邦理工学院）

AI总结本文提出了一种名为N-vium的混合退出Transformer模型，旨在提升自回归Transformer的推理效率。该方法通过在不同深度添加预测头，并采用自适应路由机制，将计算部分并行化，从而提高每秒的计算效率，而非单纯减少每个token的计算量。实验表明，N-vium在保持相同困惑度的前提下，实现了比标准Transformer高达57.9%的运行速度提升。

2605.13182 2026-05-14 cs.CV

DiffST: Spatiotemporal-Aware Diffusion for Real-World Space-Time Video Super-Resolution

Zheng Chen, Ruofan Yang, Jin Han, Dehua Song, Zichen Zou, Chunming He, Yong Guo, Yulun Zhang

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Huawei Noah’s Ark Lab（华为诺亚实验室）； Duke University（杜克大学）； Huawei Consumer Business Group（华为消费者业务集团）

AI总结 DiffST 是一种高效的时空感知扩散框架，旨在解决真实场景下的时空视频超分辨率（STVSR）问题。该方法通过引入跨帧上下文聚合和视频表示引导模块，提升了对时空信息的利用效率，并采用一步采样策略提高了推理速度。实验表明，DiffST 在多个真实场景任务中取得了领先的性能，且推理速度比现有方法快约17倍。

Comments Code is available at: https://github.com/zhengchen1999/DiffST

2605.13181 2026-05-14 cs.LG cs.AI

Stable Attention Response for Reliable Precipitation Nowcasting

Penghui Wen, Zexin Hu, Sen Zhang, Patrick Filippi, Xiaogang Zhu, Allen Benter, Thomas Bishop, Zhiyong Wang, Kun Hu

发表机构 * School of Computer Science, The University of Sydney（悉尼大学计算机科学学院）； School of Life and Environmental Science, The University of Sydney（悉尼大学生命与环境科学学院）； School of Computer Science and Information Technology, The University of Adelaide（阿德莱德大学计算机科学与信息技术学院）； Digital Agriculture, Orange Agricultural Institute（数字农业，橙色农业研究所）； School of Science, Edith Cowan University（埃迪斯科文大学科学学院）

AI总结降水临近预报由于大气动力学的高度局部化、快速变化和异质性而具有挑战性。尽管近期方法在单模态和多模态设置中越来越多地采用基于注意力的架构，但主要关注于增强表示学习和预测能力，而忽视了注意力响应在不同样本间的稳定性。本文提出HARECast，一种基于头级注意力响应能量调控的降水临近预报框架，通过减少注意力响应能量在样本间的波动，提升预测的稳定性与可靠性，并在多个基准数据集上取得了最先进的性能。

2605.13179 2026-05-14 cs.CV

Does Engram Do Memory Retrieval in Autoregressive Image Generation?

Jinghao Wang, Qiyuan He, Chunbin Gu, Pheng-Ann Heng

发表机构 * The Chinese University of Hong Kong（香港中文大学）； National University of Singapore（新加坡国立大学）

AI总结该研究探讨了Engram模块在自回归图像生成中的作用，发现其虽能减少计算量，但并未提升生成图像的质量。通过实验分析表明，Engram模块更像是一个带有门控机制的辅助路径，而非内容寻址的回忆机制。研究进一步指出，Engram模块对生成结果的改进主要来源于其结构本身，而非记忆表中的内容。

Comments 9 pages

详情

英文摘要

The Engram module -- a hash-keyed, O(1) associative memory injected into Transformer layers -- was recently shown to improve large language model pretraining, with the appealing interpretation that it provides a content-addressed shortcut to recurring local token patterns. We ask whether this interpretation transfers to autoregressive (AR) image generation, or whether the observed gains, if any, come from a different mechanism. We adapt the Engram module to vision with 2D spatial $n$-gram hashing, gated fusion, and KV-cache-compatible incremental inference, and inject it into a class-conditional AR generator trained on ImageNet 256x256. Across a sweep of backbone-to-memory budget ratios $ρ{\in}[0.17, 0.90]$, every Engram-augmented variant trails the pure AR baseline in FID, indicating that the module saves backbone FLOPs but does not, by itself, improve sample quality. We then probe how the module is used. A gate-clamp sweep shows that disabling the Engram pathway entirely is catastrophic, yet a tiny constant gate (g=0.10) matches or beats the learned gate -- inconsistent with a heavily content-addressed recall mechanism. A donor-probe experiment shows that swapping the hash inputs for matched, adversarial, or random same-class exemplars produces statistically indistinguishable next-token distributions, while collapsing or randomising the table degrades them by two to three orders of magnitude. Finally, training a model from scratch with the entire memory table frozen to $\mathcal{N}(0, 1)$ noise costs only $Δ\text{FID}{=}0.10$ and actually raises Inception Score. Together, these findings indicate that the Engram in AR image generation behaves not as a content-addressed retriever but as a gated architectural side-pathway: a hash-keyed residual stream whose benefit is dominated by the pathway itself, with the learned table contributing only a small distributional refinement.

URL PDF HTML ☆

赞 0 踩 0

2605.13171 2026-05-14 cs.AI

Formal Conjectures: An Open and Evolving Benchmark for Verified Discovery in Mathematics

Moritz Firsching, Paul Lezeau, Salvatore Mercuri, Miklós Z. Horváth, Yaël Dillies, Calle Sönne, Eric Wieser, Fred Zhang, Thomas Hubert, Blaise Agüera y Arcas, Pushmeet Kohli

发表机构 * Google DeepMind ； Imperial College London（帝国理工学院伦敦分校）； Stockholms universitet（斯德哥尔摩大学）

AI总结随着自动推理系统的发展，亟需高质量的数学问题用于评估其能力。为此，研究者提出了“Formal Conjectures”，一个包含2615个用Lean 4形式化的问题的持续演进基准，涵盖836个已解决的问题和1029个未解的数学猜想，用于评估自动证明发现的能力。该基准通过协作开源项目确保形式化正确性，并利用AI生成的证明与反例进行持续优化，已在实际中推动了新的数学发现。

Comments 21 pages, 4 figures, 5 tables

2605.13170 2026-05-14 cs.LG cs.MA

Finding the Weakest Link: Adversarial Attack against Multi-Agent Communications

Maxwell Standen, Junae Kim, Claudia Szabo

发表机构 * The University of Adelaide（阿德莱德大学）

AI总结本文研究了针对多智能体强化学习系统的对抗攻击问题，重点分析如何通过扰动通信信息来破坏系统性能。作者提出利用雅可比矩阵的梯度信息，识别最易受攻击的消息、智能体及时刻，并设计了两种新的对抗损失函数以平衡攻击成功率与影响程度。实验表明，该方法在多个环境中显著提升了攻击效果，优于随机选择策略。

Comments Full version of the Extended Abstract presented at AAMAS 2026

2605.13167 2026-05-14 cs.CL

GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language

Jinwoong Kim, Rui Yang, Huishuai Zhang

发表机构 * Peking University（北京大学）； Wangxuan Institute of Computer Technology（王璇计算机技术研究院）

AI总结本文介绍了GeoBuildBench，一个用于评估大型语言模型和多模态智能体能否将非正式的自然语言平面几何问题转化为可执行几何构造的基准。该基准不同于以往关注答案正确性或静态图示理解的几何测试集，而是将几何图示视为交互式构造任务，要求模型生成特定领域语言程序以满足明确的几何对象和可验证约束。研究发现，尽管现有模型在任务中取得了一定成效，但仍常出现结构幻觉、遗漏对象和无法满足几何约束等问题，表明几何构造是检验模型可执行推理能力的严格测试环境。

2605.13165 2026-05-14 cs.CL

STOP: Structured On-Policy Pruning of Long-Form Reasoning in Low-Data Regimes

Chenjun Xu, Zhennan Zhou, Zhan Su, Bill Howe, Lucy Lu Wang, Bingbing Wen

发表机构 * University of Washington（华盛顿大学）； University of Montreal（蒙特利尔大学）

AI总结本文提出了一种名为STOP的结构化策略，用于在数据量有限的情况下对长链推理过程进行高效剪枝。该方法通过自蒸馏生成推理轨迹，并将其映射为结构化的推理接口，再结合最早正确节点（ECN）策略，去除冗余推理步骤，从而在保持推理准确性的同时显著减少生成的token数量。实验表明，STOP在多个数学推理任务中有效提升了推理效率，并减少了分布偏移，优化了推理结构。

Comments 20 pages, 6 figures, 6 tables. Code available at: https://github.com/chenjux/ECN-STOP

2605.13162 2026-05-14 cs.LG

Continual Fine-Tuning of Large Language Models via Program Memory

Hung Le, Svetha Venkatesh

发表机构 * Deakin Applied AI Initiative（德金应用人工智能计划）

AI总结本文研究了在持续学习场景下如何高效地对大语言模型进行微调，提出了一个基于程序记忆的持续LoRA框架ProCL。该方法受到神经科学中互补学习系统的启发，通过结构化的程序记忆槽和输入条件注意力机制，实现了快速适应与知识保留的平衡。实验表明，ProCL在多个基准上表现出更优的知识保持能力和更低的灾难性遗忘现象。

Comments 18 page, preprint

2605.13158 2026-05-14 cs.CV

Unifying Physically-Informed Weather Priors in A Single Model for Image Restoration Across Multiple Adverse Weather Conditions

Jiaqi Xu, Xiaowei Hu, Lei Zhu, Pheng-Ann Heng

发表机构 * Department of Computer Science and Engineering, The Chinese University of Hong Kong, Hong Kong SAR, China（香港中文大学（深圳）计算机科学与工程系）； Shanghai Artificial Intelligence Laboratory, Shanghai, China（上海人工智能实验室）； ROAS Thrust, the Hong Kong University of Science and Technology (Guangzhou), Guangzhou, China and The Hong Kong University of Science and Technology, Department of Electronic and Computer Engineering, Hong Kong SAR, China（香港科学与技术大学（广州）ROAS方向及电子与计算机工程系，香港特别行政区）

AI总结本文研究了在多种恶劣天气条件下进行图像修复的问题，提出了一种统一的物理感知天气先验模型，能够同时处理雨滴和雾等不同天气引起的退化现象。该方法基于对天气相关视觉因素的分析，构建了一个融合粒子散射和雾状聚集效应的成像模型，并设计了一种基于天气先验的网络结构，通过估计遮挡和透射信息增强特征以恢复清晰场景。实验表明，该方法在多种恶劣天气场景下均优于现有先进方法。

Comments Accepted by TCSVT

2605.13156 2026-05-14 cs.CV

Dual-Pathway Circuits of Object Hallucination in Vision-Language Models

Jiaxin Liu, Ding Zhong, Yue Wang, Zhidong Yang, Zhaolu Kang, Guangyuan Dong, Qishi Zhan, Pengcheng Fang, Aofan Liu

发表机构 * UIUC（伊利诺伊大学香槟分校）； UMich（密歇根大学）； Stanford（斯坦福大学）； HKUST（香港科技大学）； PKU（北京大学）； NUS（新加坡国立大学）； Marquette（马quette大学）； Southampton（南安普顿大学）

AI总结视觉语言模型（VLMs）在跨模态理解任务中表现出色，但常出现物体幻觉问题，即描述输入图像中并不存在的内容，影响其可靠性和可解释性。本文提出了一种双路径电路分析框架，用于识别和分析VLM中与幻觉相关的电路机制。通过激活路径修补和条件路径分析，研究发现了支持正确预测的视觉接地路径和导致错误输出的幻觉路径，并揭示了两者的交互机制。实验表明，抑制幻觉路径组件可显著减少物体幻觉，且该电路机制在不同模型架构和幻觉类型中具有良好的一致性和可迁移性。

2605.13155 2026-05-14 cs.CV

Pareto-Guided Optimal Transport for Multi-Reward Alignment

Ying Ba, Tianyu Zhang, Mohan Zhou, Yalong Bai, Wenyi Mo, Guiwei Zhang, Bing Su, Ji-Rong Wen

发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China（中国人民大学北京校区人工智能学院）； Beijing Key Laboratory of Research on Large Models（北京大模型研究关键实验室）； Engineering Research Center of Next-Generation Intelligent Search（下一代智能搜索与推荐工程技术研究中心）； Rutgers University（罗格斯大学）

AI总结文本到图像生成模型在偏好优化方面取得了显著进展，但在面对多样化的奖励模型时，实现稳健的对齐仍是一个重大挑战。本文提出了一种基于帕累托前沿引导的最优传输（PG-OT）框架，通过构建特定提示的帕累托前沿，并利用分布感知的最优传输将劣化样本映射至该前沿，从而有效缓解奖励黑客问题。此外，作者引入了联合支配率（JDR）和联合崩溃率（JCR）作为评估多奖励协同效应和奖励黑客风险的指标，实验表明该方法在多个指标上均优于现有方法。

Comments Accepted to ICML 2026

2605.13153 2026-05-14 cs.AI

Strikingness-Aware Evaluation for Temporal Knowledge Graph Reasoning

Rikui Huang, Shengzhe Zhang, Wei Wei

发表机构 * School of Computer Science & Technology, Huazhong University of Science and Technology（华中科技大学计算机科学与技术学院）； Institute of Artificial Intelligence, Huazhong University of Science and Technology（华中科技大学人工智能研究院）； School of Artificial Intelligence & Automation, Huazhong University of Science and Technology（华中科技大学人工智能与自动化学院）

AI总结本文针对时间知识图谱推理（TKGR）中的评估方法提出改进，指出当前方法对所有事件一视同仁，忽略了大多数事件是重复性的，从而高估了模型的推理能力。为此，作者提出一种基于“显著性”的评估框架，通过规则引导的显著性度量方法，区分并强调那些需要更深层次推理的罕见事件。实验表明，该框架能够更严格地评估模型在预测突出事件方面的能力，为TKGR研究提供了新的评价视角。

Comments Accepted to IJCAI-ECAI 2026

2605.13152 2026-05-14 cs.CV cs.AI cs.LG cs.RO

EvObj: Learning Evolving Object-centric Representations for 3D Instance Segmentation without Scene Supervision

Jiahao Chen, Zihui Zhang, Yafei Yang, Jinxi Li, Shenxing Wei, Zhixuan Sun, Bo Yang

发表机构 * Shenzhen Research Institute, The Hong Kong Polytechnic University（深圳研究 institute，香港理工大学）； vLAR Group, The Hong Kong Polytechnic University（vLAR 团队，香港理工大学）

AI总结本文提出了一种名为 EvObj 的无监督三维实例分割方法，旨在解决从合成数据到真实点云场景中几何域差距带来的挑战。该方法通过引入对象辨别模块和对象补全模块，实现了对物体先验的动态优化和部分几何结构的重建，从而提升了在真实场景中的分割性能。实验表明，EvObj 在多个数据集上均取得了优于现有方法的分割效果，达到了当前最先进的水平。

Comments CVPR 2026. Code and data are available at: https://github.com/vLAR-group/EvObj

2605.13151 2026-05-14 cs.CV

GenCape: Structure-Inductive Generative Modeling for Category-Agnostic Pose Estimation

Jiyong Rao, Yu Wang, Shengjie Zhao

发表机构 * School of Computer Science and Technology, Tongji University（同济大学计算机科学与技术学院）

AI总结 GenCape 是一种面向类别无关姿态估计（CAPE）的生成式框架，旨在仅使用少量标注的支持样本，对任意类别的图像中的关键点进行定位。该方法通过图像支持输入自动推断关键点之间的关系，无需额外的文字描述或预定义的骨骼结构，克服了传统方法对人工标注的依赖和结构灵活性差的问题。GenCape 包含一个迭代结构感知变分自编码器和一个组合图转移模块，能够有效捕捉实例级别的结构信息，并在不同类别间实现语义对齐，实验表明其在少样本设置下优于现有基于图支持和文本支持的方法。

Comments Accepted in ICLR 2026

2605.13149 2026-05-14 cs.CL cs.AI cs.LG

AcquisitionSynthesis: Targeted Data Generation using Acquisition Functions

Ishika Agarwal, Sofia Stoica, Emre Can Acikgoz, Pradeep Natarajan, Mahdi Namazifar, Jiaqi Ma, Dilek Hakkani-Tür

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； Amazon（亚马逊）

AI总结本文提出了一种名为 AcquisitionSynthesis 的方法，利用主动学习中的获取函数作为奖励模型，训练语言模型生成高质量的合成数据，以解决模型训练中数据质量的瓶颈问题。该方法通过量化评估生成数据对下游学习器的影响，提升了数据生成的针对性和有效性。实验表明，使用 AcquisitionSynthesis 生成的数据能够提升学生模型的性能并增强其鲁棒性，同时该方法还可用于支持其他模型训练及资源从低到高的训练范式。

2605.13148 2026-05-14 cs.LG cs.CV

Understanding Generalization through Decision Pattern Shift

Huiqi Deng, Yibo Li, Quanshi Zhang, Peng Zhang, Hongbin Pei, Xia Hu

发表机构 * Xi’an Jiaotong University（西安交通大学）； Shanghai Jiao Tong University（上海交通大学）； Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）

AI总结本文研究深度神经网络在未见样本上泛化失败的原因，提出了一种新的分析视角——决策模式偏移（DPS）。该方法通过分析模型内部决策模式的稳定性，量化其在训练与测试阶段的偏差，从而衡量泛化性能。研究发现，决策模式在类别间具有高度结构化和一致性，且其变化程度与泛化差距呈强线性相关，为理解不同泛化失败场景提供了统一的解释框架。

Comments 14pages, 12figures, computer vision and pattern recognition

2605.13145 2026-05-14 cs.LG

Collaborating in Multi-Armed Bandits with Strategic Agents

Idan Barnea, Ofir Schlisselberg, Yishay Mansour

发表机构 * Tel Aviv University（特拉维夫大学）； Google Research（谷歌研究）

AI总结本文研究了多智能体贝叶斯老虎机问题中的协作学习，其中具有战略行为的智能体共同解决同一个老虎机实例。与以往假设短视智能体的文献不同，本文考虑了长期参与的智能体，并提出了一种名为CAOS的机制，能够在纳什均衡下维持协作，同时保证强遗憾上界。研究结果表明，仅通过信息共享即可实现有效的协作探索，其性能接近完全合作系统的水平。

AI 大模型

视觉与机器人

科学与医疗