arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.09457 2026-05-12 cs.LG cs.AI cs.SI

RAwR: Role-Aware Rewiring via Approximate Equitable Partition

Riccardo Porcedda, Giuseppe Squillace, Bastian Epping, Andrea Vandin, Michael Schaub, Mirco Tribastone, Francesca Chiaromonte

发表机构 * Department of Excellence L’EMbeDS, Sant’Anna School of Advanced Studies, Pisa, Italy（卓越部门L’EMbeDS，圣安娜高级研究学院，意大利比萨）； Department of Computer Science, University of Pisa, Italy（计算机科学系，意大利比萨大学）； Department of Statistics, The Pennsylvania State University, USA（统计系，美国宾夕法尼亚州立大学）； Huck Institutes of the Life Sciences, The Pennsylvania State University, USA（生命科学学院Huck研究所，美国宾夕法尼亚州立大学）； IMT School for Advanced Studies, Lucca, Italy（IMT高级研究学院，意大利卢卡）； Computational Network Science, RWTH Aachen University, Aachen, Germany（计算网络科学，德国亚琛工业大学，亚琛）； DTU Technical University of Denmark, Lyngby, Denmark（丹麦技术大学DTU，Lyngby，丹麦）

AI总结本文提出了一种名为RAwR的图神经网络（GNN）重构框架，旨在解决GNN在处理依赖长距离交互的预测任务时性能下降的问题。该方法通过引入基于近似等分划分的商图，增强输入图的结构表达，促进具有相同结构角色的节点之间的信息传播，从而降低系统的有效电阻。实验表明，RAwR在多种基准数据集上取得了最先进的性能，并通过理论分析提出了用于优化重构效果的谱角色提升（SRL）指标。

2605.09455 2026-05-12 cs.CV

Adaptive 3D Convolution for Remote Sensing Image Fusion

Siran Peng, Xiangyu Zhu, Shang-Qi Deng, Liang-Jian Deng, Zhen Lei

发表机构 * State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences（多模态人工智能系统国家重点实验室，自动化研究所，中国科学院）； School of Artificial Intelligence, University of Chinese Academy of Sciences（中国科学院大学人工智能学院）； School of Mathematical Sciences/Multi-Hazard Early Warning Key Laboratory of Sichuan Province, University of Electronic Science and Technology of China（数学科学学院/四川省多灾种早期预警重点实验室，电子科技大学）； Centre for Artificial Intelligence and Robotics, Hong Kong Institute of Science and Innovation, Chinese Academy of Sciences（人工智能与机器人中心，香港科学院，中国科学院）

AI总结本文研究了遥感图像融合问题，旨在从高分辨率但光谱信息有限的图像和低分辨率但光谱数据丰富的图像中生成高分辨率多/高光谱图像。为了解决现有方法在光谱信息保持和计算效率上的不足，作者提出了一种新型的自适应三维卷积（Ada3D）方法，该方法为每个输入体素生成独特的三维卷积核，结合空间和光谱信息，有效提升了融合效果，并通过分组卷积降低了计算复杂度。实验表明，该方法在五个数据集上均取得了当前最优的性能。

Comments Accepted by IEEE Transactions on Image Processing (TIP), Early Access, 2026

详情

DOI: 10.1109/TIP.2026.3689418

英文摘要

Remote sensing image fusion aims to create a high-resolution multi/hyper-spectral image from a high-resolution image with limited spectral information and a low-resolution image with abundant spectral data. Recently, deep learning (DL) techniques have shown significant effectiveness in this area. Most DL-based methods approach image fusion as a 2D problem by encoding spectral information into feature map channels. However, our research suggests that this strategy introduces notable spectral distortions. In contrast, some methods consider spectral data as an additional dimension, utilizing standard 3D convolutions to preserve spectral information. Nevertheless, in a standard 3D convolutional layer, the same set of kernels is applied across all input regions, which we have found to be sub-optimal for image fusion. Furthermore, standard 3D convolutions necessitate substantial computational resources. To address these challenges, we propose a novel convolutional paradigm called Adaptive 3D Convolution (Ada3D) for remote sensing image fusion. Ada3D applies a unique set of 3D kernels to each input voxel, enabling the capture of fine-grained details. These adaptive kernels are generated through a two-step process: (i) spatial and spectral kernels are derived from their respective image sources; (ii) these two types of kernels are then combined to form content-aware 3D kernels that effectively integrate spatial and spectral information. Additionally, adaptive biases are introduced to enhance the convolutional outcome at the voxel level. Furthermore, we incorporate the group convolution technique to reduce computational complexity. As a result, Ada3D offers full adaptivity in an efficient manner. Evaluation results across five datasets demonstrate that our method achieves SOTA performance, underscoring the superiority of Ada3D. The code is available at https://github.com/PSRben/Ada3D.

URL PDF HTML ☆

赞 0 踩 0

2605.09449 2026-05-12 cs.CV

SpaceMind++: Toward Allocentric Cognitive Maps for Spatially Grounded Video MLLMs

Bo Gu, Zhikang Zhang, Zizhuang Wei, Zhenyuan Chen, Lingyun Li, Zhuoyi Song

发表机构 * Fudan University（复旦大学）； Huawei（华为）； Shenzhen Loop Area Institute（深圳环城院）

AI总结当前多模态大语言模型（MLLMs）在视觉理解和语言推理方面取得了显著进展，但在三维环境中缺乏持续的、以世界为中心的空间表征。为此，研究提出了一种名为 SpaceMind++ 的视频 MLLM 架构，通过从 RGB 视频中构建体素化的认知地图，实现对物体永久性和空间拓扑关系的保持。该模型引入了坐标引导的深度迭代融合机制，将地图层面的空间知识反馈至原始二维视觉特征中，从而在不破坏原有视觉接口的前提下增强模型的空间推理能力。实验表明，SpaceMind++ 在多个基准测试中取得了优异的性能，尤其在未见过的三维环境中表现出更强的泛化能力。

Comments 14 pages, 3 figures

2605.09448 2026-05-12 cs.LG

Learning to Bid with Unknown Private Values in Budget-Constrained First-Price Auctions

Zihao Hu, Yuxiao Wen, Yuan Yao, Jiheng Zhang, Zhengyuan Zhou

发表机构 * Department of Mathematics, The Hong Kong University of Science and Technology（香港科技大学数学系）； Stern School of Business, New York University（纽约大学斯特恩商学院）

AI总结本文研究了在预算约束和投资回报率目标限制下的首价拍卖中的竞价学习问题，其中竞拍者的估值无法直接获取，只能从被截断的数据中推断。为解决这一问题，作者提出了一种统一的原始-对偶框架，同时学习潜在的估值参数和竞争对手的出价分布。该方法通过引入强斯拉特条件和自适应预热过程，有效控制对偶变量的稳定性，从而实现了接近最优的遗憾界，为具有隐含估值的约束竞价问题提供了首个理论保障的解决方案。

2605.09443 2026-05-12 cs.CV cs.CL

Through the Lens of Character: Resolving Modality-Role Interference in Multimodal Role-Playing Agent

Yihong Tang, Kehai Chen, Xuefeng Bai, Min Zhang

发表机构 * Harbin Institute of Technology（哈尔滨工业大学）； Shenzhen Loop Area Institute (SLAI)（深圳环城院）

AI总结随着多模态大语言模型的发展，角色扮演代理（RPAs）逐渐进入视觉化环境，但现有模型提取的通用视觉特征容易掩盖角色特性，导致模态-角色干扰（MRI）。为此，研究提出了一种无需训练的字符感知视觉干预框架CAVI，通过角色引导的标记剪枝、正交特征调制和模态自适应角色引导等方法，有效缓解MRI问题，显著提升了角色一致性的多模态交互能力。

2605.09442 2026-05-12 cs.CV cs.AI

SWIFT: Prompt-Adaptive Memory for Efficient Interactive Long Video Generation

Shanwen Tan, Hao Li, Jingtao Zhang, Xiaosong Jia, Xue Yang, Shaofeng Zhang, Yanyong Zhang

发表机构 * University of Science and Technology of China（中国科学技术大学）； Fudan University（复旦大学）； Georgia Institute of Technology（佐治亚理工学院）； Shanghai Jiao Tong University（上海交通大学）

AI总结 SWIFT 是一种用于多提示长视频生成的高效框架，旨在解决连续语义切换中的语义连贯性与计算效率之间的矛盾。该方法引入了轻量级的语义注入缓存和自适应动态窗口机制，能够在不重建缓存内容的前提下实现高效的语义切换，并通过分头语义注入和段级语义锚点保持视频的时序一致性。实验表明，SWIFT 在单块 H100 GPU 上实现了 22.6 FPS 的生成速度，显著提升了长视频生成的效率。

Comments Code is available at https://github.com/ShanwenTan/SWIFT

详情

英文摘要

Streaming long-video generation faces a central challenge in continuous semantic switching, requiring adaptive memory to preserve coherent visual evolution. Current approaches rely on cache rebuilding at prompt boundaries or fixed memory budgets, but they introduce redundant computation and limit flexible semantic adaptation. This limitation arises from a mismatch between cached video history and prompt updates, as memory preserves visual continuity while prompt switches demand rapid semantic adaptation. Motivated by this observation, we present SWIFT, Semantic Windowing and Injection for Flexible Transitions, a training-free framework for multi-prompt long-video generation that enables efficient semantic switching while preserving temporal coherence in causal video diffusion models. SWIFT introduces a lightweight Semantic Injection Cache that augments cached video memory rather than reconstructing it from scratch at every prompt boundary. To avoid uniformly perturbing all attention channels, we further perform head-wise semantic injection, so that each attention head receives a prompt update proportional to its alignment with the current video state. In addition, we introduce an Adaptive Dynamic Window that allocates temporal memory according to prompt phase, using larger local context near switching boundaries and smaller windows during stable segments to reduce average inference cost. To preserve long-range semantic consistency under compressed local attention, we further maintain segment-level semantic anchors that summarize prompt-conditioned video history and reintroduce it as compact memory tokens. Compared with current state-of-the-art methods, SWIFT preserves generation quality while achieving 22.6 FPS on a single H100 GPU, establishing a substantially more efficient solution for multi-prompt long-video generation. Our code is available at https://github.com/ShanwenTan/SWIFT.

URL PDF HTML ☆

赞 0 踩 0

2605.09441 2026-05-12 cs.RO

Beyond Isolation: A Unified Benchmark for General-Purpose Navigation

Samson Sun, Tianyi Yang, Tengyue Wang, Yikai Xue, Zhengjie Xu, Lingming Zhang, Qichen Zhang, Chao Liang, Zhipeng Zhang

发表机构 * AutoLab, SAI, Shanghai Jiao Tong University（自动化实验室、上海交通大学）； Research Lab, Anyverse Dynamics（Anyverse Dynamics 研究实验室）

AI总结当前通用导航智能体的发展受到碎片化评估体系的限制，这些体系往往孤立测试导航技能并聚焦于特定机器人形态，难以反映现实场景中多样行为的协调需求。为此，研究提出OmniNavBench基准，旨在评估跨技能协作与跨形态泛化能力。该基准引入复合任务指令、多形态机器人支持及高质量人类演示，推动导航智能体在复杂、交错任务场景下的性能提升，揭示了现有方法在通用导航任务中的不足，为下一代通用导航系统提供了新的测试平台。

Comments Accepted at RSS 2026

2605.09440 2026-05-12 cs.CL cs.AI

Key Coverage Matters: Semi-Structured Extraction of OCR Clinical Reports

Yu Wang, Yingyun Li, Ying Qin, Haiyang Qian

发表机构 * AI Starfish

AI总结临床报告因隐私政策和数据孤岛问题常分散在不同医疗机构，导致电子健康记录整合和长期跟踪困难。本文提出一种基于关键字段的半结构化信息提取方法，通过迭代挖掘、归一化和聚类构建关键字段库，并引入“关键覆盖率”衡量信息完整性。实验表明，随着关键覆盖率提升，模型性能显著增强，在覆盖前90个关键字段时，F1分数分别达到0.839和0.893，且该方法适用于多语言场景。

Comments Preprint. Under review at MLHC 2026

2605.09439 2026-05-12 cs.LG stat.ML

Inverse Design for Conditional Distribution Matching

Ori Meidler, Shaul Tolkovsky, Or Zuk

发表机构 * Department of Statistics and Data Science（统计与数据科学系）

AI总结该论文提出了一种新的逆设计问题——条件分布匹配（CDM），旨在从给定的联合分布 $\mathcal{P}(X, Y)$ 中找到输入 $x^*$，使得其诱导的条件分布 $\mathcal{P}(Y \mid X = x^*)$ 与目标分布 $\mathcal{G}(Y)$ 匹配。为了解决这一问题，作者提出了 MLGD-F 算法，结合预训练的扩散模型和快速条件采样器，在无需额外训练的情况下实现高效求解。实验表明，该方法在多种任务中能够可靠地恢复出满足用户指定分布目标的输入。

2605.09438 2026-05-12 cs.LG

fmxcoders: Factorized Masked Crosscoders for Cross-Layer Feature Discovery

Andreas D. Demou, Panagiotis Koromilas, James Oldfield, Yannis Panagakis, Mihalis A. Nicolaou

发表机构 * The Cyprus Institute（塞浦路斯研究所）； University of Athens（雅典大学）； University of Oxford（牛津大学）； Archimedes AI/Athena Research Center（Archimedes AI/ Athena 研究中心）； University of Cyprus（塞浦路斯大学）

AI总结该研究针对预训练Transformer模型中跨层特征提取的问题，提出了一种新的方法fmxcoders，旨在更有效地在共享潜在空间中恢复跨层特征。传统Crosscoders方法在跨层参数化和依赖关系上存在局限，导致学到的潜在变量主要捕捉表面模式而非深层语义概念。fmxcoders通过引入低秩张量分解和随机层掩码机制，提升了潜在变量的跨层一致性与语义可解释性，并在多个基础模型上显著提高了特征探测和重建性能。

2605.09433 2026-05-12 cs.CV

Offline Preference Optimization for Rectified Flow with Noise-Tracked Pairs

Yunhong Lu, Qichao Wang, Hengyuan Cao, Xiaoyin Xu, Min Zhang

发表机构 * Zhejiang University（浙江大学）； Shanghai Institute for Advanced Study-Zhejiang University（上海先进研究院-浙江大学）； Shanghai Institute for Mathematics and Interdisciplinary Sciences（上海数学与交叉科学研究院）

AI总结现有文本到图像模型的偏好数据集通常仅存储最终的优胜或劣汰图像，这不足以支持基于直化流（RF）模型的生成过程，因其生成过程依赖特定的先验噪声样本并遵循近似直线的去噪轨迹。为此，本文提出了一种针对直化流模型的离线偏好优化框架——先验噪声感知偏好优化（PNAPO），通过保留生成优胜/劣汰图像所用的配对先验噪声，扩展标准三元组为六元组，并利用RF的直线特性进行噪声-图像插值，从而更准确地估计轨迹并提升优化目标的紧致性。实验表明，PNAPO在主流RF文本到图像模型上显著提升了偏好指标，同时减少了训练计算量。

Comments Accepted by ICML 2026

2605.09431 2026-05-12 cs.CL

PumpSense: Real-Time Detection and Target Extraction of Crypto Pump-and-Dumps on Telegram

Ahmed Mahrous, Roberto Di Pietro

发表机构 * King Abdullah University of Science and Technology (KAUST)（国王阿卜杜勒-阿齐兹科技大学）

AI总结 PumpSense 是一项针对 Telegram 上加密货币“拉高出货”行为的实时检测与目标提取研究。该研究构建了一个包含 28 万多条消息的标注数据集，用于识别泵动公告及其目标币种和交易所，并提出了基于机器学习和大语言模型的检测与提取方法，实现了近实时的检测能力。研究还首次建立了相关任务的基准，证明了基于大模型的方法在目标提取任务中具有显著优势。

Comments Accepted to the 2026 IEEE International Conference on Blockchain and Cryptocurrency (ICBC)

2605.09429 2026-05-12 cs.CV cs.AI

Evading Visual Aphasia: Contrastive Adaptive Semantic Token Pruning for Vision-Language Models

Jie Ma, Yihang Liu, Zhike Qiu, Jiayi Ji, Xiaoshuai Sun

发表机构 * Xiamen University（厦门大学）

AI总结该研究探讨了在视觉-语言模型中，低注意力视觉token是否真的冗余，并指出现有剪枝方法基于浅层注意力分数进行剪枝可能影响模型对复杂场景的推理能力，导致“视觉失语”问题。为此，作者提出了一种无需训练的剪枝框架COAST，通过对比自适应语义token剪枝，利用跨模态注意力识别关键token并平衡语义证据与空间上下文的关系。实验表明，COAST在多个基准上大幅减少了视觉token数量并提升了推理速度，同时保持了较高的模型性能，展示了其在不同模型和压缩设置下的广泛适用性。

2605.09428 2026-05-12 cs.LG

FedCIGAR: A Personalized Reconstruction Approach for Federated Graph-level Anomaly Detection

Yunfeng Zhao, Yixin Liu, Qingfeng Chen, Shiyuan Li, Yue Tan, Shirui Pan

发表机构 * Guangxi University（广西大学）； Griffith University（格里菲斯大学）

AI总结本文提出了一种名为FedCIGAR的联邦图级异常检测方法，旨在解决分布式场景下隐私保护与模型泛化能力之间的矛盾。该方法通过在正常图上进行重建学习，避免使用不真实的合成异常数据，并引入客户端节点贡献门控机制与服务器端滑动窗口聚类策略，以应对数据异构性带来的挑战。实验表明，FedCIGAR在多个基准数据集上表现出优越的检测性能与鲁棒性。

Comments Accepted by IJCAI 2026

2605.09425 2026-05-12 cs.CV cs.AI

AtteConDA: Attention-Based Conflict Suppression in Multi-Condition Diffusion Models and Synthetic Data Augmentation

Shogo Noguchi

发表机构 * Gunma University（群马大学）

AI总结本文研究了多条件扩散模型中条件冲突对图像生成结构保真度的影响，提出了一种基于注意力机制的冲突抑制方法，有效提升了生成图像的高层结构一致性。通过结合语义分割、深度图和边缘信息作为多条件输入，模型能够在保持场景细节的同时生成高质量的图像，用于自动驾驶任务的数据增强。该工作不仅解决了多条件生成中的冲突问题，还构建了针对驾驶任务的生成框架与评估体系，为缓解高阶自动驾驶中数据稀缺问题提供了重要支持。

Comments 44 pages, 20 figures. Code and project page available at: https://github.com/ShogoNoguchi/AtteConDA

2605.09424 2026-05-12 cs.LG

Tabular Foundation Model for Generative Modelling

Xiangjian Jiang, Mingxuan Liu, Nikola Simidjievski, Tassilo Klein, Mateja Jamnik

发表机构 * Department of Computer Science and Technology, University of Cambridge, UK（计算机科学与技术系，剑桥大学，英国）； SAP SE ； Télécom Paris, Institut Polytechnique de Paris, France（巴黎telecom，巴黎理工 institute，法国）

AI总结本文提出了一种名为 TabFORGE 的新型表格基础生成模型，旨在解决现有表格生成模型在合成数据质量上不足的问题。该模型通过预训练的因果感知特征编码器，在统一的潜在空间中学习表格数据的隐含因果信息，并采用两阶段设计，先预训练基于分数的扩散变压器，再预训练与去噪对齐的解码器，从而有效缓解潜在表示在训练与推理间的分布偏移。实验表明，TabFORGE 能够高效生成高质量的合成表格数据，尤其在结构保真度方面表现突出。

2605.09422 2026-05-12 cs.CL cs.CV

Perception Without Engagement: Dissecting the Causal Discovery Deficit in LMMs

Jiafeng Liang, Zhihao Zhu, Zihan Zhang, Baoqi Ren, Shixin Jiang, Runxuan Liu, Tao Ren, Ming Liu, See-Kiong Ng, Bing Qin

发表机构 * Harbin Institute of Technology（哈尔滨工业大学）； Pengcheng Laboratory（鹏城实验室）； National University of Singapore（新加坡国立大学）； Peking University（北京大学）； Harvard University（哈佛大学）

AI总结尽管大型多模态模型（LMMs）在视频理解方面表现出色，但它们在因果发现过程中容易依赖文本先验信息，这一缺陷尚未被充分理解。本文提出了一种基于扰动的评估方法ProCauEval，通过系统控制视觉和文本模态的输入，揭示模型在因果推理中的失效模式。研究发现，主流LMMs虽然能够准确感知视频内容，但在因果推理中未能充分加以利用，并且更强的后训练反而加剧了对文本先验的依赖。为此，作者提出了一种反蒸馏策略优化框架ADPO，通过强化学习推动模型更依赖视觉证据而非文本捷径，实验表明该方法有效提升了模型的视觉参与度并保持了基础理解能力。

Comments 17 pages, 5 figures

2605.09419 2026-05-12 cs.AI

From Passive Reuse to Active Reasoning: Grounding Large Language Models for Neuro-Symbolic Experience Replay

Yanan Xiao, Yixiang Tang, Zechen Feng, Lu Jiang, Minghao Yin, Pengyang Wang

发表机构 * Affiliation（机构1）

AI总结本文提出了一种名为Neuro-Symbolic Experience Replay（NSER）的新框架，旨在将强化学习中的经验回放从被动记忆机制转变为具备主动推理能力的知识构建引擎。该方法通过结合大型语言模型（LLM）与符号逻辑表示，从累积的轨迹中归纳行为规则，并将其转化为可微分的逻辑表达式，从而动态调整经验回放的分布权重。NSER通过让抽象知识直接指导策略优化，在多种基准任务中实现了更高的样本效率和收敛速度。

2605.09418 2026-05-12 cs.CV cs.RO

MAG-VLAQ: Multi-modal Aerial-Ground Query Aggregation for Cross-View Place Recognition

Zhengyi Xu, Yuhang Ming, Zhihao Zhan, Hanyu Zhu, Javier Civera, Wanzeng Kong

发表机构 * Hangzhou Dianzi University（杭州电子科技大学）； TopXGun Robotics（TopXGun机器人）； University of Zaragoza（萨拉戈萨大学）

AI总结跨视角场景识别在计算机视觉与机器人领域面临诸多挑战，尤其在地面观测与空中参考之间存在显著的视角、模态和结构差异。为此，本文提出MAG-VLAQ框架，通过融合预训练基础模型提取的多模态特征，在共享嵌入空间中实现地面与空中图像的对齐与融合。其核心创新在于引入ODE条件化的VLAQ机制，动态调整查询中心以适应多模态信息，从而在保持全局检索原型的同时提升场景特异性匹配能力。实验表明，该方法在KITTI360-AG数据集上显著优于现有方法，Recall@1指标达到61.1。

Comments 16 pages, 4 figures, 3 tables

2605.09417 2026-05-12 cs.CV

SAMOFT: Robust Multi-Object Tracking via Region and Flow

Yanchao Wang, Dawei Zhang, Chengzhuan Yang, Wei Liu, Minglu Li, Hua Wang, Zhonglong Zheng, Ming-Hsuan Yang

发表机构 * School of Computer Science and Technology, Zhejiang Normal University（浙江师范大学计算机科学与技术学院）； Institute for Sustainable Industries and Liveable Cities, College of Engineering and Science, Victoria University（维多利亚大学可持续产业与宜居城市研究所、工程与科学学院）； School of Electrical Engineering and Computer Science, University of California at Merced（加州大学默塞德分校电子工程与计算机科学学院）

AI总结本文提出了一种名为SAMOFT的鲁棒多目标跟踪方法，旨在解决复杂运动场景下目标形变、非线性运动和遮挡带来的跟踪难题。该方法引入像素级运动匹配模块（PMM），结合Segment Anything Model（SAM）和密集光流，提升基于卡尔曼滤波的运动预测精度；同时设计了中心距匹配（CDM）模块和分布校正（DBC）模块，分别增强对低置信度检测的鲁棒性以及在线轨迹状态的动态修正能力。实验表明，SAMOFT在多个基准数据集上显著优于现有方法，验证了其有效性。

2605.09416 2026-05-12 cs.LG

A Controlled Diagnostic Study of Hardware-Induced Distortions in Hardware-Aware Training

Yunxuan Fang, Xinhe Wang

发表机构 * Beihang University（北航）

AI总结本文研究了硬件非理想特性对神经网络训练的影响，提出了一种诊断框架，将硬件引起的失真建模为前向操作的结构化扰动，并评估其与梯度优化的兼容性。通过分析六类典型扰动，发现了三个关键诊断指标，揭示了哪些硬件失真可以通过训练补偿，哪些会破坏优化过程，为软硬件协同设计提供了重要指导。

2605.09414 2026-05-12 cs.CL

Cross-Cultural Transfer of Emoji Semantics and Sentiment in Financial Social Media

Ahmed Mahrous, Roberto Di Pietro

发表机构 * King Abdullah University of Science and Technology（卡塔尔国王阿卜杜勒阿齐兹大学科学与技术学院）

AI总结该研究探讨了在金融社交媒体中表情符号的语义和情感在跨语言、跨平台及跨资产社区中的可迁移性。通过分析多语言的Twitter和StockTwits数据，研究发现尽管表情符号的使用频率在不同社区中存在差异，但其语义和情感极性具有较高的稳定性。研究还表明，结合表情符号的信息有助于提升情感迁移模型的性能，尤其在跨语言迁移中效果显著，揭示了金融交流中存在部分共享的“表情符号代码”。

Comments Accepted to Findings of the Association for Computational Linguistics: ACL 2026

2605.09410 2026-05-12 cs.RO cs.AI

RePO-VLA: Recovery-Driven Policy Optimization for Vision-Language-Action Models

Weijia Liufu, Xiaoyu Guo, Ruiyi Chen, Jingzhi Liu, Kaidong Zhang, Xiwen Liang, Jianqi Lin, Dawei Sun, Yuze Wang, Rongtao Xu, Bingqian Lin, Bowen Yang, Tongtong Cao, Bowen Peng, Dongyu Zhang, Guangrun Wang, Min Wang, Liang Lin, Xiaodan Liang

发表机构 * Sun Yat-sen University（中山大学）； South China University of Technology（华南理工大学）； Peng Cheng Laboratory（鹏城实验室）； Harbin Institute of Technology（哈尔滨工业大学）； Institute of Automation, Chinese Academy of Sciences（中国科学院自动化研究所）； Huawei Noah’s Ark Lab（华为诺亚实验室）

AI总结本文提出RePO-VLA，一种面向视觉-语言-动作（VLA）模型的恢复驱动策略优化框架，旨在提升其在复杂操作任务中的鲁棒性。该方法通过区分成功、恢复和失败轨迹的角色，结合恢复感知初始化和进展感知语义价值函数，有效利用失败数据中的有用信息进行策略优化。实验表明，RePO-VLA在模拟和现实双臂任务中显著提升了对抗性场景下的成功率，平均从20%提升至75%，在实际测试中甚至达到80%。

2605.09408 2026-05-12 cs.LG cs.SI stat.ML

GravityGraphSAGE: Link Prediction in Directed Attributed Graphs

Riccardo Porcedda, Francesca Chiaromonte, Fabrizio Lillo, Andrea Vandin

发表机构 * Department of Excellence L’EMbeDS, Sant’Anna School of Advanced Studies（卓越部门L’EMbeDS，圣安娜高级研究学校）； Department of Computer Science, University of Pisa（比萨大学计算机科学系）； Department of Statistics and Huck Institutes of the Life Sciences, The Pennsylvania State University（统计学与生命科学学院，宾夕法尼亚州立大学）； Class of Science, Scuola Normale Superiore（科学班级，正规大学）； DTU Technical University of Denmark（丹麦技术大学）

AI总结本文研究了有向属性图中的链接预测问题，即预测图中节点之间缺失或未来的连接关系。为了解决现有方法在处理有向图和节点属性时的不足，作者提出了基于引力机制的改进版GraphSAGE模型——GravityGraphSAGE（GG-SAGE），首次将GraphSAGE应用于有向链接预测任务。实验表明，该模型在多个基准数据集和真实网络数据上优于现有最先进的图深度学习链接预测方法，展示了其在复杂图结构中的有效性与扩展性。

2605.09407 2026-05-12 cs.CV

AnyDepth-DETR/-YOLO: Any-depth object detection with a single network

Woochul Kang, Hyungseop Lee, Jiho Lee

发表机构 * Incheon Nat’l Univ.（Incheon国立大学）

AI总结本文提出了一种名为AnyDepth-DETR/-YOLO的任意深度目标检测框架，使单个网络能够在推理时通过控制深度实现精度与效率的连续权衡，无需重新训练。该方法通过将网络的主干和颈部模块分解为必须执行的主路径和可跳过的细化路径，保持了不同深度配置下的多尺度特征层次。通过在最深和最浅网络之间进行自蒸馏，并结合预测层和特征层对齐损失，确保各阶段输出的兼容性。实验表明，该方法在RT-DETR和YOLOv12上实现了与现有最佳模型相当或更优的性能，且在高效配置下可提升1.82倍速度，仅损失2.0 AP。

Comments 16 pages, 5 figures, 9 tables

2605.09404 2026-05-12 cs.LG cs.CL cs.CV

Let the Target Select for Itself: Data Selection via Target-Aligned Paths

Huitao Yang, Hengzhi He, Guang Cheng

发表机构 * University of California, Los Angeles（加州大学洛杉矶分校）

AI总结该研究针对目标导向的数据选择问题，提出了一种新的参考路径方法，以减少传统方法在异构数据池中可能产生的偏差。通过在目标验证集上进行短期预热，生成一个验证诱导的参考路径，并利用该路径上的终点损失下降作为候选样本的评分依据，从而实现无需梯度或海森矩阵近似的选择策略。该方法在多个实验中表现出与动态归因方法相当的性能，同时显著降低了预热和存储成本，并可复用到不同的数据池中。

2605.09400 2026-05-12 cs.LG

D2ACE: Multi-Label Batch Selection Guided by Dual Dynamics and Adaptive Correlation Enhancement

Bin Liu, Haoyu Peng, Zhijia Wei, Jiajing Zhang, Grigorios Tsoumakas

发表机构 * Key Laboratory of DECV, Chongqing University of Posts and Telecommunications（重庆邮电大学信息与通信工程重点实验室）； School of Computer Science and Technology, Chongqing University of Posts and Telecommunications（重庆邮电大学计算机科学与技术学院）； School of Informatics, Aristotle University of Thessaloniki（希腊塞萨洛尼基阿里斯托芬大学信息学院）

AI总结在深度多标签分类中，批样本选择对提升训练效率和预测性能至关重要。现有方法通常依赖单一指标评估样本重要性，并使用静态标签权重，忽视了训练过程中指标效用和标签重要性的动态变化。为解决这些问题，本文提出D2ACE方法，结合双动态机制和自适应相关性增强，通过阶段化伯努利混合采样和动态标签加权，动态调整标签优先级，并引入局部上下文感知的相关性增强以聚焦相关标签，实验表明该方法在多种模型和数据集上均表现出更优的预测性能和更高效的标签关联建模。

Comments 18 pages

2605.09392 2026-05-12 cs.CV

HyNeuralMap: Hyperbolic Mapping of Visual Semantics to Neural Hierarchies

Zihan Ma, Tian Xia, Kexin Wang, Xiao Li, Xiaowei He, Yudan Ren

发表机构 * School of Electronic Information (School of Artificial Intelligence), the Xi’an Key Laboratory of Radiomics and Intelligent Perception, Northwest University（电子信息学院（人工智能学院）、西安放射组学与智能感知重点实验室、西北大学）

AI总结本文提出了一种名为HyNeuralMap的框架，用于将视觉语义映射到跨被试的神经层次结构中，以解决视觉刺激与神经响应之间复杂映射关系的理解问题。该方法利用双曲洛伦兹模型，通过双曲空间的负曲率作为归纳偏置，更有效地捕捉视觉语义的层次结构和跨被试神经相似性。实验表明，HyNeuralMap在多标签语义预测和跨模态检索任务中优于现有的欧氏空间方法，验证了双曲几何在跨模态语义对齐和层次建模中的优势。

Comments 14 pages, 4 figures

2605.09387 2026-05-12 cs.AI cs.RO

NEXUS: Continual Learning of Symbolic Constraints for Safe and Robust Embodied Planning

Tiehan Cui, Peipei Liu, Yanxu Mao, Congying Liu, Mingzhe Xing, Datao You

发表机构 * School of Artificial Intelligence and Automation（人工智能与自动化学院）； Huazhong University of Science and Technology（华中科技大学）； School of Software（软件学院）； Henan University（河南大学）； Institute of Information Engineering（信息工程研究所）； Chinese Academy of Sciences（中国科学院）； School of Cyberspace Security（网络空间安全学院）； University of the Chinese Academy of Sciences（中国科学院大学）； Peking University（北京大学）

AI总结本文提出了一种名为NEXUS的模块化框架，旨在解决具身智能体在持续学习过程中面临的符号约束学习问题。该框架通过将物理可行性与安全规范解耦，结合闭环执行反馈与概率风险评估，实现了对安全指令的严格验证与风险规避。实验表明，NEXUS在任务成功率、安全指令拒绝能力及对抗攻击防御方面表现优异，并能通过知识积累逐步提升规划效率。

2605.09384 2026-05-12 cs.CV cs.AI q-bio.QM

LiteMedCoT-VL: Parameter-Efficient Adaptation for Medical Visual Question Answering

Runze Ma, Shunbo Jia, Haonan Lyu, Guo Liu, Caizhi Liao

发表机构 * School of Information Technology（信息科技学院）； Monash University Malaysia（墨尔本大学马来西亚分校）； Faculty of Innovation Engineering（创新工程学院）； Macau University of Science and Technology（澳门科学技术大学）； Department of Bioelectronics（生物电子系）； Faculty of Biomedical Engineering（生物医学工程学院）； Shenzhen University of Advanced Technology（深圳先进技术大学）

AI总结本文提出了一种名为LiteMedCoT-VL的参数高效的适配方法，旨在提升医疗视觉问答（VQA）模型在资源受限设备上的推理能力。该方法通过基于LoRA的微调，将大型教师模型的链式推理能力迁移至小型学生模型，且无需依赖图像字幕，更贴近实际临床场景。实验表明，LiteMedCoT-VL在PMC-VQA基准测试中取得了64.9%的准确率，显著优于现有基线模型，验证了小参数模型通过推理蒸馏可达到甚至超越更大模型的效果。