arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.12051 2026-05-13 cs.LG

Learning plug-in surrogate endpoints for randomized experiments

Alessandro-Umberto Margueritte, Ahmet Zahid Balcıoğlu, Jesse Krijthe, Dave Zachariah, Fredrik D. Johansson

发表机构 * AstraZeneca（阿斯利康）； Chalmers University of Technology and University of Gothenburg（查尔姆斯理工大学和哥德堡大学）； TU Delft（代尔夫特理工大学）； Uppsala University（乌普萨拉大学）

AI总结在随机实验中，当长期结果难以观测时，常使用短期替代终点来评估干预效果。本文研究了一类可以直接替代主要结果的插件复合替代终点，提出两种方法以最大化其对真实效应的预测能力，并分析了在典型场景下找到无偏效应估计替代终点的可能性。实验表明，基于直接建模替代效应的方法相比现有方法能生成更具预测性的插件终点。

Comments 29 pages, 5 figures

2605.12049 2026-05-13 cs.LG cs.AI cs.IT cs.NE math.IT

Scaling Laws and Tradeoffs in Recurrent Networks of Expressive Neurons

Aaron Spieler, Georg Martius, Anna Levina

发表机构 * University of Tübingen, Germany（图宾根大学，德国）； Max Planck Institute for Biological Cybernetics, Tübingen, Germany（生物感知研究所，图宾根，德国）； Max Planck Institute for Intelligent Systems, Tübingen, Germany（智能系统研究所，图宾根，德国）

AI总结本文探讨了在固定参数预算下，如何在神经网络的单元数量、每个单元的复杂度和连接度之间进行最优分配的问题。研究引入了一种基于“表达型漏记忆”（ELM）神经元的循环网络架构，能够独立调节网络宽度、单元复杂度和连接度，并在不同规模下稳定训练。实验表明，在固定参数预算下，存在一个非平凡的最优权衡点，且更大的预算倾向于支持更复杂和更多的神经元，研究还通过信息论模型解释了这一权衡现象的机制。

Comments 25 pages, 21 figures, 3 tables, including derivations. Submitted for peer review

详情

英文摘要

Cortical neurons are complex, multi-timescale processors wired into recurrent circuits, shaped by long evolutionary pressure under stringent biological constraints. Mainstream machine learning, by contrast, predominantly builds models from extremely simple units, a default inherited from early neural-network theory. We treat this as a normative architectural question. How should one split a fixed parameter budget $P$ between the number of units $N$, per-unit effective complexity $k_e$, and per-unit connectivity $k_c$? What controls the optimal allocation? This calls for a model in which per-unit complexity can be tuned independently of width and connectivity. Accordingly, we introduce the ELM Network, whose recurrent layer is built from Expressive Leaky Memory (ELM) neurons, chosen to mirror functional components of cortical neurons. The architecture allows for individually adjusting $N$, $k_e$, and $k_c$ and trains stably across orders of magnitude in scale. We evaluate the model on two qualitatively different sequence benchmarks: the neuromorphic SHD-Adding task and Enwik8 character-level language modeling. Performance improves monotonically along each of the three axes individually. Under a fixed budget, a clear non-trivial optimum emerges in their tradeoff, and larger budgets favor both more and more complex neurons. A closed-form information-theoretic model captures these tradeoffs and attributes the diminishing returns at two ends to: per-neuron signal-to-noise saturation and across-neuron redundancy. A hyperparameter sweep spanning three orders of magnitude in trainable parameters traces a near-Pareto-frontier scaling law consistent with the framework. This suggests that the simple-unit default in ML is not obviously optimal once this tradeoff surface is probed, and offers a normative lens on cortex's reliance on complex spatio-temporal integrators.

URL PDF HTML ☆

赞 0 踩 0

2605.12047 2026-05-13 cs.CL

Is Child-Directed Language Optimized for Word Learning? A Computational Study of Verb Meaning Acquisition

Francesca Padovani, Jaap Jumelet, Yevgen Matusevych, Arianna Bisazza

发表机构 * Center for Language and Cognition (CLCG), University of Groningen（语言与认知中心（CLCG），格罗宁根大学）

AI总结本研究探讨儿童导向语言（CDL）是否优化了词汇学习，特别是动词意义的获取。通过对比基于CDL和成人导向语言（ADL）训练的神经语言模型，研究发现CDL和口语ADL在语法干扰下表现出更强的学习鲁棒性。研究还发现，动词意义的习得早于语法能力的提升，且这一异步现象在口语中尤为明显，表明CDL在动词学习上的优势可能源于口语本身的特性，而非CDL独有的优化。

Comments 8 pages

2605.12039 2026-05-13 cs.CL

SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs

Xiaoyuan Li, Moxin Li, Keqin Bao, Yubo Ma, Wenjie Wang, Dayiheng Liu, Fuli Feng

发表机构 * University of Science and Technology of China（中国科学技术大学）； Alibaba Group（阿里巴巴集团）； National University of Singapore（新加坡国立大学）

AI总结 SkillGraph 是一种通过动态演化技能图谱来增强智能体强化学习能力的方法，旨在解决现有技能库在组合任务中依赖关系识别和维护困难的问题。该方法将可复用的技能表示为有向图中的节点，并通过边类型编码技能之间的前提、增强和共现关系，从而支持多步骤决策。实验表明，SkillGraph 在多个复杂任务中表现出色，显著优于传统的记忆增强型强化学习方法。

Comments Under Review

2605.12038 2026-05-13 cs.CV

OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation

Yiren Song, Xiyao Deng, Pei Yang, Yihan Wang, Mike Zheng Shou

发表机构 * Show Lab, National University of Singapore（展示实验室，新加坡国立大学）

AI总结 OmniHumanoid 是一种用于跨具身视频生成的流式生成框架，旨在实现从人类到机器人或机器人到机器人之间的动作迁移。该方法通过分离可迁移的运动学习与具身特定的适配，解决了传统方法中因素纠缠和依赖配对数据的限制，仅需使用未配对视频即可适应新具身。研究还引入了分支隔离注意力机制，并构建了一个包含多具身、多场景的合成数据集，实验表明该方法在运动保真度和具身一致性方面表现优异，且无需重新训练共享运动模型即可扩展到新机器人。

2605.12031 2026-05-13 cs.LG cs.CV

Resilient Vision-Tabular Multimodal Learning under Modality Missingness

Camillo Maria Caruso, Valerio Guarrasi, Paolo Soda

发表机构 * Research Unit of Artificial Intelligence and Computer Systems, Department of Engineering, Università Campus Bio-Medico di Roma（人工智能与计算机系统研究单位，工程系，罗马生物医学大学）； Department of Diagnostics and Intervention, Radiation Physics, Biomedical Engineering, Umeå University（诊断与干预系，辐射物理，生物医学工程，乌梅大学）

AI总结该研究针对医疗多模态学习中常见的模态缺失问题，提出了一种无需数据填补或启发式切换的联合视觉-表格学习框架。该方法通过可学习的模态标记对单模态表示进行加权，并利用带有掩码的自注意力机制进行中间融合，从而排除缺失的模态和特征。此外，引入模态丢弃正则化策略增强模型鲁棒性，实验表明该方法在不同缺失场景下均优于现有基线，表现出更稳定的性能和更强的鲁棒性。

详情

英文摘要

Multimodal deep learning has shown strong potential in medical applications by integrating heterogeneous data sources such as medical images and structured clinical variables. However, most existing approaches implicitly assume complete modality availability, an assumption that rarely holds in real-world clinical settings where entire modalities and individual features are frequently missing. In this work, we propose a multimodal transformer framework for joint vision-tabular learning explicitly designed to operate under pervasive modality missingness, without relying on imputation or heuristic model switching. The architecture integrates three components: a vision, a tabular, and a multimodal fusion encoder. Unimodal representations are weighted through learnable modality tokens and fused via intermediate fusion with masked self-attention, which excludes missing tokens and modalities from information aggregation and gradient propagation. To further enhance resilience, we introduce a modality-dropout regularization strategy that stochastically removes available modalities during training, encouraging the model to exploit complementary information under partial data availability. We evaluate our approach on the MIMIC-CXR dataset paired with structured clinical data from MIMIC-IV for multilabel classification of 14 diagnostic findings with incomplete annotations. Two parallel systematic stress-test protocols progressively increase training and inference missingness in each modality separately, spanning fully multimodal to fully unimodal scenarios. Across all missingness regimes, the proposed method consistently outperforms representative baselines, showing smoother performance degradation and improved robustness. Ablation studies further demonstrate that attention-level masking and intermediate fusion with joint fine-tuning are key to resilient multimodal inference.

URL PDF HTML ☆

赞 0 踩 0

2605.12028 2026-05-13 cs.CL cs.IR

Caraman at SemEval-2026 Task 8: Three-Stage Multi-Turn Retrieval with Query Rewriting, Hybrid Search, and Cross-Encoder Reranking

David-Maximilian Caraman, Gheorghe Cosmin Silaghi

发表机构 * Babeş-Bolyai University（巴贝什-波雅伊大学）

AI总结本文介绍了参与SemEval-2026任务8（MTRAGEval）的系统，针对多轮检索任务提出了一个三阶段方法，包括基于LoRA微调的查询重写、BM25与稠密检索的混合搜索以及交叉编码器重排序。该方法在四个英文领域中取得了nDCG@5为0.531的成绩，排名第八，显著优于基准系统。研究还发现，针对不同领域调整生成查询的温度参数能够有效提升性能，而其他复杂策略则可能带来性能下降。

Comments Accepted at SemEval2026, task 8: MTRAGEval

2605.12027 2026-05-13 cs.CV

4DVGGT-D: 4D Visual Geometry Transformer with Improved Dynamic Depth Estimation

Ying Zang, Xuanyi Liu, Yidong Han, Deyi Ji, Chaotao Ding, Yuanqi Hu, Qi Zhu, Xuanfu Li, Jin Ma, Lingyun Sun, Tianrun Chen, Lanyun Zhu

发表机构 * Peking University（北京大学）； Zhejiang University（浙江大学）； Huzhou University（湖州大学）； Huawei（华为）； Tongji University（同济大学）

AI总结该论文提出了一种名为4DVGGT-D的4D视觉几何变换器，旨在解决从单目视频中重建动态4D场景时的挑战。研究核心在于通过一种无需训练的渐进式解耦框架，将动态与静态要素分离，从而提升深度估计的稳定性与准确性。方法包含动态掩码引导的位姿解耦、拓扑子空间手术以及信息论置信度融合三个关键模块，有效提升了4D重建的质量与鲁棒性。

2605.12025 2026-05-13 cs.LG stat.ML

Approximation Theory of Laplacian-Based Neural Operators for Reaction-Diffusion System

Takashi Furuya, Ryo Ozawa, Jenn-Nan Wang

发表机构 * Doshisha University, RIKEN AIP（大阪大学、RIKEN AIP）； Tohoku University（东北大学）； National Taiwan University（国立台湾大学）

AI总结本文研究了基于拉普拉斯算子的神经算子在非线性反应-扩散系统中的逼近理论，以通用的Gierer-Meinhardt模型为例，分析了从初始条件到时间依赖解的映射学习问题。通过利用PDE格林函数的拉普拉斯谱表示，作者建立了神经网络深度、宽度和谱秩相关的显式逼近误差界，证明了所需参数复杂度随目标精度呈多项式增长，从而克服了传统算子学习中面临的参数复杂度指数增长问题。数值实验验证了理论结果的有效性。

2605.12022 2026-05-13 cs.CL

SAGE: Scalable Automated Robustness Augmentation for LLM Knowledge Evaluation

Xiaoyuan Li, Yuzhe Wang, Moxin Li, Keqin Bao, Rui Men, Yichang Zhang, Dayiheng Liu, Wenjie Wang, Fuli Feng

发表机构 * University of Science and Technology of China（中国科学技术大学）； Alibaba Group（阿里巴巴集团）； National University of Singapore（新加坡国立大学）

AI总结该研究提出了一种可扩展的自动鲁棒性增强框架SAGE，用于提升大语言模型知识评估基准的鲁棒性。SAGE通过微调小型模型实现高效的问题变体生成与验证，其中VariantGen负责生成变体，VariantQual基于人工标注数据训练用于验证质量。实验表明，SAGE能够在远低于人工成本的情况下构建大规模鲁棒性增强基准，并且微调模型还能泛化到其他任务如MMLU，无需针对具体基准进行微调。

Comments Under Review

2605.12021 2026-05-13 cs.CV

What-Where Transformer: A Slot-Centric Visual Backbone for Concurrent Representation and Localization

Ryota Yoshihashi, Masahiro Kada, Satoshi Ikehata, Rei Kawakami, Ikuro Sato

发表机构 * Institute of Science Tokyo（东京科学研究所）； DENSO IT Laboratory（DENSO IT实验室）； National Institute of Informatics（国家信息研究所）

AI总结本文提出了一种名为What-Where Transformer（WWT）的视觉骨干网络，旨在同时学习物体的外观（what）和位置（where）信息。该方法通过分离“what-where”这一归纳偏置，采用多流架构将物体表示与注意力图分别处理，从而实现对物体外观和空间位置的解耦表征。实验表明，WWT在无额外后处理的情况下即可从原始注意力图中发现多个物体，并在零样本目标发现和弱监督语义分割等任务中表现出优越性能。

2605.12019 2026-05-13 cs.LG cs.AI

Efficient and Adaptive Human Activity Recognition via LLM Backbones

Aleksandr Bredikhin, Philippe Lalanda, German Vega

发表机构 * Univ. Grenoble Alpes, France（格勒诺布尔阿尔卑斯大学，法国）

AI总结本文提出了一种基于大语言模型（LLM）的高效且自适应的人类活动识别（HAR）方法，旨在解决传统方法在计算资源消耗和领域适应性方面的不足。通过将预训练的LLM作为通用时间特征提取器，并引入结构化卷积投影将传感器信号映射到LLM的隐空间，该方法大幅降低了参数量和训练成本，同时提升了模型的泛化能力。实验表明，该方法在低数据和少样本场景下表现出色，为HAR系统提供了可扩展且高效的解决方案。

2605.12017 2026-05-13 cs.CV

FAME: Feature Activation Map Explanation on Image Classification and Face Recognition

Xinyi Zhang, Manuel Günther

发表机构 * Department of Informatics, University of Zurich（苏黎世大学信息学院）

AI总结本文提出了一种名为FAME的图像分类与人脸识别任务的特征激活图解释方法，旨在提升深度学习模型的可解释性。FAME结合了基于梯度的特征图方法与扰动方法的优点，通过梯度驱动的方式对输入图像进行操作，而非使用固定补丁，从而更准确地生成像素级的归因图。实验表明，FAME在深度网络中优于传统CAM方法，并在定性和定量评估中展现出竞争力。

Comments Accepted for CVPR Workshop 2026

2605.12016 2026-05-13 cs.AI

LLMs and the ZPD

Peter Wallis

发表机构 * Centre for Policy Modelling（政策建模中心）

AI总结本文探讨了大语言模型（LLMs）与维果茨基“最近发展区”（ZPD）理论之间的关系，提出LLMs并非通过分布式表征进行“思考”，而是在执行一种基于实践的“原始思维”。研究认为，LLMs的行为更类似于“做梦”而非幻觉，强调互动在人类沟通中的核心地位，而非仅仅是理解的辅助手段，为理解LLMs的认知机制提供了新的视角。

Comments Short paper submitted to Interspeech 2026 (Desk Reject) 4 pages, plus references. 2 figures

2605.12013 2026-05-13 cs.CV cs.AI

L2P: Unlocking Latent Potential for Pixel Generation

Zhennan Chen, Junwei Zhu, Xu Chen, Jiangning Zhang, Jiawei Chen, Zhuoqi Zeng, Wei Zhang, Chengjie Wang, Jian Yang, Ying Tai

发表机构 * Nanjing University（南京大学）； Tencent Youtu Lab（腾讯云图实验室）； Hainan-biuh（海南-比乌）； Weess Gmbh（韦斯公司）

AI总结本文提出了一种名为L2P的高效像素生成框架，旨在解决从头训练高精度像素空间模型所需的高昂计算和数据资源问题。L2P通过直接利用预训练潜在扩散模型（LDM）的知识，采用大块标记化替代VAE，并冻结LDM中间层仅训练浅层网络，从而学习潜在空间到像素空间的映射。该方法仅使用LDM生成的合成图像作为训练数据，无需真实数据采集，实现了快速收敛，并可在8块GPU上生成4K超高分辨率图像，实验表明其性能接近源模型，在多个基准测试中表现优异。

Comments project page: https://nju-pcalab.github.io/projects/L2P/

2605.12010 2026-05-13 cs.LG

Limits of Learning Linear Dynamics from Experiments

Aybüke Ulusarslan, Niki Kilbertus, Nora Schneider

发表机构 * Technical University of Munich（慕尼黑技术大学）； Helmholtz Munich（亥姆霍兹慕尼黑）； Munich Center for Machine Learning (MCML)（慕尼黑机器学习中心（MCML））

AI总结本文研究了从实验数据中学习线性动力系统时的可识别性限制问题。作者指出，传统方法通常假设系统可识别，但当这一假设不成立时，模型预测可能不准确。通过几何分析，论文揭示了实验设置（初始状态和控制输入）决定了可从观测轨迹中恢复的信息上限，并推导出与该实验设置一致的所有系统的闭式描述，证明即使整个系统不可识别，实验可达子空间上的动力学仍可唯一确定。

2605.12009 2026-05-13 cs.LG

Estimating Subgraph Importance with Structural Prior Domain Knowledge

Changhyun Kim, Seunghwan An, Jong-June Jeon

发表机构 * University of Seoul（首尔大学）； Incheon National University（仁川国立大学）

AI总结本文提出了一种用于预训练图神经网络（GNN）图级任务的子图重要性估计方法，将其建模为嵌入空间中的线性组Lasso回归问题。该方法有效利用了图子结构的先验领域知识，且不受GNN输出层或读出函数形式的限制，无需真实目标标签即可进行估计。实验表明，该方法在多个现实图数据集上优于现有基线，并进一步扩展用于识别图中的重要节点。

2605.12006 2026-05-13 cs.CV

Robust Promptable Video Object Segmentation

Sohyun Lee, Yeho Gwon, Lukas Hoyer, Konrad Schindler, Christos Sakaridis, Suha Kwak

发表机构 * POSTECH ； Google（谷歌）； ETH Zürich（苏黎世联邦理工学院）

AI总结本文研究了可提示视频对象分割（PVOS）模型在输入受到干扰时性能下降的问题，提出了首个全面的鲁棒PVOS（RobustPVOS）研究。作者构建了一个包含351个视频片段和2500多张物体掩膜的综合性基准，涵盖真实场景下的多种不利条件，并生成了带有多样化时间变化干扰的合成训练数据。提出了一种新的鲁棒PVOS方法MoGA，通过记忆中的物体特异性表示来增强模型对不同物体退化的处理能力，并保持预测的时序一致性，实验表明该方法在多种干扰条件下均取得显著提升，为未来鲁棒PVOS研究提供了有力基础。

Comments Accepted to CVPR 2026

2605.12004 2026-05-13 cs.CL

Learning Agentic Policy from Action Guidance

Yuxiang Ji, Zengbin Wang, Yong Wang, Shidong Yang, Ziyu Ma, Guanhua Chen, Zonghua Sun, Liaoni Wu, Xiangxiang Chu

发表机构 * Xiamen University（厦门大学）； AMAP, Alibaba Group（阿里云实验室，阿里巴巴集团）； Southern University of Science and Technology（南方科技大学）

AI总结该研究针对大语言模型在智能体强化学习中的探索能力不足问题，提出了一种基于行动指导的强化学习方法ActGuide-RL。该方法利用日常交互中产生的丰富行动数据作为计划式参考指导，帮助智能体克服奖励状态的可达性障碍，并通过混合策略训练将引导策略的探索收益反馈到未引导策略中。实验表明，该方法在搜索智能体基准测试中显著优于零样本强化学习，并可与监督微调加强化学习的方法相媲美，为智能体强化学习提供了一种减少对大量监督数据依赖的新范式。

Comments Work in progress

2605.12002 2026-05-13 cs.CV

EDGER: EDge-Guided with HEatmap Refinement for Generalizable Image Forgery Localization

Minh-Khoa Le-Phan, Minh-Hoang Le, Minh-Triet Tran, Trong-Le Do

发表机构 * University of Science - VNU-HCM（越南国家大学-胡志明市大学）； Vietnam National University（越南国家大学）

AI总结本文提出了一种名为EDGER的图像伪造定位方法，旨在应对文本引导的图像修复技术带来的挑战，提升跨域检测能力。该方法采用双分支框架，结合基于频率的边缘检测与合成热图定位，分别在像素级和块级定位伪造区域，从而实现高精度、高分辨率的通用化检测。实验表明，EDGER在多个基准数据集上表现出优异的跨域泛化能力和对高分辨率图像的适应性。

Comments Accepted for publication in the Proceedings of the 14th International Symposium on Information and Communication Technology (SOICT 2025)

2605.11996 2026-05-13 cs.AI

BadSKP: Backdoor Attacks on Knowledge Graph-Enhanced LLMs with Soft Prompts

Xiaoting Lyu, Yufei Han, Hangwei Qian, Haoyuan Yu, Xiang Ao, Bin Wang, Chenxu Wang, Xiaobo Ma, Wei Wang

发表机构 * Ministry of Education Key Lab for Intelligent Networks and Network Security（教育部长智能网络与网络安全重点实验室）； Xi’an Jiaotong University（西安交通大学）； INRIA（法国国家信息与自动化技术研究院）； CFAR, A*STAR（新加坡A*STAR机构）； Beijing Key Laboratory of Security and Privacy in Intelligent Transportation（北京智能交通安全与隐私重点实验室）； Beijing Jiaotong University（北京交通大学）； Institute of Computing Technology, Chinese Academy of Sciences（中国科学院计算技术研究所）； School of Cyber Engineering, Xi’an University of Electronic Science and Technology（西安电子科技大学网络安全工程学院）； Ministry of Education Key Lab for Intelligent Networks and Network Security at Xi’an Jiaotong University（西安交通大学教育部长智能网络与网络安全重点实验室）

AI总结本文研究了针对知识图谱增强大语言模型（KG-LLMs）的后门攻击问题，特别是针对通过图神经网络将知识图谱编码为软提示的新型架构。该架构引入了图条件通道，使得现有针对文本通道的后门攻击效果大打折扣。为此，作者提出BadSKP攻击方法，通过多阶段优化策略操纵图表示，诱导软提示生成对抗性语义，实验表明该方法在多种设置下均能有效攻击目标模型，而传统仅针对文本的攻击则效果有限。

2605.11993 2026-05-13 cs.CL

Towards Visually-Guided Movie Subtitle Translation for Indic Languages

Tarun Chintada, Kshetrimayum Boynao Singh, Asif Ekbal

发表机构 * Department of Computer Science and Engineering（计算机科学与工程系）； Indian Institute of Technology Patna（印度理工学院帕纳布分校）

AI总结该研究探讨了面向印地语等低资源语言的电影字幕翻译问题，指出仅依赖文本的系统往往无法捕捉到视觉信息中蕴含的情感、动作和社会语境。研究比较了两种轻量级的视觉引导策略，发现通过选择性地增强低质量字幕片段，可以有效提升翻译质量，同时大幅减少视觉处理需求。实验表明，基于粗粒度属性的视觉上下文摘要方法在捕捉场景情感和细微语境方面更具鲁棒性。

2605.11987 2026-05-13 cs.AI cs.LG stat.AP stat.ML

Random-Set Graph Neural Networks

Tommy Woodley, Shireen Kudukkil Manchingal, Matteo Tolloso, Davide Bacciu, Fabio Cuzzolin

发表机构 * School of Engineering, Computing and Mathematics（工程、计算与数学学院）； Oxford Brookes University（奥克斯福德布鲁克斯大学）； Department of Computer Science（计算机科学系）； University of Pisa（比萨大学）； Oxford Brookes Institute for Artificial Intelligence, Data Analysis and Systems (AIDAS)（奥克斯福德布鲁克斯人工智能、数据分析与系统研究所（AIDAS））

AI总结本文提出了一种新的图神经网络框架——随机集图神经网络（RS-GNN），用于更准确地量化节点层面的不确定性。该方法通过信念函数形式对节点的认识不确定性进行建模，能够同时输出精确的概率预测和不确定性度量。实验表明，RS-GNN在多个真实世界的图学习数据集上表现出优越的不确定性量化能力。

Comments 23 pages, 6 figures

2605.11986 2026-05-13 cs.AI

On the Limitations of Large Language Models for Conceptual Database Modeling

Arthur F. Siqueira, Carlos D. S. Nogueira, Eduarda Farias, Claudio E. C. Campelo, Júlia Menezes

发表机构 * Systems and Computing Department（系统与计算系）

AI总结本文分析了大语言模型（LLMs）在支持关系数据库概念建模中的应用，特别是通过从自然语言需求中自动生成实体-关系（ER）图的能力。研究结合不同的语言模型和提示工程方法，评估其在概念上一致地识别实体、关系和属性的能力。实验结果表明，尽管LLMs在简单场景中表现尚可，但随着需求复杂性的增加，其可靠性下降，出现了更多不一致、模糊和约束表示失败的问题，表明当前LLMs在复杂场景中尚不成熟，验证成本可能抵消其表面的效率提升。

2605.11983 2026-05-13 cs.LG stat.ML

QDSB: Quantized Diffusion Schrödinger Bridges

Tobias Fuchs, Florian Kalinke, Nadja Klein

发表机构 * Karlsruhe Institute of Technology（卡尔斯鲁厄理工学院）

AI总结在源分布和目标分布仅通过未配对样本指定的情况下，生成模型的学习变得越来越重要。本文提出了一种名为QDSB的量化扩散Schrödinger桥方法，用于加速无模拟Schrödinger桥的训练过程。该方法通过在锚点量化后的分布上计算端点耦合，并通过单元采样将结果映射回原始数据点，从而减少计算成本并保持全局传输结构的稳定性。实验表明，QDSB在保持样本质量的同时显著提升了训练效率。

2605.11978 2026-05-13 cs.CL

On Predicting the Post-training Potential of Pre-trained LLMs

Xiaoyuan Li, Yubo Ma, Kexin Yang, Moxin Li, Keqin Bao, Wenie Wang, Fuli Feng, Dayiheng Liu

发表机构 * University of Science and Technology of China（中国科学技术大学）； Alibaba Group（阿里巴巴集团）； National University of Singapore（新加坡国立大学）

AI总结本文研究如何在预训练阶段预测大型语言模型在后续微调后的性能，以提高模型选择效率。作者提出了一种基于评分标准的判别评估框架RuDE，通过构建细粒度对比样本来评估模型的可塑性，并引入4C分类体系指导实验设计。实验表明，RuDE能以超过90%的相关性预测模型微调后的表现，并通过强化学习验证其有效性，为高效开发基础模型提供了新方法。

Comments Under Review

2605.11977 2026-05-13 cs.CV

Optimizing 4D Wires for Sparse 3D Abstraction

Dong-Yi Wu, Tong-Yee Lee

发表机构 * National Cheng Kung University（国立成功大学）

AI总结本文提出了一种基于单一连续4D曲线（B样条）的3D几何抽象统一框架，通过参数化空间坐标和变量宽度来表示复杂形状。与传统方法中使用多个独立曲线段导致结构碎片化不同，该方法通过保证全局拓扑一致性，实现了更整洁美观且结构连贯的3D抽象。研究引入了可微渲染管道，支持基于梯度的优化，并在图像到3D抽象、多视角线稿生成等任务中表现出更高的语义保真度和结构一致性。

2605.11974 2026-05-13 cs.LG

Towards Order Fairness: Mitigating LLMs Order Sensitivity through Dual Group Advantage Optimization

Xu Chu, Guanyu Wang, Zhijie Tan, Xinrong Chen, Ziyu Li, Tong Mo, Weiping Li

发表机构 * School of Software and Microelectronics, Peking University（软件与微电子学院，北京大学）

AI总结大型语言模型（LLMs）在处理输入元素顺序时存在偏差，影响其在上下文学习和检索增强生成等场景中的应用。为解决这一问题，本文提出了一种基于强化学习的双重群体优势优化方法（DGAO），通过平衡组内准确率优势和组间稳定性优势，同时提升模型的准确性和顺序稳定性。DGAO还引入了两个新指标——一致性率和过度自信率，用于更全面地评估模型性能，实验表明该方法在保持模型性能的同时显著提升了顺序公平性。

2605.11972 2026-05-13 cs.RO cs.AI cs.ET cs.SY eess.SY

Cooperative Robotics Reinforced by Collective Perception for Traffic Moderation

Mohammad Khoshkdahan, John Pravin Arockiasamy, Andy Flores Comeca, Alexey Vinel

发表机构 * Karlsruhe Institute of Technology, Karlsruhe, Germany（卡尔斯鲁厄理工学院，德国卡尔斯鲁厄）； Halmstad University, Halmstad, Sweden（哈马格大学，瑞典哈马格）

AI总结该研究针对非视线交叉路口的碰撞问题，提出了一种结合集体感知与协作机器人的交通调控系统。系统通过双摄像头和V2X技术融合感知信息，实时监测道路环境，并由协作机器人在检测到潜在碰撞风险时发出停止手势，阻止车辆违规合并。实验表明，该方法能有效提升非视线条件下的交通安全，填补了现有V2X技术在未连接车辆中的感知与干预空白。

Comments Accepted for publication in the Proceedings of the 2026 IEEE Vehicular Technology Conference (VTC2026-Spring)

2605.11967 2026-05-13 cs.CV

H2G: Hierarchy-Aware Hyperbolic Grouping for 3D Scenes

ByungHa Ko, Youngmin Lee, Dong Hwan Kim

发表机构 * Department of Computer Science and Engineering, Korea University（韩国大学计算机科学与工程系）； Intelligence and Interaction Research Center, Korea Institute of Science and Technology（韩国科学技术院智能与交互研究中心）

AI总结本文提出了一种名为H2G的层次感知双曲分组方法，用于在无需语义标签的情况下对3D场景进行多粒度分组。该方法通过将2D基础模型的相似性线索转化为层次化监督，并将其嵌入到双曲特征场中，以更好地建模树状结构。H2G通过一种层次感知的目标函数，实现了对细粒度部件、物体结构及层次顺序的统一建模，从而在单一特征空间中完成多层级的语义分组。

AI 大模型

视觉与机器人

科学与医疗

Learning plug-in surrogate endpoints for randomized experiments

Scaling Laws and Tradeoffs in Recurrent Networks of Expressive Neurons

Is Child-Directed Language Optimized for Word Learning? A Computational Study of Verb Meaning Acquisition

SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs

OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation

Resilient Vision-Tabular Multimodal Learning under Modality Missingness

Caraman at SemEval-2026 Task 8: Three-Stage Multi-Turn Retrieval with Query Rewriting, Hybrid Search, and Cross-Encoder Reranking

4DVGGT-D: 4D Visual Geometry Transformer with Improved Dynamic Depth Estimation

Approximation Theory of Laplacian-Based Neural Operators for Reaction-Diffusion System

SAGE: Scalable Automated Robustness Augmentation for LLM Knowledge Evaluation

What-Where Transformer: A Slot-Centric Visual Backbone for Concurrent Representation and Localization

Efficient and Adaptive Human Activity Recognition via LLM Backbones

FAME: Feature Activation Map Explanation on Image Classification and Face Recognition

LLMs and the ZPD

L2P: Unlocking Latent Potential for Pixel Generation

Limits of Learning Linear Dynamics from Experiments

Estimating Subgraph Importance with Structural Prior Domain Knowledge

Robust Promptable Video Object Segmentation

Learning Agentic Policy from Action Guidance

EDGER: EDge-Guided with HEatmap Refinement for Generalizable Image Forgery Localization

BadSKP: Backdoor Attacks on Knowledge Graph-Enhanced LLMs with Soft Prompts

Towards Visually-Guided Movie Subtitle Translation for Indic Languages

Random-Set Graph Neural Networks

On the Limitations of Large Language Models for Conceptual Database Modeling

QDSB: Quantized Diffusion Schrödinger Bridges

On Predicting the Post-training Potential of Pre-trained LLMs

Optimizing 4D Wires for Sparse 3D Abstraction

Towards Order Fairness: Mitigating LLMs Order Sensitivity through Dual Group Advantage Optimization

Cooperative Robotics Reinforced by Collective Perception for Traffic Moderation

H2G: Hierarchy-Aware Hyperbolic Grouping for 3D Scenes