arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.13428 2026-05-14 cs.RO

SID: Sliding into Distribution for Robust Few-Demonstration Manipulation

Yicheng Ma, Wei Yu, Zhian Su, Xidan Zhang, Huixu Dong

发表机构 * Grasp Lab, Zhejiang University（浙江大学抓取实验室）； Torch Kernel Co., Ltd.（火炬内核有限公司）

AI总结本文提出了一种名为SID的框架，用于在仅有少量演示的情况下实现鲁棒的机器人操作。SID通过学习物体中心的运动场，逐步引导系统接近演示的流形，并进入轻量化的自中心执行策略的可靠操作区域，从而减少分布外执行的问题。该方法在多个现实任务中表现出色，仅需两次演示即可在分布外初始条件下实现约90%的成功率，为少样本操作提供了一种新的范式。

Comments 20 pages, 14 figures. Project website: https://sliding-into-distribution.github.io/

2605.13424 2026-05-14 cs.LG cs.CL

LIFT: Last-Mile Fine-Tuning for Table Explicitation

Divij Khaitan, Ashish Tiwari

发表机构 * Microsoft Corporation（微软公司）

AI总结本文提出了一种名为LIFT（Last-Mile Fine-Tuning）的新型微调方法，用于从非结构化的剪贴板文本中提取表格并修正错误。该方法结合了预训练的大语言模型和微调的小语言模型（参数规模为1B-24B），在保证准确性的前提下显著提升了对输入格式变化的鲁棒性，并在仅有1000个训练样本的情况下，其性能优于端到端微调方法。研究显示，LIFT在表格提取任务中具有更高的效率和更强的适应性。

Comments 9 pages, 1 figure, 3 tables

2605.13418 2026-05-14 cs.LG

DP-KFC: Data-Free Preconditioning for Privacy-Preserving Deep Learning

Marc Molina Van den Bosch, Riccardo Taiello, Albert Sund Aillet, Andrea Protani, Miguel Angel Gonzalez Ballester, Luigi Serio

发表机构 * CERN（欧洲核子研究中心）； Universitat Pompeu Fabra（庞培法布拉大学）

AI总结本文提出了一种名为DP-KFC的数据无关预处理方法，用于在隐私保护深度学习中提升优化效果。该方法通过结构化合成噪声探测网络，无需使用私有或公共数据即可估计曲率信息，解决了差分隐私优化中损失函数各向异性与噪声各向同性之间的几何不匹配问题。实验表明，DP-KFC在强隐私保护条件下显著优于传统DP-SGD及其他自适应方法，且在医疗等数据稀缺的领域展现出良好的应用潜力。

Comments Accepted at the International Conference on Machine Learning (ICML 2026). 9 pages main text + appendix, 5 figures, 2 tables. Code: https://github.com/molinamarcvdb/DP-KFC

2605.13414 2026-05-14 cs.AI

TRIAGE: Evaluating Prospective Metacognitive Control in LLMs under Resource Constraints

Zabir Al Nazi, Shubhashis Roy Dipta

发表机构 * University of California, Riverside, USA（加州大学河滨分校）； University of Maryland, Baltimore County, USA（马里兰大学巴尔的摩县分校）

AI总结本文提出TRIAGE评估框架，用于评估大语言模型在资源受限情况下对未来任务进行选择、排序和计算分配的前瞻性元认知控制能力。该框架通过给模型提供任务池和预设的token预算，要求其制定一个包含任务选择、顺序和资源分配的统一计划，并基于模型在各任务上的解题能力和成本进行评估，从而计算出其分诊效率比。实验表明，当前主流语言模型在该能力上存在显著不足，揭示了其在资源高效部署方面尚未被充分测量的关键能力维度。

2605.13412 2026-05-14 cs.CL cs.AI

LLMs as annotators of credibility assessment in Danish asylum decisions: evaluating classification performance and errors beyond aggregated metrics

Galadrielle Humblot-Renaux, Mohammad N. S. Jahromi, Rohat Bakuri-Jørgensen, Marieke Anne Heyl, Asta S. Stage Jarlner, Maria Vlachou, Anna Murphy Høgenhaug, Desmond Elliott, Thomas Gammeltoft-Hansen, Thomas B. Moeslund

发表机构 * Visual Analysis and Perception Lab（视觉分析与感知实验室）； Pioneer Center for AI（先锋人工智能中心）； Center of Excellence for Global Mobility Law（全球移动法律卓越中心）； Department of Computer Science（计算机科学系）

AI总结该研究探讨了使用现成的大语言模型（LLMs）对丹麦难民申请决定文本中的可信度评估进行自动标注的性能与误差。研究引入了一个名为RAB-Cred的高质量丹麦语法律文本分类数据集，并系统评估了多种模型和提示组合在零样本和少样本设置下的表现。研究揭示了顶级模型在标注中的不一致性与错误模式，强调了单一模型预测的局限性，并指出在法律等专业领域中，LLMs作为标注工具仍存在不足，需结合人类判断与更细致的评估方法。

Comments Accepted at the 20th Linguistic Annotation Workshop (LAW XX), co-located with ACL 2026 (https://sigann.github.io/LAW-XX-2026/)

2605.13408 2026-05-14 cs.CL

From Rosetta to Match-Up: A Paired Corpus of Linguistic Puzzles with Human and LLM Benchmarks

Neh Majmudar, Anne Huang, Jinfan Frank Hu, Elena Filatova

发表机构 * City University of New York (CUNY)（纽约城市大学）； Davidson Academy（戴维森学院）； Phillips Academy（菲利普斯学术院）

AI总结本文研究了高中语言学竞赛中常用的两种语言谜题形式——“罗塞塔石碑”和“匹配对”（Match-Up），提出了一种将前者系统性地转换为后者的高效方法，从而加速新谜题的生成。通过让人类专家和大型语言模型（LLMs）对转换后的谜题对进行测试，研究发现两者在解决Match-Up谜题时均表现出“全或无”的模式，即要么完全解决，要么完全无法解决。该工作构建了一个包含配对谜题的新数据集，并深入分析了不同格式下谜题难度的差异，为理解人类与机器的语言推理能力提供了新视角。

Comments Proceedings of the Fifteenth Language Resources and Evaluation Conference

2605.13407 2026-05-14 cs.LG cs.CE q-fin.ST

Vector-Quantized Discrete Latent Factors Meet Financial Priors: Dynamic Cross-Sectional Stock Ranking Prediction for Portfolio Construction

Namhyoung Kim, Jae Wook Song

发表机构 * RiskX ； Hanyang University（翰阳大学）

AI总结本文提出了一种名为PRISM-VQ的动态因子框架，用于解决跨截面股票收益预测中的低信噪比和市场制度变化带来的挑战。该方法结合了专家先验因子、通过跨截面结构学习得到的向量量化离散潜在因子，以及结构条件的专家混合网络，以生成时变因子载荷。实验表明，该方法在沪深300和标普500数据集上显著提升了收益预测和投资组合表现，同时保持了模型的可解释性。

Comments IJCAI 2026 Accepted Paper including Technical Appendix

2605.13405 2026-05-14 cs.LG

When is Warmstarting Effective for Scaling Language Models?

Neeratyoy Mallik, Maciej Janowski, Johannes Hog, Herilalaina Rakotoarison, Josif Grabocka, Frank Hutter, Aaron Klein

发表机构 * University of Freiburg（弗赖堡大学）； Zuse School ELIZA（Zuse学校ELIZA）； University of Technology Nuremberg（努尔登堡技术大学）； University of Helsinki（赫尔辛基大学）； Prior Labs（Prior实验室）； ELLIS Institute Tübingen（图宾根ELLIS研究所）

AI总结本文研究了在扩展语言模型规模时，预热训练（warmstarting）的有效性。作者指出，尽管预热训练有助于节省资源，但在实际大模型训练中应用较少，主要受限于对模型性能保持和扩展策略的分析不足。研究发现，保持基础模型初始性能并非必要，简单且通用的扩展策略往往更有效，并确定了扩展因子的上限，超过该上限时从头训练更高效。实验表明，2倍扩展因子在多数情况下能提供最佳收敛速度提升，研究结果为模型扩展提供了实用指导和经验界限。

2605.13404 2026-05-14 cs.SD

Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-to-Audio Drum Rendering

Konstantinos Soiledis, Maximos Kaliakatsos Papakostas, Dimos Makris, Konstantinos Tsamis

发表机构 * Dept. of Music Technology and Acoustics, Hellenic Mediterranean University（音乐技术与声学系，希腊地中海大学）； Athena RC（雅典研究中心）

AI总结该研究提出了一种名为Sec2Drum-DAC的条件潜扩散模型，用于从符号控制信息生成鼓声音频。该模型通过在物理时间点采样事件特征，并预测冻结DAC编码本嵌入的主成分坐标，而非直接生成波形样本，从而在保持节奏和力度信息的同时生成逼真的音频。实验表明，该方法在多个评估指标上优于确定性PCA回归和符号渲染基线，尤其在音谱和瞬态特性方面表现突出。

2605.13403 2026-05-14 cs.RO cs.CV

RotVLA: Rotational Latent Action for Vision-Language-Action Model

Qiwei Li, Xicheng Gong, Xinghang Li, Peiyan Li, Quanyun Zhou, Hangjun Ye, Jiahuan Zhou, Yadong Mu

发表机构 * Wangxuan Institute of Computer Technology, Peking University（王轩计算机技术研究所，北京大学）； Xiaomi Robotics（小米机器人）； CASIA

AI总结本文提出RotVLA，一种基于连续旋转潜行动作表示的视觉-语言-动作（VLA）框架，旨在解决现有潜行动作模型在动作表示离散化带来的重建行为简单、表达能力有限等问题。RotVLA将潜动作建模为SO(n)空间中的元素，具有连续性、组合性和符合现实动作动态的结构化几何特性，并通过三帧学习框架强化时间动态特性。实验表明，RotVLA在多个基准测试中表现出色，显著优于现有VLA模型。

2605.13401 2026-05-14 cs.LG cs.RO stat.ML

Trajectory-Level Data Augmentation for Offline Reinforcement Learning

Tobias Schmähling, Matthias Burkhardt, Tobias Windisch

发表机构 * University of Applied Sciences Kempten（凯普滕应用科学大学）

AI总结本文提出了一种用于离线强化学习的轨迹级数据增强方法，旨在解决主动定位等任务中从少量次优轨迹中训练策略的问题。该方法利用任务结构以及奖励函数、价值函数与日志策略之间的几何关系，通过轨迹层面的增强技术提升数据质量，从而提高离线强化学习的性能。研究提供了理论依据，并在不同维度和部分可观测性条件下验证了方法的有效性。

Comments 26 pages, 25 figures, Accepted at ICML 2026

2605.13399 2026-05-14 cs.LG cs.IT math.IT

The Diffusion Encoder

Akhil Premkumar, Sarah Lucioni

发表机构 * Department of Physics（物理系）； University of California San Diego（加州大学圣地亚哥分校）； Independent Researcher（独立研究者）

AI总结本文提出了一种新型编码器，利用扩散模型的强大表达能力来替代传统变分自编码器中的编码器。为了解决扩散模型与解码器之间在潜在空间更新方向不一致的问题，作者设计了一种基于期望最大化算法思想的交替训练方案，从而实现了编码器与解码器的可靠同步，同时保持了扩散模型简单高效的训练目标。

Comments 22 pages + references, 10 figures

2605.13396 2026-05-14 cs.CV

PreFIQs: Face Image Quality Is What Survives Pruning

Jan Niklas Kolf, Guray Ozgur, Andrea Atzori, Žiga Babnik, Vitomir Štruc, Naser Damer, Fadi Boutros

发表机构 * Fraunhofer Institute for Computer Graphics Research IGD（弗劳恩霍夫计算机图形研究研究所IGD）； University of Ljubljana（卢布尔雅那大学）； Technical University of Darmstadt（达姆施塔特技术大学）

AI总结本文提出了一种无需训练和监督的面部图像质量评估框架 PreFIQs，基于“剪枝识别示例”（PIE）假设，通过分析预训练人脸识别模型及其剪枝版本之间嵌入向量的欧几里得距离来衡量图像质量。该方法从雅可比向量积的角度提供了理论支持，并在多个基准数据集上取得了优于现有方法的性能，验证了参数剪枝作为评估面部图像质量的有效信号。

Comments Accepted at CVPR 2026 Workshops

2605.13395 2026-05-14 cs.LG cs.CV

Taming the Long Tail: Rebalancing Adversarial Training via Adaptive Perturbation

Lilin Zhang, Yimo Guo, Yue Li, Jiancheng Shi, Xianggen Liu

发表机构 * Sichuan University（四川大学）； Dongfang Electric (Chengdu) Innovation Research Co., Ltd.（东方电子（成都）创新研究院有限公司）； Southwest China Research Institute of Electronic Equipment（西南中国电子设备研究院）

AI总结该论文研究了深度神经网络在长尾数据下的对抗训练问题，指出传统对抗训练方法在类别不平衡的数据上存在训练目标偏斜和对抗分布不稳定等局限。作者提出通过自适应调整对抗扰动来同时提升模型的鲁棒性和类别平衡能力，并设计了名为 RobustLT 的即插即用框架，实验表明该方法在多个长尾数据集上有效增强了模型的对抗鲁棒性与类别平衡性能。

Comments accepted by CVPR 2026

2605.13391 2026-05-14 cs.AI

RS-Claw: Progressive Active Tool Exploration via Hierarchical Skill Trees for Remote Sensing Agents

Liangtian Liu, Zeyuan Wang, Ziyu Li, Kai Ouyang, Zichao Tang, Chengfu Liu, Haifeng Li, Hanwen Yu, Wentao Yang, Cheng Yang, Dongyang Hou

发表机构 * School of Geosciences and Info-Physics, Central South University（地质科学与信息物理学院，中南大学）； School of Resources and Environment, University of Electronic Science and Technology of China（资源与环境学院，电子科技大学）； School of Earth Sciences and Spatial Information Engineering, Hunan University of Science and Technology（地球科学与空间信息工程学院，湖南科技大学）； Sanya Institute of Hunan University of Science and Technology（海南科技大学三亚研究院）

AI总结随着多模态大语言模型的发展，遥感智能正从“感知”转向“行动”，但现有遥感智能体在工具调用上仍采用被动选择方式，难以在复杂任务中动态平衡上下文负载与工具集完整性。为此，本文提出RS-Claw，一种基于分层技能树的主动探索架构，通过技能封装技术对工具进行分层描述，使智能体能够按需逐步加载工具信息，从而显著释放上下文空间并提高关键工具的命中率。实验表明，RS-Claw在Earth-Bench基准测试中表现出色，有效压缩了输入令牌并优于现有方法。

详情

英文摘要

The rise of multi-modal large language models (MLLMs) is shifting remote sensing (RS) intelligence from "see" to "action", as OpenClaw-style frameworks enable agents to autonomously operate massive RS image-processing tools for complex tasks. Existing RS agents adopt a passive selection paradigm for tool invocation, relying on either full tool registration (Flat) or retrieval-augmented generation (RAG). However, in the massive and multi-source heterogeneous RS tool ecosystem, such passive mechanisms struggle to dynamically balance "context load" and "toolset completeness" throughout task reasoning, thus exhibiting inherent limitations: full tool registration triggers context space deficits during long-horizon tasks, whereas RAG retrieval may omit critical tools in essential steps. To overcome these bottlenecks, this paper redefines tool selection by arguing that the agent should act as an active explorer within the tool space. Based on this perspective, we propose RS-Claw, a novel RS agent architecture. By leveraging Skill encapsulation technology at the tool end, this architecture hierarchically structures tool descriptions, enabling the agent to execute on-demand sequential decision-making: initially selecting relevant skill branches by reading only tool summaries, then dynamically loading detailed descriptions, and ultimately achieving precise invocation. This active paradigm not only significantly liberates the agent's context space but also effectively ensures the accurate hit rate of critical tools during long-horizon reasoning. Systematic experiments on the Earth-Bench benchmark demonstrate that RS-Claw's active exploration mechanism effectively filters semantic noise and substantially frees up reasoning space, achieving an input token compression ratio of up to 86%, and comprehensively outperforming existing Flat and RAG baselines across complex reasoning evaluations.

URL PDF HTML ☆

赞 0 踩 0

2605.13386 2026-05-14 cs.LG stat.ML

Support-Conditioned Flow Matching Is Kernel Smoothing

Daniel Matsui Smola

发表机构 * Department of Computer Science（计算机科学系）； University of Washington（华盛顿大学）

AI总结本文研究了基于交叉注意力的生成模型在有限支持集条件下的生成机制，揭示其速度场本质上是 Nadaraya-Watson 核平滑器，并随着生成过程时间推移，核带宽逐渐缩小，从早期的全局平均过渡到后期的最近邻行为。研究将交叉注意力机制与经典核方法联系起来，并指出了三种失效场景，实验验证了理论预测，并表明 IP-Adapter 的交叉注意力实现了近似核平滑效果。

Comments Submitted to NeurIPS 2026. 18 pages, 10 figures, 1 table. Code at https://github.com/BaroqueObama/kernel-flow-matching-code

2605.13384 2026-05-14 cs.LG

Teaching and Learning under Deductive Errors

Jan Arne Telle, Brigt Håvardstun, Jose Hernandez-Orallo

发表机构 * Department of Informatics University of Bergen（卑尔根大学信息学院）； University of Bergen（卑尔根大学）； VRAIN - Universitat Politecnica de Valencia（瓦伦西亚理工大学VRAIN实验室）； Universitat Politecnica de Valencia（瓦伦西亚理工大学）； Leverhulme Centre for the Future of Intelligence - University of Cambridge（剑桥大学未来智能中心）

AI总结本文研究了在学习者存在演绎错误的情况下，机器教学与学习的框架。传统模型假设学习者不会犯推理错误，但人类和少样本学习下的大语言模型往往会出现不一致或随机错误。为此，作者提出了一种新的教学框架，在改进的PAC模型下，分析了教师如何在一定误差估计下找到近似正确的教学集，并探讨了相关计算问题的复杂性，给出了参数化的算法及实验验证。

Comments 15 pages, preprint neurips

2605.13383 2026-05-14 cs.LG

Beyond Oversquashing: Understanding Signal Propagation in GNNs Via Observables

Eden Nagar, Ya-Wei Eileen Lin, Ron Levie

发表机构 * Technion - Israel Institute of Technology, Faculty of Mathematics（技术离子-以色列理工学院，数学系）； Technical University of Munich, School of Computation, Information and Technology（慕尼黑技术大学，计算、信息与技术学院）； Munich Center for Machine Learning（慕尼黑机器学习中心）

AI总结本文研究了图神经网络（GNNs）中信号传播的问题，指出传统方法在传播过程中容易导致信息丢失，表现为过度平滑和过度压缩现象。作者受量子力学启发，提出基于可观测量的新建模方法，用于刻画信号在图中的位置、集中程度及传播特性，并证明了标准谱图神经网络在信号传播能力上的不足。基于此，作者提出了一种新型谱图神经网络——Schrödinger GNN，能够更有效地在图中路由信号。

2605.13382 2026-05-14 cs.RO

BlockVLA: Accelerating Autoregressive VLA via Block Diffusion Finetuning

Ruiheng Wang, Shuanghao Bai, Haoran Zhang, Badong Chen, Xiangyu Xu

发表机构 * Xi'an Jiaotong University（西安交通大学）

AI总结本文提出了一种名为BlockVLA的新框架，旨在加速基于自回归（AR）的视觉-语言-动作（VLA）模型在机器人任务中的推理过程。通过引入块扩散范式，BlockVLA将预训练的AR模型转换为高效的离散扩散策略，在保持块级自回归依赖的同时实现块内并行去噪，从而兼顾全局因果一致性和局部并行生成。实验表明，BlockVLA在LIBERO和SimplerEnv基准测试中实现了比传统离散扩散模型3.3倍的推理加速，并在复杂长时序任务中表现出更优的训练效率和性能提升。

2605.13381 2026-05-14 cs.CV cs.MM

Backbone is All You Need: Assessing Vulnerabilities of Frozen Foundation Models in Synthetic Image Forensics

Chiara Musso, Joy Battocchio, Andrea Montibeller, Giulia Boato

发表机构 * University of Trento（特伦托大学）

AI总结随着AI生成图像日益逼真，视觉Transformer（ViT）已成为现代深度伪造检测的核心技术。然而，现有方法普遍依赖冻结的预训练主干网络，这引入了一个隐蔽但关键的漏洞。本文提出了一种基于目标检测器ViT主干网络知识的灰盒攻击方法——替代迭代对抗攻击（SIAA），能够在目标检测器的特征空间内生成高效对抗样本，实验表明该方法在多种场景下均能实现接近白盒攻击的高成功率，揭示了仅凭主干网络知识即可严重削弱检测器可靠性的问题，突显了在对抗性多媒体取证中亟需更鲁棒防御机制的重要性。

2605.13380 2026-05-14 cs.RO

Exploring Human-Robot Collaboration: Analysis of Interaction Modalities in Challenging Tasks

Simone Arreghini, Cristina Iani, Alessandro Giusti, Valeria Villani, Lorenzo Sabattini, Antonio Paolillo

发表机构 * Dalle Molle Institute for Artificial Intelligence (IDSIA), USI-SUPSI（达勒莫勒人工智能研究所（IDSIA））； Department of Surgery, Medicine, Dentistry and Morphological Sciences with interest in Transplant, Oncology and Regenerative Medicine, University of Modena and Reggio Emilia（外科、医学、牙科和形态学科学系（关注移植、肿瘤学和再生医学），摩德纳和雷吉奥艾米利亚大学）； Department of Sciences and Methods for Engineering (DISMI), University of Modena and Reggio Emilia（工程科学与方法系（DISMI），摩德纳和雷吉奥艾米利亚大学）

AI总结本文研究了人类与机器人协作中的三种交互模式——被动、反应式和主动式，并通过实验分析它们在完成复杂任务时的表现。实验中，参与者在记忆中搭建七层彩色塔的过程中，分别与不同模式的机器人协作。结果表明，尽管机器人协助增加了任务时间，但大多数参与者更倾向于协作，尤其偏好机器人主动提供帮助的模式。研究指出，在受控协作任务中，及时的主动支持能够提升用户体验。

2605.13375 2026-05-14 cs.CV cs.AI

GRIP-VLM: Group-Relative Importance Pruning for Efficient Vision-Language Models

Mingzhe Huang, Weijun Wang, Xin Ding, Liang Mi, Hao Wen, Yuanchun Li, Lichen Pang, Shansong Yang, Yunxin Liu, Ting Cao

发表机构 * Institute for AI Industry Research (AIR), Tsinghua University（人工智能产业研究院（AIR），清华大学）； Juhaokan Technology Co.,Ltd（极皓科技有限公司）； Nanjing University（南京大学）； University of Science and Technology of China（中国科学技术大学）

AI总结在视觉-语言模型（VLMs）中，处理大量视觉标记会导致高昂的计算开销。为解决这一问题，本文提出GRIP-VLM，一种基于强化学习的组相对重要性剪枝框架，将剪枝建模为马尔可夫决策过程，通过监督预热引导的组相对策略优化（GRPO）直接探索离散选择空间，从而避免连续近似方法带来的次优解问题。该方法结合预算感知评分器，无需重新训练即可动态评估并适应不同压缩比，实验表明其在多个多模态基准上优于启发式和监督学习基线，在保持精度的同时实现了最高达15%的推理加速。

Comments 10 pages, 11 figures

2605.13373 2026-05-14 cs.CL

Exploiting Pre-trained Encoder-Decoder Transformers for Sequence-to-Sequence Constituent Parsing

Daniel Fernández-González, Cristina Outeiriño Cid

发表机构 * Universidade de Vigo, Departamento de Informática（维戈大学计算机系）

AI总结本文研究如何利用预训练的编码器-解码器 Transformer 模型进行序列到序列的成分句法分析。作者扩展了现有的序列到序列框架，基于 BART、mBART 和 T5 等预训练编码器-解码器模型构建句法分析器，并通过线性化策略进行微调与评估。实验表明，该方法在连续树库和复杂离散基准测试中均优于以往的序列到序列模型，并能与最先进的任务专用句法分析器竞争。

Comments Preliminary version

2605.13370 2026-05-14 cs.LG cs.CL

Phasor Memory Networks: Stable Backpropagation Through Time for Scalable Explicit Memory

Sungwoo Goo, Hwi-yeol Yun, Sangkeun Jung

发表机构 * College of Pharmacy（药学院）； Chungnam National University（Chungnam国立大学）； Department of Computer Science & Engineering（计算机科学与工程系）

AI总结本文提出了一种名为“Phasor Memory Network（PMNet）”的新架构，旨在解决显式记忆模型在语言建模中因反向传播时梯度不稳定而导致的训练困难问题。该方法通过引入单位相位动力学和分层可学习锚点，结构化地稳定了记忆模块的更新过程，从而在无需特殊初始化的情况下保持梯度稳定性。实验表明，PMNet在合成复制粘贴任务中能够实现几乎100%的精确记忆检索，并在参数规模仅为Mamba模型三分之一的情况下，展现出相当的长上下文处理能力，为可扩展序列建模提供了理论支撑。

2605.13368 2026-05-14 cs.CL

What Does LLM Refinement Actually Improve? A Systematic Study on Document-Level Literary Translation

Shaomu Tan, Dawei Zhu, Ke Tran, Michael Denkowski, Sony Trenous, Bill Byrne, Leonardo Ribeiro, Felix Hieber

发表机构 * University of Amsterdam（阿姆斯特丹大学）； University of Cambridge（剑桥大学）； Amazon AGI（亚马逊人工智能研究院）

AI总结本文系统研究了迭代自修正策略在文学翻译中的实际效果，探讨了不同粒度和策略对翻译质量的影响。研究发现，先进行文档级机器翻译，再进行片段级修正能带来稳定且显著的提升，而文档级修正效果较弱且不可靠。实验还表明，通用的修正提示优于特定错误修正和评估后修正方法，且修正主要提升了流畅性、风格和术语，对内容准确性提升有限。这些发现揭示了当前修正方法的机制及其局限性。

2605.13366 2026-05-14 cs.CV cs.LG

Neural Surrogate Forward Modelling For Electrocardiology Without Explicit Intracellular Conductivity Tensor

Shaheim Ogbomo-Harmitt, Cesare Magnetti, Jakub Grzelak, Oleg Aslanidi

发表机构 * King’s College London（伦敦国王学院）； PhysicsX

AI总结该研究针对无创心脏电生理学中的正向建模问题，提出了一种无需显式输入细胞内导电张量的深度学习方法，用于直接从左心房细胞内电位预测远场心电图。该方法通过深度学习模型学习电位与心电图之间的映射关系，避免了传统物理模型中难以测量的导电张量带来的结构误差。实验表明，该模型在仅使用74个受试者数据训练的情况下，取得了较高的预测精度（R²为0.949 ± 0.037），展示了其在改善房颤无创评估中的潜力。

Comments Accepted into the 9th International Conference on Computational and Mathematical Biomedical Engineering (CMBE2026)

2605.13352 2026-05-14 cs.LG

GeoFlowVLM: Geometry-Aware Joint Uncertainty for Frozen Vision-Language Embedding

Mayank Nautiyal, Li Ju, Andreas Hellander, Ekta Vats, Prashant Singh

发表机构 * Department of Information Technology, Uppsala University（乌普萨拉大学信息科技系）； SciLifeLab, Uppsala University（乌普萨拉大学SciLifeLab）

AI总结 GeoFlowVLM 是一种后处理方法，旨在为冻结的视觉-语言嵌入模型引入几何感知的联合不确定性估计。该方法通过黎曼流匹配在超球面乘积空间上学习配对嵌入的联合分布，从而同时捕捉跨模态的模糊性（aleatoric uncertainty）和训练分布外的不确定性（epistemic uncertainty）。该模型能够生成条件检索熵和边际典型性分数，分别用于衡量模糊性和知识不确定性，并在多个检索和零样本分类任务中表现出良好的校准性能。

2605.13349 2026-05-14 cs.CV

Drag within Prior Distribution: Text-Conditioned Point-Based Image Editing within Distribution Constraints

Haoyang Hu, Masataka Seo, Yen-Wei Chen

发表机构 * Ritsumeikan University, Graduate School of Information（日光大学信息工程研究生院）； Engineering, Osaka Institute of Technology（工程学，大阪技术学院）

AI总结本文研究了在扩散模型框架下，如何在保持图像语义一致性和分布约束的前提下，实现基于文本条件的点编辑。为了解决传统点编辑方法中轨迹模糊、编辑范围过大导致的不自然伪影等问题，作者引入了基于CLIP的引导机制和先验保持损失函数，确保编辑过程在扩散先验分布范围内进行。同时，提出了一种方向加权的点追踪机制，提升了细粒度编辑的准确性和生成质量。

Comments ICASSP 2026 oral

2605.13346 2026-05-14 cs.LG

Contextual Bandits for Resource-Constrained Devices using Probabilistic Learning

Marco Angioli, Kevin Johansson, Antonello Rosato, Amy Loutfi, Denis Kleyko

发表机构 * Sapienza University of Rome（罗马大学）； Örebro University（奥雷布罗大学）； Örebro University Linköping University（奥雷布罗大学-林奈大学）； Örebro University Research Institutes of Sweden（瑞典奥雷布罗大学研究机构）

AI总结本文研究了在资源受限设备上高效部署上下文多臂老虎机算法的问题，提出了一种基于概率更新规则的高维上下文多臂老虎机方法（probabilistic HD-CB）。该方法通过随机更新部分向量分量并结合时间衰减更新概率，避免了传统高维方法中因累积操作导致的精度问题和溢出风险，同时降低了计算和存储开销。实验表明，该方法在相同精度下性能优于二值化高维方法，且在少量比特数下接近原高维方法的性能。

2605.13345 2026-05-14 cs.AI cs.MA

Multi-Agent Systems in Emergency Departments: Validation Study on a ED Digital Twin

Markus Wenzel, Tobias Strapatsas, Jessika Kress, Dorothea Sauer, Nele Gessler, Horst K. Hahn

发表机构 * Constructor University（Constructor大学）； Fraunhofer Institute for Digital Medicine MEVIS（弗劳恩霍夫数字医学研究所MEVIS）； Asklepios Kliniken Hamburg GmbH（阿斯克列庇斯汉堡医院有限公司）

AI总结该研究针对急诊科在患者护理和资源管理方面面临的挑战，提出了一种结合离散事件仿真（DES）和基于代理的模型（ABM）的混合仿真方法，用于构建高度可配置的急诊科数字孪生系统。通过验证模型在不同规模、患者流量和人员配置下的表现，并与实际数据对比，证明了该模型能够有效模拟真实急诊环境下的运行动态。此外，研究还引入了一个基于时间事件记录的多智能体系统，可自主探索资源分配策略，为急诊科资源优化提供了有力的仿真工具。

AI 大模型

视觉与机器人

科学与医疗