arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.13140 2026-05-14 cs.CV

Multi-Modal Guided Multi-Source Domain Adaptation for Object Detection

Sangin Lee, Seokjun Kwon, Jeongmin Shin, Namil Kim, Yukyung Choi

发表机构 * Sejong University（世宗大学）； NAVER LABS（NAVER实验室）； Artificial Intelligence and Robotics Institute (AIRI)（人工智能与机器人研究所（AIRI））

AI总结该论文研究了多源领域自适应下的目标检测问题，旨在提升模型在目标领域中检测性能，特别是在训练数据分布与目标领域存在差异的情况下。为了解决现有方法在学习领域无关特征时无法有效保留领域特定信息的问题，作者提出了MS-DePro方法，结合深度图和文本提示，分别用于引导目标定位和分类特征对齐。该方法在多个基准测试中取得了最先进的性能，验证了其有效性。

2605.13133 2026-05-14 cs.LG eess.SP

KAST-BAR: Knowledge-Anchored Semantically-Dynamic Topology Brain Autoregressive Modeling for Universal Neural Interpretation

Haoning Wang, Wenchao Yang, Shuai Shen, Yang Li

发表机构 * School of Automation Science and Electrical Engineering, Beihang University, Beijing, China.（自动化科学与电气工程学院，北航，北京，中国）； School of Biological Science and Medical Engineering, Beihang University, Beijing, China.（生物科学与医学工程学院，北航，北京，中国）； State Key Laboratory of Virtual Reality Technology and Systems, Beihang University, Beijing, China.（虚拟现实技术与系统国家重点实验室，北航，北京，中国）； T Magnetic Resonance Imaging Translational Medical Center, Department of Radiology, Southwest Hospital, Army Medical University (Third Military Medical University), Chongqing, China.（7T磁共振成像转化医学中心，放射科，西南医院，军医大学（第三军医大学），重庆，中国）

AI总结本文提出了一种名为KAST-BAR的知识锚定语义动态拓扑脑自回归模型，旨在解决脑电图（EEG）基础模型在跨任务通用神经解码中面临的空间时间拓扑建模不足和生理信号与高层语义之间模态鸿沟的问题。该模型通过双流层次注意力编码器捕捉脑部非欧几里得拓扑结构，并结合知识锚定语义分析模块，将生理信号与专家级语义空间对齐，从而实现更准确的神经信号解码。实验表明，KAST-BAR在多个下游任务中均表现出色，有效融合了医学专家知识以提升EEG信号的理解与解释能力。

2605.13131 2026-05-14 cs.LG cs.RO

ERPPO: Entropy Regularization-based Proximal Policy Optimization

Changha Lee, Gyusang Cho

发表机构 * Korea Advanced Institute of Science and Technology（韩国科学技术院）

AI总结本文提出了一种基于熵正则化的近端策略优化算法（ERPPO），旨在解决多智能体强化学习中因非稳态观测导致的策略优化难题。该方法通过引入分布时空模糊性学习器，估计多维观测环境下的目标检测不确定性，并结合动态熵正则化项，在高模糊度情况下增强探索，在低模糊度情况下稳定策略更新，从而提升目标定位的准确性和搜索效率。实验表明，ERPPO在海上搜索等时间敏感任务中表现出优于MAPPO的性能，尤其在视觉不确定条件下能有效抑制误检。

Comments 9 pages, 5 figures

2605.13130 2026-05-14 cs.AI

GRACE: Gradient-aligned Reasoning Data Curation for Efficient Post-training

Junjie Li, Ziao Wang, NingXuan Ma, Jianghong Ma, Xiaofeng Zhang

发表机构 * Harbin Institute of Technology, Shenzhen, China（哈尔滨工业大学（深圳））； Hong Kong Baptist University, China（香港 Baptist 大学）； City University of Hong Kong, China（香港城市大学）

AI总结本文提出了一种名为GRACE的梯度对齐推理数据筛选方法，用于高效地进行模型后训练。该方法通过分析每个推理步骤与答案梯度方向的对齐程度以及与前序推理路径的一致性，对步骤进行评分，并将这些评分聚合为样本级别的选择依据，无需外部奖励模型或步骤注释。实验表明，GRACE在使用较少数据的情况下仍能保持接近甚至超越全数据的性能，且具有良好的模型迁移能力。

2605.13125 2026-05-14 cs.RO

MoCCA: A Movable Circle Probability of Collision Approximation

Tobias Kern, Christian Birkner

发表机构 * CARISSMA Institute of Safety in Future Mobility, Technische Hochschule Ingolstadt（未来移动安全性研究所，因戈尔施塔特技术大学）

AI总结在自动驾驶中，准确评估碰撞概率（POC）对于避障和安全驾驶至关重要。本文提出了一种名为MoCCA的形状近似算法，通过为每辆车优化单个圆来近似其几何形状，从而在保持计算效率的同时减少保守性过高的问题。该方法建立了近似误差的上界，并引入了基于方向方差可调节的安全距离余量，以应对部分覆盖情况下的POC低估问题。

Comments Accepted at ITSC 2026

2605.13123 2026-05-14 cs.RO

Multi-Depth Uniform Coverage Path Planning for Unmanned Surface Vehicle Surveying

Maider Larrazabal, Tong Yang, Izaro Goienetxea, Jaime Valls Miro

发表机构 * AZTI Foundation（AZTI基金会）； Tsinghua University（清华大学）； University of the Basque Country (UPV/EHU)（巴斯克国家大学（UPV/EHU））； University of Technology Sydney（悉尼技术大学）； IKERBASQUE

AI总结本文提出了一种用于无人水面船舶水下地形测绘的新型自动覆盖路径规划算法。传统方法基于固定深度的往返路径，无法适应海底地形变化，导致覆盖不均；本文方法结合粗略的深度先验信息，动态调整路径生成与传感器覆盖范围，实现海底地形的均匀覆盖。实验表明，该方法在合成与真实场景中均显著优于传统方法，覆盖率分别超过99%和92%，具有重要的实际应用价值。

Comments Accepted by ICRA 2026

2605.13122 2026-05-14 cs.CV

Early Semantic Grounding in Image Editing Models for Zero-Shot Referring Image Segmentation

Jingxuan He, Xiyu Wang, Yunke Wang, Mengyu Zheng, Chang Xu

发表机构 * The University of Sydney（悉尼大学）

AI总结本文研究了基于指令的图像编辑模型在零样本参照图像分割任务中的语义定位能力。通过分析发现，这些模型在去噪过程的早期阶段已能生成具有强前景-背景可分性的内部表示，从而隐含实现了语言条件下的语义定位。基于此，作者提出了一种无需训练的框架，利用预训练图像编辑模型的中间表示，将分割任务分解为空间注意力和语义判别两个部分，实现了无需完整图像生成即可获得高精度分割掩码的方法，并在多个数据集上取得了优于现有零样本方法的性能。

2605.13119 2026-05-14 cs.RO cs.AI cs.CV

Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models

Zixing Lei, Changxing Liu, Yichen Xiong, Minhao Xiong, Yuanzhuo Ding, Zhipeng Zhang, Weixin Li, Siheng Chen

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Zhongguancun Academy（中关村学院）； Beihang University（北京航空航天大学）

AI总结该研究旨在解决视觉-语言-动作（VLA）模型在长期任务中执行能力受限的问题，提出了一种将高层视觉语言模型与专用工具型VLA模块相结合的新策略。通过引入工具对齐的后训练方法（TAPT）和工具族接口，实现了高效的长期任务规划与执行协同，显著提升了机器人在复杂环境中的任务完成率和指令遵循精度。

2605.13117 2026-05-14 cs.RO cs.AI

SECOND-Grasp: Semantic Contact-guided Dexterous Grasping

Han Yi Shin, Heeju Ko, Jaewon Mun, Qixing Huang, Jaehyeok Lee, Sung June Kim, Honglak Lee, Sujin Jang, Sangpil Kim

发表机构 * Korea University（韩国大学）； University of Texas at Austin（德克萨斯大学奥斯汀分校）； University of Michigan（密歇根大学）； Hanyang University（翰阳大学）

AI总结本文提出 SECOND-Grasp，一种语义引导的灵巧抓取框架，旨在将物理稳定性与语义任务理解相结合，以实现更可靠的机器人抓取。该方法通过视觉-语言推理生成粗略接触区域，并利用语义-几何一致性优化技术提升接触预测的准确性，最终通过逆运动学生成可行的抓取姿态。实验表明，该方法在已见和未见物体类别上的抓取成功率分别达到98.2%和97.7%，并在意图感知抓取任务中表现出显著提升。

2605.13111 2026-05-14 cs.CV

Pyramid Forcing: Head-Aware Pyramid KV Cache Policy for High-Quality Long Video Generation

Jiayu Chen, Junbei Tang, Wenbiao Zhao, Maoliang Li, Jiayi Luo, Zihao Zheng, Jiawei Yang, Guojie Luo, Xiang Chen

发表机构 * Peking University（北京大学）； South China University of Technology（华南理工大学）； Xinjiang University（新疆大学）； Beihang University（北京航空航天大学）； Zhongguancun Academy（中关村学院）

AI总结本文提出了一种名为Pyramid Forcing的头部感知金字塔KV缓存策略，用于提升高质量长视频生成的效果。该方法通过分析不同注意力头的历史帧关注模式，识别出三种具有不同特性的头类型，并据此设计差异化的缓存策略，从而有效缓解长期误差累积导致的退化问题。实验表明，该方法在多个指标上显著提升了长时序视频生成的质量。

2605.13108 2026-05-14 cs.CV

Flow Augmentation and Knowledge Distillation for Lightweight Face Presentation Attack Detection

Muhammad Shahid Jabbar, Muhammad Sohail Ibrahim, Taha Hasan Masood Siddique, Kejie Huang, Shujaat Khan

发表机构 * SDAIA-KFUPM Joint Research Center for Artificial Intelligence（SDAIA-KFUPM联合人工智能研究中心）； King Fahd University of Petroleum & Minerals（国王法赫德石油大学）； Interdisciplinary Research Center for Intelligent Secure Systems (IRC-ISS)（智能安全系统跨学科研究中心）； College of Information Science & Electronic Engineering（信息科学与电子工程学院）； Department of Computer Engineering, College of Computing and Mathematics（计算机工程系，计算与数学学院）

AI总结本文研究了在复杂攻击方式和多变采集条件下实现轻量级人脸活体检测（FacePAD）的问题，提出了一种结合光流增强和知识蒸馏的方法。通过训练时引入光流信息增强运动表征，推理时无需计算光流，同时设计了一个双分支教师模型融合外观与运动线索，并利用知识蒸馏将运动感知知识传递给轻量的学生模型，显著提升了检测性能并降低了计算开销。实验表明，该方法在多个基准数据集上取得了优异的检测效果，并能在嵌入式设备上实现每秒52帧的实时检测。

Comments Accepted at 2026 International Conference on Automatic Face and Gesture Recognition (FG)

2605.13105 2026-05-14 cs.RO

What to Ignore, What to React: Visually Robust RL Fine-Tuning of VLA Models

Yuanfang Peng, Jingjing Fu, Chuheng Zhang, Li Zhao, Jiang Bian, Mingyu Liu, Ling Zhang, Jun Zhang, Rui Wang

发表机构 * Hong Kong University of Science and Technology（香港理工大学）； Microsoft Research Asia（微软亚洲研究院）； Zhejiang University（浙江大学）

AI总结该研究针对视觉语言动作（VLA）模型在机器人操作任务中面临的视觉变化问题，提出了一种名为PAIR-VLA的强化学习微调框架。该方法通过在PPO优化过程中引入两个辅助目标——动作不变性目标和动作敏感性目标，引导模型在视觉变化时区分任务相关与无关的变化，从而提升模型的鲁棒性。实验表明，PAIR-VLA在多种视觉分布外变化场景下均优于标准PPO方法，显著提升了模型的泛化能力和操作成功率。

2605.13101 2026-05-14 cs.LG cs.AI

Margin-calibrated Classifier Guidance for Property-driven Synthesis Planning

Najwa Laabid, Vikas Garg

发表机构 * Aalto University（阿alto大学）

AI总结该研究提出了一种名为Sequence Completion Ranking（SCR）的新方法，用于改进基于单步 retrosynthesis 模型的化学合成路径规划。通过引入对比论证和基于边距的损失函数，SCR 能够校准分类器，使其在解码过程中更有效地区分满足特定属性的反应路径，从而提升生成路径的质量与多样性。实验表明，该方法在 USPTO-190 数据集上显著提高了多步合成的成功率，并有效弥补了无模板与有模板方法之间的多样性差距。

2605.13099 2026-05-14 cs.SD

Bypassing Direct Reconstruction: Speech Detection from MEG via Large-Scale Audio Retrieval

Boda Xiao, Bo Wang, Heping Cheng

发表机构 * Center for BioMed-X Research, Academy for Advanced Interdisciplinary Studies, Peking University（北京大学生物医学交叉研究学院，先进跨学科研究学院）； Speech and Hearing Research Center, School of Intelligence Science and Technology, Peking University（北京大学智能科学与技术学院语音听力研究中心）； State Key Laboratory of General Artificial Intelligence, Beijing, China（一般人工智能国家重点实验室，中国北京）； National Biomedical Imaging Center, State Key Laboratory of Membrane Biology, Institute of Molecular Medicine, Peking-Tsinghua Center for Life Sciences, College of Future Technology, Peking University（国家生物医学成像中心，膜生物学国家重点实验室，分子医学研究院，北京大学-清华大学生命科学学院，未来技术学院，北京大学）

AI总结本文研究如何从非侵入式脑信号（MEG）中检测语音内容，提出了一种无需直接重建语音信号的新方法。该方法首先利用对比学习模型从大规模音频库中检索与测试MEG信号匹配的语音片段，再通过语音检测模型生成静音与语音的二值序列。该方法在LibriBrain 2025语音检测任务中取得了优异成绩，验证了借助外部音频数据库进行语音检测的有效性。

Comments ranked first at LibriBrain Competition 2025 https://neural-processing-lab.github.io/2025-libribrain-competition/prizes/

2605.13094 2026-05-14 cs.RO

Identification of Non-Transversal Bifurcations of Linkages

Andreas Mueller, P. C. López Custodio, J. S. Dai

发表机构 * Johannes Kepler University, Linz, Austria（约翰内斯·开普勒大学，林茨，奥地利）； King's College London, UK（国王学院伦敦，英国）

AI总结本文研究了机构在非横截分岔情况下的运动分支识别问题，提出了一种基于运动切锥的局部分析方法。该方法通过构造性定义的运动切锥提取必要的信息，以区分不同运动分支，弥补了传统局部分析在处理非横截分岔时的不足。文中还提出了一种计算方法，扩展了已有算法框架，为机构奇异性和运动性的研究提供了新的工具。

Comments Paper No: DETC2020-22301, V010T10A090; 8 pages

Journal ref Proceedings of the ASME 2020 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference. Volume 10: 44th Mechanisms and Robotics Conference (MR). Virtual, Online

2605.13093 2026-05-14 cs.CV

RoSplat: Robust Feed-Forward Pixel-wise Gaussian Splatting for Varying Input Views and High-Resolution Rendering

Hoang Chuong Nguyen, Renjie Wu, Jose M. Alvarez, Miaomiao Liu

发表机构 * Australian National University（澳大利亚国立大学）； NVIDIA

AI总结 RoSplat 是一种鲁棒的前馈像素级高斯点绘方法，旨在解决在输入视角变化和高分辨率渲染时出现的过亮和孔洞伪影问题。该方法通过引入像素级的 alpha 归一化策略和基于三维采样的辅助正则化器，有效提升了高斯尺度估计的准确性与渲染一致性。实验表明，RoSplat 在多个基准数据集上显著优于现有方法，尤其在输入视角变化和高分辨率场景下表现优异。

2605.13088 2026-05-14 cs.LG

Bayesian Nonparametric Mixed-Effect ODEs with Gaussian Processes

Julien Martinelli, Maksim Sinelnikov, Harri Lähdesmäki, Quentin Clairon, Mélanie Prague

发表机构 * Aalto University（阿alto大学）； Univ. Bordeaux, INSERM BPH, U1219, Inria SISTM team, VRI, France（波尔多大学，INSERM BPH，U1219，Inria SISTM团队，VRI，法国）； Inria SISTM team（Inria SISTM团队）

AI总结该论文提出了一种基于贝叶斯非参数方法的混合效应常微分方程（ODE）模型，用于处理具有个体差异的动态系统建模问题。该方法通过将每个个体的动态场分解为共享的群体成分和个体特异性偏差，并为两者赋予高斯过程先验，从而在保持不确定性量化的同时提升了模型的灵活性。研究引入了结合状态空间高斯过程轨迹先验和虚拟配点观测的训练方法，有效提高了对群体动态场和个体轨迹的预测性能。

2605.13087 2026-05-14 cs.CL cs.AI

Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition

Kush Juvekar, Kavya Manohar, Aditya Srinivas Menon, Arghya Bhattacharya, Kumarmanas Nethil

发表机构 * Adalat AI, India（Adalat AI 印度）

AI总结该研究针对多语言语音识别模型在低资源语言上的微调问题，提出了Vividh-ASR基准，用于评估印地语和马拉雅拉姆语在不同复杂度场景下的识别性能。通过分析学习率时机和课程学习顺序，研究发现早期大参数更新和由易到难的课程学习策略能显著提升模型性能，特别是对自发语音的识别效果。基于这些发现，作者提出了逆向多阶段微调方法（R-MFT），使参数高效的244M Whisper模型在性能上达到甚至超越传统微调的769M模型。

Comments Submitted to Interspeech 2026

2605.13086 2026-05-14 cs.RO

Object Manipulation of the Variable Topology Truss system

Andrew Jang-Ho Bae, Myeongjin Choi, Haorui Li, Mark Yim, TaeWon Seo

发表机构 * RealMan Robotics Co., Ltd.（RealMan机器人有限公司）

AI总结本文提出了一种针对可变拓扑桁架（VTT）系统的物体操作策略，该系统由带有被动球形关节的驱动桁架杆件组成。为实现有效操作，研究引入了一种混合控制框架，能够同时调节位置和力，无需显式解耦。通过实验验证了该方法在单个杆件模块和完整VTT系统中的力跟踪性能，并展示了两种典型配置下的物体操作效果，证明了该方法在位置和力跟踪方面的可靠性和一致性。

Comments 15 pages, 14 figures

2605.13083 2026-05-14 cs.RO

TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video

Jianyi Zhou, Ziteng Gao, Feiyang Hong, Zirui Liu, Guannan Zhang, Weisheng Dai, Ruichen Zhen, Chuqiao Lyu, Haotian Wu, Yinian Mao, Xushi Wang, Yuxiang Jiang, Wenbo Ding, Shuo Yang

发表机构 * Harbin Institute of Technology, Shenzhen（哈尔滨工业大学深圳研究院）； Meituan Academy of Robotics（美团机器人研究院）； Tsinghua Shenzhen International Graduate School, Tsinghua University（清华大学深圳国际研究生院）

AI总结本文提出了一种名为TouchAnything的框架和一个大规模数据集EgoTouch，用于从第一人称视角视频中估计双臂操作物体时的触觉信息。研究解决了现有数据集缺乏触觉信号的问题，通过可穿戴触觉传感器同步采集多视角视频、双手3D姿态和压力图，构建了包含208个操作任务的数据集。基于该数据集，作者设计了一个多视角视觉到触觉预测框架，实验表明结合手腕视角信息可有效提升触觉预测性能。

2605.13080 2026-05-14 cs.CV

Learning to See What You Need: Gaze Attention for Multimodal Large Language Models

Junha Song, Byeongho Heo, Geonmo Gu, Jaegul Choo, Dongyoon Han, Sangdoo Yun

发表机构 * NAVER AI Lab（NAVER AI实验室）

AI总结本文研究了多模态大语言模型在视觉描述任务中如何更高效地关注图像关键区域的问题。作者提出了一种新的注意力机制——Gaze Attention，通过将视觉嵌入分组为紧凑的注视区域，并动态选择与任务相关的区域进行注意力计算，从而减少冗余计算并提升聚焦效果。此外，为保持全局上下文信息，作者还引入了可学习的上下文标记。实验表明，该方法在图像和视频理解任务中表现优异，且显著降低了视觉键值对的使用量。

2605.13079 2026-05-14 cs.LG cs.AI

Spectral Flattening Is All Muon Needs: How Orthogonalization Controls Learning Rate and Convergence

Tien-Phat Nguyen, Truong Nguyen, Minh-Phuc Truong, Tuc Nguyen, James Bailey, Trung Le

发表机构 * Hanoi University of Science and Technology（河内理工大学）； Indiana University（印第安纳大学）； Monash University（墨尔本大学）

AI总结本文研究了优化器 Muon 的成功机制，揭示其核心在于通过正交化动量缓冲区实现谱平坦化，从而提升学习率容忍度和收敛速度。作者证明，Muon 的最大稳定步长与梯度的平均奇异值相关，而非最大值，这突破了传统梯度下降的瓶颈。此外，将 Muon 视为预条件梯度方法，其收敛效率的提升由梯度协方差的谱特性所控制。实验表明，Muon 在更大学习率下仍保持稳定，并比标准梯度下降更快达到精度目标。

2605.13076 2026-05-14 cs.CL cs.FL cs.SE

TruncProof: A Guardrail for LLM-based JSON Generation under Token-Length Constraints

Yoshio Kato, Shuhei Tarashima

发表机构 * NTT DOCOMO BUSINESS, Inc., Japan（NTT DOCOMO商务公司，日本）

AI总结 TruncProof 是一种用于在令牌长度限制下生成语法正确的 JSON 输出的新型语法约束生成方法。该方法利用 LL(1) 解析器的特性，在解码过程中高效估计完成合法 JSON 所需的最小令牌数，从而确保生成结果既符合语法规范又不超出预设长度限制。实验表明，TruncProof 在严格令牌约束下仍能生成语义准确的 JSON，并可与先进解码策略结合使用，提升生成质量。

Comments Main paper (8 pages). Accepted at the International Joint Conference on Neural Networks (IJCNN 2026)

2605.13068 2026-05-14 cs.LG

Local Inverse Geometry Can Be Amortized

Aaditya L. Kachhadiya

发表机构 * Independent Researcher（独立研究者）

AI总结该论文研究了非线性反问题中的局部逆几何学习方法，提出了一种通过学习可复用的逆算子来替代传统曲率感知优化方法的新框架。核心方法是构建双向代理模型Deceptron，并结合D-IPG迭代求解器，利用雅可比矩阵组合惩罚（JCP）机制训练逆雅可比以近似前向雅可比的局部左逆。实验表明，该方法在多个偏微分方程反问题基准上优于传统方法，具有更高的求解效率和恢复质量。

Comments Preprint. 21 pages, 8 figures, 8 tables. Code available at https://github.com/AadityaKachhadiya/deceptron

2605.13067 2026-05-14 cs.RO cs.AI

When Absolute State Fails: Evaluating Proprioceptive Encodings for Robust Manipulation

Maxime Alvarez, Ryo Watanabe, Paul Crook, Afshin Zeinaddini Meymand, Suvin Kurian, Pablo Ferreiro, Genki Sano

发表机构 * TELEXISTENCE Inc, Foundation Model Division（TELEXISTENCE公司基础模型部门）； The University of Tokyo（东京大学）

AI总结随着端到端机器人策略在现实任务中的应用增多，训练与推理条件之间的差距成为一大挑战。本文研究了如何通过改进机器人本体感觉状态的编码方式，提升其在分布内和分布外场景下的性能，特别是在面对未知测试条件时的鲁棒性。研究发现，采用基于任务的相对参考系编码方法，在实际机器人实验中表现出优于现有方法的性能，为利用不同参考系下的数据提升机器人泛化能力提供了可行路径。

Comments Accepted to ICRA 2026 Workshop: From Data to Decisions

2605.13063 2026-05-14 cs.LG

Ergodic Trajectory Design by Learned Pushforward Maps: Provable Coverage via Conditional Flow Matching

Ehsan Aghazadeh, Masoud Malekzadeh, Ahmad Ghasemi, Hossein Pishro-Nik

发表机构 * University of Massachusetts Amherst（马萨诸塞大学阿默斯特分校）

AI总结本文研究了如何设计连续轨迹，使其时间平均占用密度能够可证明地匹配给定的空间密度，即“遍历覆盖”问题，该问题在无人机数据采集、机器人探索和移动监测等领域具有重要意义。作者提出了一种名为epushforward的框架，通过将遍历性与密度匹配解耦，利用最优传输条件流匹配方法学习一个离线映射，将简单环形区域上的均匀遍历轨迹转换为目标密度。该方法在训练完成后可支持无限数量的轨迹和多智能体系统，并能自然处理多种可微操作约束，具有理论保证的覆盖性能。

2605.13062 2026-05-14 cs.CV

Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling

Xuehai Bai, Yang Shi, Yi-Fan Zhang, Xuanyu Zhu, Yuran Wang, Yifan Dai, Xinyu Liu, Yiyan Ji, Xiaoling Gu, Yuanxing Zhang

发表机构 * HDU（杭州大学）； PKU（北京大学）； Kling Team（Kling团队）； CASIA（中国科学院自动化研究所）

AI总结近年来，图像编辑模型在指令理解、多模态感知和复杂视觉编辑方面取得了显著进展，但现有基准测试难以准确反映人类判断，尤其在评估前沿模型时存在任务难度有限和评价方式粗粒度的问题。为解决这一问题，本文提出Edit-Compass和EditReward-Compass，一个统一的图像编辑与奖励模型评估基准。Edit-Compass包含2,388个精细标注的样本，涵盖六个逐步提升难度的任务类别，采用多维细粒度评价框架；EditReward-Compass则包含2,251个偏好对，用于模拟实际强化学习中的奖励建模场景，为模型评估提供了更真实可靠的依据。

2605.13059 2026-05-14 cs.CV

BrainAnytime: Anatomy-Aware Cross-Modal Pretraining for Brain Image Analysis with Arbitrary Modality Availability

Guangqian Yang, Tong Ding, Wenlong Hou, Yue Xun, Ye Du, Qian Niu, Shujun Wang

发表机构 * Department of Biomedical Engineering, The Hong Kong Polytechnic University, Hong Kong SAR, China（生物医学工程系，香港理工大学，香港特别行政区，中国）； Department of Technology Management for Innovation, The University of Tokyo, Japan（创新技术管理系，东京大学，日本）； Department of Data Science and Artificial Intelligence, The Hong Kong Polytechnic University, Hong Kong SAR, China（数据科学与人工智能系，香港理工大学，香港特别行政区，中国）

AI总结本文提出了一种名为BrainAnytime的统一预训练框架，用于处理在任意模态可用情况下的脑影像分析任务。该方法通过跨模态蒸馏和基于图谱的课程掩码技术，在共享的三维掩码自编码器中学习MRI与PET之间的结构-分子对应关系，并关注疾病易感解剖区域。实验表明，BrainAnytime在多种临床模态设置下显著优于现有模型，尤其在阿尔茨海默病分类任务中提升了平均准确率。

Comments Early accepted by MICCAI 2026

2605.13058 2026-05-14 cs.RO

MUJICA: Multi-skill Unified Joint Integration of Control Architecture for Wheeled-Legged Robots

Yuqi Li, Peng Zhai, Yueqi Zhang, Xiaoyi Wei, Quancheng Qian, Zhengxu He, Qianxiang Yu, Lihua Zhang

发表机构 * College of Intelligent Robotics and Advanced Manufacturing, Fudan University（智能机器人与先进制造学院，复旦大学）； Power China Huadong Engineering Corporation Limited（中国电力工程顾问集团华东分公司）

AI总结本文提出了一种名为MUJICA的统一控制架构，用于轮腿机器人，旨在解决其在复杂地形中轮式移动与腿部控制之间的协调问题。该方法通过单一策略集成多种低级技能，如全向移动、高平台攀爬和跌落恢复，并结合精确的直流电机约束建模进行联合训练，同时引入基于本体感觉的高层技能选择器，实现对环境的自适应响应。实验表明，MUJICA显著提升了轮腿机器人在非结构化环境中的适应能力和任务成功率。

2605.13055 2026-05-14 cs.CL cs.CY

The Cost of Perfect English: Pragmatic Flattening and the Erasure of Authorial Voice in L2 Writing Supported by GenAI

Ao Liu, Shanhua Zhu

发表机构 * School of Foreign Languages, Southeast University（东南大学外国语言学院）

AI总结该研究探讨了生成式人工智能（GenAI）在辅助非母语者（如中国B2级大学生）写作时，可能引发的“语用扁平化”现象，即文化特定的礼貌表达和作者立场被系统性地抹去。通过对比分析使用GenAI润色前后的议论文，研究发现尽管模型在语法和语义层面表现良好，但在对话互动和知识立场等语用维度上存在显著差异，导致作者独特的声音被同质化的英语表达所取代。研究指出，应推动批判性AI素养教育，帮助多语写作者在使用GenAI提升语言质量的同时，保留其语用多样性和修辞性能。

Comments 16 pages, 2 figures

AI 大模型

视觉与机器人

科学与医疗