arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.11862 2026-05-13 cs.CL

Concordance Comparison as a Means of Assembling Local Grammars

Juliana Pirovani, Elias de Oliveira, Eric Laporte

发表机构 * Universidade Federal do Esp\'irito Santo - UFES Av. Fernando Ferrari, 514, 29075-910 Vit\'oria, ES, Brazil Universit\'e Paris-Est, LIGM, UPEM/CNRS/ENPC/ESIEE, Champs-sur-Marne, 77420, France

AI总结本文研究了如何通过比较局部语法（LG）的搭配信息来构建更优的局部语法，以提升人名实体识别的性能。作者提出了一种基于搭配对比的方法，通过分析不同局部语法之间的包含、交集和排斥关系，选择并组合出效果最佳的语法结构。该方法在葡萄牙语人名提取任务中取得了76.86的F值，相比现有最佳方法提升了6个百分点。

Journal ref Computational Processing of the Portuguese Language. 13th International Conference, PROPOR, Canela, Brazil, September 24-26, 2018, Proceedings, 11122, Springer, pp.57-65, Lecture Notes in Artificial Intelligence

2605.11859 2026-05-13 cs.RO cs.AI

EvoNav: Evolutionary Reward Function Design for Robot Navigation with Large Language Models

Zhikai Zhao, Chuanbo Hua, Federico Berto, Zihan Ma, Kanghoon Lee, Jiachen Li, Jinkyoo Park

发表机构 * KAIST（韩国科学技术院）； Radical Numerics ； UC Riverside（加州大学河滨分校）； Omelet AI4CO

AI总结本文提出了一种基于进化算法和大语言模型的机器人导航奖励函数设计框架EvoNav，旨在解决传统人工设计奖励函数依赖领域专业知识、难以适应复杂环境的问题。该方法通过分阶段的预热-提升流程，利用大语言模型生成候选奖励函数，并结合低成本代理和逐步强化训练，显著提高了设计效率与导航策略性能。实验表明，EvoNav生成的导航策略优于手动设计和现有先进方法。

2605.11857 2026-05-13 cs.LG

Beyond Parameter Aggregation: Semantic Consensus for Federated Fine-Tuning of LLMs

Amr Abourayya, Jens Kleesiek, Michael Kamp

发表机构 * Lamarr Institute for ML and AI, Technical University Dortmund（拉马尔机器学习与人工智能研究所，德意志理工大学）； Institute for AI in medicine (IKIM), University Hospital Essen（医学人工智能研究所（IKIM），埃森大学医院）

AI总结本文提出了一种新的联邦微调方法，突破传统参数聚合的限制，通过模型行为而非参数进行协作。客户端在本地数据上微调模型，并在共享的公共提示集上生成输出，服务器将这些输出映射到语义空间，形成每条提示的语义共识并返回伪标签供进一步微调。该方法显著降低了通信开销，与模型规模无关，适用于异构架构和开放文本生成，并在实验中表现出与现有方法相当的效果，同时大幅减少通信量、运行时间和能耗。

2605.11856 2026-05-13 cs.CV cs.CL

UniVLR: Unifying Text and Vision in Visual Latent Reasoning for Multimodal LLMs

Houcheng Jiang, Jiajun Fu, Junfeng Fang, Chen Gao, Xiang Wang, Xiangnan He, Yong Li

发表机构 * University of Science and Technology of China（中国科学技术大学）； Tsinghua University（清华大学）； National University of Singapore（新加坡国立大学）； Zhongguancun Academy（中关村学院）

AI总结本文提出了一种统一的视觉潜层推理框架UniVLR，旨在提升多模态大语言模型在图像推理任务中的效率与表现。该方法将文本推理与辅助视觉信息整合到共享的视觉工作空间中，通过联合生成推理轨迹和图像信息，并将其压缩为紧凑的视觉潜层表示，从而在推理时仅依赖视觉潜层进行推理并直接生成答案，避免了显式文本推理和外部工具调用。实验表明，UniVLR在实际感知与视觉推理任务中优于现有方法，且生成的推理标记更少，展示了更高效统一的视觉推理范式。

2605.11846 2026-05-13 cs.LG cs.AI

Martingale-Consistent Self-Supervised Learning

Moritz Gögl, Hanwen Xing, Christopher Yau

发表机构 * University of Oxford（牛津大学）； Health Data Research UK（英国健康数据研究）

AI总结本文研究了在信息不完整或动态变化的环境下，如何提升自监督学习（SSL）的鲁棒性和一致性。作者提出了一种基于鞅理论的自监督学习框架，确保粗略预测与精炼预测在期望上保持一致，从而防止系统性偏差。该方法引入了预测空间和潜在空间的变体，并设计了无偏的蒙特卡洛估计器，实验表明其在部分观测场景下能提升模型的稳定性与校准能力。

2605.11845 2026-05-13 cs.CL

Probabilistic Calibration Is a Trainable Capability in Language Models

Davide Baldelli, Sruthi Kuriakose, Maryam Hashemzadeh, Amal Zouaq, Sarath Chandar

发表机构 * Chandar Research Lab（昌达尔研究实验室）； Mila – Quebec AI Institute（魁北克人工智能研究所）； LAMA-WeST Lab（LAMA-WeST实验室）； Polytechnique Montréal（蒙特利尔理工学院）； Université de Montréal（蒙特利尔大学）； Independent researcher（独立研究者）

AI总结该研究探讨了语言模型在满足用户指定随机性约束时，其生成概率与目标分布之间校准不佳的问题，并通过微调方法提升这一能力。研究者提出了两种校准微调方法：一种基于软目标，将目标分布转化为词序树导出的下一个词目标；另一种基于硬目标，通过目标分布采样完成进行训练。实验表明，这两种方法均能有效提升模型在多种分布和参数设置下的结构化采样准确性，证明概率校准是可以通过微调增强的能力。

2605.11840 2026-05-13 cs.CV

Selection, Not Fusion: Radar-Modulated State Space Models for Radar-Camera Depth Estimation

Zhangcheng Hou, Tomoaki Ohtsuki

发表机构 * School of Science and Technology（科学与技术学部）

AI总结本文研究了如何利用雷达信号提升雷达-相机深度估计的性能，提出了一种基于状态空间模型的雷达调制选择机制（RMS），将雷达信息直接融入模型的扫描过程，而非传统的特征融合方式。该方法通过雷达对扫描步长和读取参数进行调制，在保证图像主干网络不变的前提下，仅在雷达能提升精度的区域引入雷达影响，从而实现更高效、准确的深度估计。实验表明，该方法在nuScenes数据集上取得了显著的性能提升，并且具有更低的计算延迟。

Comments 16 pages, 3 figures, 9 tables

2605.11838 2026-05-13 cs.LG math.OC

Gradient Clipping Beyond Vector Norms: A Spectral Approach for Matrix-Valued Parameters

Alexander Yukhimchuk, Mladen Kolar, Martin Takáč, Sayantan Choudhury

发表机构 * MBZUAI（穆罕默德·本·拉什德智能技术研究院）； University of Southern California（南加州大学）

AI总结本文研究了在现代神经网络训练中如何更有效地应用梯度裁剪技术，针对参数矩阵的结构提出了一种新的方法。作者发现，数据异常值主要影响梯度矩阵的前几个奇异值，因此提出基于奇异值的梯度裁剪方法，通过限制超过阈值的奇异值来稳定训练过程。该方法不仅推广了传统的向量范数裁剪，还提供了对重尾噪声的收敛性分析，并通过随机截断SVD实现了高效的实现，适用于大规模神经网络层。

2605.11836 2026-05-13 cs.LG cs.CL

More Edits, More Stable: Understanding the Lifelong Normalization in Sequential Model Editing

Xin Ma, Wei Chen, Qi Liu, Derong Xu, Zhi Zheng, Tong Xu, Enhong Chen

发表机构 * State Key Laboratory of Cognitive Intelligence, University of Science and Technology of China（认知智能国家重点实验室，中国科学技术大学）

AI总结本文研究了在连续模型编辑过程中保持大型语言模型稳定性的关键机制，提出了“终身归一化”（Lifelong Normalization, LN）这一核心策略，并首次从理论上解释了其作用机制。研究发现，LN通过运行统计量对梯度进行归一化，能够形成自我强化的稳定性循环，结合岭正则回归可有效抑制遗忘和系统崩溃。基于这些发现，作者提出了StableEdit方法，通过引入预热阶段和全白化处理，进一步提升了长期编辑的稳定性，实验验证了理论的有效性。

2605.10916 2026-05-13 cs.CV cs.AI

Confidence-Guided Diffusion Augmentation for Enhanced Bangla Compound Character Recognition

Md. Sultan Al Rayhan

发表机构 * Department of Computer Science and Engineering（计算机科学与工程系）

AI总结识别手写孟加拉语复合字符是一个具有挑战性的问题，主要由于字符结构复杂、类内变化大以及高质量标注数据有限。本文提出了一种基于置信度引导的扩散增强框架，用于提升低分辨率孟加拉语复合字符的识别性能。该方法结合了类别条件扩散模型和分类器引导技术，生成高质量的合成样本，并引入了增强残差块和置信度过滤机制，以提升生成质量并筛选出类别一致性高的样本。实验表明，该方法在多个主流模型上均取得性能提升，最佳模型在AIBangla数据集上的分类准确率达到89.2%，显著优于现有基准。

2605.10818 2026-05-13 cs.LG q-bio.NC

On periodic distributed representations using Fourier embeddings

Jakeb Chouinard

发表机构 * University of Waterloo（滑铁卢大学）

AI总结本文研究了如何利用傅里叶嵌入构建周期性分布式表示，以更好地处理角度等周期性信号。作者提出使用高维实值周期嵌入，解决传统标量角度表示在处理接近角度时的困难，并通过点积相似性控制不同核函数的形状。研究重点在于利用空间语义指针这一神经可解释的表示方法，形式化定义狄利克雷核和周期高斯核，为周期性信号的建模提供了新的思路。

2605.10684 2026-05-13 cs.LG cs.AI

Is Data Shapley Not Better than Random in Data Selection? Ask NASH

Xiao Tian, Jue Fan, Rachael Hwee Ling Sim, Zixuan Wang, Nancy F. Chen, Bryan Kian Hsiang Low

发表机构 * Department of Computer Science, National University of Singapore, Singapore（新加坡国立大学计算机科学系）； Research (A STAR), Singapore（新加坡科技研究局）

AI总结本文研究了如何从训练数据中选择高质量子集的问题，探讨了数据选择中使用Data Shapley等方法的有效性。针对Data Shapley在实践中表现不稳定的问题，作者提出了NASH框架，通过将目标效用函数分解为更简单的Shapley-信息组件，并非线性地聚合这些组件进行数据选择，显著提升了基于Shapley的数据选择效果，且仅需少量额外计算成本。

Comments Accepted to the 43rd International Conference on Machine Learning (ICML-26) as a Spotlight paper

2605.10360 2026-05-13 cs.CV

DySurface: Consistent 4D Surface Reconstruction via Bridging Explicit Gaussians and Implicit Functions

Minje Kim, Younghyun Noh, Jaesoon Kim, Tae-Kyun Kim

发表机构 * KAIST（韩国科学技术院）； Sungkyunkwan University（全北国立大学）

AI总结本文提出了一种名为DySurface的新框架，用于解决动态场景中重建时间一致的4D表面的挑战。该方法结合了显式的高斯点和隐式的符号距离函数（SDF），通过构建动态稀疏体素网格，为隐式SDF场提供明确的几何引导，从而显著提升了表面重建的质量，实现了更精确的边界和细节表现。实验表明，DySurface在几何精度方面优于现有先进方法，同时保持了良好的渲染性能。

2605.10288 2026-05-13 cs.LG math.OC

BROS: Bias-Corrected Randomized Subspaces for Memory-Efficient Single-Loop Bilevel Optimization

Hengrui Zhang, Boao Kong, Engao Zhang, Kun Yuan

发表机构 * Sichuan University（四川大学）； Peking University（北京大学）

AI总结本文提出了一种名为BROS的高效单循环双层优化方法，旨在解决深度学习中超参数学习、数据重加权等问题。该方法通过在随机子空间中进行梯度更新，并结合Rademacher双探针校正技术，实现了对Hessian算子的无偏估计，从而在降低内存消耗的同时保持与精确单循环方法相近的收敛速度。实验表明，BROS在多个任务中相比现有方法可减少高达44.9%的峰值内存使用，同时保持相近的性能。

2605.10235 2026-05-13 cs.CL

Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection

Yiwen Chen, Kuan Li, Fuzhen Zhuang, Deqing Wang, Zhao Zhang, Liwen Zhang, Yong Jiang, Shuai Wang, Minhao Cheng

发表机构 * Beihang University（北航）； HKUST（香港科技大学）； Alibaba Group（阿里巴巴集团）； Pennsylvania State University（宾夕法尼亚州立大学）

AI总结本文研究了在大语言模型（LLM）中如何有效选择检索增强生成（RAG）与长上下文（LC）策略的问题，提出了一种名为Pre-Route的主动路由框架。该方法通过利用文档类型、长度等轻量级元数据进行结构化推理，在回答前完成任务分析、覆盖估计和信息需求预测，从而生成可解释且高效的成本决策。实验表明，Pre-Route在多个基准上优于现有方法，展现出更高的整体成本效益。

2605.10094 2026-05-13 cs.RO cs.AI

Retrieve-then-Steer: Online Success Memory for Test-Time Adaptation of Generative VLAs

Jianchao Zhao, Huoren Yang, Yusong Hu, Yuyang Gao, Qiguan Ou, Cong Wan, SongLin Dong, Zhiheng Ma, Yihong Gong

发表机构 * College of Artificial Intelligence, Xi’an Jiaotong University（西安交通大学人工智能学院）； One Robotics ； Shenzhen University of Advanced Technology（深圳先进技术大学）

AI总结本文研究了在持续部署环境下如何提升冻结的视觉-语言-动作（VLA）模型在测试时的可靠性问题。提出了一种基于在线成功记忆的测试时自适应框架，通过在部署过程中存储成功的观察-动作片段，并在推理时检索相关动作片段进行轨迹一致性过滤和聚合，生成高质量的动作先验。该方法引入了置信度自适应的先验引导机制，将先验信息注入动作生成流程，实现了无需参数更新的轻量级自适应，实验表明该方法在长时间和多阶段任务中显著提升了任务成功率和闭环稳定性。

2605.09965 2026-05-13 cs.CV

Towards Generalist Game Players: An Investigation of Foundation Models in the Game Multiverse

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Tianyu Xin, Yue Su, Haisheng Wang, Han Yin, Hongbo Ma, Peize Li, Tianjun Gu, Xiangnan Wu, Xinran Zhang, Yongxuan Li, Zirong Chen, Yiming Li

发表机构 * College of AI, Tsinghua University（清华大学人工智能学院）； MMLab, The University of Hong Kong（香港大学MMLab）； University of Chinese Academy of Sciences（中国科学院大学）

AI总结该研究探讨了如何通过基础模型实现通用游戏玩家，旨在使人工智能具备在由不同规则、目标和物理特性构成的“游戏多元宇宙”中灵活适应和表现的能力。研究从数据集、模型、应用框架和评估基准四个相互关联的支柱出发，分析了通用游戏玩家的完整生命周期，并指出了当前系统面临的五大根本性权衡。通过这一整体视角，论文提出了一个五阶段的发展路线图，从单一游戏精通逐步迈向能够同时创造和演化于理论游戏多元宇宙的终极创造者阶段，为实现通用人工智能（AGI）提供了系统性指导。

Comments 51 pages, 7 figures, github: https://github.com/THUSI-Lab/Awesome-LFMs-Play-Games

2605.09780 2026-05-13 cs.AI

Attribution-based Explanations for Markov Decision Processes

Paul Kobialka, Andrea Pferscher, Francesco Leofante, Erika Ábrahám, Silvia Lizeth Tapia Tarifa, Einar Broch Johnsen

发表机构 * University of Oslo（奥斯陆大学）； Imperial College London（伦敦帝国理工学院）； RWTH Aachen University（亚琛工业大学）

AI总结本文研究如何为马尔可夫决策过程（MDP）生成基于归因的解释，以阐明智能体在序列决策中的行为逻辑。作者提出了一种形式化框架，用于在MDP中分配状态和执行路径的重要性分数，并利用策略合成技术高效计算这些分数，克服了MDP中非确定性的挑战。通过五个案例研究验证了方法的有效性，展示了其在提供可解释决策洞察方面的应用价值。

2605.09769 2026-05-13 cs.AI

UTS at PsyDefDetect: Multi-Agent Councils and Absence-Based Reasoning for Defense Mechanism Classification

Dima Galat, Marian-Andrei Rizoiu

发表机构 * University of Technology Sydney（技术大学悉尼）

AI总结本文介绍了一种用于情感支持对话中心理防御机制分类的系统，基于防御机制评分量表（DMRS），在64支队伍中排名第二（F1值为0.406）。研究核心在于将防御机制定义为缺失的方面（如情感缺失、认知阻滞、现实否认），并通过情感-认知整合光谱在提示级别的临床规则中进行编码，显著提升了分类性能。系统采用多阶段的Gemini 2.5代理委员会架构，通过类特定倡导者评估证据强度而非简单投票，无需微调即取得良好效果，最终结合三个微调Qwen3.5模型的定向覆盖策略进一步提升了性能。

2605.09271 2026-05-13 cs.AI

Shaping Schema via Language Representation as the Next Frontier for LLM Intelligence Expanding

Zhiqin Yang, Yuhan Liu, Jingwen Fu, Pei Fu, Bo Han, Masashi Sugiyama, Nanning Zheng

发表机构 * The Hong Kong University of Science and Technology（香港理工大学）； MiLM Plus, Xiaomi Inc（小米公司）； Zhongguancun Academy（中关村学院）； Hong Kong Baptist University（香港 Baptist大学）； The University of Tokyo（东京大学）； RIKEN Center for Advanced Intelligence Project（日本理化学研究院高级智能项目中心）； Xi’an Jiaotong University（西安交通大学）

AI总结尽管自然语言是大语言模型（LLM）的默认输入媒介，但其表达能力的局限性在复杂问题求解中形成了瓶颈。本文提出，通过先进的语言表征来构建知识框架（schema）是拓展LLM智能的下一步关键方向，并论证了语言表征的结构和符号复杂性对模型知识激活与组织方式的重要影响。研究通过理论阐述与实验验证，展示了精心设计的语言表征能够在不改变模型参数或规模的前提下显著提升模型性能，为未来研究提供了新的思路和方向。

Comments 41 pages, 30 figures

2605.09266 2026-05-13 cs.AI

SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning

Kun Xiang, Terry Jingchen Zhang, Zirong Liu, Bokai Zhou, Yueling Tang, Junjie Yu, Jiacong Lu, Shangrui Huang, Heng Li, Likui Zhang, Kunkun Liu, Changzheng Zhang, Yangle Fang, Boqiang Guo, Hui-Ling Zhen, Dandan Tu, Yinya Huang, Xiaodan Liang

发表机构 * Sun Yat-sen University（中山大学）； ETH Zurich（苏黎世联邦理工学院）； ETH AI Center（苏黎世人工智能中心）； Huawei Technologies Ltd（华为技术有限公司）

AI总结本文提出 SeePhys Pro，一个用于研究多模态模型在文本向图像逐步转移信息时是否保持相同推理能力的细粒度基准。该基准包含每个问题的四个语义对齐的变体，视觉元素逐步增加，实验表明当前前沿模型在从语言到图表的信息转移过程中性能下降，视觉变量的 grounding 是关键瓶颈。研究进一步通过盲训练等方法分析模型改进的来源，发现部分提升可能源于文本残留线索而非真实视觉证据，强调多模态推理评估应关注模态迁移下的鲁棒性及对关键视觉证据的依赖性。

2605.09236 2026-05-13 cs.CL cs.AI cs.CY cs.DL cs.IR

Matching Meaning at Scale: Evaluating Semantic Search for 18th-Century Intellectual History through the Case of Locke

Yu Wu, Ananth Mahadevan, Filip Ginter, Michael Mathioudakis, Mikko Tolonen

发表机构 * University of Helsinki（赫尔辛基大学）； TurkuNLP, University of Turku（图尔库大学TurkuNLP）； ELLIS Institute Finland（芬兰ELLIS研究所）

AI总结本文通过研究约翰·洛克思想在18世纪的传播，评估了语义搜索在分析历史语料中思想传播的有效性。研究采用基于语义分类的专家标注，检验现成语义搜索方法能否发现传统基于词汇重用方法所忽略的隐含引用。结果表明，语义搜索能检索到更多隐性思想影响，但也揭示了表面词汇重叠对检索结果的限制，突显了语义检索在历史语料分析中的潜力与局限。

Comments Accepted by NLP4DH 2026

2605.09127 2026-05-13 cs.RO

IMPACT: An Implicit Active-Set Augmented Lagrangian for Fast Contact-Implicit Trajectory Optimization

Jiayun Li, Dejian Gong, Georgia Chalvatzaki

发表机构 * PEARL Lab, Dept. of Computer Science, TU Darmstadt, Germany（图腾实验室，计算机科学系，图恩大学，德国）； Hessian.AI, Darmstadt, Germany（海森AI，图恩，德国）； Robotics Institute Germany (RIG)（德国机器人研究所（RIG））

AI总结 IMPACT 是一种用于接触隐式轨迹优化（CITO）的隐式增广拉格朗日方法，旨在高效求解包含互补约束的数学规划问题。该方法能够在轨迹优化过程中动态识别接触模式分支，从而提升求解效率与稳定性。实验表明，IMPACT 在多个基准测试中显著优于现有方法，并在实际机器人系统上实现了高质量的接触丰富任务控制。

Comments Accepted to Robotics: Science and Systems (RSS), 2026

2605.09100 2026-05-13 cs.CL

GRC: Unifying Reasoning-Driven Generation, Retrieval and Compression

Zhongtao Miao, Qiyu Wu, Yoshimasa Tsuruoka

发表机构 * The University of Tokyo（东京大学）

AI总结本文提出了一种名为GRC的统一训练框架，旨在将推理驱动的生成、文本表示和上下文压缩任务整合到大型语言模型的一次前向传播中。通过引入元潜在标记和统一的生成、表征与压缩调优方法，GRC实现了在单次推理过程中同时完成三个任务，并在推理时保持模块化和灵活的组合特性。该方法显著降低了检索增强生成（RAG）的部署成本，提升了训练数据利用率，并提出了自推理潜在嵌入和潜在记忆增强生成等新范式，实验结果验证了其在多个任务上的有效性。

Comments Fixed typos in Eq. 4 and GPU names; added details on hybrid paged attention implementation

2605.08804 2026-05-13 cs.RO

Constraint-Aware Diffusion Priors for High-Fidelity and Versatile Quadruped Locomotion

Jianhui Chen, Ruixin Zhan, Liu Liu, Yang Cai, Ziqiao Li

发表机构 * Alibaba Group（阿里巴巴集团）

AI总结该研究针对四足机器人高保真、多样化运动控制中的关键挑战，提出了一种基于扩散模型的约束感知运动先验框架Diff-CAST。该方法通过扩散模型强大的多模态分布建模能力，有效解决了传统GAN判别器在大规模数据集上的模式崩溃问题，并结合对称增强指令条件（SACC）和约束强化学习，实现了高保真运动意图执行与安全的硬件部署。实验表明，Diff-CAST能够有效提升运动技能的多样性与鲁棒性，支持复杂环境下的稳定行走。

2605.08463 2026-05-13 cs.AI

Behavioral Determinants of Deployed AI Agents in Social Networks: A Multi-Factor Study of Personality, Model, and Guardrail Specification

Sarah Wilson, Diem Linh Dang, Usman Ali Moazzam, Shan Ye, Gail Kaiser

发表机构 * Columbia University（哥伦比亚大学）

AI总结该研究探讨了部署在社交网络中的自主AI代理的行为决定因素，系统分析了个性设定、模型架构和操作规则等多因素对代理社交行为的影响。通过在模拟社交平台Moltbook上部署13个OpenClaw代理，并对比一个默认控制代理，研究发现个性设定是影响代理行为的最主要因素，而模型和规则则对语言风格和话题参与度产生中等程度的影响。该研究为构建用于协作或监控任务的AI代理提供了实证依据和设计指导。

2605.08434 2026-05-13 cs.RO

Failing Forward: Adaptive Failure-Informed Learning for Vision-Language-Action Models

Meng Zheng, Samhita Marri, Anwesa Choudhuri, Benjamin Planche, Zhongpai Gao, Van Nguyen Nguyen, Terrence Chen, Girish Chowdhary, Ziyan Wu

发表机构 * United Imaging Intelligence（联合影像智能）； University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）

AI总结视觉-语言-动作（VLA）模型为机器人操作提供了可扩展的范式，但其仅依赖成功示例的行为克隆方法使其在面对执行误差时容易失效。为此，本文提出了一种自适应失败感知学习（AFIL）框架，通过在线生成失败轨迹作为负向引导，提升VLA策略的鲁棒性。该方法结合扩散模型与流模型，利用预训练VLA生成失败样本，并通过共享视觉-语言主干的双动作生成器联合训练，实现高效、低参数开销的失败感知策略学习，实验表明其在多种机器人操作任务中显著提升了成功率与鲁棒性。

2605.08133 2026-05-13 cs.CV cs.AI

VLADriver-RAG: Retrieval-Augmented Vision-Language-Action Models for Autonomous Driving

Rui Zhao, Haofeng Hu, Zhenhai Gao, Jiaqiao Liu, Gao Fei

发表机构 * College of Automotive Engineering（汽车工程学院）； The National Key Laboratory of Automotive Chassis Integration and Bionics（汽车底盘集成与生物力学国家级重点实验室）； ReeFocus AI Technology（ReeFocus人工智能技术）

AI总结本文提出了一种名为 VLADriver-RAG 的检索增强型视觉-语言-动作模型，用于自动驾驶任务。该模型通过引入结构感知的历史知识检索机制，解决了传统 VLA 模型在长尾场景中泛化能力不足的问题。研究通过将视觉输入转化为时空语义图，并采用场景对齐的嵌入模型提升检索相关性，最终在 Bench2Drive 基准测试中取得了新的最优性能，驾驶评分为 89.12。

2605.07637 2026-05-13 cs.AI cs.LG cs.MA

Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding

Valeriy Vyaltsev, Alsu Sagirova, Anton Andreychuk, Oleg Bulichev, Yuri Kuratov, Konstantin Yakovlev, Aleksandr Panov, Alexey Skrynnik

发表机构 * GitHub

AI总结本文研究了大规模多智能体路径规划（MAPF）问题，旨在提高多智能体在共享环境中的协同效率。为解决该问题，作者提出了一种基于强化学习的去中心化方法，并引入了一个可学习的局部通信模块，使邻近智能体能够通过多轮通信交换信息、提升协作能力。实验表明，该方法在多种未见过的测试场景中优于现有基于模仿学习和强化学习的MAPF求解器，同时保持了良好的可扩展性。

2605.07076 2026-05-13 cs.CL cs.LG

Self-Consolidating Language Models: Continual Knowledge Incorporation from Context

Zekun Wang, Anant Gupta, Zihan Dong, Christopher J. MacLellan

发表机构 * Georgia Institute of Technology（佐治亚理工学院）

AI总结本文研究了大型语言模型在连续接收信息流时如何有效整合新知识的问题，提出了一种名为SCoL的后训练框架，该框架使模型能够根据当前上下文生成更新指令，选择性地更新自身Transformer层的参数，从而在保留已有知识的同时引入新信息。通过元强化学习和监督奖励机制，SCoL在知识整合和长期记忆保持方面优于多种基线方法，并表现出良好的可扩展性。

Comments 9 pages

AI 大模型

视觉与机器人

科学与医疗