arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.13838 2026-05-15 cs.CV cs.GR cs.LG

R-DMesh: Video-Guided 3D Animation via Rectified Dynamic Mesh Flow

Zijie Wu, Lixin Xu, Puhua Jiang, Sicong Liu, Chunchao Guo, Xiang Bai

发表机构 * Huazhong University of Science and Technology（华中科技大学）； Tencent Hunyuan（腾讯混元）

AI总结 R-DMesh 是一种用于视频引导的三维动画生成方法，旨在解决静态网格与参考视频初始姿态不匹配导致的动画失真问题。该方法通过引入条件变分自编码器和三流注意力机制，将输入网格分解为基准形态、相对运动轨迹和姿态校正偏移，并在动画前自动对齐初始姿态，从而生成高保真的四维网格。研究还构建了大规模数据集 Video-RDMesh，实验表明该方法在姿态重定向和四维生成等任务中表现出色。

Comments Accepted by SIGGRAPH 2026, Project Page: https://r-dmesh.github.io/ Code URL: https://github.com/Tencent-Hunyuan/R-DMesh

详情

DOI: 10.1145/3799902.3811135

英文摘要

Video-guided 3D animation holds immense potential for content creation, offering intuitive and precise control over dynamic assets. However, practical deployment faces a critical yet frequently overlooked hurdle: the pose misalignment dilemma. In real-world scenarios, the initial pose of a user-provided static mesh rarely aligns with the starting frame of a reference video. Naively forcing a mesh to follow a mismatched trajectory inevitably leads to severe geometric distortion or animation failure. To address this, we present Rectified Dynamic Mesh (R-DMesh), a unified framework designed to generate high-fidelity 4D meshes that are ``rectified'' to align with video context. Unlike standard motion transfer approaches, our method introduces a novel VAE that explicitly disentangles the input into a conditional base mesh, relative motion trajectories, and a crucial rectification jump offset. This offset is learned to automatically transform the arbitrary pose of the input mesh to match the video's initial state before animation begins. We process these components via a Triflow Attention mechanism, which leverages vertex-wise geometric features to modulate the three orthogonal flows, ensuring physical consistency and local rigidity during the rectification and animation process. For generation, we employ a Rectified Flow-based Diffusion Transformer conditioned on pre-trained video latents, effectively transferring rich spatio-temporal priors to the 3D domain. To support this task, we construct Video-RDMesh, a large-scale dataset of over 500k dynamic mesh sequences specifically curated to simulate pose misalignment. Extensive experiments demonstrate that R-DMesh not only solves the alignment problem but also enables robust downstream applications, including pose retargeting and holistic 4D generation.

URL PDF HTML ☆

赞 0 踩 0

2605.13789 2026-05-15 cs.LG cs.AI q-bio.BM

ENSEMBITS: an alphabet of protein conformational ensembles

Kaiwen Shi, Carlos Oliver

发表机构 * Department of Computer Science, Vanderbilt University（范德比尔特大学计算机科学系）； Center for AI in Protein Dynamics, Vanderbilt University（蛋白质动力学中的人工智能中心，范德比尔特大学）； Department of Molecular Physiology and Biophysics, Vanderbilt University（分子生理学与生物物理学系，范德比尔特大学）

AI总结本文提出了一种名为 Ensembits 的新型蛋白质构象集合分词器，旨在解决现有分词器无法捕捉蛋白质动态构象变化的问题。该方法通过引入残差 VQ-VAE 模型和帧蒸馏目标函数，能够有效编码不同构象间的几何特征和动态变化，实现对蛋白质运动状态的精确描述。Ensembits 在多个任务中表现出色，包括 RMSF 预测、功能注释和突变效应预测等，并且在数据量远少于静态分词器的情况下仍能取得优异性能，为蛋白质语言建模和设计提供了重要的动态词汇基础。

2605.13748 2026-05-15 cs.RO cs.SY eess.SY math.OC

TinySDP: Real Time Semidefinite Optimization for Certifiable and Agile Edge Robotics

Ishaan Mahajan, Jon Arrizabalaga, Andrea Grillo, Fausto Vega, James Anderson, Zachary Manchester, Brian Plancher

发表机构 * A2R-Lab（A2R实验室）

AI总结本文提出了一种名为TinySDP的实时半定规划求解器，旨在解决资源受限嵌入式系统中实时控制的计算瓶颈问题。该方法通过将半正定锥投影整合到基于缓存Riccati的ADMM求解器中，实现了在微控制器上高效求解具有非凸障碍约束的模型预测控制问题。此外，TinySDP引入了后验秩-1证书，将松弛解转化为每时每刻的几何保证，实验表明其在复杂场景下相比现有方法路径更短且避障效果更优，已在无人机系统中得到验证。

Comments Accepted to Robotics: Science and Systems (RSS) 2026. 11 pages, 5 figures, 2 tables. Project website: https://a2r-lab.org/TinySDP/

2605.13369 2026-05-15 cs.CL cs.AI cs.LG

Query-Conditioned Test-Time Self-Training for Large Language Models

Chaehee Song, Minseok Seo, Yeeun Seong, Doyi Kim, Changick Kim

发表机构 * School of Electrical Engineering, KAIST（韩国科学技术院电子工程学院）； Graduate School of Green Growth and Sustainability, KAIST（韩国科学技术院可持续增长与绿色发展研究生院）

AI总结本文提出了一种名为 QueST 的查询条件化测试时自训练框架，用于在推理过程中根据输入查询动态调整大语言模型的参数，以提升模型对特定问题的适应能力。核心思想是利用输入查询中隐含的结构信息生成相关的“问题-解答”对，作为测试时参数高效微调的监督信号，从而无需外部数据即可实现模型的查询特异性优化。实验表明，QueST 在多个数学和科学推理基准上优于现有的测试时优化方法，验证了该方法的有效性与实用性。

Comments 17 pages, 7 figures

2605.13276 2026-05-15 cs.AI cs.RO

D-VLA: A High-Concurrency Distributed Asynchronous Reinforcement Learning Framework for Vision-Language-Action Models

Yucheng Guo, Yongjian Guo, Zhong Guan, Wen Huang, Haoran Sun, Haodong Yue, Xiaolong Xiang, Shuai Di, Zhen Sun, Luqiao Wang, Junwu Xiong, Yicheng Gong

发表机构 * Tsinghua University（清华大学）； Peking University（北京大学）； Tianjin University（天津大学）； Beihang University（北航）； JDT AI Infra（京东AI基础设施）

AI总结随着具身人工智能的快速发展，视觉-语言-动作（VLA）模型在多模态感知和任务执行方面表现出色，但在大规模分布式环境中应用强化学习（RL）时面临系统瓶颈，主要源于高保真物理仿真与深度学习对显存和带宽的高需求之间的资源冲突。为解决这一问题，本文提出D-VLA，一种高并发、低延迟的分布式RL框架，通过“平面解耦”和“泳道”异步流水线等创新设计，有效分离训练数据与模型优化过程，实现采样、推理、梯度计算和参数分发的全并行重叠，显著提升了大规模VLA模型的训练吞吐量和采样效率。

2605.13247 2026-05-15 cs.LG

EMO: Frustratingly Easy Progressive Training of Extendable MoE

Linghao Jin, Chufan Shi, Huijuan Wang, Nuan Wen, Zhengzhong Liu, Eric Xing, Xuezhe Ma

发表机构 * USC-ISI（USC- ISI）； MBZUAI-IFM

AI总结本文提出了一种名为EMO的渐进式训练框架，用于可扩展的稀疏混合专家（MoE）模型。该方法通过在训练过程中逐步扩展专家池，解决了传统MoE训练中因过早分配过多专家而导致的内存和通信开销过大的问题。EMO基于扩展定律建模稀疏性，为渐进式扩展设计了计算最优的token预算，实验表明其在保持模型性能的同时显著提升了训练效率和资源利用率。

2605.13084 2026-05-15 cs.CL cs.AI

Does language matter for spoken word classification? A multilingual generative meta-learning approach

Batsirayi Mupamhi Ziki, Louise Beyers, Ruan van der Merwe

发表机构 * Bytefuse

AI总结本文研究了语言因素在少样本语音词分类中的影响，提出了一种基于生成式元学习的多语言方法。该方法通过生成元持续学习算法，在英语、德语、法语和加泰罗尼亚语等多语言环境下进行训练，发现多语言模型表现最佳，但不同模型之间的性能差异较小。研究还表明，训练数据的独特小时数比语言数量更能反映模型性能。

2605.13050 2026-05-15 cs.CL cs.AI

Context Training with Active Information Seeking

Zeyu Huang, Adhiguna Kuncoro, Qixuan Feng, Jiajun Shen, Lucio Dery, Arthur Szlam, Marc'Aurelio Ranzato

发表机构 * The University of Edinburgh（爱丁堡大学）

AI总结本文研究了如何通过主动信息检索提升大型语言模型在新任务中的适应能力。不同于传统依赖模型内部知识的封闭式方法，作者为上下文优化器引入了维基百科搜索和浏览器工具，以主动获取外部信息。通过设计一种基于搜索的训练流程，有效维护和剪枝多个候选上下文，显著提升了模型在低资源翻译、医疗场景和复杂推理等任务中的表现，同时表现出良好的数据效率和泛化能力。

Comments Preprint

2605.13032 2026-05-15 cs.LG

What Information Matters? Graph Out-of-Distribution Detection via Tri-Component Information Decomposition

Danny Wang, Ruihong Qiu, Zi Huang

发表机构 * The University of Queensland, Australia（昆士兰大学）

AI总结图神经网络在节点分类任务中广泛应用，但在面对节点特征或图结构的分布外（OOD）变化时表现脆弱。为解决这一问题，本文提出了一种名为TIDE的三组件信息分解框架，将信息显式分解为特征相关、结构相关和联合组件，旨在保留与标签相关的联合信息，同时过滤掉虚假的特征和结构信息，从而增强对分布内（ID）和分布外（OOD）节点的区分能力。实验表明，TIDE在多个数据集上显著提升了OOD检测性能，同时保持了较高的ID分类准确率。

Comments ICML26

2605.12998 2026-05-15 cs.LG

DRIFT: A Benchmark for Task-Free Continual Graph Learning with Continuous Distribution Shifts

Guiquan Sun, Xikun Zhang, Jingchao Ni, Dongjin Song

发表机构 * University of Connecticut（康涅狄格大学）； RMIT University（皇家墨尔本理工大学）； University of Houston（休斯敦大学）

AI总结本文提出DRIFT，一个用于无任务划分持续图学习的基准，旨在应对现实环境中连续分布漂移的挑战。传统持续图学习方法通常基于离散任务划分，而DRIFT则从无任务视角出发，将数据流建模为随时间变化的潜在任务分布混合，从而支持对分布漂移的连续建模。通过高斯参数化，DRIFT覆盖了从剧烈任务切换到平滑分布漂移的多种过渡动态，并揭示了现有方法在无任务划分场景下的性能下降问题，突显了研究真实非平稳条件下持续图学习的重要性。

Comments 20 pages, 5 figures

2605.12968 2026-05-15 cs.LG cs.AI cs.CL cs.LO

Controlling Logical Collapse in LLMs via Algebraic Ontology Projection over F2

Hisashi Miyashita, Mgnite Inc

发表机构 * Mgnite Inc（Mgnite公司）

AI总结该研究探讨了大语言模型是否在内部以可形式验证的代数结构编码本体关系，并提出了一种代数本体投影（AOP）方法，通过在有限域F2上投影隐藏状态，仅使用42对关系作为代数密钥，实现了高达93.33%的零样本包含准确率。研究还引入了语义结晶度（SC）指标，用于量化模型满足F2约束的程度，并揭示了系统提示在防止模型深层逻辑崩溃中的关键作用，为理解大语言模型的逻辑结构提供了新的代数视角。

2605.12856 2026-05-15 cs.AI cs.SI

Moltbook Moderation: Uncovering Hidden Intent Through Multi-Turn Dialogue

Ali Al-Lawati, Nafis Tripto, Abolfazl Ansari, Jason Lucas, Suhang Wang, Dongwon Lee

发表机构 * The Pennsylvania State University（宾夕法尼亚州立大学）

AI总结本文研究了多智能体系统中隐藏恶意意图的检测问题，提出了基于智能体意图而非内容特征的 moderation 框架 BOT-MOD。该方法通过多轮对话和基于 Gibbs 采样的假设引导，逐步识别智能体的真实意图，有效区分良性与恶意行为。实验基于 Moltbook 构建的数据集验证了方法的有效性，能够在多种对抗场景下准确识别意图，同时保持较低的误报率，为开放多智能体环境中的意图感知 moderation 提供了新思路。

2605.12808 2026-05-15 cs.LG

Neurodata Without Boredom: Benchmarking Agentic AI for Data Reuse

Ling-Qi Zhang, Kristin Branson

发表机构 * HHMI Janelia Research Campus（HHMI贾能利亚研究中心）

AI总结该研究针对神经科学数据碎片化、格式多样且难以复用的问题，探索利用代理AI（Agentic AI）提升数据重用效率的潜力。研究通过八个包含数据和代码的实验论文，评估了通用编程代理在加载、理解和重新格式化神经数据以训练解码器任务中的表现，发现尽管代理在子任务上表现良好，但难以实现端到端无误的解决方案。研究分析了代理的常见错误类型及其触发因素，并提出了适用于代理AI时代的数据共享最佳实践，同时指出代理作为评判者在缺乏真实参考的情况下可靠性有限，强调了人机协作在代码开发中的必要性。

Comments v2: Added forgotten acknowledgments section

2605.12784 2026-05-15 cs.LG cs.NE q-bio.QM

ToolMol: Evolutionary Agentic Framework for Multi-objective Drug Discovery

Andrew Y. Zhou, Sharvaree Vadgama, Sumanth Varambally, Peter Eckmann, Michael K. Gilson, Rose Yu

发表机构 * Department of Computer Science（计算机科学系）； Skaggs School of Pharmacy（斯卡格斯药学院）； Department of Computer Science, Stanford University（斯坦福大学计算机科学系）

AI总结该研究提出了一种名为ToolMol的进化智能代理框架，用于多目标药物分子设计。该框架结合多目标遗传算法和基于大语言模型的智能代理操作符，通过迭代更新分子种群，实现对药物分子的高效优化。ToolMol引入了基于RDKit的工具箱，支持精确的分子结构修改，并在多个蛋白质靶点上表现出色，其生成的分子在结合亲和力和绝对结合自由能等关键指标上均优于现有方法。

Comments 9 pages, 5 figures

2605.12651 2026-05-15 cs.LG

Runtime Monitoring of Perception-Based Autonomous Systems via Embedding Temporal Logic

Parv Kapoor, Abigail Hammer, Ashish Kapoor, Karen Leung, Eunsuk Kang

发表机构 * Software and Societal Systems Department（软件与社会系统部门）； Carnegie Mellon University（卡内基梅隆大学）； General Robotics（通用机器人）； Aeronautics and Astronautics Department（航空与航天系）； University of Washington（华盛顿大学）

AI总结本文提出了一种名为嵌入时序逻辑（ETL）的新方法，用于对基于感知的自主系统进行运行时监控。传统方法依赖于将连续传感器观测映射到低维状态变量定义的离散逻辑命题，但在感知驱动的场景中，这种方法存在计算开销大、鲁棒性差和语义不一致等问题。ETL 直接在学习得到的嵌入空间中进行监控，通过观测嵌入与参考观测嵌入之间的距离定义谓词，从而能够表达如视觉目标相似性或语义区域规避等高层感知概念，并通过时序算子组合这些谓词，自然地描述时序感知行为。实验表明，ETL 在多个操作环境中能够准确捕捉真实语义并实现对时序行为的有效监控。

2605.12534 2026-05-15 cs.SD cs.LG q-bio.NC

BioSEN: A Bio-acoustic Signal Enhancement Network for Animal Vocalizations

Tianyu Song, Ton Viet Ta, Ngamta Thamwattana, Hisako Nomura, Linh Thi Hoai Nguyen

发表机构 * Graduate School of Bioresource and Bioenvironmental Science, Kyushu University（九州大学生物资源与生物环境科学研究生院）； Faculty of Agriculture, Kyushu University（九州大学农学部）； School of Information and Physical Sciences, University of Newcastle（新castle大学信息与物理科学学院）； International Institute for Carbon-Neutral Energy Research, Kyushu University（九州大学国际碳中性能源研究所）

AI总结本文提出了一种名为BioSEN的生物声学信号增强网络，旨在解决动物声音在噪声环境下增强的问题。该模型结合了语音增强方法，并针对动物声音的特点设计了三个核心模块，分别用于时频特征提取、谐波结构捕捉和能量自适应门控连接。实验结果表明，BioSEN在三个生物声学数据集上表现优异，计算量远低于现有先进模型，展示了其在生物多样性监测与保护中的应用潜力。

Journal ref ICASSP 2026 - 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

2605.12394 2026-05-15 cs.LG cs.AI

Detecting overfitting in Neural Networks during long-horizon grokking using Random Matrix Theory

Hari K. Prakash, Charles H Martin

发表机构 * University of California San Diego（加州大学圣地亚哥分校）； Data Science and Engineering（数据科学与工程）； Calculation Consulting（计算咨询）

AI总结本文提出了一种基于随机矩阵理论的新方法，用于在深度学习模型训练过程中检测过拟合现象，而无需访问训练或测试数据。该方法通过随机化每一层的权重矩阵，并拟合其经验谱分布，识别出违反自平均性的异常特征值，称为“相关陷阱”。研究发现，在长期视角下的“反直觉学习”阶段，这些陷阱会随着测试准确率下降而逐渐形成和扩大，揭示了过拟合的结构特征，并指出部分大型语言模型中也存在类似的陷阱，可能暗示潜在的过拟合风险。

Comments 24 pages, 24 figures

2605.12350 2026-05-15 cs.LG cs.AI

A New Technique for AI Explainability using Feature Association Map

Sayantani Ghosh, Amit Kumar Das, Amlan Chakrabarti

发表机构 * DBS Bank（DBS银行）； Institute of Engineering & Management（工程与管理学院）； University of Calcutta（加尔各答大学）

AI总结本文提出了一种基于特征关联图（FAM）的新型可解释人工智能算法FAMeX，用于解释AI系统的决策过程。该方法通过构建特征之间的关联图，从图论角度分析特征的重要性，从而更准确地揭示模型的决策依据。实验表明，FAMeX在分类任务中优于现有的可解释性算法如PFI和SHAP，展现出更高的解释能力和有效性。

2605.12055 2026-05-15 cs.CL

Do Language Models Encode Knowledge of Linguistic Constraint Violations?

Hardy, Sebastian Padó

发表机构 * IMS, University of Stuttgart, Stuttgart, Germany（斯图加特大学IMS研究所，斯图加特，德国）

AI总结本研究探讨了大型语言模型（LLMs）是否在其参数中编码了对语言约束违反的表征，并在处理不合语法的句子时选择性激活这些表征。研究采用稀疏自编码器分解多义激活，提取可能与违反相关的特征，并引入敏感性评分以识别这些特征在违反约束输入中的激活情况。实验结果显示，现有语言模型中并未形成统一的语法违反检测机制，不同语言现象之间也缺乏共享的特征一致性。

2605.11853 2026-05-15 cs.LG cs.AI cs.CL

GEAR: Granularity-Adaptive Advantage Reweighting for LLM Agents via Self-Distillation

Sijia Li, Yuchen Huang, Zifan Liu, Yanping Li, Jingjing Fu, Li Zhao, Jiang Bian, Ling Zhang, Jun Zhang, Rui Wang

发表机构 * Hong Kong University of Science and Technology（香港科技大学）； Microsoft Research Asia（微软亚洲研究院）

AI总结该论文提出了一种名为GEAR的粒度自适应优势重加权方法，旨在提升大语言模型代理在强化学习中的训练效果。GEAR通过自蒸馏技术，利用token级和段级信号对轨迹级优势进行重加权，从而实现更细粒度的信用分配。该方法通过比较策略网络与教师模型的差异，动态调整信用区域的粒度，有效提升了长期轨迹中的策略更新效率。实验表明，GEAR在多个数学推理和工具使用基准中优于现有方法，尤其在基础较弱的基准上表现突出。

2605.11775 2026-05-15 cs.LG cs.CL

Entropy Polarity in Reinforcement Fine-Tuning: Direction, Asymmetry, and Control

Jiazheng Zhang, Ziche Fu, Junrui Shen, Yunbin Zhao, Yunke Zhang, Zhiheng Xi, Long Ma, Chenxin An, Zhihao Zhang, Shichun Liu, Dingwei Zhu, Shihan Dou, Shaofan Liu, Han Li, Wiggin Zhou, Aiden Adams, Tao Gui, Fei Huang, Qi Zhang, Xuanjing Huang

发表机构 * Fudan NLP Group（复旦大学自然语言处理组）； Honor Device Co Ltd（荣誉设备有限公司）； University of Hong Kong（香港大学）； Shanghai Jiao Tong University（上海交通大学）； Tencent Hunyuan（腾讯文心）

AI总结本文研究了强化学习中策略熵的极性特性，提出了熵极性这一新的概念，用于预测策略更新对熵的影响方向。通过理论分析，揭示了熵变化的结构不对称性，并基于此提出了一种新的策略优化方法PAPO，通过优势重加权实现对熵的精确控制。实验表明，PAPO在数学推理和智能体基准任务中表现出更优的训练效率和奖励提升效果。

2605.11611 2026-05-15 cs.AI

CuSearch: Curriculum Rollout Sampling via Search Depth for Agentic RAG

Jianghan Shen, Siqi Luo, Xinyu Cheng, Jing Xiong, Yue Li, Jiyao Liu, Jiashi Lin, Yirong Chen, Junjun He

发表机构 * Nanjing University（南京大学）； Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）； Peking University（北京大学）； University of Hong Kong（香港大学）

AI总结本文提出了一种名为 CuSearch 的课程式 rollout 采样框架，用于改进基于可验证奖励的强化学习（RLVR）中智能体检索增强生成（RAG）系统的训练。该方法通过搜索深度（search depth）来动态调整 rollout 采样策略，更关注那些包含更多检索决策点、提供更密集监督的深层搜索轨迹。实验表明，CuSearch 能够显著提升不同模型和检索框架下的性能，为 RLVR 训练提供了一种无需人工标注的有效优化手段。

2605.11459 2026-05-15 cs.RO cs.AI cs.CV cs.LG

Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

Yanyan Zhang, Chaoda Song, Vikash Singh, Xinpeng Li, Kai Ye, Zhe Hu, Zhongzhu Pu, Yu Yin, Vipin Chaudhary

发表机构 * Case Western Reserve University（凯斯西储大学）； The Hong Kong Polytechnic University（香港理工大学）； Tsinghua University（清华大学）； InspireOmni AI

AI总结视觉-语言-动作（VLA）模型在灵活性和泛化能力方面表现出色，但大多数现有模型由于采用单帧观测范式，无法感知时间动态变化，导致在非静态环境中性能显著下降。本文提出了一种无需训练的“节奏与路径校正”方法，通过在推理阶段对分块动作的VLA模型进行闭式修正，有效补偿动态变化带来的影响。该方法从单一二次成本函数出发，通过联合优化得到两个正交分解的通道，分别用于压缩执行节奏和调整空间路径，从而在动态环境中显著提升任务成功率。

2605.11410 2026-05-15 cs.AI

What Do EEG Foundation Models Capture from Human Brain Signals?

Ling Tang, Qian Chen, Jilin Mei, Houshi Xu, Quanshi Zhang, Jing Shao, Na Zou, Xia Hu, Dongrui Liu

发表机构 * Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）； Shanghai Jiao Tong University（上海交通大学）； Fudan University（复旦大学）； Tongji University（同济大学）； University of Houston（休斯顿大学）

AI总结该研究探讨了EEG基础模型从人类脑电信号中学习到了哪些信息，并分析了其表征与传统手工特征之间的关系。通过层间岭回归、跨协方差子空间擦除等方法，研究发现EEG基础模型在多个临床任务中表现出色，其优势主要来源于频率域特征及其他多种手工特征的组合。研究还揭示了不同任务中模型性能的差异，并为未来特征发现提供了明确方向。

2605.10664 2026-05-15 cs.CL cs.AI

Prompt-Activation Duality: Improving Activation Steering via Attention-Level Interventions

Diancheng Kang, Zheyuan Liu, Ningshan Ma, Yue Huang, Zhaoxuan Tan, Meng Jiang

发表机构 * Southern University of Science and Technology（南方科技大学）； University of Notre Dame（Notre Dame 大学）； Massachusetts Institute of Technology（麻省理工学院）

AI总结该论文研究了如何在对话场景中更有效地控制语言模型的行为，提出了一种新的激活引导方法，以解决传统方法在长对话中累积失效的问题。作者发现，键值缓存污染是导致引导效果下降的主要原因，并提出了一种基于门控裁剪注意力差值的引导方法（GCAD），通过系统提示对自注意力机制的影响进行引导信号提取，并在词元级别进行门控处理。实验表明，该方法在保持角色特征控制的同时，显著提升了长对话中的连贯性与角色表现能力。

Comments 23 pages, 5 figures. This paper proposes GCAD, an attention-level activation steering method for more stable multi-turn behavior control

2605.10550 2026-05-15 cs.CL

Multi-domain Multi-modal Document Classification Benchmark with a Multi-level Taxonomy

Denghao Ma, Qing Liu, Zulong Chen, Chuanfei Xu, Jia Xu, Zhibo Yang, Wei Shao, Zhao Li

发表机构 * Beijing Information Science and Technology University（北京信息科学与技术大学）； Alibaba Group（阿里巴巴集团）； Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ)（广东人工智能与数字经济实验室（深圳））； Guangzhou University（广州大学）； Zhejiang Lab（浙江实验室）

AI总结本文提出一个名为MMM-Bench的多领域、多模态文档分类基准，旨在解决现有文档分类基准过于简化的问题。该基准构建了一个包含五个层级的深度分类体系，并收集了来自阿里巴巴12个商业领域的5990份真实多模态文档，每份文档均由领域专家标注完整的层次路径。研究通过建立全面的基线模型，系统分析了该基准中的四个核心挑战，并提出了相应的研究见解，为多层级、多领域文档分类的研究提供了坚实的基础。

2605.10496 2026-05-15 cs.CV

M$^2$E-UAV: A Benchmark and Analysis for Onboard Motion-on-Motion Event-Based Tiny UAV Detection

Weiqi Yan, Lixin Chen, Xiangrui Hou, Zhipeng Cai, Youbiao Wang, Yangyang Shi, Yu Zang, Cheng Wang

发表机构 * Fujian Key Laboratory of Urban Intelligent Sensing and Computing, School of Informatics, Xiamen University, Xiamen, China（福建城市智能感知与计算重点实验室，厦门大学信息学院，厦门，中国）； Meta, Menlo Park, USA（Meta，Menlo Park，美国）

AI总结本文提出M$^2$E-UAV，首个针对运动中事件相机的微型无人机检测数据集与基准，旨在解决在观察者与目标同时运动的情境下，无人机检测面临的背景事件干扰严重、目标稀疏等问题。该数据集包含同步的事件流和IMU数据，并提供了基于时间传播的无人机前景标注，适用于多种表示方法的模型评估。实验表明，现有方法在面对稀疏目标和密集背景事件时仍存在较大局限。

2605.10364 2026-05-15 cs.LG

DeepLévy: Learning Heavy-Tailed Uncertainty in Highly Volatile Time Series

Yang Yang, Du Yin, Hao Xue, Flora Salim

发表机构 * University of New South Wales（新南威尔士大学）； The Hong Kong University of Science and Technology (Guangzhou)（香港科技大学（广州））

AI总结本文研究了在具有重尾分布的高波动时间序列中建模不确定性这一关键问题，提出了一个名为DeepLévy的深度学习框架。该方法利用Lévy稳定分布的特性，通过最小化经验特征函数与参数化特征函数之间的差异来学习混合Lévy分布，从而有效捕捉极端事件的不确定性。实验表明，DeepLévy在尾部风险指标上优于现有先进方法，尤其在高波动环境下表现突出。

2605.10310 2026-05-15 cs.AI cs.CY cs.HC q-bio.NC

Positive Alignment: Artificial Intelligence for Human Flourishing

Ruben Laukkonen, Seb Krier, Chloé Bakalar, Shamil Chandaria, Morten Kringelbach, Adam Elwood, Daniel Ford, Fernando Rosas, Maty Bohacek, Matija Franklin, Nenad Tomašev, Stephanie Chan, Verena Rieser, Roma Patel, Michael Levin, Arun Rao

发表机构 * Department of Psychiatry, University of Oxford（牛津大学精神病学系）； Flourishing Intelligence Program, Centre for Eudaimonia and Human Flourishing, Linacre College, University of Oxford（牛津大学幸福智能计划、幸福与人类繁荣中心、林acre学院）； Google DeepMind（谷歌DeepMind）； LIFE ； OpenAI ； Anthropic ； University of California, Los Angeles（加州大学洛杉矶分校）； Aily Labs（Aily实验室）； Stanford University（斯坦福大学）； Tufts University（塔夫茨大学）； Positive AI Labs（积极AI实验室）； Department of Informatics, University of Sussex（Sussex大学信息学系）； Department of Brain Sciences, Imperial College London（伦敦帝国理工学院脑科学系）

AI总结本文提出“积极对齐”（Positive Alignment）的概念，旨在开发能够主动支持人类和生态繁荣的人工智能系统，同时保持安全与合作。与现有聚焦于安全与风险防范的对齐研究不同，积极对齐强调系统应具备多元、去中心化、情境敏感及用户主导的特性，并通过培养美德、促进人类福祉来解决当前对齐中的诸多问题。文章还提出了在大语言模型和智能体生命周期中的一系列技术方向与设计原则，以推动分歧包容与去中心化治理。

2605.10289 2026-05-15 cs.LG stat.ML

Sample-Mean Anchored Thompson Sampling for Offline-to-Online Learning with Distribution Shift

Bochao Li, Yao Fu, Wei Chen, Fang Kong

发表机构 * Southern University of Science and Technology（南方科技大学）； Microsoft Research（微软研究院）

AI总结本文研究了在分布偏移场景下的离线到在线学习问题，旨在利用离线数据提升在线决策性能。为了解决传统汤普森采样（TS）在处理分布偏移时的估计偏差问题，作者提出了基于样本均值锚定的汤普森采样（Anchor-TS），通过引入中位数锚定规则，有效校正了分布偏移带来的估计偏差，提升了算法的稳定性和性能。理论分析表明该方法能够安全利用离线数据加速在线学习，并通过实验验证了其在多种场景下的优越性。

AI 大模型

视觉与机器人

科学与医疗