arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.10046 2026-05-12 cs.CV cs.LG cs.MA

PixelFlowCast: Latent-Free Precipitation Nowcasting via Pixel Mean Flows

Yufeng Zhu, Chunlei Shi, Yongchao Feng, Dan Niu

发表机构 * Department of Automation, Southeast University（东南大学自动化系）； State Key Laboratory of Virtual Reality Technology and Systems, Beihang University（北京航空航天大学虚拟现实技术与系统国家重点实验室）

AI总结本文提出了一种名为PixelFlowCast的降水临近预报方法，旨在在不使用潜在空间压缩的情况下实现高效且高精度的短期雷达回波预测。该方法采用两阶段框架，第一阶段通过确定性模型生成粗粒度预测以捕捉整体演变趋势，第二阶段利用KANCondNet提取深度时空特征进行精确条件引导，并结合基于像素均值流的预测器，以少量步骤生成高质量预测结果。实验表明，PixelFlowCast在预测精度和推理效率方面均优于现有主流方法，尤其在长序列预测任务中表现突出，具有良好的实际应用前景。

Comments 26 pages, 7 figures

2605.10045 2026-05-12 cs.CV

ExtraVAR: Stage-Aware RoPE Remapping for Resolution Extrapolation in Visual Autoregressive Models

Feihong Yan, Shaoyu Liu, Haixuan Wang, Shuai Lu, Linfeng Zhang, Huiqi Li, Xiangyang Ji

发表机构 * Beijing Institute of Technology（北京理工大学）； Xidian University（西安电子科技大学）； Northeastern University at Qinhuangdao（秦皇岛东北大学）； Shanghai Jiao Tong University（上海交通大学）； Department of Automation, Tsinghua University（清华大学自动化系）

AI总结视觉自回归（VAR）模型作为扩散模型的有力替代方案，在图像生成中表现出色，但其固定训练分辨率限制了其在更高分辨率下的直接生成能力。本文提出ExtraVAR方法，通过引入阶段感知的RoPE重映射策略，解决了VAR模型在分辨率外推过程中出现的全局重复、局部重复和细节退化等问题，并进一步提出基于熵驱动的自适应注意力校准方法，以适应高分辨率下注意力分布的变化，实验表明该方法在结构一致性和细节保真度方面均优于现有方法。

Comments 10 pages, 7 figures

2605.10044 2026-05-12 cs.LG cs.AI

Adaptive Action Chunking via Multi-Chunk Q Value Estimation

Yongjae Shin, Jongseong Chae, Seongmin Kim, Jongeui Park, Youngchul Sung

发表机构 * KAIST（韩国科学技术院）

AI总结本文提出了一种名为Adaptive Action Chunking (ACH)的新方法，用于强化学习中的动作分块问题。该方法通过基于Transformer的架构，在一次前向传播中同时估计所有候选分块长度的动作价值，从而动态调整分块长度以适应当前状态，克服了传统固定分块长度方法在不同状态和任务下性能受限的问题。实验表明，ACH在34个复杂任务中均优于固定长度基线，展现出更优的泛化能力和学习效率。

2605.10043 2026-05-12 cs.CL cs.AI

Personalizing LLMs with Binary Feedback: A Preference-Corrected Optimization Framework

Xilai Ma, Liye Zhao, Weijun Yao, Haibing Di, Wenya Wang, Jing Li

发表机构 * Harbin Institute of Technology, Shenzhen, China（哈尔滨工业大学（深圳））； Huawei Technologies Co., Ltd.（华为技术有限公司）； Nanyang Technological University（南洋理工大学）

AI总结该研究旨在通过二元反馈个性化大语言模型（LLM），以更好地对齐用户个体偏好。提出了一种基于偏好校准的优化框架C-BPO，通过将目标用户数据视为正反馈，其他用户数据作为隐式负反馈，捕捉用户间的差异。为解决偏好重叠问题，该方法基于正-未标记（PU）学习理论构建目标函数，有效去除正样本偏差，从而在保持模型通用性的同时实现更精准的个性化。实验表明，C-BPO在多种任务和模型上均优于现有方法，验证了其有效性。

Comments Accepted by ACL 2026 Main

2605.10038 2026-05-12 cs.AI

TimeClaw: A Time-Series AI Agent with Exploratory Execution Learning

Hangchen Liu, Dongyuan Li, Renhe Jiang, Jiewen Deng, Weiwei Ye, Yoshihide Sekimoto

发表机构 * The University of Tokyo（东京大学）； Southern University of Science and Technology（南方科技大学）

AI总结 TimeClaw 是一种面向时间序列分析的 AI 智能体，旨在解决任务执行中探索经验难以复用的问题。该方法通过探索、比较、提炼和重注入的四阶段循环，将探索性执行转化为可复用的分层经验，结合指标监督学习、任务感知的工具丢弃以及推理时的经验注入，提升了模型在金融、气象等领域的预测与推理能力。实验表明，TimeClaw 在多个任务上优于现有方法，突显了探索经验处理机制对科学系统性能的关键影响。

Comments Under review

2605.10035 2026-05-12 cs.AI

From Single-Step Edit Response to Multi-Step Molecular Optimization

Haojie Rao, Kun Li, Yida Xiong, Jiameng Chen, Wenbin Hu, Yizhen Zheng, Jiajun Yu, Duanhua Cao

发表机构 * School of Computer Science, Wuhan University（武汉大学计算机学院）； Department of Data Science and Artificial Intelligence, Monash University（墨尔本大学数据科学与人工智能系）； College of Computer Science and Technology, Zhejiang University（浙江大学计算机科学与技术学院）； School of Life Sciences and Technology, Tongji University（同济大学生命科学与技术学院）

AI总结该研究旨在通过分子结构编辑实现特定性质的优化，面对结构相似分子数据稀缺及决策过程需遵循化学规则的挑战。提出了一种响应导向的离散编辑优化方法，包含单步分子编辑响应预测器和多步规划器，通过指导树搜索将局部预测组合为优化路径，从而减少对外部评估的依赖，并提升了数据利用效率。

2605.10034 2026-05-12 cs.RO

Beyond Self-Play and Scale: A Behavior Benchmark for Generalization in Autonomous Driving

Aron Distelzweig, Faris Janjoš, Andreas Look, Anna Rothenhäusler, Daniel Jost, Oliver Scheel, Raghu Rajan, Daphne Cornelisse, Eugene Vinitsky, Joschka Boedecker

发表机构 * University of Freiburg（弗赖堡大学）； Bosch Center for Artificial Intelligence（博世人工智能中心）； Coburg University of Applied Sciences（科堡应用科学大学）； New York University（纽约大学）

AI总结本文提出BehaviorBench，一个用于评估自动驾驶策略泛化能力的综合性基准测试平台，旨在弥补当前大规模强化学习策略与标准评估体系之间的差距。该基准从评估体系、场景复杂度和行为多样性三个方面进行设计，支持在nuPlan等标准规划基准上评估大规模RL策略，并引入多样化的交互式交通代理以测试策略在不同行为模式下的表现。研究发现，基于纯自博弈训练的策略在面对真实交通场景时存在泛化不足的问题，并提出了一种结合策略梯度与规则规划的混合方法以提升性能。

详情

英文摘要

Recent Autonomous Driving (AD) works such as GigaFlow and PufferDrive have unlocked Reinforcement Learning (RL) at scale as a training strategy for driving policies. Yet such policies remain disconnected from established benchmarks, leaving the performance of large-scale RL for driving on standardized evaluations unknown. We present BehaviorBench -- a comprehensive test suite that closes this gap along three axes: Evaluation, Complexity, and Behavior Diversity. In terms of Evaluation, we provide an interface connecting PufferDrive to nuPlan, which, for the first time, enables policies trained via RL at scale to be evaluated on an established planning benchmark for autonomous driving. Complementarily, we offer an evaluation framework that allows planners to be benchmarked directly inside the PufferDrive simulation, at a fraction of the time. Regarding Complexity, we observe that today's standardized benchmarks are so simple that near-perfect scores are achievable by straight lane following with collision checking. We extract a meaningful, interaction-rich split from the Waymo Open Motion Dataset (WOMD) on which strong performance is impossible without multi-agent reasoning. Lastly, we address Behavior Diversity. Existing benchmarks commonly evaluate planners against a single rule-based traffic model, the Intelligent Driver Model (IDM). We provide a diverse suite of interactive traffic agents to stress-test policies under heterogeneous behaviors, beyond just using IDM. Overall, our benchmarking analysis uncovers the following insight: despite learning interactive behaviors in an emergent manner, policies trained via pure self-play under standard reward functions overfit to their training opponents and fail to generalize to other traffic agent behaviors. Building on this observation, we propose a hybrid planner that combines a PPO policy with a rule-based planner.

URL PDF HTML ☆

赞 0 踩 0

2605.10029 2026-05-12 cs.CV

Slum Detection and Density Mapping with AlphaEarth Foundations: A Representation Learning Evaluation Across 12 Global Cities

Shuyang Hou, Ziqi Liu, Haoyue Jiao, Zhangyan Xu, Xiaopu Zhang, Lutong Xie, Yaxian Qing, Jianyuan Liang, Xuefeng Guan, Huayi Wua

发表机构 * State Key Laboratory of Information Engineering in Surveying, Mapping, and Remote Sensing（信息工程测绘与遥感国家重点实验室）

AI总结该研究利用AlphaEarth Foundations（AEF）这一全球一致的高分辨率地表嵌入数据，评估其在12个全球城市中用于贫民窟检测和密度估计的性能。通过多种训练策略和辅助特征配置，研究发现同一城市跨年训练效果最佳，并揭示了AEF在区分贫民窟边界和建模像素内密度梯度方面的局限性。研究还指出POI特征对密度估计有显著提升，并展示了AEF在长期贫民窟监测中的结构保持能力。

2605.10027 2026-05-12 cs.CL cs.AI

Speech-based Psychological Crisis Assessment using LLMs

Terumi Chiba, Yang Luo, Ziyun Cui, Yongsheng Tong, Chao Zhang

发表机构 * Tsinghua University（清华大学）； Peking University Huilongguan Clinical Medical School（北京大学回龙guan临床医学院）； WHO Collaborating Centre for Research and Training in Suicide Prevention（世界卫生组织自杀预防研究与培训协作中心）

AI总结本文提出了一种基于大语言模型（LLM）的语音心理危机评估框架，旨在自动化识别通话中的心理危机等级，以提升心理热线服务的质量与效率。为更好地捕捉语音对话中的情感信号，研究引入了副语言注入方法，将识别出的非语言情感线索插入语音文本中，增强模型对语音细微情感的感知能力。同时，提出了一种增强推理的训练策略，通过生成诊断推理链作为辅助任务，提升分类性能，结合数据增强后，在三类分类任务中取得了较高的宏F1分数和准确率。

Comments 5 pages, 5 figures

2605.10026 2026-05-12 cs.CV

MUSDA: Multi-source Multi-modality Unsupervised Domain Adaptive 3D Object Detection for Autonomous Driving

Xiaohu Lu, Hamed Khatounabadi, Hayder Radha

发表机构 * Electrical and Computer Engineering（电气与计算机工程）； Michigan State University（密歇根州立大学）

AI总结随着自动驾驶技术的发展，多模态标注数据集日益丰富，为无需人工标注即可适应新环境的3D目标检测提供了可能。然而传统领域自适应方法通常仅针对单一来源或单一模态，难以应对多源多模态场景。本文提出了一种面向自动驾驶的多源多模态无监督领域自适应3D目标检测框架，通过引入分层空间条件领域分类器和原型图加权融合策略，有效对齐了不同来源和模态的特征，实验表明该方法在多个主流数据集上均优于现有先进方法。

2605.10025 2026-05-12 cs.CL cs.AI

Medical Incident Causal Factors and Preventive Measures Generation Using Tag-based Example Selection in Few-shot Learning

Yuna Haseyama, Tomoki Ito, Hiroki Sakaji, Itsuki Noda

发表机构 * Graduate School of Information Science（信息科学研究生院）； Technology Hokkaido University Hokkaido, Japan（技术 Hokkaido 大学 Hokkaido, Japan）； National Institute of Information（信息国家研究所）； Faculty of Information Science（信息科学学院）

AI总结在医疗等高风险领域，大型语言模型（LLM）生成临床见解的可靠性至关重要。本文提出了一种基于标签的少样本示例选择方法，用于引导LLM从医疗事件描述中生成背景/因果因素和预防措施。实验使用日本医疗事件数据集（JMID），结果表明，基于标签的示例选择方法在生成精度和稳定性方面优于随机采样和基于相似度的方法，为提升临床LLM应用的可靠性提供了有效策略。

2605.10020 2026-05-12 cs.LG

TrajDLM: Topology-Aware Block Diffusion Language Model for Trajectory Generation

Wilson Wongso, Lihuan Li, Arian Prabowo, Xiachong Lin, Baiyu Chen, Hao Xue, Flora D. Salim

发表机构 * University of New South Wales（新南威尔士大学）； Hong Kong University of Science and Technology (Guangzhou)（香港科学与技术大学（广州））

AI总结生成高保真合成GPS轨迹在交通、城市规划和情景模拟等领域日益重要，但现有方法在生成效率与道路网络拓扑结构的忠实度之间存在矛盾。本文提出TrajDLM，一种基于块扩散语言模型的拓扑感知轨迹生成框架，通过将轨迹建模为离散道路段序列，并结合拓扑感知嵌入与约束采样，在保证轨迹真实性的同时显著提升生成速度。实验表明，TrajDLM在多个城市规模数据集上表现出优异的局部相似性性能，且比现有方法快2.8倍，同时具备跨领域零样本迁移能力。

2605.10019 2026-05-12 cs.LG cs.AI cs.CC stat.ML

The two clocks and the innovation window: When and how generative models learn rules

Binxu Wang, Emma Lucia Byrnes Finn, Bingbin Liu

发表机构 * Kempner Institute at Harvard University（哈佛大学凯普纳研究所）

AI总结该论文研究了生成模型在有限数据下学习规则时所面临的基本矛盾，即模型的训练目标使其更倾向于拟合经验分布而非目标分布。通过引入两个关键时间点——规则生效时间 $τ_{\mathrm{rule}}$ 和记忆重现时间 $τ_{\mathrm{mem}}$，论文分析了生成模型何时开始生成符合规则的样本以及何时开始复制训练数据。研究发现，这两个时间点受规则复杂度、模型容量和数据规模等因素影响，并定义了“创新窗口”作为模型真正创新的时期，揭示了生成模型在不同架构下学习规则的共性与差异。

Comments 48 pages, 28 figures. Earlier versions are presented in NeurIPS2025 SPIGM workshop as oral presentation https://openreview.net/forum?id=LjqX8OhPPi

2605.10018 2026-05-12 cs.LG

The Value of Mechanistic Priors in Sequential Decision Making

Itai Shufaro, Gal Benor, Shie Mannor

发表机构 * Technion（技术学院）； NVIDIA Research（NVIDIA研究）

AI总结本文研究了在序列决策中引入机制先验（mechanistic priors）的价值，提出了一种量化机制模型信息量的指标——机制互信息，并分析了其在渐近和小样本（burn-in）两种场景下的理论性能。研究证明，使用机制先验可以显著降低样本复杂度，尤其在小样本阶段表现出更高的样本效率。通过基于实际药代动力学数据的5-氟尿嘧啶给药模拟，验证了混合机制先验的有效性，并对比了大型语言模型先验的不足，强调了在安全关键应用中使用物理基础先验的重要性。

2605.10009 2026-05-12 cs.CV

Hystar: Hypernetwork-driven Style-adaptive Retrieval via Dynamic SVD Modulation

Yujia Cai, Boxuan Li, Chenghao Xu, Jiexi Yan

发表机构 * School of Computer Science and Technology, Xidian University, Xi’an, Shaanxi, China（西安电子科技大学计算机科学与技术学院）； School of Electronic Engineering, Xidian University, Xi’an, Shaanxi, China（西安电子科技大学电子工程学院）

AI总结本文提出了一种名为Hystar的轻量级框架，用于解决基于查询的图像检索（QBIR）中因查询风格多样而导致的分布偏移问题。该方法通过超网络动态生成注意力层的奇异值扰动，实现对每个查询风格的自适应调整，同时利用静态奇异值偏移保证跨风格的稳定性。此外，Hystar引入了基于最优传输的对比损失StyleNCE，以增强跨风格语义区分能力，实验表明该方法在多风格检索和跨风格分类任务中均优于现有方法，具有参数高效且风格稳定的优势。

Comments Accepted by ICLR2026

2605.10002 2026-05-12 cs.CV

Med-StepBench: A Hierarchical Reasoning Framework for Evaluating Hallucinations in Medical Vision-Language Models

Minh Khoi Nguyen, Dai Lam Le, Amir Reza Jafari, Tuan Dung Nguyen, Mai Hong Son, Mai Huy Thong, Quang Huy Nguyen, Thanh Trung Nguyen, Reza Farahbakhsh, Noel Crespi, Phi Le Nguyen

发表机构 * AI4LIFE, Hanoi University of Science and Technology, Vietnam（AI4LIFE，越南科学与技术大学）； SAMOVAR, Télécom SudParis, Institut Polytechnique de Paris, France（SAMOVAR，法国电信南巴黎学院，巴黎理工学院）； Military Central Hospital, Vietnam（越南108军中心医院）

AI总结该研究提出Med-StepBench，首个用于评估医学视觉语言模型在3D PET/CT影像中逐步推理能力的大型基准，旨在检测模型在生成临床合理但错误的诊断时的幻觉问题。该框架将临床推理分解为四个诊断阶段，并通过超过12,000张影像和100万对图像-陈述对，揭示了现有模型在多步骤推理中的系统性缺陷。研究还表明，当前模型对看似合理但具有误导性的中间解释高度敏感，进一步放大了幻觉风险，为构建更安全可靠的医学视觉语言模型提供了重要依据。

Comments Accepted at IJCAI-ECAI 2026

2605.10001 2026-05-12 cs.LG

Anchor-guided Hypergraph Condensation with Dual-level Discrimination

Fan Li, Xiaoyang Wang, Chen Chen, Wenjie Zhang

发表机构 * School of Computer Science and Engineering, University of New South Wales, Sydney, Australia（新南威尔士大学计算机科学与工程学院）； School of Artificial Intelligence, Shenzhen University, Shenzhen, China（深圳大学人工智能学院）

AI总结随着超图规模的增大，超图神经网络的训练面临显著的计算挑战。为解决这一问题，本文提出了一种名为AHGCDD的超图压缩方法，通过引入锚点引导的超边合成策略和双层次判别目标，实现了结构与特征的联合优化，有效提升了压缩效率和下游任务性能。该方法在结构生成和特征压缩之间建立了更紧密的联系，避免了传统方法中结构与特征不一致的问题。实验表明，AHGCDD在多个基准数据集上表现出优越的压缩效果和计算效率。

Comments This paper has been accepted by ICML 2026

2605.09999 2026-05-12 cs.RO cs.PF cs.SY eess.SY

Muninn: Your Trajectory Diffusion Model But Faster

Gokul Puthumanaillam, Hao Jiang, Ruben Hernandez, Jose Fuentes, Paulo Padrao, Leonardo Bobadilla, Melkior Ornik

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； Florida International University（佛罗里达国际大学）； Providence College（普罗维登斯学院）

AI总结该论文提出了一种名为Muninn的训练无关缓存方法，旨在加速基于扩散模型的轨迹规划器，使其适用于实时机器人应用。其核心思想是利用扩散模型内部轨迹表示的变化信号和去噪误差的解析系数，动态判断是否复用缓存的去噪结果，从而减少不必要的计算。实验表明，Muninn在多个轨迹扩散模型上实现了最高4.6倍的加速，同时保持任务性能和安全性，并在实际硬件部署中验证了其有效性。

Comments Accepted to Robotics: Science and Systems 2026

详情

英文摘要

Diffusion-based trajectory planners can synthesize rich, multimodal robot motions, but their iterative denoising makes online planning and control prohibitively slow. Existing accelerations either modify the sampler or compress the network--sacrificing plan quality or requiring retraining without accounting for downstream control risk. We address the problem of making diffusion-based trajectory planners fast enough for real-time robot use without retraining the model or sacrificing trajectory quality, and in a way that works across diverse state-space diffusion architectures. Our key insight is that diffusion trajectory planners expose two signals we can exploit: a cheap probe of how their internal trajectory representation changes across steps, and analytic coefficients that describe how denoiser errors affect the sampler's state update. By calibrating the first signal against the second on offline runs, we obtain a per-step score that upper-bounds how far the final trajectory can deviate when we reuse a cached denoiser output, and we treat this bound as an uncertainty budget that we can spend over the denoising process. Building on this insight, we present Muninn, a training-free caching wrapper that tracks this uncertainty budget during sampling and, at each diffusion step, chooses between reusing a cached denoiser output when the predicted deviation is small and recomputing the denoiser when it is not. Across standard benchmarks Muninn delivers up to 4.6x wall-clock speedups across several trajectory diffusion models by reducing denoiser evaluations, while preserving task performance and safety metrics. Muninn further certifies that cached rollouts remain within a specified distance of their full-compute counterparts, and we validate these gains in real-time closed-loop navigation and manipulation hardware deployments. Project page: https://github.com/gokulp01/Muninn.

URL PDF HTML ☆

赞 0 踩 0

2605.09998 2026-05-12 cs.LG cs.AI

Continual Harness: Online Adaptation for Self-Improving Foundation Agents

Seth Karten, Joel Zhang, Tersoo Upaa, Ruirong Feng, Wenzhe Li, Chengshuai Shi, Chi Jin, Kiran Vodrahalli

发表机构 * Princeton University（普林斯顿大学）； ARISE Foundation（ARISE基金会）； Google DeepMind（谷歌深Mind）

AI总结本文研究了具身智能体在长期部分可观测决策任务中的在线自适应问题，提出了“Continual Harness”方法，使智能体无需人工干预即可通过自身策略迭代和长期记忆优化实现持续自我改进。该方法从最小环境接口出发，通过交替执行和优化自身提示、子代理、技能及记忆，实现了在《宝可梦》游戏中的高效策略学习，并显著降低了操作成本，接近甚至部分超越了手工设计的专家系统。研究还构建了一个模型自身参与的在线过程-奖励联合学习闭环，推动了游戏内里程碑的持续进展。

Comments 28 pages, 19 figures, 5 tables

2605.09996 2026-05-12 cs.CV

Omni-Persona: Systematic Benchmarking and Improving Omnimodal Personalization

Yeongtak Oh, Dongwook Lee, Sangkwon Park, Heeseung Kim, Sungroh Yoon

发表机构 * Department of Electrical and Computer Engineering, Seoul National University（首尔国立大学电气与计算机工程系）； Interdisciplinary Program in Artificial Intelligence, Seoul National University（首尔国立大学人工智能跨学科项目）； Department of Artificial Intelligence, University of Seoul（首尔大学人工智能系）

AI总结本文提出Omni-Persona，首个全面的多模态个性化基准，用于系统评估和改进文本、图像和音频的联合个性化能力。该基准通过“人格模态图”形式化任务，涵盖四个任务组和18个细粒度任务，并引入校准准确率（Cal）指标，综合衡量正确对齐与适当回避的能力。实验揭示了开源模型在音频与视觉对齐上的差距、参数规模与召回率并非可靠诊断指标，以及监督微调与基于奖励的强化学习在个性化中的不同局限与挑战。

Comments Project Page: https://github.com/oyt9306/Omni-Persona

2605.09995 2026-05-12 cs.CL

Annotations Mitigate Post-Training Mode Collapse

Jacob Mitchell Springer, Madhu Advani, Lukas Aichberger, Arwen Bradley, Eran Malach, Omid Saremi, Sinead Williamson, Preetum Nakkiran, Etai Littwin, Aditi Raghunathan

发表机构 * Carnegie Mellon University（卡内基梅隆大学）； Apple（苹果公司）； Johannes Kepler University Linz（林茨约翰尼斯·开普勒大学）

AI总结该研究探讨了监督微调（SFT）在提升模型指令遵循能力的同时，可能导致语义模式崩溃的问题，并发现随着模型规模增大，这一问题更加严重。为此，作者提出了一种基于注释引导的训练方法，通过在预训练阶段使用带有语义注释的文档，保留注释分布并在微调过程中保持其多样性，从而在微调后仍能保持丰富的语义表达。实验表明，该方法有效缓解了语义多样性下降的问题，且效果随着模型规模提升而进一步增强。

Comments 21 pages, 8 figures, 11 tables. Accepted at ICML 2026

2605.09993 2026-05-12 cs.LG

Learning Graph Foundation Models on Riemannian Graph-of-Graphs

Haokun Liu, Zezhong Ding, Xike Xie

发表机构 * School of Biomedical Engineering, University of Science and Technology of China (USTC), Suzhou, Jiangsu, China（生物医学工程学院，中国科学技术大学（USTC），苏州，江苏，中国）； Data Darkness Lab, Suzhou Institute for Advanced Research, USTC, Suzhou, Jiangsu, China（Data Darkness实验室，苏州市先进研究院，USTC，苏州，江苏，中国）； School of Artificial Intelligence and Data Science, USTC, Hefei, Anhui, China（人工智能与数据科学学院，USTC，合肥，安徽，中国）

AI总结本文提出了一种基于黎曼图-of-图（GoG）结构的图基础模型R-GFM，旨在解决现有图基础模型在处理不同尺度和结构复杂性任务时存在的泛化能力不足问题。R-GFM通过在不同跳数的子图上构建多尺度的GoG，并从黎曼流形中学习几何自适应表示，从而更灵活地捕捉图数据的结构特征。实验表明，R-GFM在多个数据集上取得了最先进的性能，部分任务的相对提升达到49%。

Comments This paper has been accepted by ICML 2026

2605.09992 2026-05-12 cs.LG cs.AI

Attention Drift: What Autoregressive Speculative Decoding Models Learn

Doğaç Eldenk, Payal Mohapatra, Yigitcan Comlek, Kaan Oktay, Hongyang Zhang, Stephen Xia

发表机构 * Northwestern University（西北大学）； GE Aerospace（通用电气航空航天）； University of Waterloo（滑铁库大学）

AI总结本文研究了自回归推测解码模型在生成过程中注意力分布的变化现象，称为“注意力漂移”，即模型在生成连续token时，注意力逐渐从原始提示转移到自身生成的内容上。研究发现这一现象源于模型内部未归一化的残差路径，导致隐藏状态随生成深度不断增长。为此，作者提出了两种架构改进方法，包括对隐藏状态进行后归一化和逐状态RMS归一化，有效提升了模型在模板扰动、长上下文任务及多个基准测试中的生成长度和泛化能力。

2605.09991 2026-05-12 cs.AI cs.LG math.OC

Optimizer-Induced Mode Connectivity: From AdamW to Muon

Fangzhao Zhang, Sungyoon Kim, Erica Zhang, Yiqi Jiang, Mert Pilanci

发表机构 * Stanford University（斯坦福大学）

AI总结本文研究了优化器对模式连通性的影响，探讨了在给定优化器约束下解空间的连通性行为。通过分析两层ReLU网络，发现当网络宽度足够大时，由单一优化器（如AdamW、Muon等）生成的解构成一个连通集，这一结果超越了以往的研究。实验表明，不同优化器生成的解区域可能因正则化条件而相互分离或重叠，且在GPT-2预训练中，同一优化器路径保持模型谱特性，而跨优化器路径则表现出平滑过渡，揭示了优化器对解空间结构的重要影响。

2605.09990 2026-05-12 cs.CL

Merlin: Deterministic Byte-Exact Deduplication for Lossless Context Optimization in Large Language Model Inference

Sietse Schelpe

发表机构 * Corbenic AI, Inc.（Corbenic AI公司）

AI总结本文提出了一种名为Merlin的确定性字节精确去重系统，旨在解决大型语言模型推理过程中因冗余文本带来的效率瓶颈问题。该系统采用优化的SIMD友好哈希算法，实现高效、精确的文本去重与上下文优化，特别适用于检索增强生成（RAG）等应用场景。实验表明，Merlin在不同冗余程度的数据集上均可实现显著的输入缩减，同时保持数据完整性，并支持通过模型上下文协议（MCP）进行高速、安全的部署。

Comments Preprint. Implementation and open-source community version available at: https://github.com/corbenicai/merlin-community - https://doi.org/10.5281/zenodo.20090991

2605.09985 2026-05-12 cs.AI cs.LG cs.NE

Prospective Compression in Human Abstraction Learning

Leonardo Hernandez Cano, Ivan Zareski, Luisa El Amouri, Pinzhe Zhao, Max Mascini, Emanuele Sansone, Yewen Pu, Bonan Zhao, Marta Kryven

发表机构 * Massachusetts Institute of Technology（麻省理工学院）； Dalhousie University（达尔豪斯大学）； Nanyang Technological University（南洋理工大学）

AI总结本文研究人类在非平稳任务环境中如何逐步学习和构建可复用的抽象结构。作者提出，与现有算法基于过去任务进行回顾式压缩不同，人类更倾向于面向未来任务进行前瞻性压缩。通过视觉程序合成任务实验及计算模型对比，研究发现人类抽象行为能感知任务生成过程中的潜在非平稳结构，这一特性无法用传统回顾式压缩算法或基于大语言模型的归纳偏置加以解释。

Comments under review at neurips 2026

2605.09984 2026-05-12 cs.CV cs.AI cs.LG

Geometric 4D Stitching for Grounded 4D Generation

Sunwoo Park, Taesung Kwon, Jong Chul Ye

发表机构 * KAIST AI（韩国科学技术院人工智能实验室）

AI总结本文提出了一种名为“几何4D缝合”的高效框架，用于解决现有4D场景生成方法中几何不一致和重建成本高的问题。该方法通过显式识别缺失的几何区域，并用几何基础的4D缝合进行补充，从而在保证几何一致性的同时，显著提升了4D场景生成的效率。此外，该方法还支持4D网格的迭代扩展和场景编辑，具有良好的实用性和扩展性。

2605.09982 2026-05-12 cs.CV

ERASE: Eliminating Redundant Visual Tokens via Adaptive Two-Stage Token Pruning

Yuna Lee, Kyoungho Min, Yulhwa Kim

发表机构 * Department of Electrical and Computer Engineering, Sungkyunkwan University, Republic of Korea（电气与计算机工程系，成均馆大学，大韩民国）； Department of Semiconductor Systems Engineering, Sungkyunkwan University, Republic of Korea（半导体系统工程系，成均馆大学，大韩民国）

AI总结本文提出了一种名为ERASE的两阶段视觉token剪枝框架，旨在解决视觉语言模型处理高分辨率图像时产生的大量视觉token带来的计算负担问题。该方法通过自适应剪枝策略，根据输入图像的复杂度识别并保留关键视觉token，在保持模型性能的同时显著减少token数量。实验表明，ERASE在Qwen2.5-VL-7B模型上以85%的剪枝率仍能保留89.46%的原始精度，优于现有最佳方法。

Comments 20 pages, 8 figures

2605.09977 2026-05-12 cs.CV

INFANiTE: Implicit Neural representation for high-resolution Fetal brain spatio-temporal Atlas learNing from clinical Thick-slicE MRI

Xiaotian Hu, Mingxuan Liu, Hongjia Yang, Juncheng Zhu, Yijin Li, Yifei Chen, Haoxiang Li, Tongxi Song, Zihan Li, Yingqi Hao, Ziyu Li, Yujin Zhang, Gang Ning, Yi Liao, Haibo Qu, Qiyuan Tian

发表机构 * Beihang University（北航大学）； Tsinghua University（清华大学）； Sichuan University（四川大学）； University of Oxford（牛津大学）

AI总结该研究提出了一种名为INFANiTE的隐式神经表示框架，用于从临床厚切片MRI扫描中高效学习高分辨率胎儿脑时空图谱，解决了传统方法中耗时的切片到体积重建和迭代配准步骤的问题。该方法显著加速了图谱构建过程，实验表明其在稀疏数据条件下仍能保持较高的精度和生物学合理性，为大规模胎儿脑发育分析提供了可行的解决方案。

2605.09976 2026-05-12 cs.CV

OZ-TAL: Online Zero-Shot Temporal Action Localization

Chaolei Han, Hongsong Wang, Xin Gong, Jie Gui

发表机构 * School of Cyber Science and Engineering, Southeast University（东南大学信息科学与工程学院）； Engineering Research Center of Blockchain Application, Supervision and Management (Southeast University), Ministry of Education（教育部区块链应用、监督与管理工程研究中心（东南大学））； Purple Mountain Laboratories, Nanjing（紫金山实验室（南京））； School of Computer Science and Engineering, Southeast University（东南大学计算机科学与工程学院）

AI总结本文提出了一种新的在线零样本时序动作定位任务（OZ-TAL），旨在在视频流处理过程中检测尚未见过的动作类别及其发生时间。为了解决现有方法在跨域视频中泛化能力不足的问题，作者设计了一个无需训练的框架，利用现成的视觉-语言模型并引入额外机制以增强视觉表示并减少其偏差。实验表明，该方法在THUMOS14和ActivityNet-1.3数据集上显著优于现有先进方法，确立了新的基准和对比基线。

AI 大模型

视觉与机器人

科学与医疗