arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.05812 2026-05-12 cs.AI

Long-Horizon Q-Learning: Accurate Value Learning via n-Step Inequalities

Armaan A. Abraham, Lucy Xiaoyang Shi, Chelsea Finn

发表机构 * Stanford University（斯坦福大学）

AI总结本文研究了基于值函数的离线强化学习方法在长时域任务中因引导误差导致的估计不稳定问题，提出了长时域Q学习（LQL）方法。LQL通过引入n步不等式约束，利用铰链损失函数对值函数估计进行修正，有效抑制误差累积，同时无需额外网络或计算开销。实验表明，LQL在多个在线和离线到在线的基准任务中均优于传统的1步和n步TD学习方法。

2605.05775 2026-05-12 cs.CV cs.AI

The autoPET3 Challenge: Automated Lesion Segmentation in Whole-Body PET/CT $\unicode{x2013}$ Multitracer Multicenter Generalization

Jakob Dexl, Katharina Jeblick, Andreas Mittermeier, Balthasar Schachtner, Anna Theresa Stüber, Johanna Topalis, Maximilian Rokuss, Fabian Isensee, Klaus H. Maier-Hein, Hamza Kalisch, Jens Kleesiek, Constantin M. Seibold, Hussain Alasmawi, Lap Yan Lennon Chan, Yixuan Yuan, Alexander Jaus, Rainer Stiefelhagen, Pauline Ornela Megne Choudja, Konstantin Nikolaou, Christian La Fougère, Sergios Gatidis, Matthias P. Fabritius, Maurice Heimer, Gizem Abaci, Lalith Kumar Shiyam Sundar, Rudolf A. Werner, Jens Ricke, Clemens C. Cyran, Thomas Küstner, Michael Ingrisch

发表机构 * Department of Radiology, LMU University Hospital, LMU Munich（莱比锡大学医院放射科，莱比锡大学）； Munich Center for Machine Learning (MCML)（慕尼黑机器学习中心）； University Hospital Tübingen, Department of Radiology（图宾根大学医院放射科）； Department of Radiology, Stanford University（斯坦福大学放射科）； German Cancer Research Center (DKFZ)（德国癌症研究中心（DKFZ））； Pattern Analysis and Learning Group, Department of Radiation Oncology, Heidelberg University Hospital（海德堡大学医院放射肿瘤学部模式分析与学习组）； Faculty of Mathematics and Computer Science, Heidelberg University（海德堡大学数学与计算机科学学院）； Institute for AI in Medicine (IKIM), University Hospital Essen (AöR)（医学人工智能研究所（IKIM），埃森大学医院（AöR））； Department of Nuclear Medicine, University Hospital Essen (AöR)（核医学部，埃森大学医院（AöR））； Mohamed bin Zayed University of Artificial Intelligence（穆罕默德·本·扎耶德人工智能大学）； Department of Computer Science and Engineering, The Chinese University of Hong Kong（香港中文大学计算机科学与工程系）； Department of Electronic Engineering, The Chinese University of Hong Kong（香港中文大学电子工程系）； Karlsruhe Institute of Technology（卡尔斯鲁厄理工学院）； HIDSS4Health - Helmholtz Information and Data Science School for Health（HIDSS4Health - 海德堡信息与数据科学健康学校）； Department of Nuclear Medicine, LMU University Hospital, LMU Munich（莱比锡大学医院核医学部，莱比锡大学）； Comprehensive Pneumology Center (CPC-M), Member of the German Center for Lung Research (DZL)（综合肺科中心（CPC-M），德国肺癌研究中心（DZL）成员）； relAI – Konrad Zuse School of Excellence in Reliable AI（relAI - 卡诺德·祖斯可靠性人工智能卓越学校）； Cluster of Excellence iFIT (EXC 2180) "Image Guided and Functionally Instructed Tumor Therapies", University of Tübingen（卓越中心iFIT（EXC 2180）"图像引导和功能指导肿瘤治疗"，图宾根大学）

AI总结本文介绍了第三届 autoPET 挑战赛（MICCAI 2024）的设计与结果，旨在评估在全身 PET/CT 图像中自动分割病灶的算法在多示踪剂、多中心场景下的泛化能力。研究使用了来自两个医院的大量标注数据，并在包含未见示踪剂-中心组合的测试集上评估算法性能，结果显示最佳算法在多个指标上优于基线模型。研究还指出，当前算法在域内多示踪剂分割任务上表现良好，但在跨中心、跨示踪剂的泛化任务中仍面临挑战，性能差异主要受数据异质性和病例难度影响。

Comments Preprint submitted to Medical Image Analysis

2605.05373 2026-05-12 cs.LG

Neural Co-state Policies: Structuring Hidden States in Recurrent Reinforcement Learning

David Leeftink, Max Hinne, Marcel van Gerven

发表机构 * Donders Institute for Brain, Cognition and Behaviour（脑、认知与行为研究所）； Radboud University（拉德堡德大学）

AI总结本文研究了如何在部分可观测环境中提升强化学习智能体的决策能力，提出了一种基于最优控制中庞特里亚金最小原理（PMP）的神经共态策略方法。该方法通过将循环神经网络中的隐状态与PMP中的共态建立形式联系，使网络内部动态具有可解释性，并引入共态损失函数以显式引导隐状态的结构化学习。实验表明，该方法在部分可观测任务中表现优异，并具备对分布外传感器遮蔽的鲁棒性。

Comments 17 pages, 5 figures

2605.04617 2026-05-12 cs.CV cs.HC cs.LG

Temporal Structure Matters for Efficient Test-Time Adaptation in Wearable Human Activity Recognition

Zishu Zhou, Zaipeng Xie, Xuanyao Jie

发表机构 * College of Computer Science and Software Engineering, Hohai University（河海大学计算机科学与软件工程学院）

AI总结可穿戴人体活动识别模型在面对真实世界中用户分布变化时往往性能下降，现有测试时自适应方法多沿用视觉任务的假设，未能充分利用活动识别流中的时间结构特性。本文重新审视时间结构作为条件推理信号的作用，提出了一种基于时间连续性和特征偏差的自适应机制，用于指导何时保持或释放时间惯性以及预测优化的路由位置。基于此，作者设计了SIGHT框架，无需反向传播即可实现轻量高效的实时自适应，实验表明其在实际数据集上优于现有方法，同时降低了计算和内存开销。

2605.04541 2026-05-12 cs.CV

Angle-I2P: Angle-Consistent-Aware Hierarchical Attention for Cross-Modality Outlier Rejection

Muyao Peng, Shun Zou, Pei An, You Yang, Qiong Liu

发表机构 * School of Electronic Information and Communications, Huazhong University of Science and Technology（华中科技大学电子信息与通信学院）

AI总结本文提出了一种名为Angle-I2P的图像到点云配准方法，旨在解决低内点比情况下传统PnP方法难以准确配准的问题。该方法通过引入角度一致性约束和层次注意力机制，有效提升配准的鲁棒性与精度。实验表明，Angle-I2P在多个公开数据集上取得了当前最优的配准效果。

Comments Accepted by ICRA 2026

2605.03650 2026-05-12 cs.CV cs.AI cs.LG

Rethinking Temporal Consistency in Video Object-Centric Learning: From Prediction to Correspondence

Zhiyuan Li, Rongzhen Zhao, Wenyan Yang, Wenshuai Zhao, Pekka Marttinen, Joni Pajarinen

发表机构 * Department of Electrical Engineering and Automation（电气工程与自动化系）； Aalto University（阿尔托大学）； Department of Computer Science（计算机科学系）

AI总结本文重新思考了视频对象中心学习中的时间一致性问题，指出当前依赖动态模块预测未来对象表示的方法实际上是复杂的离散对应问题的近似。作者提出了一种新的框架“Grounded Correspondence”，通过冻结的骨干网络提取显著区域初始化对象槽，并利用匈牙利匹配实现帧间身份对应，无需可学习的时间建模参数，即可在多个数据集上取得具有竞争力的性能。

2605.03639 2026-05-12 cs.CV

Diffusion Masked Pretraining for Dynamic Point Cloud

Zhuoyue Zhang, Jihua Zhu, Chaowei Fang, Jian Liu, Ajmal Saeed Mian

发表机构 * Xi’an Jiaotong University（西安交通大学）； School of Artificial Intelligence and Robotics, Hunan University（湖南大学人工智能与机器人学院）； University of Western Australia（西澳大学）

AI总结本文提出了一种名为DiMP的统一自监督预训练框架，用于动态点云处理。该方法通过引入扩散模型，解决了现有掩码重建目标中的时空位置泄露和运动不确定性丢失问题。DiMP在位置推理和运动学习中均采用扩散建模，通过预测可见时空上下文中的干净点云中心，提升了位置表示的准确性，并将帧间位移监督转化为条件扩散模型的噪声预测任务，从而更完整地建模运动的条件分布。实验表明，DiMP在多个下游任务中均显著提升了性能。

2605.01643 2026-05-12 cs.LG cs.AI

AI Alignment via Incentives and Correction

Rohit Agarwal, Joshua Lin, Mark Braverman, Elad Hazan

发表机构 * Princeton University（普林斯顿大学）

AI总结本文从法律与经济学中的威慑与执行模型出发，研究人工智能对齐问题，认为AI系统中的不当行为是对其所受激励的策略性响应，而非单纯的外部失败。文章提出将对齐问题视为一个均衡问题，通过设计奖励机制来引导求解器和审计器之间的行为互动，从而实现更有效的对齐。研究还提出了一种基于强化学习的奖励设计方法，并在实际的大型语言模型代码生成任务中验证了其有效性。

详情

英文摘要

We study AI alignment through the lens of law-and-economics models of deterrence and enforcement. In these models, misconduct is not treated as an external failure, but as a strategic response to incentives: an actor weighs the gain from violation against the probability of detection and the severity of punishment. We argue that the same logic arises naturally in agentic AI pipelines. A solver may benefit from producing a persuasive but incorrect answer, hiding uncertainty, or exploiting spurious shortcuts, while an auditor or verifier must decide whether costly monitoring is worthwhile. Alignment is therefore a fixed-point problem: stronger penalties may deter solver misbehavior, but they can also reduce the auditor's incentive to inspect, since auditing then mainly incurs cost on a population that appears increasingly aligned. This perspective also changes what should count as a post-training signal. Standard feedback often attaches reward to the final answer alone, but a solver-auditor pipeline exposes the full correction event: whether the solver erred, whether the auditor inspected, whether the error was caught, and whether oversight incentives remained active. We formalize this interaction in a two-agent model in which a principal chooses rewards over joint correction outcomes, inducing both solver behavior and auditor monitoring. Reward design is therefore a bilevel optimization problem: rewards are judged not by their immediate semantic meaning, but by the behavioral equilibrium they induce. We propose a bandit-based outer-loop procedure for searching over reward profiles using noisy interaction feedback. Experiments on an LLM coding pipeline show that adaptive reward profiles can maintain useful oversight pressure and improve principal-aligned outcomes relative to static hand-designed rewards, including a substantial reduction in hallucinated incorrect attempts.

URL PDF HTML ☆

赞 0 踩 0

2605.00539 2026-05-12 cs.CL cs.DC

AGoQ: Activation and Gradient Quantization for Memory-Efficient Distributed Training of LLMs

Wenxiang Lin, Juntao Huang, Luhan Zhang, Laili Li, Xiang Bao, Mengyang Zhang, Bing Wang, Shaohuai Shi

发表机构 * School of Computer Science（计算机科学学院）； Technology, Harbin Institute of Technology, Shenzhen（技术学院，哈尔滨工业大学，深圳）； Huawei Technologies Ltd（华为技术有限公司）

AI总结本文提出了一种名为AGoQ的量化方法，旨在提高大语言模型分布式训练的内存效率。该方法通过引入层感知的激活量化算法和8位梯度量化算法，分别实现了接近4位的激活存储和高效通信的梯度存储，从而显著降低内存占用并提升训练速度。实验表明，AGoQ在多个大规模LLaMA模型上相比现有系统，在减少内存消耗和提升训练速度方面均取得了显著优势，同时保持了模型的收敛性能和任务准确率。

2605.00370 2026-05-12 cs.LG cs.CY cs.MM

Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents Collaboration

Chunlei Meng, Pengbin Feng, Rong Fu, Hoi Leong Lee, Xiaojing Du, Zhaolu Kang, Zeyu Zhang, Weilin Zhou, Chun Ouyang, Zhongxue Gan

发表机构 * University of Macau（澳门大学）； Universiti Malaysia Perlis（马来西亚霹雳大学）； Peking University（北京大学）； Xinjiang University（新疆大学）

AI总结该论文提出了一种名为Group Cognition Learning（GCL）的协作学习框架，旨在解决多模态学习中模态主导和虚假模态关联的问题。GCL采用两阶段协作机制，第一阶段通过路由代理和审计代理选择性地促进模态间有益的交互，抑制冗余关联；第二阶段通过公共因子代理和聚合代理生成最终预测，同时保持各模态的独立性。实验表明，GCL在多个多模态基准数据集上取得了优于现有方法的性能，有效提升了模型的鲁棒性和泛化能力。

Comments This study has been Accepted by ICML 2026. The current version is a manuscript, please refer to the official version released at ICML 2026 for the final published version

2605.00195 2026-05-12 cs.LG

Diversity in Large Language Models under Supervised Fine-Tuning

Roman Klypa, Oleksandr Cherednichenko

发表机构 * Univ. Grenoble Alpes, CNRS, Grenoble INP, LJK, 38000 Grenoble, France（格勒诺布尔阿尔卑斯大学，国家科学研究中心，格勒诺布尔INP，LJK，法国格勒诺布尔）； Department of Mathematics and Mathematical Statistics, Integrated Science Lab, Umeå University, Sweden（乌梅大学数学与统计学系，整合科学实验室，瑞典）

AI总结本研究探讨了监督微调（SFT）对大语言模型生成多样性的影响，指出SFT会导致生成内容的多样性下降，并将这一现象归因于微调数据中低频模式的忽视和预训练知识的遗忘。为此，研究提出了一个新的损失函数Tempered Focal（TOFU）损失，能够同时解决这两个问题。实验表明，TOFU在保持响应质量的同时有效提升了模型输出的多样性，为SFT提供了更合理的方法。

2604.27629 2026-05-12 cs.AI

WaferSAGE: Large Language Model-Powered Wafer Defect Analysis via Synthetic Data Generation and Rubric-Guided Reinforcement Learning

Ke Xu, Zhongyuan Lian

发表机构 * Shanghai Huahong Grace Semiconductor Manufacturing Corporation（上海华虹格瑞半导体制造有限公司）； Dept. of Automation, School of Information Science and Engineering, East China University of Science and Technology（自动化系，信息科学与工程学院，东华大学）

AI总结本文提出了一种名为WaferSAGE的框架，用于晶圆缺陷的视觉问答分析，该框架结合了小规模视觉语言模型与合成数据生成技术，以解决半导体制造中数据稀缺的问题。研究通过结构化评分标准生成和强化学习方法，提升了缺陷识别与分析的准确性，并在无需大量标注数据的情况下实现了高精度的模型训练。实验表明，该方法在专用工业视觉理解任务中能够超越大型商业模型，为半导体制造提供了隐私保护且成本更低的部署方案。

Comments 16 pages, 3 figures, 8 tables

2604.23876 2026-05-12 cs.LG

Cardiac Stability Theory: An Axiomatically Grounded Framework for Continuous Cardiac Health Monitoring via Smartphone Photoplethysmography

Timothy Oladunni, Farouk Ganiyu Adewumi

发表机构 * Department of Computer Science, Morgan State University（莫根州立大学计算机科学系）

AI总结本文提出了一种基于公理的框架——心脏稳定性理论（CST），用于通过智能手机光电容积描记（PPG）实现连续的心脏健康监测。该方法通过定义心血管健康为围绕心脏动力学吸引子的稳定性边界，结合李雅普诺夫指数、复发确定性和信号熵等指标，构建了心脏稳定性指数（CSI）。研究展示了CSI在ECG和PPG数据上的优越性能，并通过领域迁移技术实现了在智能手机上的实时应用，为长期非侵入式心脏健康监测提供了新方法。

2604.23750 2026-05-12 cs.LG cs.AI

The Override Gap: A Magnitude Account of Knowledge Conflict Failure in Hypernetwork-Based Instant LLM Adaptation

Shuaizhi Cheng, Xiang Shi, Zhiwei Zhang, Mingwei Li

发表机构 * Harbin Institute of Technology（哈尔滨工程大学）； Imperial College London（伦敦帝国理工学院）； KigLand Machine Learning Lab（KigLand机器学习实验室）

AI总结本文研究了基于超网络的即时大语言模型适配方法在处理知识冲突时的失效问题，发现其核心原因是幅度问题而非表示能力不足。通过分析表明，超网络虽然能正确定位模型层，但由于适配器的幅度固定，而预训练知识的幅度随训练频率增加，导致深层冲突知识难以被有效适配。为此，作者提出幅度增强方法，如选择性层增强和冲突感知内化，在无需再训练的情况下显著提升了模型在深层冲突任务上的表现。

Comments 35 pages, 15 figures v2: minor layout fixes and author list update

2604.21232 2026-05-12 cs.AI

ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures

Xiyin Zeng, Yuyu Sun, Haoyang Li, Shouqiang Liu, Hao Wang

发表机构 * Hong Kong University of Science and Technology (Guangzhou)（香港理工大学（广州））； South China Normal University（华南师范大学）

AI总结本文提出了一种名为 ReCAPA 的分层预测校正架构，旨在解决视觉-语言-动作系统在执行多步骤任务时可能出现的级联失效问题。该方法通过在动作、子目标和轨迹三个层次上引入预测与对比机制，结合语义对齐模块，动态调整执行过程中的偏差，从而提升任务执行的鲁棒性。实验表明，ReCAPA 在多个具身智能代理基准测试中表现优异，优于现有的大型语言模型基线。

2604.19838 2026-05-12 cs.AI

Resolving space-sharing conflicts in road user interactions through uncertainty reduction: An active inference-based computational model

Julian F. Schumann, Johan Engström, Ran Wei, Shu-Yuan Liu, Jens Kober, Arkady Zgonnikov

发表机构 * Department of Cognitive Robotics, Delft University of Technology, Netherlands（德鲁特理工大学认知机器人学系）； Waymo LLC, Mountain View, CA, USA（Waymo公司）

AI总结本文研究了道路用户如何解决空间共享冲突的问题，提出了一种基于主动推理的计算模型，用于模拟两个智能体之间的交互行为。该模型通过隐式通信、规范期望和显式通信三种机制降低交互中的不确定性，揭示了规范和显式通信线索在提升冲突解决成功率中的作用，同时也指出当其他智能体违反规范或传递误导信息时，依赖这些线索可能导致碰撞。该研究为道路用户交互建模提供了理论依据，并具有更广泛的应用前景。

2604.19792 2026-05-12 cs.AI cs.DC cs.MA cs.NE

OpenCLAW-P2P v7.0-P2PCLAW: Resilient Multi-Layer Persistence, Live Reference Verification, and Production-Scale Evaluation of Decentralized AI Peer Review v7.0 -- Mathematical Corrections & Ecosystem Developments Edition

Francisco Angulo de Lafuente, Teerth Sharma, Vladimir Veselov, Seid Mohammed Abdu, Nirmal Tej Kumar, Guillermo Perry

发表机构 * Independent AI Researcher & Science Fiction Writer（独立AI研究员及科幻作家）； Bachelor of Technology (AI)（人工智能技术学士）； Moscow Institute of Electronic Technology (MIET)（莫斯科电子技术学院）； Dept. of Computer Science, Woldia University（沃尔迪亚大学计算机科学系）； University of Texas at Dallas (UTD)（德克萨斯大学达拉斯分校）； Andex Enterprising Inc.（安德克斯企业公司）

AI总结本文介绍了 OpenCLAW-P2P v7.0，这是一个去中心化的集体智能平台，旨在让自主AI代理在无需人类审核者的情况下完成科学论文的发布、同行评审、评分和迭代改进。该版本在原有基础上引入了数学理论修正，确保框架的维度一致性、范围约束和符号明确性，并扩展了生态系统，包括用于科学论文生成的开源语言模型 CAJAL。此外，平台保留了四大核心子系统，提升了存储可靠性、检索效率和引用验证准确性。

Comments v7.0: Mathematical corrections (fixed-point condition Eq.4, dimensionally consistent tau-indicator Eq.7, fully specified reputation formula Eq.8 with quality terms q0 and q-bar, discrete-time PD Governor Eq.15, HSR parameter definitions Eq.16); ecosystem developments: CAJAL-4B/9B models, BenchClaw platform, 14 integrations. 36 pages

2604.19530 2026-05-12 cs.LG cs.CE stat.ML

Calibrating Scientific Foundation Models with Inference-Time Stochastic Attention

Akash Yadav, Taiwo A. Adebiyi, Ruda Zhang

发表机构 * University of Houston（休斯顿大学）

AI总结本文研究了如何为科学基础模型提供校准良好的预测不确定性，提出了一种名为“随机注意”的轻量级推理时修改方法，通过在注意力权重中引入随机性来生成预测集成，无需重新训练模型。该方法通过一个校准目标来调整随机性参数，实现了高效的后校准。实验表明，该方法在天气预测、时间序列和回归任务中表现出更优的校准性能和更窄的预测区间，且计算成本显著低于现有方法。

2604.17565 2026-05-12 cs.CV

UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models

Hong Jiang, Wensong Song, Zongxing Yang, Ruijie Quan, Yi Yang

发表机构 * ReLER, CCAI, Zhejiang University（ReLER、CCAI、浙江大学）； DBMI, HMS, Harvard University（DBMI、HMS、哈佛大学）

AI总结 UniGeo 是一种新型的相机可控图像编辑框架，旨在在不同相机视角下生成几何一致的场景视图。该方法通过在表示层、架构层和损失函数层统一注入几何引导，解决了现有方法在连续相机运动下出现的几何漂移和结构退化问题。实验表明，UniGeo 在多个公开数据集上显著优于现有方法，具有更高的视觉质量和几何一致性。

2604.14484 2026-05-12 cs.RO cs.AI math.OC

A Nonasymptotic Theory of Gain-Dependent Error Dynamics in Behavior Cloning

Junghoon Seo

发表机构 * PIT IN Corp.（PIT IN公司）

AI总结本文研究了行为克隆（BC）策略在位置控制机器人中的非渐近有限时间误差传播特性，揭示了控制器增益对任务失败概率的影响机制。通过分析增益依赖的闭环动力学，作者提出了一个代理矩阵 $X_\infty(K)$ 来表征位置误差的分布，并将任务失败概率分解为增益放大因子、验证损失和泛化松弛项，表明仅凭训练损失无法预测闭环性能。研究还给出了代理矩阵的标量上界，并对不同系统刚度与阻尼组合下的性能排序进行了分析，为理解BC策略的稳定性提供了理论依据。

2604.11734 2026-05-12 cs.RO cs.AI

SCORP: Scene-Consistent Multi-agent Diffusion Planning with Stable Online Reinforcement Post-Training for Cooperative Driving

Haojie Bai, Aimin Li, Ruoyu Yao, Xiongwei Zhao, Tingting Zhang, Xing Zhang, Lin Gao, and Jun Ma

发表机构 * School of Information Science and Technology, Harbin Institute of Technology (Shenzhen)（哈尔滨工业大学（深圳）信息科学与技术学院）； Middle East Technology University (METU)（中东技术大学）； Robotics and Autonomous Systems Thrust, Hong Kong University of Science and Technology (Guangzhou)（香港科技大学（广州）机器人与自主系统方向）； School of Computer Science and Technology, Qinghai University（青海大学计算机科学与技术学院）

AI总结本文提出SCORP，一种用于协作驾驶的场景一致多智能体扩散规划器，结合了稳定的在线强化学习后训练方法。为了解决现有扩散模型在场景一致性和闭环协作目标对齐方面的不足，SCORP引入了基于场景条件的多智能体去噪架构，并设计了两层马尔可夫决策过程以整合逆向去噪链与策略-环境交互。实验表明，SCORP在核心安全与效率指标上显著优于现有开源方法，展现出在协作驾驶任务中的优越性能。

2604.11674 2026-05-12 cs.RO cs.AI

AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation

Mingyang Li, Haofan Xu, Haowen Sun, Xinzhe Chen, Sihua Ren, Liqi Huang, Xinyang Sui, Chenyang Miao, Jiawei Ye, Qiongjie Cui, Zeyang Liu, Xingyu Chen, Xuguang Lan

发表机构 * School of Artificial Intelligence, Xi’an Jiaotong University（西安交通大学人工智能学院）

AI总结 AffordSim 是一个可扩展的数据生成器和基准平台，旨在提升机器人对物体功能区域的感知能力，以实现更精准的操控任务。该方法结合开放词汇的3D功能预测，根据自然语言任务描述生成场景、定位功能区域并生成对应的抓取动作，从而提高任务执行的成功率。AffordSim 在多种机器人平台和复杂物体上进行了验证，表现出优异的模拟到现实的迁移能力，并在多个关键任务中取得了接近人工标注数据的性能。

2604.08577 2026-05-12 cs.LG cs.AI

Distributionally Robust Token Optimization in RLHF

Yeping Jin, Jiaming Hu, Ioannis Ch. Paschalidis

发表机构 * Department of System Engineering（系统工程系）； Boston University（波士顿大学）； Department of Math & Statistics（数学与统计学系）

AI总结该研究针对大语言模型在面对细微输入变化时可能出现的性能下降问题，提出了一种分布鲁棒的标记优化方法（DRTO）。该方法结合了基于人类反馈的强化学习（RLHF）与分布鲁棒优化（DRO），通过构建f-散度模糊集来增强模型对困难响应片段的学习。实验表明，DRTO在多个推理任务中显著提升了模型在分布偏移下的表现，优于传统方法。

2604.06720 2026-05-12 cs.CV

Exploring 6D Object Pose Estimation with Deformation

Zhiqiang Liu, Rui Song, Duanmu Chuangqi, Jiaojiao Li, David Ferstl, Yinlin Hu

发表机构 * State Key Laboratory of ISN, Xidian University（西安电子科技大学信息与通信系统国家重点实验室）； MagicLeap

AI总结本文提出DeSOPE，一个用于6自由度（6DoF）变形物体位姿估计的大规模数据集。传统6D位姿估计方法通常假设物体为刚性或可变形的关节结构，但在实际应用中，物体因磨损、碰撞或形变而偏离标准形状，导致方法失效。为此，DeSOPE包含26类常见物体在标准形态和三种变形状态下的高精度3D扫描数据，并配有133K帧的RGB-D图像和665K个位姿标注，为研究变形物体的位姿估计提供了重要资源。

Comments Accepted at CVPR 2026

2604.04306 2026-05-12 cs.CV cs.AI

HighFM: Towards a Foundation Model for Learning Representations from High-Frequency Earth Observation Data

Stella Girtsou, Konstantinos Alexis, Giorgos Giannopoulos, Charalambos Kontoes

发表机构 * National Observatory of Athens（国家天文台）； National Technical University of Athens（雅典国家技术大学）； National and Kapodistrian University of Athens（雅典国家与卡波迪斯特里亚大学）； Athena Research Center（雅典研究所以及研究中心）

AI总结随着气候相关灾害频发，实时监测和预警需求日益迫切。本文提出 HighFM，一种面向高时间分辨率多光谱遥感数据的基座模型，通过利用超过 2TB 的 SEVIRI 卫星影像，改进了掩码自编码框架以学习稳健的时空表征，并在云检测和火灾识别任务中取得了优于传统方法和近期地理空间基座模型的性能，展示了地静止卫星数据在实时遥感应用中的巨大潜力。

2603.28902 2026-05-12 cs.AI

ChartDiff: A Large-Scale Benchmark for Comprehending Pairs of Charts

Rongtian Ye

发表机构 * Department of Computer Science, Aalto University（阿尔托大学计算机科学系）

AI总结 ChartDiff 是首个大规模跨图表对比理解基准，旨在解决现有图表理解任务中缺乏多图表比较分析的问题。该基准包含 8,541 对来自不同数据源、图表类型和视觉风格的图表，每对图表均配有由大语言模型生成并经人工验证的摘要，描述趋势、波动和异常等差异。研究评估了通用模型、图表专用模型和流水线方法的性能，发现通用模型在生成质量上表现最佳，而专用模型和流水线方法虽在 ROUGE 分数上较高，但在人工评估中表现较差，揭示了词句重叠与实际摘要质量之间的不匹配。

Comments 21 pages, 17 figures, accepted to ACL 2026: the 4th Workshop on Advances in Language and Vision Research

2603.26680 2026-05-12 cs.CL cs.AI

AlpsBench: An LLM Personalization Benchmark for Real-Dialogue Memorization and Preference Alignment

Jianfei Xiao, Xiang Yu, Chengbing Wang, Wuqiang Zheng, Xinyu Lin, Kaining Liu, Hongxun Ding, Yang Zhang, Wenjie Wang, Fuli Feng, Xiangnan He

发表机构 * University of Science and Technology of China（科学技术大学）； National University of Singapore（新加坡国立大学）

AI总结随着大语言模型（LLMs）逐渐演变为终身AI助手，模型个性化成为关键研究方向。然而，目前缺乏一个标准的评估基准来推动这一领域的发展。为此，本文提出AlpsBench，一个基于真实人机对话构建的LLM个性化评估基准，包含2500个长期交互序列和人工验证的结构化记忆数据，用于评估个性化信息的提取、更新、检索与应用等核心任务，揭示了当前模型在个性化处理方面存在的多项挑战，并为未来研究提供了全面的评估框架。

2603.21901 2026-05-12 cs.CV

CLEAR: Context-Aware Learning with End-to-End Mask-Free Inference for Adaptive Video Subtitle Removal

Qingdong He, Chaoyi Wang, Peng Tang, Yifan Yang, Xiaobin Hu

发表机构 * University of Electronic Science and Technology of China（电子科技大学）； University of Chinese Academy of Sciences（中国科学院大学）； Technical University of Munich（慕尼黑技术大学）； Shanghai Jiao Tong University（上海交通大学）； National University of Singapore（新加坡国立大学）

AI总结 CLEAR 是一种无需掩码的端到端视频字幕去除框架，旨在在保持时间一致性的同时区分字幕与背景内容。该方法采用两阶段设计，第一阶段通过自监督正交约束学习解耦的字幕表示，第二阶段利用LoRA参数微调和生成反馈机制进行动态上下文调整，从而实现无需真实掩码的自适应推理。CLEAR 在参数效率和跨语言泛化能力方面表现优异，仅需基础扩散模型0.77%的参数即可在多个中文字幕数据集上超越依赖掩码的基线方法，并在六种语言中展现出强大的零样本泛化能力。

Comments Accepted by ICML 2026 (Spotlight)

2603.18256 2026-05-12 cs.LG cs.AI

MolRGen: A Training and Evaluation Setting for De Novo Molecular Generation with Reasonning Models

Philippe Formont, Maxime Darrin, Ismail Ben Ayed, Pablo Piantanida

发表机构 * Université Paris-Saclay（巴黎萨克雷大学）； ÉTS Montréal（蒙特利尔ÉTS）； ILLS – International Laboratory on Learning Systems（学习系统国际实验室）； Mila – Quebec AI Institute（魁北克人工智能研究所）； Mistral AI ； LIVIA ； CNRS, CentraleSupélec（国家科学研究中心，中央超导大学）

AI总结 MolRGen 是一个用于从头生成分子的训练与评估框架，旨在解决基于推理的大语言模型在分子生成任务中缺乏有效奖励机制的问题。该框架包含约4,500个蛋白口袋目标，生成5万个结合对接评分与分子性质的多目标优化提示，并通过实时计算奖励来评估模型生成的分子质量。研究引入了多样性感知的Top-k指标，并利用验证器对大型语言模型进行微调，展示了其在分子设计中提升性能的潜力。

2603.16964 2026-05-12 cs.CV cs.LG

Behavior-Centric Extraction of Scenarios from Highway Traffic Data and their Domain-Knowledge-Guided Clustering using CVQ-VAE

Niklas Roßberg, Sinan Hasirlioglu, Mohamed Essayed Bouzouraa, Wolfgang Utschick, Michael Botsch

发表机构 * Technische Hochschule Ingolstadt（因斯布鲁克技术大学）； AUDI AG（奥迪公司）； Technische Universität München（慕尼黑技术大学）

AI总结该研究旨在从高速公路交通数据中标准化提取场景，并基于领域知识进行聚类，以支持自动驾驶系统的行为评估。研究提出了一种基于“场景即规范”概念的场景提取方法，并结合CVQ-VAE模型实现领域知识引导的聚类过程，提升了场景分类的可解释性和一致性。实验表明，该方法能够可靠地从真实数据中提取场景，并有效融合领域知识，为自动驾驶系统的验证提供了更高效和标准化的场景分类框架。

Comments Accepted as a conference paper in IEEE Intelligent Vehicles Symposium (IV) 2026, Detroit, MI, United States

AI 大模型

视觉与机器人

科学与医疗