arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2510.24145 2026-05-13 cs.AI

OpsAgent: An Evolving Multi-agent System for Incident Management in Microservices

Yu Luo, Jiamin Jiang, Jingfei Feng, Lei Tao, Qingliang Zhang, Xidao Wen, Yongqian Sun, Shenglin Zhang, Dan Pei

发表机构 * Nankai University（南开大学）； Alibaba Cloud（阿里云）； Lenovo（联想）； Tsinghua University（清华大学）

AI总结 OpsAgent 是一个用于微服务系统故障管理的轻量级、自我进化的多智能体系统。该系统通过无训练数据处理器将异构的可观测性数据转化为结构化文本描述，并结合多智能体协作框架实现透明、可审计的诊断推理。为支持持续能力提升，OpsAgent 引入了内部模型更新与外部经验积累相结合的双重自进化机制，实验表明其在性能、可解释性、成本效率和自进化能力方面均表现优异，具备实际部署和长期运行的可行性。

2510.09333 2026-05-13 cs.LG cs.CV

Efficient Bayesian Inference from Noisy Pairwise Comparisons

Till Aczel, Lucas Theis, Roger Wattenhofer

发表机构 * ETH Zurich, Switzerland（苏黎世联邦理工学院）

AI总结本文研究了如何从带有噪声的人类成对比较数据中高效进行贝叶斯推断，以评估生成模型的质量。作者提出了一种名为 BBQ 的贝叶斯 Bradley-Terry 模型变体，该方法显式建模评分者质量，过滤不可靠评分者，并通过期望最大化算法保证似然函数的单调收敛。实验表明，BBQ 能在噪声或众包评分环境下提供更高效、鲁棒且可解释的模型排序与不确定性估计。

2510.03853 2026-05-13 cs.CV

UGround: Towards Unified Visual Grounding with Unrolled Transformers

Rui Qian, Xin Yin, Chuanhang Deng, Zhiyuan Peng, Jian Xiong, Wei Zhai, Dejing Dou

发表机构 * College of Computer Science and Artificial Intelligence, Fudan University（复旦大学计算机科学与人工智能学院）； Zhejiang University（浙江大学）

AI总结 UGround 提出了一种统一的视觉 grounding 框架，通过在展开的 Transformer 层中动态选择中间层作为“掩码作为提示”，克服了传统方法中固定使用最后一层隐藏状态的问题。该方法引入了策略驱动的掩码机制，包含随机跳过连接和掩码作为提示两个核心组件，实现了对视觉模型（如 SAM）的动态引导与空间线索的显式传递。UGround 在统一框架下覆盖了多种视觉 grounding 任务，包括属性层面的传统指代分割和新提出的推理分割等，显著提升了模型的灵活性和适用性。

Comments This work has been accepted to ICML 2026, please refer to https://github.com/rui-qian/UGround

2510.03206 2026-05-13 cs.AI cs.CL

Coevolutionary Continuous Discrete Diffusion: Make Your Diffusion Language Model a Latent Reasoner

Cai Zhou, Chenxiao Yang, Yi Hu, Chenyu Wang, Chubin Zhang, Muhan Zhang, Lester Mackey, Tommi Jaakkola, Stephen Bates, Dinghuai Zhang

发表机构 * Massachusetts Institute of Technology（麻省理工学院）； Microsoft Research（微软研究院）； Toyota Technological Institute at Chicago（丰田技术研究所（芝加哥））； Peking University（北京大学）； Tsinghua University（清华大学）

AI总结该论文研究了扩散语言模型在离散与连续空间中的表现差异，指出尽管连续扩散模型在理论上具有更强的表达能力，但在实际应用中往往不如离散模型。为此，作者提出了协同进化连续离散扩散（CCDD）方法，通过在连续表示空间和离散词元空间上定义联合扩散过程，结合两者优势，既保留了连续空间的语义丰富性，又借助离散词元提升训练和采样效果。实验表明，CCDD在多项现实任务的语言建模中表现出色。

Comments 29 pages. Accepted to ICML 2026

2510.02107 2026-05-13 cs.LG

PENEX: AdaBoost-Inspired Neural Network Regularization

Klaus-Rudolf Kladny, Bernhard Schölkopf, Michael Muehlebach

发表机构 * MPI for Intelligent Systems（智能系统研究所）； Tübingen AI Center（图宾根人工智能中心）； ELLIS Institute Tübingen（图宾根ELLIS研究所）

AI总结本文提出了一种受AdaBoost启发的神经网络正则化方法PENEX，通过改进多分类指数损失函数，使其适用于一阶优化方法，从而更有效地用于神经网络训练。PENEX通过增大数据点的边距来提升模型的泛化能力，并在低数据量场景下表现出优于传统正则化方法的性能。研究展示了指数损失在AdaBoost之外的广泛应用潜力。

2510.00733 2026-05-13 cs.LG cs.AI q-bio.QM

Neural Diffusion Processes for Physically Interpretable Survival Prediction

Alessio Cristofoletto, Cesare Rollo, Giovanni Birolo, Piero Fariselli

发表机构 * Department of Computing Sciences, Bocconi University, Milano, Italy（博科尼大学计算科学系，米兰，意大利）； Computational Biomedicine Unit, University of Torino, Torino, Italy（都灵大学计算生物医学单元，都灵，意大利）

AI总结本文提出了一种名为DeepFHT的生存分析框架，将深度神经网络与随机过程理论中的首次穿越时间（FHT）分布相结合，将事件发生时间建模为潜在扩散过程首次到达吸收边界的时间。该方法通过神经网络将输入变量映射到具有物理意义的参数，如初始条件、漂移和扩散系数，从而在无需假设比例风险的前提下，生成闭式生存和风险函数。实验表明，DeepFHT在预测性能上与现有先进方法相当，同时保持了物理可解释的参数化特性，有助于揭示输入特征与风险之间的关系。

Comments 12 pages, 5 figures

2509.25239 2026-05-13 cs.AI cs.CL cs.LG

A Formal Comparison Between Chain of Thought and Latent Thought

Kevin Xu, Issei Sato

发表机构 * Department of Computer Science, The University of Tokyo, Japan（东京大学计算机科学系）

AI总结本文对比了链式推理（Chain of Thought, CoT）与隐式推理（Latent Thought）两种大语言模型的推理方法。CoT通过显式生成中间token进行推理，而隐式推理则在连续的潜在空间中直接进行计算，支持超越离散语言表示的运算。研究发现，隐式推理在并行计算效率上更具优势，而CoT则在随机解码下支持近似计数和采样，为不同任务选择合适的推理范式提供了理论依据。

Comments Camera-ready version for ICML 2026

2509.22414 2026-05-13 cs.CV

LucidFlux: Caption-Free Photo-Realistic Image Restoration via a Large-Scale Diffusion Transformer

Song Fei, Tian Ye, Lujia Wang, Lei Zhu

发表机构 * The Hong Kong University of Science and Technology (Guangzhou)（香港科技大学（广州））

AI总结本文提出了一种无需图像描述的高保真图像修复方法LucidFlux，通过适配大规模扩散变换器Flux.1实现真实感图像恢复。该方法引入了一个轻量的双分支条件器，分别注入退化输入和轻度修复代理的信号以锚定几何结构并抑制伪影，并设计了时序和层自适应的调制调度策略，实现从粗到细的上下文感知更新。此外，通过SigLIP特征实现无需描述的语义对齐，并结合可扩展的数据筛选流程，LucidFlux在多个基准测试中优于现有开源和商业方法，验证了其在复杂场景下鲁棒且无需文本提示的图像修复能力。

Comments Project Page: https://w2genai-lab.github.io/LucidFlux

2509.20899 2026-05-13 cs.CV

Concepts in Motion: Temporal Concept Bottleneck Model for Interpretable Video Classification

Patrick Knab, Sascha Marton, Philipp J. Schubert, Drago Guggiana, Christian Bartelt

发表机构 * Technical University of Clausthal（Clausthal 技术大学）； Ramblr.ai Research（Ramblr.ai 研究）

AI总结本文提出了一种名为MoTIF的可解释视频分类方法，通过引入基于时序概念激活的Transformer架构，解决了在视频中提取和建模概念的挑战。该方法利用每个概念的时序自注意力机制，捕捉概念随时间的变化规律及其对分类结果的贡献，并通过一个基于视觉-语言模型的概念发现模块，从训练视频中自动提取与物体和动作相关的文本概念，无需人工标注。实验表明，该方法在多个视频基准上优于全局概念瓶颈模型，并在可解释性框架下保持了良好的性能。

2509.13548 2026-05-13 cs.SD eess.AS stat.ML

Mixture-of-Experts Framework for Field-of-View Enhanced Signal-Dependent Binauralization of Moving Talkers

Manan Mittal, Thomas Deppisch, Joseph Forrer, Chris Le Sueur, Zamir Ben-Hur, David Lou Alon, Daniel D. E. Wong

发表机构 * Stony Brook University（史泰森布鲁克大学）； Chalmers University of Technology（挑战大学）； Reality Labs Research, Meta（现实实验室研究，Meta）

AI总结本文提出了一种基于专家混合框架的新型方法，用于增强移动说话人声源的视野感知双耳渲染。该方法通过隐式定位在线融合多个双耳滤波器，实现了对连续运动声源的实时追踪与增强，能够在保持自然双耳线索的同时，突出或抑制特定方向的声音。与传统依赖到达方向估计或基于Ambisonics域的方法不同，该信号依赖框架具有阵列结构无关性，适用于下一代消费音频设备中的空间音频捕获与个性化播放。

Comments 5 pages, 3 figures

2507.16818 2026-05-13 cs.LG

Evaluating Artificial Intelligence Algorithms for the Standardization of Transtibial Prosthetic Socket Shape Design

C. H. E. Jordaan, M. van der Stelt, T. J. J. Maal, V. M. A. Stirler, R. Leijendekkers, T. Kachman, G. A. de Jong

发表机构 * D Lab, Radboud University Medical Centre（radboud大学医学中心3D实验室）； Department of Trauma Surgery, Radboud University Medical Centre（radboud大学医学中心创伤外科部门）； Department of Rehabilitation, Radboud University Medical Centre（radboud大学医学中心康复部门）； Donders Centre for Cognition, Radboud University（radboud大学认知中心）； Military Health Organisation, Ministry of Defence, Kromhout Kazerne（国防部军事医疗组织，克罗姆霍特凯尔内）

AI总结该研究旨在利用人工智能算法标准化截肢者假肢套筒的设计过程，以减少对假肢师经验的依赖。研究基于118名患者的三维残肢扫描和对应的假肢套筒模型，采用形态模型和主成分分析进行数据预处理，并开发了三种算法预测套筒形状或假肢师的调整方案。结果表明，预测调整方案的算法在精度上优于直接预测最终形状，其中随机森林模型表现最佳，表面到表面距离中位数仅为1.24毫米。

Journal ref Computer Methods and Programs in Biomedicine Update 9: 2026

详情

DOI: 10.1016/j.cmpbup.2026.100249

英文摘要

The quality of a transtibial prosthetic socket depends on the prosthetist's skills and expertise, as the fitting is performed manually. This study investigates multiple artificial intelligence (AI) approaches to help standardize transtibial prosthetic socket design. Data from 118 patients were collected by prosthetists working in the Dutch healthcare system. This data consists of a three-dimensional (3D) scan of the residual limb and a corresponding 3D model of the prosthetist-designed socket. Multiple data pre-processing steps are performed for alignment, standardization and optionally compression using Morphable Models and Principal Component Analysis. Afterward, three different algorithms - a 3D neural network, Feedforward neural network, and random forest - are developed to either predict 1) the final socket shape or 2) the adaptations performed by a prosthetist to predict the socket shape based on the 3D scan of the residual limb. Each algorithm's performance was evaluated by comparing the prosthetist-designed socket with the AI-generated socket, using two metrics in combination with the error location. First, we measure the surface-to-surface distance to assess the overall surface error between the AI-generated socket and the prosthetist-designed socket. Second, distance maps between the AI-generated and prosthetist sockets are utilized to analyze the error's location. For all algorithms, estimating the required adaptations outperformed direct prediction of the final socket shape. The random forest model applied to adaptation prediction yields the lowest error with a median surface-to-surface distance of 1.24 millimeters, a first quartile of 1.03 millimeters, and a third quartile of 1.54 millimeters.

URL PDF HTML ☆

赞 0 踩 0

2507.13841 2026-05-13 cs.CL

The Challenge and Reward of Fair Play in Narrative: A Computational Approach

Eitan Wagner, Renana Keydar, Omri Abend

发表机构 * Department of Computer Science Hebrew University of Jerusalem（计算机科学系 Hebrew University of Jerusalem）； Department of Law and Digital Humanities Hebrew University of Jerusalem（法律与数字人文系 Hebrew University of Jerusalem）

AI总结本文研究叙事中“意外性”与“连贯性”之间的平衡问题，提出一种基于信息论的理论框架，并以推理小说为案例进行分析。研究发现，对于单一读者模型，这两种特性存在权衡关系，但在区分“揭示前”和“揭示后”两种阅读模式后，二者可以共存。文章进一步提出“公平性”作为叙事质量的重要标准，并利用大语言模型进行实验验证，结果表明实现公平性对模型是一个挑战，且意外性与连贯性在不同故事中并不正相关。

Comments 47 pages, 11 figures, 13 tables

2506.13163 2026-05-13 cs.LG

Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback

Tanmay Goyal, Gaurav Sinha

发表机构 * Microsoft Research India（微软印度研究院）

AI总结本文研究了逻辑上下文滑块老虎机问题，其中智能体在每一轮从指数级大的候选滑块集合中选择一个包含 $N$ 个项目的滑块，并仅观测到由逻辑模型决定的单个二元奖励。为在 $T$ 轮中最大化累积奖励并保持低计算开销，作者提出了两种高效算法 Slate-GLM-OFU 和 Slate-GLM-TS，它们通过局部规划实现每轮 $N^{O(1)}$ 的时间复杂度，并通过全局学习保证低悔恨。理论分析和实验表明，这些算法在多种合成场景中表现优异，并成功应用于语言模型的上下文示例选择任务，取得了有竞争力的测试准确率。

Comments Accepted to UAI 2025

2506.09044 2026-05-13 cs.LG

Strategically Deceptive Model Deployment in Performative Prediction

Javier Sanguino Bautiste, Thomas Kehrenberg, Jose A. Lozano, Novi Quadrianto

发表机构 * Basque Center for Applied Mathematics（巴斯克应用数学中心）； University of the Basque Country UPV/EHU（巴斯克国家大学）； University of Sussex（苏塞克斯大学）

AI总结本文研究了在行为预测（Performative Prediction）场景中，机构通过部署与用户行为响应模型不一致的模型，从而实现策略性欺骗部署的问题。提出了一种新的框架——解耦行为预测（DPP），用于建模机构决策模型与用户响应模型之间的不匹配，并证明该框架可以带来更低的风险。研究还引入了“欺骗成本”作为衡量用户受欺骗程度的指标，并分析了机构在声誉或用户流失压力下引入该成本进行优化的局限性，强调模型披露不仅是伦理问题，更是关键技术设计决策，亟需相关监管。

Comments Accepted to FAccT 2026

详情

DOI: 10.1145/3805689.3812312

英文摘要

Machine Learning systems are increasingly deployed in decision-making settings that shape user behavior and, in turn, the data on which future decisions are based. Performative Prediction (PP) formalizes this feedback loop by modeling how deployed models induce distributional shifts. It studies how to learn robust and well-performing models under such dynamics. However, existing PP frameworks typically assume that the model governing these decisions is the same model observed by users (therefore, to which they respond). In practice, deployer institutions may instead disclose curated models, while internally relying on distinct opaque models. We introduce Decoupled Performative Prediction (DPP), a framework that explicitly models mismatches between the model governing institutional decisions and the model that shapes user behavior. By analyzing the resulting optimization landscape, we show that DPP admits new different solutions that provably achieve lower risk for the institution than those under classical PP. We further propose an algorithm with provable convergence guarantees under standard assumptions, demonstrating how easy institutions can benefit from strategically deceptive deployment when they control model disclosure and users lack countervailing power. To capture the implications of such behavior, we introduce the deception cost, a quantitative measure of the degree of deception experienced by users. We study settings in which institutions incorporate this cost into the optimization process, motivated by reputational concerns or potential user abandonment, and show that such self-imposed constraints are insufficient to protect users. Overall, our results demonstrate that model disclosure is not merely an ethical consideration but a core technical design decision, underscoring the need for regulations that hold institutions accountable for deceptive deployment practices.

URL PDF HTML ☆

赞 0 踩 0

2506.02084 2026-05-13 cs.LG stat.ML

Adversarial Causal Tuning for Realistic Time-series Generation

Nikolaos Gkorgkolis, Nikolaos Kougioulis, MingXue Wang, Bora Caglayan, Andrea Tonon, Dario Simionato, Ioannis Tsamardinos

发表机构 * University of Crete & FORTH（希腊克里特大学及希腊国家科研院）； Huawei Ireland Research Centre（华为爱尔兰研究中心）

AI总结本文研究如何从真实时间序列数据中生成具有相同观测和干预分布的仿真数据，旨在构建概率因果数字孪生模型。为此，作者提出了一种对抗因果调优（ACT）方法，结合生成对抗网络和自动机器学习的思想，搜索最优的因果模型和判别器，以提升生成数据与真实数据分布的一致性，并通过置换检验控制模型复杂度。实验表明，ACT在多个数据集上表现出优越的拟合能力和泛化性能，为现实时间序列的生成提供了新的有效方法。

Comments 22 pages, 3 figures

2506.01568 2026-05-13 cs.LG cs.RO

Trajectory First: A Curriculum for Discovering Diverse Policies

Cornelius V. Braun, Sayantan Auddy, Marc Toussaint

发表机构 * TU Berlin（柏林技术大学）； Robotics Institute（机器人研究所）

AI总结本文提出了一种两阶段的课程学习方法，旨在提升强化学习中智能体行为的多样性。该方法首先引入基于样条的轨迹先验作为归纳偏置，生成多样且高回报的行为策略，随后将其蒸馏为反应式的分步策略。实验表明，该课程学习框架在保持任务性能的同时，显著提升了所学技能的多样性。

Comments Accepted into the Inductive Biases in Reinforcement Learning Workshop at RLC 2025

2505.20535 2026-05-13 cs.LG

Rotary Masked Autoencoders are Versatile Learners

Uros Zivanovic, Serafina Di Gioia, Andre Scaffidi, Martín de los Rios, Gabriella Contardo, Roberto Trotta

发表机构 * University of Trieste（特里埃斯特大学）； Abdus Salam International Centre for Theoretical Physics (ICTP)（阿布杜斯·萨拉姆国际理论物理学中心（ICTP））； Scuola Internazionale Superiore di Studi Avanzati (SISSA)（国际先进研究高等学院（SISSA））； University of Nova Gorica（诺瓦戈里察大学）； INFN – National Institute for Nuclear Physics（意大利国家核物理研究所（INFN））； ICSC - Centro Nazionale di Ricerca in High Performance Computing（高性能计算国家研究中心（ICSC））； Imperial College London（伦敦帝国理工学院）

AI总结该论文提出了一种名为Rotary Masked Autoencoder（RoMAE）的新型自编码器，旨在解决传统Transformer在处理不规则时间序列时需要特殊架构设计的问题。RoMAE结合了旋转位置嵌入（RoPE）方法，能够在无需特定时间序列结构的情况下，对多维连续位置信息进行插值和表征学习。实验表明，RoMAE在不规则时间序列、图像和音频等多种模态任务中均表现出色，尤其在复杂数据集上超越了专门的时间序列模型，同时保持了MAE在其他模态中的良好性能。

Comments NeurIPS 2025 Final Camera Ready

Journal ref Advances in Neural Information Processing Systems 38, NeurIPS 2025, Pages 133952-133987

2505.18780 2026-05-13 cs.RO cs.LG

DreamPolicy: A Unified World-model Policy for Scalable Humanoid Locomotion

Yahao Fan, Tianxiang Gui, Kaiyang Ji, Shutong Ding, Chixuan Zhang, Yifeng Xu, Ke Yang, Jiayuan Gu, Jingyi Yu, Jingya Wang, Ye Shi

发表机构 * ShanghaiTech University（上海科技大学）； InstAdapt

AI总结实现一种能够适应多种地形的人形机器人行走策略是当前面临的关键挑战。本文提出 DreamPolicy，一种结合离线数据与扩散世界模型的统一策略框架，使单一策略能够掌握已知和未知地形的行走技能。该方法通过地形感知的世界模型生成物理合理的未来轨迹，作为条件策略的动态目标，从而避免手动设计奖励函数。实验表明，DreamPolicy 在未知和复合地形上的表现优于现有最佳方法，为通用人形机器人控制提供了一种可扩展的数据驱动范式。

2505.11356 2026-05-13 cs.LG

Fractal Graph Contrastive Learning

Nero Z. Li, Xuehao Zhai, Zhichao Shi, Boshen Shi, Xuhui Jiang

发表机构 * CDT, University of Oxford（牛津大学CDT）； IDEA Research, International Digital Economy Academy（IDEA研究院、国际数字经济学院）； School of Advanced Interdisciplinary Sciences, UCAS（北京大学交叉学科研究院）； State Key Lab of AI Safety, Institute of Computing Technology, CAS（人工智能安全国家重点实验室，计算技术研究所，中国科学院）； China Mobile Research Institute（中国移动研究院）； DataArc Tech Ltd.（DataArc科技有限公司）

AI总结本文提出了一种名为FractalGCL的图对比学习框架，旨在解决传统图增强方法在全局结构一致性控制上的不足。该方法基于重归一化构建增强图，并引入一种考虑分形维度的对比损失函数，以提升正样本的一致性并优化负样本的排斥效果。为降低计算开销，作者还设计了一种高斯近似方法，显著提升了运行效率。实验表明，FractalGCL在多个基准数据集和现实交通任务中均表现出色，具有良好的预训练和迁移能力。

Comments 32 pages, 7 figures

2505.10859 2026-05-13 cs.AI

Exploring Nonlinear Pathway in Parameter Space for Machine Unlearning

Yingdan Shi, Ren Wang

发表机构 * Department of Electrical and Computer Engineering, Illinois Institute of Technology, Chicago, IL, USA（伊利诺伊理工学院电气与计算机工程系）

AI总结本文研究了如何从已训练的机器学习模型中有效移除特定训练数据的影响，提出了一个名为Mode Connectivity Unlearning（MCU）的新框架。该方法利用模式连接性，在参数空间中寻找非线性的“遗忘路径”，并通过参数掩码策略和自适应惩罚系数调整，提升了遗忘效果与计算效率。与传统方法不同，MCU能够发现沿遗忘路径的一系列模型，具有良好的通用性和实验表现。

2505.02072 2026-05-13 cs.CL cs.AI

Express Your Doubts -- Probabilistic World Modeling Should not be Based on Token logprobs

Eitan Wagner, Omri Abend

发表机构 * Eitan Wagner ； Omri Abend

AI总结本文指出，近年来语言模型从字符串分布建模转向用于通用任务的预测模型，这一转变在使用大语言模型作为概率估计器时带来了被忽视的问题，特别是在世界概率建模方面。作者强调，分布估计与响应预测在理论上存在区别，而当前基于token logprobs的方法在不同应用场景下可能导致矛盾的输出分布，从而引发概率解释上的陷阱。文章主张采用二阶预测方法，将概率显式纳入输出，以提升概率建模的理论严谨性。

Comments Accepted to ICML 2026 (position track)

2504.12326 2026-05-13 cs.CL cs.AI cs.LG

Reconstructing Sepsis Trajectories from Clinical Case Reports using LLMs: the Textual Time Series Corpus for Sepsis

Shahriar Noroozizadeh, Jeremy C. Weiss

发表机构 * Machine Learning Department and Heinz College Carnegie Mellon University（卡内基梅隆大学机器学习系和海恩兹学院）； National Library of Medicine National Institutes of Health（美国国家医学图书馆）

AI总结该研究旨在从临床病例报告中重建脓毒症患者的病情发展轨迹，利用大语言模型（LLMs）对非结构化的文本进行时序标注和临床发现的提取。研究构建了一个开放获取的脓毒症文本时间序列语料库，包含2,139份PubMed开放获取病例报告，并通过与专家标注的对比验证了模型在时间定位和事件识别上的高准确率。该工作展示了LLMs在临床文本时序重建中的能力，同时指出了其局限性，并提出了多模态整合等改进方向。

Comments Conference on Health, Inference, and Learning (CHIL 2026)

2503.06139 2026-05-13 cs.CL

GRP: Goal-Reversed Prompting for Zero-Shot Evaluation with LLMs

Mingyang Song, Mao Zheng, Xuan Luo

发表机构 * Tencent（腾讯）

AI总结本文提出了一种名为Goal-Reversed Prompting（GRP）的新方法，用于改进基于大语言模型（LLM）的零样本评估。该方法通过让评估模型判断两个候选答案中“较差”的一个，再通过排除法确定偏好，从而提升评估准确性。实验表明，GRP在多个评估任务中显著提升了判断模型的性能，尤其在推理和数学任务中效果更为明显，且该方法兼容多种提示模板，无需额外推理轮次。

Comments Ongoing Work

2502.11981 2026-05-13 cs.LG cs.AI cs.CY

Welfare as a Guiding Principle for Machine Learning -- From Compass, to Lens, to Roadmap

Nir Rosenfeld, Haifeng Xu

发表机构 * Faculty of Computer Science（计算机科学学院）； Technion – Israel Institute of Technology（技术ion–以色列理工学院）； Department of Computer Science（计算机科学系）； University of Chicago（芝加哥大学）

AI总结本文提出将社会福利作为机器学习设计与应用中的核心指导原则，以促进社会福祉的最大化。作者借鉴福利经济学中关于资源分配的理论，认为在社会场景中，机器学习模型应不仅追求预测准确率，还需关注其对社会整体利益的影响。文章主张将福利作为优化、泛化和表达性之外的第四大核心标准，为机器学习的理论研究和实际应用提供新的方向和评价依据。

2502.03061 2026-05-13 cs.LG

Pure Exploration Beyond Reward Feedback: The Role of Post-Action Context

Mohammad Shahverdikondori, Amir Mohammad Abouei, Alireza Rezaeimoghadam, Negar Kiyavash

发表机构 * EPFL（瑞士联邦理工学院）； Sharif University of Technology（谢赫·穆吉加德姆技术大学）

AI总结本文研究了在获得动作后上下文信息的随机多臂老虎机环境中，最佳臂识别（BAI）问题的新变种。该问题考虑了在每次动作后，学习者除了获得奖励外，还能获取额外的上下文信息，从而更有效地辅助决策。文章分析了两种不同类型的后动作上下文，并提出了相应的算法，理论上证明其样本复杂度达到最优，同时实验表明利用上下文信息能显著提升性能。

Comments 46 pages, 8 figures

2501.19403 2026-05-13 cs.LG cs.AI

Tackling Fake Forgetting through Uncertainty Quantification

Yingdan Shi, Sijia Liu, Kaize Ding, Ren Wang

发表机构 * Illinois Institute of Technology（伊利诺伊理工学院）； Michigan State University（密歇根州立大学）； Northwestern University（西北大学）

AI总结本文研究了机器遗忘中的“假遗忘”问题，即模型虽然在遗忘指标上表现良好，但实际仍保留了被遗忘数据的真实标签信息。为解决这一问题，作者提出了一种基于符合预测的新型评估指标CR，用于更可靠地衡量遗忘质量，并进一步设计了一个结合符合预测的遗忘框架CPU，有效提升了遗忘效果。实验表明，该方法在图像分类任务中具有优越的遗忘性能。

2501.16931 2026-05-13 cs.LG stat.AP

Beyond Point Estimates: Distributional Uncertainty in Machine Learning Performance Evaluation

Christoph Lehmann, Yahor Paromau

发表机构 * Center for Scalable Data Analytics and Artificial Intelligence (ScaDS.AI)（可扩展数据分析与人工智能中心（ScaDS.AI））

AI总结该论文提出了一种基于分布的机器学习模型评估方法，强调性能指标应被视为随机变量而非固定值，以更全面地反映训练过程中的不确定性。研究通过分析性能指标的经验分布，利用分位数和置信区间进行点估计和区间估计，尤其关注小样本情况下的统计推断可行性。该方法相比传统的基于均值的评估，能够更细致地刻画模型性能的变异性和不确定性，适用于需要可靠性的实际应用场景，并且易于实现和推广。

Comments 21 pages, 9 figures

2501.08083 2026-05-13 cs.CV

Benchmarking Vision Foundation Models for Input Monitoring in Autonomous Driving

Mert Keser, Halil Ibrahim Orhan, Niki Amini-Naieni, Gesina Schwalbe, Alois Knoll, Matthias Rottmann

发表机构 * Continental AG（大陆汽车集团）； Technical University of Munich（慕尼黑技术大学）； University of Lübeck（吕贝克大学）； University of Oxford（牛津大学）； University of Wuppertal（伍珀塔尔大学）

AI总结该论文研究了在自动驾驶等复杂开放领域中，如何利用视觉基础模型（VFM）进行输入监控以检测超出训练数据分布的场景（OOD）。作者提出了一种无需监督、模型无关的方法，通过结合VFM作为特征提取器与密度建模技术，统一检测语义偏移和协变量偏移。实验表明，该方法在多种条件下优于现有OOD分类方法，并能有效识别可能引发下游任务错误的高风险输入，为复杂视觉任务中的安全监控提供了新思路。

2501.02955 2026-05-13 cs.CV

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang

发表机构 * Tsinghua University（清华大学）； Zhipu AI（智谱AI）

AI总结近年来，视觉语言模型（VLMs）在视频理解方面取得了显著进展，但对细粒度运动的理解仍缺乏系统研究。为此，本文提出了MotionBench，一个全面评估视频模型细粒度运动理解能力的基准，包含六类运动相关问题和多源视频数据。实验表明现有VLM在细粒度运动理解上表现不佳，作者通过分析视频特征压缩架构并提出一种高效的Through-Encoder融合方法，有效提升了模型的运动感知能力，展示了该方向仍有较大的提升空间。

Comments 20 pages

2412.18594 2026-05-13 cs.LG stat.ML

Local and Mixing-Based Algorithms for Gaussian Graphical Model Selection from Glauber Dynamics

Vignesh Tirukkonda, Anirudh Rayas, Gautam Dasarathy

发表机构 * Arizona State University（亚利桑那州立大学）

AI总结该论文研究了在数据来自高斯Glauber动力学的依赖样本下，如何进行高斯图模型结构学习的问题。作者提出了两种互补的方法：一种是基于相关性检验的局部边检测算法，无需等待链的混合即可并行实现；另一种是在满足Dobrushin收缩条件时，通过子采样高斯Gibbs轨迹，使其在总变分距离下接近独立同分布样本，从而可直接使用标准的独立样本图模型学习方法。研究还提供了有限样本下的恢复保证，并分析了观测时间的信息下界。

Comments Major revision. Corrects the earlier local ratio-estimator analysis by replacing it with a local product estimator; adds a burn-in/thinning estimator based on total-variation decoupling for Gaussian Gibbs samplers; strengthens the lower bounds; adds experiments; and compares with the related ICML 2026 work of Shen, Wu, Majid, and Moitra

AI 大模型

视觉与机器人

科学与医疗