arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.11591 2026-05-13 cs.CV

Logit-Attention Divergence: Mitigating Position Bias in Multi-Image Retrieval via Attention-Guided Calibration

Mingtao Xian, Yifeng Yang, Qinying Gu, Xinbing Wang, Nanyang Ye

发表机构 * Zhiyuan College, Shanghai Jiao Tong University, Shanghai, China（上海交通大学紫阳学院）； Shanghai Jiao Tong University, Shanghai, China（上海交通大学）； Shanghai Artificial Intelligence Laboratory, Shanghai, China（上海人工智能实验室）； Shanghai Innovation Institute, Shanghai, China（上海创新研究院）

AI总结多模态大语言模型在多图像跨模态检索任务中表现出色，但存在严重的顺序偏差问题，即预测结果受输入顺序影响而非语义相关性。本文提出了一种名为“Logit-Attention Divergence”的现象，指出输出logits存在偏差，而内部注意力图仍能准确对齐相关视觉信息，揭示了现有校准方法的局限性。基于此，作者提出了一种无需训练、基于注意力引导的去偏框架，利用模型内部的注意力信号在推理阶段进行实例级校正，仅需少量校准数据且计算开销极小。实验表明，该方法显著提升了模型对输入顺序的鲁棒性，在多个基准测试中取得了最先进的性能。

2605.11586 2026-05-13 cs.LG math.OC

Learning Weakly Communicating Average-Reward CMDPs: Strong Duality and Improved Regret

Kihyun Yu, Beomhan Baek, Dabeen Lee

发表机构 * Department of Industrial & Systems Engineering, KAIST（韩国科学技术院工业与系统工程系）； Department of Mathematical Sciences, Seoul National University（首尔国立大学数学科学系）

AI总结本文研究了在弱连通假设下无限时间平均奖励约束马尔可夫决策过程（CMDPs）的学习问题。作者首先建立了有限状态和动作空间下弱连通平均奖励CMDPs在平稳策略上的强对偶性，即使在缺乏线性规划形式且问题非凸的情况下，也通过分析状态占用测度的几何结构证明了强对偶性的成立。其次，基于该结果，提出了一种剪裁价值迭代的原始-对偶算法，用于学习弱连通平均奖励线性CMDPs，该算法在 regret 和约束违反方面达到了 $\widetilde{\mathcal{O}}(T^{2/3})$ 的上界，优于现有最佳结果，并通过强对偶性分析实现了对复合拉格朗日 regret 的分解。

2605.11585 2026-05-13 cs.CV cs.LG

A Mixture Autoregressive Image Generative Model on Quadtree Regions for Gaussian Noise Removal via Variational Bayes and Gradient Methods

Shota Saito, Yuta Nakahara, Kohei Horinouchi, Naoki Ichijo, Manabu Kobayashi, Toshiyasu Matsushima

发表机构 * Gunma University（群马大学）； Waseda University（早稻田大学）

AI总结本文研究了灰度图像的高斯噪声去除问题，提出了一种结合四叉树区域划分模型与混合自回归模型的概率图像生成方法，并将基于最大后验估计的去噪问题转化为变分下界最大化问题。通过交替应用变分贝叶斯方法和梯度方法，开发了一种新的优化算法，其中梯度更新规则可解析计算，无需数值近似。实验验证了该算法的有效性，并指出了进一步改进的方向。

2605.11582 2026-05-13 cs.CL

Efficient LLM-based Advertising via Model Compression and Parallel Verification

Wenxin Dong, Chang Gao, Guanghui Yu, Xuewu Jiao, Mingqing Hu, Qiang Fu, Peng Xu, Penghui Wei, Hui Xu, Yue Xing, Shuanglong Li, Lin Liu

发表机构 * Baidu Inc.（百度公司）

AI总结本文研究了如何高效地在广告场景中部署大语言模型（LLM），以解决其推理延迟高和计算成本大的问题。提出了一种高效的生成式定向框架，结合自适应分组量化、层自适应分层稀疏化和前缀树并行验证等方法，在保证生成质量的同时显著加速LLM推理。实验表明，该框架在两个真实广告场景中实现了显著的加速效果，且质量下降可控，具备实际部署的可行性。

Comments 10 pages, 7 figures, industry paper

2605.11581 2026-05-13 cs.CL

Ada-MK: Adaptive MegaKernel Optimization via Automated DAG-based Search for LLM Inference

Wenxin Dong, Mingqing Hu, Guanghui Yu, Qiang Fu, Peng Xu, Hui Xu, Yue Xing, Xuewu Jiao, Shuanglong Li, Lin Liu

发表机构 * Baidu Inc.（百度公司）

AI总结在商业在线广告系统中，大语言模型（LLM）的实时推理需要严格控制端到端延迟。为解决解码阶段内核启动开销大的问题，研究提出Ada-MK方法，通过基于DAG的自动搜索优化MegaKernel的执行路径，结合三维共享内存约束模型和异构混合推理引擎，有效降低了共享内存使用并消除了运行时分支开销，显著提升了推理吞吐量和延迟表现。

Comments 10 pages, 8 figures

2605.11578 2026-05-13 cs.CV

The Midas Touch for Metric Depth

Yu Ma, Zizhan Guo, Zuyi Xiong, Haoran Zhang, Yi Feng, Hongbo Zhao, Hanli Wang, Rui Fan

发表机构 * College of Electronic and Information Engineering, Tongji University（同济大学电子与信息工程学院）； Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University（同济大学上海智能自主系统研究所）； National Key Laboratory of Human-Machine Hybrid Augmented Intelligence, Xi’an Jiaotong University（西安交通大学人机混合增强智能国家重点实验室）

AI总结本文提出了一种名为MTD的方法，旨在解决相对深度估计在实际应用中因缺乏度量尺度、局部不一致和计算效率低而受限的问题。该方法通过极稀疏的3D数据将相对深度转换为度量深度，采用分段恢复策略和基于不连续性感知的测地成本像素级优化，有效消除了局部尺度不一致。MTD具有良好的泛化能力，显著提升了深度补全和深度估计的精度，且其轻量化的模块化设计便于在多种下游3D任务中部署和集成。

2605.11577 2026-05-13 cs.CL

BitLM: Unlocking Multi-Token Language Generation with Bitwise Continuous Diffusion

Shaobin Zhuang, Yuang Ai, Jiaming Han, Xiaohui Li, Huaibo Huang, Xiangyu Yue, Xuefeng Hu, Kun Xu, Yali Wang, Hao Chen

发表机构 * Shanghai Jiao Tong University（上海交通大学）； MMLab, The Chinese University of Hong Kong（中大香港机器学习实验室）； Institute of Automation, Chinese Academy of Sciences（中国科学院自动化研究所）； SIAT, Chinese Academy of Sciences（中国科学院软件研究所）

AI总结传统自回归语言模型逐个生成文本标记，难以有效捕捉自然语言中多标记单元的结构特性，限制了模型的表达能力和推理效率。本文提出 BitLM，通过将每个标记表示为固定长度的二进制码，并在每个块内并行去噪多个标记，从而在保持左到右因果注意力的同时实现块内联合词法决策。BitLM 用位级去噪替代传统大词汇表 softmax，将标记生成重构为紧凑二进制空间中的迭代承诺过程，显著提升了预训练效率和推理速度，展示了逐标记生成并非语言模型的必然要求，而是接口选择，为新一代语言模型架构提供了新方向。

Comments 12 pages, 4figures, 1 table

2605.11574 2026-05-13 cs.CL cs.AI cs.LG

Three Regimes of Context-Parametric Conflict: A Predictive Framework and Empirical Validation

Pruthvinath Jeripity Venkata

发表机构 * Independent Researcher（独立研究者）

AI总结本文研究了大型语言模型在处理训练知识与矛盾文档之间冲突时的三种不同情境，并提出了一个三阶段的预测框架。核心方法区分了参数强度与参数唯一性这两个正交维度，并通过大量实验验证了模型在不同任务场景下的行为差异。研究发现，模型在任务相关性引导下对文档的依赖程度显著变化，揭示了参数确定性在事实性任务中的主导作用。

Comments 10 pages, 13 tables, no figures. 9,970 API calls across five frontier models

2605.11571 2026-05-13 cs.LG

FedOUI: OUI-Guided Client Weighting for Federated Aggregation

Alberto Fernández-Hernández, Jose I. Mestre, Cristian Pérez-Corral, Manuel F. Dolz, Jose Duato, Enrique S. Quintana-Ortí

发表机构 * Universitat Politècnica de València（巴塞罗那理工大学）； Universitat Jaume I（Jaime I 大学）； Openchip & Software Technologies S.L.（Openchip 及软件技术公司）

AI总结本文提出FedOUI，一种基于过拟合-欠拟合指示器（OUI）的联邦学习聚合方法，通过客户端模型在固定探测数据集上的激活特征评估其训练过程中的结构特性，并据此动态调整客户端在聚合中的权重。该方法无需标签信息，能够在强非独立同分布和存在噪声客户端的场景下提升聚合质量，实验表明其在异构性较强时表现尤为突出，展示了模型内部激活结构在联邦学习中的潜在价值。

2605.11570 2026-05-13 cs.LG

OUI as a Structural Observable: Towards an Activation-Centric View of Neural Network Training

Alberto Fernández-Hernández, Jose I. Mestre, Cristian Pérez-Corral, Manuel F. Dolz, Jose Duato, Enrique S. Quintana-Ortí

发表机构 * Openchip \& Software Technologies S.L., Spain

AI总结本文提出将过拟合-欠拟合指示器（OUI）视为神经网络训练过程中内部结构变化的一个可观测指标，强调应从激活函数的角度理解训练动态。研究发现，OUI作为一种早期、无需标签的基于激活的信号，能够提前揭示网络训练进入良好或不良状态的趋势，在监督学习、强化学习和在线控制等多种场景中表现出良好的预测能力。这一发现为构建以激活为中心的训练动态理论提供了实证基础。

2605.11569 2026-05-13 cs.AI cs.LG

Dual-Temporal LSTM with Hybrid Attention for Airline Passenger Load Factor Forecasting: Integrating Intra-Flight and Inter-Flight Booking Dynamics

ASM Nazrul Islam, Md. Hasanul Kabir, Md. Liakot Ali, Joydeb Kumar Sana

发表机构 * Institute of Information and Communication Technology（信息与通信技术研究所）； Bangladesh University of Engineering and Technology（孟加拉工程与技术大学）； Islamic University of Technology（伊斯兰大学）

AI总结该研究针对航空业需求预测中的不足，提出了一种结合双时间流和混合注意力机制的LSTM模型，用于更准确地预测航班载客率。该模型同时处理航班内部的预订积累和航班之间的预订模式，克服了传统单时间维度建模的信息丢失问题。实验表明，该方法在孟加拉国航空公司实际数据上取得了较高的预测精度，并在多种航线类型中表现出良好的泛化能力，已被该航空公司正式应用于运营中。

详情

英文摘要

Accurate short-term demand forecasting is crucial to airline revenue management, yet most existing systems fail to meet this need because current models treat booking data as a single temporal dimension, either the accumulation of bookings for a specific flight or the historical booking profile of the same route. This unidimensional view discards information carried by the other temporal stream and forecasting absolute passenger counts introduces a further operational fragility when change in planned aircraft type alters total seat capacity. This study addresses both limitations. A dual-stream Long Short-Term Memory (LSTM) integrated with attention framework is proposed that simultaneously processes two complementary input sequences: a horizontal sequence capturing intra-flight booking accumulation over the days preceding departure, and a vertical sequence capturing inter-flight booking patterns at fixed days-before-departure offsets across historical flights. Multiple dual-stream architectural variants, combining self-attention, cross-attention, and hybrid attention with concatenation, residual, and gated fusion strategies, are developed and evaluated. Experiments on real-world reservation data from the national airline of Bangladesh, Biman Bangladesh Airlines (BBA), demonstrate that the proposed hybrid model achieves a Mean Absolute Error of 2.8167 and a coefficient of determination ($R^{2}$) of 0.9495, outperforming single-stream baselines, tree-based models, and three prior dual-LSTM architectures applied to the same data. Validation across four flight category pairs; domestic versus international, direct versus transit, high versus low frequency, and short versus mid versus long haul confirms that the model generalizes across operationally diverse route types. Biman Bangladesh Airlines (BBA) has officially integrated this methodology into its operations.

URL PDF HTML ☆

赞 0 踩 0

2605.11564 2026-05-13 cs.RO

RIO: Flexible Real-Time Robot I/O for Cross-Embodiment Robot Learning

Pablo Ortega-Kral, Eliot Xing, Arthur Bucker, Vernon Luk, Junseo Kim, Owen Kwon, Angchen Xie, Nikhil Sobanbabu, Yifu Yuan, Megan Lee, Deepam Ameria, Bhaswanth Ayapilla, Jaycie Bussell, Guanya Shi, Jonathan Francis, Jean Oh

发表机构 * Carnegie Mellon University（卡内基梅隆大学）； TU Delft（代尔夫特理工大学）； Lavoro AI ； Bosch Center for AI（博世人工智能中心）

AI总结本文提出 RIO，一个开源的 Python 框架，旨在解决跨形态机器人学习中的基础设施碎片化问题。RIO 提供了灵活、轻量的组件，支持机器人控制、远程操作、数据格式化、传感器配置和策略部署，适用于多种硬件平台和形态。研究通过在三种机器人形态和四种硬件平台上验证 RIO，展示了其在通用视觉-语言-动作模型训练与部署中的有效性，为实际机器人硬件上的学习加速提供了基础支持。

Comments 14 pages, 12 figures, 5 tables. Accepted to Robotics: Science and Systems (RSS) 2026

2605.11563 2026-05-13 cs.CV cs.AI

TCP-SSM: Efficient Vision State Space Models with Token-Conditioned Poles

Sara Shoouri, Morteza Tavakoli Taba, Hun-Seok Kim

发表机构 * University of Michigan（密歇根大学）

AI总结本文提出了一种名为TCP-SSM的高效视觉状态空间模型，旨在解决现有SSM在长程视觉任务中难以控制状态依赖记忆行为的问题。该方法通过引入基于令牌的稳定极点，显式建模递归动态，提升了模型的可解释性和可控性。TCP-SSM采用实极点和复共轭极点分别建模单调衰减和阻尼振荡响应，并通过分组极点共享和轻量输入路径设计，实现了计算效率的显著提升，在多个视觉任务中相比基线模型减少了高达44%的计算复杂度。

2605.11559 2026-05-13 cs.CV cs.AI

When Looking Is Not Enough: Visual Attention Structure Reveals Hallucination in MLLMs

Fanpu Cao, Xin Zou, Xuming Hu, Hui Xiong

发表机构 * Thrust of Artificial Intelligence, HKUST (Guangzhou)（人工智能前沿 thrust，香港科技大学（广州））； Department of Computer Science and Engineering, HKUST（计算机科学与工程系，香港科技大学）

AI总结多模态大语言模型（MLLMs）在视觉推理和基于视觉的问题回答中发挥着重要作用，但其仍易产生视觉幻觉，即生成的回答与图像内容矛盾或提及不存在的物体。本文发现，通过分析视觉注意力的高频结构（即层间拉普拉斯能量），可以揭示模型在生成幻觉时的注意力变化特征，并据此提出一种无需训练的解码策略LaSCD，通过选择具有高拉普拉斯能量的层并重新映射下一个词的得分，有效减少幻觉现象，同时保持模型的一般能力。

2605.11556 2026-05-13 cs.AI cs.LG

Hindsight Hint Distillation: Scaffolded Reasoning for SWE Agents from CoT-free Answers

Shengjie Wang, Guanghe Li, Zonghan Yang, Yang Gao

发表机构 * Tsinghua University（清华大学）

AI总结该研究提出了一种名为Hindsight Hint Distillation（HHD）的新方法，旨在从无思维链（CoT）注释的问题-答案对中学习推理能力，以解决复杂的长期任务。HHD通过模型自身失败的自我推演生成“事后提示”，用于指导成功的策略生成，并通过自我蒸馏提升模型的推理能力。实验表明，HHD在多个基准测试中显著优于现有方法，尤其在未见过的任务上表现出良好的泛化能力。

Comments 28 pages, 7 figures

2605.11554 2026-05-13 cs.LG

A Controlled Counterexample to Strong Proxy-Based Explanations of OOD Performance: in a Fixed Pretraining-and-Probing Setup

Hongmin Li

发表机构 * School of Life Science and Technology, Institute of Science Tokyo（生命科学与技术学院，科学东京研究所）； Department of Computational Biology and Medical Sciences, Graduate School of Frontier Sciences（计算生物学与医学科学系，前沿科学研究生院）

AI总结该研究探讨了在固定预训练与探针任务设置下，基于结构代理的解释是否能够准确反映模型在分布外（OOD）任务上的性能差异。研究通过构造一个受控实验，展示了结构代理的排名与OOD探针准确率排名可能不一致，表明结构代理未必能追踪影响OOD性能的关键任务结构。这一反例揭示了强代理解释的局限性，指出在特定条件下，总学习结构的代理可能无法准确反映任务相关结构。

Comments 19 pages, 3 figures

2605.11551 2026-05-13 cs.LG cs.CV cs.IT math.IT

VNDUQE: Information-Theoretic Novelty Detection using Deep Variational Information Bottleneck

Aryan Gondkar, Hayder Radha, Yiming Deng

发表机构 * 1 Nondestructive Evaluation Lab, Department of Electrical ； Computer Engineering Michigan State University East Lansing, MI Email ； 2 Department of Electrical

AI总结本文提出了一种基于深度变分信息瓶颈（VIB）的新型检测与不确定性量化方法VNDUQE，用于检测神经网络中的分布外（OOD）样本。该方法通过信息论指标如KL散度和预测熵来评估样本的异常程度，并在MNIST数据集上验证了其有效性。实验表明，结合KL散度和预测熵的并行检测策略在远分布外和近分布外样本检测上均优于传统基线方法，显著提升了检测性能和不确定性估计的可靠性。

Comments 6 pages, 3 figures, Fall 2025 version

2605.11550 2026-05-13 cs.CV

The DAWN of World-Action Interactive Models

Hongbo Lu, Liang Yao, Chenghao He, Haoyu Wang, Xiang Gu, Xianfei Li, Wenlong Liao, Tao He, Pai Peng

发表机构 * COWARobot Co. Ltd（COWARobot有限公司）； Shanghai Jiao Tong University（上海交通大学）； Hohai University（河海大学）

AI总结该论文提出了一种名为DAWN的世界-动作交互模型，用于解决自动驾驶场景中世界演化与动作生成之间的相互依赖问题。DAWN通过在语义潜在空间中结合世界预测器和世界条件动作去噪器，实现了世界预测与动作生成的递归优化，从而在复杂交互场景中支持长期轨迹生成。实验表明，DAWN在多个自动驾驶基准测试中表现出优异的规划性能和安全性，展示了交互式世界-动作生成在构建真正可操作世界模型中的潜力。

2605.11547 2026-05-13 cs.LG cs.AI

Sharpen Your Flow: Sharpness-Aware Sampling for Flow Matching

Aditi Gupta, Soon Hoe Lim, Annan Yu, N. Benjamin Erichson

发表机构 * Lawrence Berkeley National Laboratory（伯克利国家实验室）； International Computer Science Institute（国际计算机科学研究所）； Department of Mathematics, KTH Royal Institute of Technology（皇家理工学院数学系）； Nordita, KTH Royal Institute of Technology and Stockholm University（KTH皇家理工学院与斯德哥尔摩大学联合研究所）； Center for Applied Mathematics, Cornell University（康奈尔大学应用数学中心）

AI总结本文提出了一种名为 SharpEuler 的训练无关采样方法，用于改进流匹配模型的生成效率与质量。该方法通过离线分析预训练模型，估计速度场变化最剧烈的区域，并据此生成适用于任意推理预算的时步网格，从而在保持相同模型评估次数的前提下提升采样效果。实验表明，SharpEuler 在固定计算预算下能有效减少模式泄露并提升模式覆盖度，为高效生成提供了新思路。

2605.11541 2026-05-13 cs.CV

GeoR-Bench: Evaluating Geoscience Visual Reasoning

Yushuo Zheng, Zicheng Zhang, Huiyu Duan, Chunyi Li, Zijian Chen, Ziheng Jia, Yue Shi, Ke Gu, Xiongkuo Min, Guangtao Zhai

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Beijing University of Technology（北京理工大学）

AI总结 GeoR-Bench 是一个用于评估地球科学视觉推理能力的基准测试，旨在解决当前人工智能系统在理解和预测地球系统变化方面的能力不足问题。该基准包含440个经过精心挑选的样本，涵盖6类地球科学任务和24种任务类型，通过视觉编辑任务来评估模型的推理能力、一致性和输出质量。实验结果表明，现有模型在地球科学推理上仍存在显著瓶颈，最佳模型的总体准确率仅为42.7%，而开源模型表现更差，反映出当前模型在科学准确性上仍有较大提升空间。

2605.11538 2026-05-13 cs.CL cs.AI cs.LG

Taming Extreme Tokens: Covariance-Aware GRPO with Gaussian-Kernel Advantage Reweighting

Cheng Wang, Qin Liu, Wenxuan Zhou, Muhao Chen

发表机构 * National University of Singapore（新加坡国立大学）； University of California, Davis（加州大学戴维斯分校）； University of Southern California（美国南加州大学）

AI总结本文针对大型语言模型在训练过程中探索与利用之间的平衡问题，提出了一种基于协方差感知的改进型GRPO方法。该方法通过高斯核函数动态降低极端token更新的影响，从而在不损失有用学习信号的前提下减少训练不稳定。实验表明，该方法在多个推理基准上优于原始GRPO，有效提升了模型的下游性能并稳定了训练过程中的熵值。

Comments ACL 2026

2605.11537 2026-05-13 cs.LG

Fast MoE Inference via Predictive Prefetching and Expert Replication

Ankit Jyothish, Ali Jannesari, Aishwarya Sarkar, Joseph Zuber

发表机构 * Iowa State University（爱荷华州立大学）

AI总结该论文针对混合专家（MoE）架构在大语言模型推理中面临的GPU利用率低、负载不均衡和延迟高的问题，提出了一种基于预测预取和专家复制的加速方法。通过动态预测可能过载的专家并在后续批次中复制这些专家，实现跨层并行处理，从而提升并行性、减少GPU空闲时间，显著加快推理速度。实验表明，该方法在保持模型性能几乎不变的情况下，使推理速度提升达3倍，并接近实现100%的GPU利用率。

2605.11535 2026-05-13 cs.LG

Primal-Dual Policy Optimization for Linear CMDPs with Adversarial Losses

Kihyun Yu, Seoungbin Bae, Dabeen Lee

发表机构 * Research Institute of Mathematics, Seoul National University（数学研究所，首尔国立大学）； Interdisciplinary Program in Artificial Intelligence, Seoul National University（人工智能跨学科项目，首尔国立大学）； Korea Institute for Advanced Study（韩国高级研究院）

AI总结本文研究了在线有限时间对抗性线性约束马尔可夫决策过程（CMDPs）中的策略优化问题，其中损失函数由对手对抗性选择，而代价函数则服从随机反馈。为应对这一挑战，作者提出了一种基于原-对偶优化的算法，首次在该设置下实现了次线性遗憾和约束违反界，均为 $\widetilde{\mathcal{O}}(K^{3/4})$。该算法引入了一类新的加权 LogSumExp 软max策略，并结合周期性策略混合和正则化对偶更新等关键技术，有效控制了策略覆盖数和对偶变量，从而保证了算法的理论性能。

Comments Accepted to ICLR 2026

2605.11534 2026-05-13 cs.RO

PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments

Yunn Kang Lim, Pengzhan Sun, Ziyi Bai, Xun Xu, Angela Yao, Xulei Yang, Shijie Li

发表机构 * A*STAR ； National University of Singapore（国立新加坡大学）； BAAI（北京人工智能研究院）

AI总结 PRISM 是一个用于诊断具身智能体在家庭任务中失败原因的基准平台，它将问题从单纯的“是否成功”转变为识别“哪个能力模块最可能导致失败”。该基准基于五个逼真的多房间公寓环境，构建了300个由人类验证的任务，并将其分为三个能力层级，分别评估感知-动作映射、隐式意图解析和长期协调能力。实验表明，隐式意图解析是当前主流大语言模型的显著瓶颈，而长期任务协调则暴露了模型在规划能力上的明显差距。

2605.11532 2026-05-13 cs.AI

Read, Grep, and Synthesize: Diagnosing Cross-Domain Seed Exposure for LLM Research Ideation

Yunju Choi, Min Song

发表机构 * Yonsei University, Seoul, Republic of Korea（延世大学，首尔，韩国）

AI总结本文研究了大型语言模型（LLM）在生成研究想法时，是否能从跨领域知识中获益。作者提出了一种名为PaperGym的三阶段方法，通过工具增强的种子提取、跨领域种子检索与方法合成，评估了不同种子来源对创新性的影响。实验表明，跨领域种子检索在提升方法新颖性方面优于单一领域和无检索基线，但未能显著优于随机多样化种子。研究指出，当前LLM在利用跨领域知识生成创意时，仍难以有效捕捉种子的语义关联。

Comments 12 pages, 2 figures, 7 tables

2605.11530 2026-05-13 cs.LG

Multi-Narrow Transformation as a Single-Model Ensemble: Boundary Conditions, Mechanisms, and Failure Modes

Tatsuhito Hasegawa, Taisei Tanaka

发表机构 * Graduate School of Engineering, University of Fukui（宇治大学工学研究院）

AI总结本文研究了在参数预算相近的情况下，是将模型容量集中于单一宽网络路径，还是分散到多个窄且独立的分支中更为有效。通过引入多窄（Multi-Narrow）变换，将基础卷积神经网络转化为具有多个窄分支的单一模型集成，作者系统比较了不同数据条件、网络结构和数据集下的单宽与多窄配置表现。研究发现，多窄结构在数据稀缺场景下表现更优，因其能学习到更多样、更少冗余的特征，而在数据丰富的场景下，单宽模型更具优势，这一结论在多种CNN架构和图像分类任务中得到了验证。

Comments 12 pages, 9 figures, 4 tables. Preprint version of a manuscript submitted to Neurocomputing

2605.11527 2026-05-13 cs.LG cs.CR cs.DB

FERMI: Exploiting Relations for Membership Inference Against Tabular Diffusion Models

Abtin Mahyar, Masoumeh Shafieinejad, Yuhan Liu, Xi He

发表机构 * University of Waterloo（多伦多大学）； Vector Institute（向量研究所）

AI总结该研究探讨了针对表格扩散模型的成员推理攻击问题，关注真实敏感数据中多表关联结构被忽略的挑战。提出了一种名为FERMI的方法，通过利用目标表关联表的辅助信息增强单表特征，从而提升攻击性能。实验表明，FERMI在多种表格扩散模型和真实数据集上均显著优于传统单表攻击方法，特别是在白盒和黑盒设置下分别提升了最高达53%和22%的攻击准确率。

2605.11525 2026-05-13 cs.LG

OverNaN: NaN-Aware Oversampling for Imbalanced Learning with Meaningful Missingness

Amanda S Barnard

发表机构 * School of Computing（计算学院）； Australian National University（澳大利亚国立大学）

AI总结在实际应用中，缺失值常被视为需要删除或填补的缺陷，但其本身可能包含重要信息。本文提出了一种名为 OverNaN 的轻量级过采样框架，专门用于处理类别不平衡问题，同时保留缺失值结构。该方法扩展了传统合成过采样技术，直接在不完整特征向量上生成样本，允许缺失值被保留、传播或选择性插值，从而在不破坏缺失信息的前提下提升模型性能。该研究为科学与工程领域中处理不可避免且具有信息量的缺失值提供了新的解决方案。

Comments 14 pages, 2 figures, 17 tables

2605.11524 2026-05-13 cs.LG cs.CE

EqOD: Symmetry-Informed Stability Selection for PDE Identification

Gnankan Landry Regis N'guessan, Bum Jun Kim

发表机构 * Axiom Research Group（Axiom研究组）； Department of Applied Mathematics and Computational Science, NM-AIST, Tanzania（应用数学与计算科学系，NM-AIST，坦桑尼亚）； African Institute for Mathematical Sciences (AIMS), Research and Innovation Centre, Rwanda（非洲数学科学研究所（AIMS），研究与创新中心，卢旺达）； The University of Tokyo, Japan（东京大学，日本）

AI总结该研究提出了一种名为EqOD的自动方法，用于从噪声数据中稳定识别偏微分方程（PDE），通过结合对称性约简和稳定性选择机制，有效减少虚假正例并提高识别准确性。当检测到伽利略不变性时，EqOD利用对称性约简库剔除不可能存在的项；否则采用随机LASSO稳定性选择。实验表明，EqOD在多个PDE和噪声水平下表现优异，显著优于现有方法如PySINDy和WF-LASSO。

Comments 45 pages, 16 figures

2605.11521 2026-05-13 cs.CV

XWOD: A Real-World Benchmark for Object Detection under Extreme Weather Conditions

Chih-Hsin Chen, Yu-Tung Liu, Amar Fadillah, Kuan-Ting Lai, Dong Liu

发表机构 * Department of Electronic Engineering（电子工程系）； National Taipei University of Technology（台北科技大学）； Adobe Inc.（Adobe公司）

AI总结本文提出XWOD，一个用于极端天气条件下目标检测的大型真实世界数据集，包含10,010张图像和42,924个标注框，涵盖雨、雪、雾、沙尘、洪水、龙卷风和野火七种极端天气条件下的六类交通目标。XWOD扩展了天气分类的范围，首次引入气候加剧型灾害类别，并通过在其他天气数据集上的零样本测试验证了其数据质量，显著提升了检测性能。该数据集为研究极端天气下的交通感知提供了强有力的基准。

AI 大模型

视觉与机器人

科学与医疗