arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.11537 2026-05-13 cs.LG

Fast MoE Inference via Predictive Prefetching and Expert Replication

Ankit Jyothish, Ali Jannesari, Aishwarya Sarkar, Joseph Zuber

AI总结该论文针对混合专家（MoE）架构在大语言模型推理中面临的GPU利用率低、负载不均衡和延迟高的问题，提出了一种基于预测预取和专家复制的加速方法。通过动态预测可能过载的专家并在后续批次中复制这些专家，实现跨层并行处理，从而提升并行性、减少GPU空闲时间，显著加快推理速度。实验表明，该方法在保持模型性能几乎不变的情况下，使推理速度提升达3倍，并接近实现100%的GPU利用率。

2605.11535 2026-05-13 cs.LG

Primal-Dual Policy Optimization for Linear CMDPs with Adversarial Losses

Kihyun Yu, Seoungbin Bae, Dabeen Lee

AI总结本文研究了在线有限时间对抗性线性约束马尔可夫决策过程（CMDPs）中的策略优化问题，其中损失函数由对手对抗性选择，而代价函数则服从随机反馈。为应对这一挑战，作者提出了一种基于原-对偶优化的算法，首次在该设置下实现了次线性遗憾和约束违反界，均为 $\widetilde{\mathcal{O}}(K^{3/4})$。该算法引入了一类新的加权 LogSumExp 软max策略，并结合周期性策略混合和正则化对偶更新等关键技术，有效控制了策略覆盖数和对偶变量，从而保证了算法的理论性能。

Comments Accepted to ICLR 2026

2605.11534 2026-05-13 cs.RO

PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments

Yunn Kang Lim, Pengzhan Sun, Ziyi Bai, Xun Xu, Angela Yao, Xulei Yang, Shijie Li

AI总结 PRISM 是一个用于诊断具身智能体在家庭任务中失败原因的基准平台，它将问题从单纯的“是否成功”转变为识别“哪个能力模块最可能导致失败”。该基准基于五个逼真的多房间公寓环境，构建了300个由人类验证的任务，并将其分为三个能力层级，分别评估感知-动作映射、隐式意图解析和长期协调能力。实验表明，隐式意图解析是当前主流大语言模型的显著瓶颈，而长期任务协调则暴露了模型在规划能力上的明显差距。

2605.11532 2026-05-13 cs.AI

Read, Grep, and Synthesize: Diagnosing Cross-Domain Seed Exposure for LLM Research Ideation

Yunju Choi, Min Song

AI总结本文研究了大型语言模型（LLM）在生成研究想法时，是否能从跨领域知识中获益。作者提出了一种名为PaperGym的三阶段方法，通过工具增强的种子提取、跨领域种子检索与方法合成，评估了不同种子来源对创新性的影响。实验表明，跨领域种子检索在提升方法新颖性方面优于单一领域和无检索基线，但未能显著优于随机多样化种子。研究指出，当前LLM在利用跨领域知识生成创意时，仍难以有效捕捉种子的语义关联。

Comments 12 pages, 2 figures, 7 tables

2605.11530 2026-05-13 cs.LG

Multi-Narrow Transformation as a Single-Model Ensemble: Boundary Conditions, Mechanisms, and Failure Modes

Tatsuhito Hasegawa, Taisei Tanaka

AI总结本文研究了在参数预算相近的情况下，是将模型容量集中于单一宽网络路径，还是分散到多个窄且独立的分支中更为有效。通过引入多窄（Multi-Narrow）变换，将基础卷积神经网络转化为具有多个窄分支的单一模型集成，作者系统比较了不同数据条件、网络结构和数据集下的单宽与多窄配置表现。研究发现，多窄结构在数据稀缺场景下表现更优，因其能学习到更多样、更少冗余的特征，而在数据丰富的场景下，单宽模型更具优势，这一结论在多种CNN架构和图像分类任务中得到了验证。

Comments 12 pages, 9 figures, 4 tables. Preprint version of a manuscript submitted to Neurocomputing

2605.11527 2026-05-13 cs.LG cs.CR cs.DB

FERMI: Exploiting Relations for Membership Inference Against Tabular Diffusion Models

Abtin Mahyar, Masoumeh Shafieinejad, Yuhan Liu, Xi He

AI总结该研究探讨了针对表格扩散模型的成员推理攻击问题，关注真实敏感数据中多表关联结构被忽略的挑战。提出了一种名为FERMI的方法，通过利用目标表关联表的辅助信息增强单表特征，从而提升攻击性能。实验表明，FERMI在多种表格扩散模型和真实数据集上均显著优于传统单表攻击方法，特别是在白盒和黑盒设置下分别提升了最高达53%和22%的攻击准确率。

2605.11525 2026-05-13 cs.LG

OverNaN: NaN-Aware Oversampling for Imbalanced Learning with Meaningful Missingness

Amanda S Barnard

AI总结在实际应用中，缺失值常被视为需要删除或填补的缺陷，但其本身可能包含重要信息。本文提出了一种名为 OverNaN 的轻量级过采样框架，专门用于处理类别不平衡问题，同时保留缺失值结构。该方法扩展了传统合成过采样技术，直接在不完整特征向量上生成样本，允许缺失值被保留、传播或选择性插值，从而在不破坏缺失信息的前提下提升模型性能。该研究为科学与工程领域中处理不可避免且具有信息量的缺失值提供了新的解决方案。

Comments 14 pages, 2 figures, 17 tables

2605.11524 2026-05-13 cs.LG cs.CE

EqOD: Symmetry-Informed Stability Selection for PDE Identification

Gnankan Landry Regis N'guessan, Bum Jun Kim

AI总结该研究提出了一种名为EqOD的自动方法，用于从噪声数据中稳定识别偏微分方程（PDE），通过结合对称性约简和稳定性选择机制，有效减少虚假正例并提高识别准确性。当检测到伽利略不变性时，EqOD利用对称性约简库剔除不可能存在的项；否则采用随机LASSO稳定性选择。实验表明，EqOD在多个PDE和噪声水平下表现优异，显著优于现有方法如PySINDy和WF-LASSO。

Comments 45 pages, 16 figures

2605.11521 2026-05-13 cs.CV

XWOD: A Real-World Benchmark for Object Detection under Extreme Weather Conditions

Chih-Hsin Chen, Yu-Tung Liu, Amar Fadillah, Kuan-Ting Lai, Dong Liu

AI总结本文提出XWOD，一个用于极端天气条件下目标检测的大型真实世界数据集，包含10,010张图像和42,924个标注框，涵盖雨、雪、雾、沙尘、洪水、龙卷风和野火七种极端天气条件下的六类交通目标。XWOD扩展了天气分类的范围，首次引入气候加剧型灾害类别，并通过在其他天气数据集上的零样本测试验证了其数据质量，显著提升了检测性能。该数据集为研究极端天气下的交通感知提供了强有力的基准。

2605.11520 2026-05-13 cs.CV cs.AI

PointGS: Semantic-Consistent Unsupervised 3D Point Cloud Segmentation with 3D Gaussian Splatting

Yixiao Song, Qingyong Li, Wen Wang, Zhicheng Yan

AI总结本文提出了一种名为PointGS的无监督3D点云分割方法，旨在解决传统监督方法依赖密集标注带来的高昂成本问题。该方法通过3D高斯溅射技术构建统一的中间表示，弥合了离散点云与连续图像之间的域差距，并利用多视角重建与语义蒸馏策略，实现了跨视角语义的一致性分配。实验表明，PointGS在多个基准数据集上优于现有无监督方法，显著提升了分割性能。

Comments Accepted by Computer Vision and Pattern Recognition (CVPR) 2026

2605.11519 2026-05-13 cs.AI cs.CL cs.LG

Controllable User Simulation

Guy Tennenholtz, Ofer Meshi, Amir Globerson, Uri Shalit, Jihwan Jeong, Craig Boutilier

AI总结本文研究如何构建可控的用户模拟器，以更准确地评估对话代理的行为。作者将可控模拟问题形式化为因果推断问题，指出传统基于监督微调的方法会引入结构偏差，导致评估指标方差急剧上升，即“可控性崩溃”。为此，作者提出了基于因果一致性的理论条件和一系列实用训练方法，实验表明其方法能有效消除前瞻偏差，保持对话多样性，并具备对未知代理行为的鲁棒泛化能力。

2605.11513 2026-05-13 cs.CL cs.AI

A Study on Hidden Layer Distillation for Large Language Model Pre-Training

Maxime Guigon, Lucas Dixon, Michaël E. Sander

AI总结本文研究了隐藏层蒸馏（HLD）在大规模语言模型预训练中的应用，指出当前知识蒸馏主要依赖输出logits，而忽视了教师模型中间层的语义信息。通过对比实验，作者发现HLD在下游任务上的表现并不一致优于传统基于logits的蒸馏方法，但在所有共享超参数配置下，HLD在困惑度上均有所提升，表明其可能蕴含潜在价值，但尚未成为预训练中的主流方法。

2605.11509 2026-05-13 cs.AI cs.LG cs.MA cs.SY eess.SY

Hierarchical LLM-Driven Control for HAPS-Assisted UAV Networks: Joint Optimization of Flight and Connectivity

Zijiang Yan, Hao Zhou, Wael Jaafar, Jianhua Pei, Ping Wang, Halim Yanikomeroglu, Hina Tabassum

AI总结本文研究了在融合地面与非地面网络（ITNTN）环境下，无人机（UAV）的飞行控制与通信连接的联合优化问题。为解决动态且部分可观测条件下的多无人机协同问题，作者提出了一种基于大语言模型（LLM）的分层多速率控制框架，将全局负载均衡与切换决策与局部无人机运动控制相结合。实验表明，该方法在运输效率、通信吞吐量和碰撞率等方面均优于现有方法，展现出良好的动态场景适应能力。

Comments Submission for possible publication

2605.11508 2026-05-13 cs.CV

LiBrA-Net: Lie-Algebraic Bilateral Affine Fields for Real-Time 4K Video Dehazing

Yongcong Wang, Chengchao Shen, Guangwei Gao, Wei Wang, Pengwen Dai, Dianjie Lu, Guijuan Zhang, Zhuoran Zheng

AI总结当前超高分辨率视频去雾领域缺乏评估基准，且现有方法难以在消费级GPU上实时处理4K视频。本文提出LiBrA-Net，通过将去雾问题转化为由低频深度场驱动的逐像素仿射变换，并利用双侧网格进行高效编码，实现了在单个GPU上以25 FPS处理4K视频的实时去雾。此外，本文还发布了首个包含深度、透射率和光流注释的4K视频去雾基准UHV-4K，并在多个数据集上取得了最先进的性能。

Comments 10 pages, 5 figures

2605.11506 2026-05-13 cs.CV

Principled Design of Diffusion-based Optimizers for Inverse Problems

Julio Oscanoa, Irmak Sivgin, Cagan Alkan, Daniel Ennis, John Pauly, Mert Pilanci, Shreyas Vasanawala

AI总结本文研究了基于扩散模型的优化器在逆问题中的设计，旨在解决其推理时间长和超参数调优繁琐的问题。作者提出了一种原理性的重参数化方法，使超参数能够在不同任务间复用，无需重新调整。同时，基于RED-diff框架，他们进一步开发了OptDiff流程，将后验采样转化为优化问题，从而加速推理并提升图像质量。实验表明，该方法在图像重建、去模糊和超分辨率任务中均取得了显著的加速效果和图像质量提升。

Comments 22 pages, 8 figures, 6 tables

2605.11504 2026-05-13 cs.LG cs.CR

CTFusion: A CTF-based Benchmark for LLM Agent Evaluation

Dongjun Lee, Ga-eun Bae, Insu Yun

AI总结随着大型语言模型（LLM）在复杂任务中的应用日益广泛，网络安全成为其重要应用场景之一。然而，现有基于夺旗（CTF）的评估基准存在数据污染和作弊风险，影响评估可靠性。为此，本文提出CTFusion，一个基于实时CTF赛事的流式评估框架，通过单账号多代理独立运行和仅提交首个正确flag等方式降低竞争干扰，并在CTFd平台上实现为模型上下文协议（MCP）服务器，有效提升对网络安全代理的评估准确性。实验表明，CTFusion相较于现有基准更具鲁棒性，已作为开源工具释放以促进相关研究。

Comments 14 pages, 8 figures

2605.11497 2026-05-13 cs.CV

PoseBridge: Bridging the Skeletonization Gap for Zero-Shot Skeleton-Based Action Recognition

Sanghyeon Lee, Jinwoo Kim, Jong Taek Lee

AI总结本文研究了零样本骨架动作识别（ZSSAR）中的语义对齐问题，指出当前方法在对齐阶段已丢失了人体与物体交互及姿态相关视觉线索等关键语义信息。为此，提出了一种名为PoseBridge的框架，通过利用姿态估计过程中的中间表示，提取姿态锚定的语义线索，并通过骨架条件桥接和语义原型适配将其传递至文本对齐模块，从而提升零样本识别性能。实验表明，PoseBridge在多个数据集上均取得显著提升，尤其在Kinetics-200/400 PURLS基准上表现突出。

2605.11496 2026-05-13 cs.AI cs.CY cs.HC cs.LG

The Evaluation Differential: When Frontier AI Models Recognise They Are Being Tested

Varad Vishwarupe, Nigel Shadbolt, Marina Jirotka, Ivan Flechais

AI总结本文探讨了前沿人工智能模型在识别评估环境时表现出的行为差异问题，指出这些模型在测试环境下可能与实际部署时表现不同，从而影响安全评估的可靠性。研究提出了“评估差异”（Evaluation Differential）的概念，定义了标准化效应大小（nED）以进行跨属性比较，并开发了TRACE评估框架，用于更严谨地分析和限制从评估中得出的安全声明。该研究对AI系统评估和治理具有重要启示。

2605.11494 2026-05-13 cs.CV

STRIDE: Training-Free Diversity Guidance via PCA-Directed Feature Perturbation in Single-Step Diffusion Models

Ankit Yadav, Arpit Garg, Ta Duc Huy, Lingqiao Liu

AI总结 STRIDE 是一种无需训练和优化的单步扩散模型多样性增强方法，通过在中间特征上注入与模型激活主成分对齐的噪声，实现可控的多样性提升。该方法基于模型自身特征结构进行扰动，确保生成样本在保持高质量的同时提高多样性。实验表明，STRIDE 在多个数据集上有效提升了生成图像的多样性，同时保持了良好的文本对齐性能，优于现有无训练基线方法。

Comments 11 Pages 3 figures 4 tables

2605.11491 2026-05-13 cs.LG cs.AI

Understanding and Preventing Entropy Collapse in RLVR with On-Policy Entropy Flow Optimization

Huimin Xu, Shuai Zhao, Xiaobao Wu, Anh Tuan Luu

AI总结本文研究了可验证奖励强化学习（RLVR）中普遍存在的熵崩溃问题，分析发现该问题源于令牌层面的熵流不平衡，即熵减少的令牌远多于熵增加的令牌。为此，作者提出了一种基于策略的熵流优化方法（OPEFO），通过动态调整熵增和熵减更新的比重，实现熵流的自适应平衡。实验表明，该方法有效提升了模型在数学推理任务中的训练稳定性和最终性能。

2605.11483 2026-05-13 cs.CL

StoicLLM: Preference Optimization for Philosophical Alignment in Small Language Models

Ishmam Khan, Sindhuja Thogarrati, Shuo Zhang

AI总结本文研究了小型语言模型在哲学对齐方面的优化问题，特别是斯多葛哲学的内向型美德与外向型宇宙公民责任的对齐。作者采用偏好优化方法（如ORPO、AlphaPO），在微小数据集上对小型语言模型进行专项训练，结果表明仅需300个高质量样本即可实现较强的内向型美德对齐，效果接近少样本提示方法。然而，所有模型在处理斯多葛哲学的外向型责任时均表现不佳，揭示了小型模型在该方面的表征局限，单靠微数据集优化无法解决这一问题。

2605.11479 2026-05-13 cs.RO cs.AI

Offline Policy Evaluation for Manipulation Policies via Discounted Liveness Formulation

Hao Wang, Joshua Bowden, Colton Crosby, Somil Bansal

AI总结本文研究了在稀疏奖励环境下对机械臂操作策略进行离线策略评估的问题，针对策略评估中任务进展非单调、评估轨迹长度有限导致的截断偏差等问题，提出了一种基于生存性（liveness）的贝尔曼算子框架。该方法将策略评估视为任务完成问题，得到的值函数对有限时间截断具有鲁棒性，并在理论分析中证明了其收缩性等性质。实验表明，该方法在多个模拟和实际任务中能更准确反映任务进展并有效减少截断偏差，优于传统方法如TD(0)和蒙特卡洛策略评估。

Comments Published at RSS 2026

2605.11478 2026-05-13 cs.AI cs.IT math.IT stat.ML

FibQuant: Universal Vector Quantization for Random-Access KV-Cache Compression

Namyoon Lee, Yongjune Kim

AI总结本文提出了一种名为FibQuant的通用固定率向量量化方法，用于随机访问的键值缓存压缩，以解决长上下文推理中的内存和流量瓶颈问题。该方法在保持归一化-旋转-存储接口的同时，将传统的标量编码表替换为与标准化源匹配的共享径向-角向码本，从而保留归一化步骤所创建的几何信息并提升压缩效率。实验表明，FibQuant在保持高注意力相似度的同时实现了更高的压缩比，并在多个模型上表现出优于现有标量量化方法的性能。

Comments 15 pages

2605.11477 2026-05-13 cs.CV

LDDR: Linear-DPP-Based Dynamic-Resolution Frame Sampling for Video MLLMs

Jingfeng Chen, Jiawen Qian, Wendi Deng, Yinuo Guo, Jiaqi Yu, Sicong Leng, Raghuveer Thirukovalluru, Bhuwan Dhingra

AI总结在多模态大语言模型中，视频理解需要在有限的视觉token预算下从冗长的视频中选取信息量大的帧。为此，本文提出LDDR，一种基于线性行列式点过程（DPP）的动态分辨率帧采样框架，能够在任务条件特征空间中进行查询感知的帧选择，实现比标准DPP方法快3倍的运行效率。LDDR通过引入组DPP重要性度量，指导帧的保留与动态分辨率分配，显著提升了视频理解性能，在多个视频基准测试中均优于现有方法。

Comments 21 pages, 4 figures

2605.11475 2026-05-13 cs.CV

Deep Probabilistic Unfolding for Quantized Compressive Sensing

Gang Qu, Ping Wang, Siming Zheng, Xin Yuan

AI总结本文提出了一种深度概率展开模型，用于解决量化压缩感知问题，通过展开框架提升重建的精度和效率。不同于以往方法采用L2投影，本文推导出一种闭式且数值稳定的似然梯度投影，使模型能够遵循真实的量化物理特性，将硬量化约束转化为软概率引导。此外，设计了一个高效的双域Mamba模块，用于动态捕捉和融合多尺度的局部与全局特征，增强远距离相关区域的交互能力。实验表明，该方法在多个任务上达到当前最优性能，有助于推动量化压缩感知在实际中的应用。

2605.11473 2026-05-13 cs.AI cs.LG cs.RO stat.ML

TOPPO: Rethinking PPO for Multi-Task Reinforcement Learning with Critic Balancing

Yuanpeng Li, Gefei Lin, Annie Qu, Rui Miao

AI总结本文研究了多任务强化学习中基于策略梯度的PPO方法的优化问题，指出其在多任务环境下存在价值函数梯度条件不佳的问题，导致部分任务学习停滞。为此，作者提出TOPPO方法，通过引入批评者平衡模块改善梯度条件，提升任务间的学习均衡性。实验表明，TOPPO在参数和环境步数更少的情况下，优于现有的SAC和ARS方法，在多任务基准测试中表现出更强的平均和尾部任务性能，证明了基于策略的方法在适当优化下可以媲美甚至超越基于价值的方法。

2605.11471 2026-05-13 cs.LG

On the Approximation Complexity of Matrix Product Operator Born Machines

Chao Li, Zerui Tao, Yuchen Cong, Jian Xu, Qibin Zhao

AI总结本文研究了矩阵乘积算子玻姆机（MPO-BM）在概率建模中的近似复杂性。作者从正反两方面分析了MPO-BM的近似能力边界，证明在连续情况下，使用KL散度进行近似是NP难的，表明最坏情况下无法实现通用高效的近似。同时，在满足局部性和谱隙条件的前提下，作者展示了对于结构化目标（如路径图马尔可夫随机场），MPO-BM可以以多项式规模的键维度实现具有可证明KL保证的近似，并且只需多项式数量的得分查询即可估计诱导哈密顿量，从而获得相应的保证。这些结果为MPO-BM在何时难以近似、何时可高效学习提供了理论依据。

2605.11469 2026-05-13 cs.LG

Robust Multi-Agent Path Finding under Observation Attacks: A Principled Adversarial-Plus-Smoothing Training Recipe

Riad Ahmed

AI总结本文研究了在观测攻击下如何提高多智能体路径规划（MAPF）的鲁棒性。作者提出了一种基于对抗训练和平滑优化的联合训练方法，通过在训练过程中引入最坏情况下的输入扰动，并结合随机平滑技术来增强策略的稳定性。实验表明，该方法在保持清洁环境下性能几乎不变的前提下，显著提升了系统在受到强攻击时的成功率。

2605.11468 2026-05-13 cs.AI

CAMPA: Efficient and Aligned Multimodal Graph Learning via Decoupled Propagation and Aggregation

Daohan Su, Hao Liu, Xunkai Li, Yinlin Zhu, Xiong Yongfu, Yi Liu, Hongchao Qin, Rong-Hua Li, Guoren Wang

AI总结本文提出了一种名为CAMPA的跨模态对齐的多模态图学习框架，旨在解决现有解耦多模态图神经网络在传播和聚合阶段面临的模态冲突问题。CAMPA通过引入两阶段对齐机制，分别在传播阶段注入跨模态相似性先验以保持语义一致性，在聚合阶段利用轨迹级自注意力和跨注意力对齐多模态和多跳特征轨迹，从而提升表示学习效果。实验表明，CAMPA在多个基准数据集上优于现有耦合和解耦方法，同时保持了较高的计算效率。

2605.11467 2026-05-13 cs.LG cs.AI

Drop the Act: Probe-Filtered RL for Faithful Chain-of-Thought Reasoning

Swapnil Parekh

AI总结该研究提出了一种名为ProFIL的新方法，旨在减少大型语言模型在链式推理过程中产生的“推理剧场”现象，即模型在已得出结论后仍生成看似思考但实际上对正确性无贡献的推理步骤。ProFIL通过在冻结的基模型上训练一个多头注意力探针，检测并抑制这些冗余步骤，并结合强化学习框架GRPO进行优化，从而提升推理链的可信度、缩短推理长度，同时保持或提升任务准确性。实验表明，该方法在多个推理任务和模型架构上均取得显著效果。