arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.07915 2026-05-11 cs.CV

What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

Zhengrong Yue, Taihang Hu, Mengting Chen, Haiyu Zhang, Zihao Pan, Tao Liu, Zikang Wang, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Yali Wang

AI总结本文研究了对扩散模型友好的潜在流形应具备的特性，发现其关键在于潜在空间的结构一致性、局部连续性和全局语义性，而非单纯的重建保真度。基于这一发现，作者提出了先验对齐自编码器（PAE），通过引入改进的先验知识和扰动正则化，显式地引导潜在流形的组织结构。实验表明，PAE在ImageNet 256x256数据集上显著提升了训练效率和生成质量，达到与现有方法相比更优的性能。

2605.07914 2026-05-11 cs.LG cs.CV

Flatness and Gradient Alignment Are Both Necessary: Spectral-Aware Gradient-Aligned Exploration for Multi-Distribution Learning

Aristotelis Ballas, Christos Diou

AI总结该论文研究了多分布学习中损失函数景观的平坦性与梯度对齐性之间的关系，指出以往方法通常只关注单一几何特性，而忽略了两者的协同作用。作者通过风险分解分析，提出了一个包含曲率项和对齐项的理论框架，并基于此设计了SAGE算法，同时优化这两个因素。实验表明，SAGE在域泛化和多任务学习任务中均取得了优于现有方法的性能。

Comments Preprint - Submitted to NeurIPS 2026

2605.07903 2026-05-11 cs.SD cs.AI

BeeVe: Unsupervised Acoustic State Discovery in Honey Bee Buzzing

Hamze Hammami, Nidhal Abdulaziz

AI总结本文提出了一种名为BeeVe的无监督框架，用于从蜂群嗡嗡声中发现声学状态，无需依赖预定义的语义单元或声音生成模型。该方法利用冻结的自监督PaSST模型提取特征，并通过VQ-VAE在无标签数据上学习离散的声学编码本，成功区分了蜂群中是否有蜂王的不同状态，并进一步识别出多个稳定的子状态。实验表明，该方法能够有效捕捉声学信号中的非随机序列结构，并在未见过的录音中保持良好的泛化能力，为无创蜂群健康监测提供了新途径。

2605.07902 2026-05-11 cs.LG cs.DS

Curvature Beyond Positivity: Greedy Guarantees for Arbitrary Submodular Functions

Yixin Chen, Alan Kuhnle

AI总结该论文研究了在非单调和负值情况下子模函数优化的贪心算法性能保证问题。传统上，贪心算法在单调非负子模函数上的近似比为63%，但面对负值或非单调函数时，现有理论无法适用。本文通过扩展“曲率”这一概念，统一处理了非单调性和负值问题，提出了适用于任意子模函数的贪心算法近似比分析，并在非单调场景下超越了现有最优结果。此外，该方法还可推广到一般组合约束，实验验证了理论的有效性。

Comments 44 pages, 11 figures

2605.07897 2026-05-11 cs.CV cs.AI

Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding

Hang Wu, Sherin Mary Mathews, Yujun Cai, Ming-Hsuan Yang, Yiwei Wang

AI总结该研究针对流式视频理解中的实时记忆管理难题，提出了一种无需训练的双阶段框架SAVEMem，通过引入语义感知机制优化视觉记忆生成与查询检索过程。第一阶段在线构建三级流式记忆结构，利用固定伪问题库引导长期记忆的语义显著性保留；第二阶段根据查询内容动态调整检索范围，结合锚点条件的近期门控机制实现从短期到中长期记忆的自适应检索。实验表明，该方法在多个基准测试中显著提升了性能，同时有效降低了模型的峰值显存占用。

2605.07888 2026-05-11 cs.LG cs.CV

Enhancing Federated Quadruplet Learning: Stochastic Client Selection and Embedding Stability Analysis

Ozgu Goksu, Nicolas Pugeault

AI总结该论文研究了联邦学习中数据异构性对模型泛化性能的影响，提出了一种名为FedQuad的新方法，通过同时最小化同类样本之间的距离并最大化不同类样本之间的距离，以缓解模型聚合过程中表示对齐的问题。该方法在多个非独立同分布的数据集上进行了实验，验证了其优于现有方法的有效性，并对基于度量学习的方法在集中式和联邦环境中的表现进行了深入分析。

Comments arXiv admin note: substantial text overlap with arXiv:2509.04107

2605.07885 2026-05-11 cs.RO

AERO-VIS: Asynchronous Event-based Real-time Onboard Visual-Inertial SLAM

Yannick Burkhardt, Sebastián Barbas Laina, Simon Boche, Leonard Freißmuth, Stefan Leutenegger

AI总结本文提出了一种基于异步事件相机的视觉惯性同步定位与建图系统AERO-VIS，旨在提升复杂环境下的实时定位性能。该系统采用数据驱动的鲁棒关键点检测器，并通过异步处理事件流来动态适应运行需求，从而实现低延迟和高吞吐的实时性能。研究在无人机上的部署验证了其卓越的精度，实现了首个仅依赖机载计算的纯事件相机惯性SLAM系统，并展示了闭环控制和大范围状态估计能力。

Comments 8 pages, 4 figures

2605.07883 2026-05-11 cs.CL

Beyond "I cannot fulfill this request": Alleviating Rigid Rejection in LLMs via Label Enhancement

Ying Zhang, Congyu Qiao, Xin Geng, Ning Xu

AI总结该论文研究了大型语言模型（LLMs）在安全对齐过程中常见的“僵化拒绝”问题，即模型对请求采用统一的拒绝模板，导致交互自然性下降。为解决这一问题，作者提出了LANCE方法，通过标签增强技术，利用变分推断预测多类拒绝的连续分布，从而提供更细粒度的反馈引导模型生成既安全又自然的响应。实验表明，LANCE在保持高安全性的前提下，显著缓解了僵化拒绝问题，提升了响应的有用性和自然度。

2605.07878 2026-05-11 cs.LG stat.ML

Black-box model classification under the discriminative factorization

Hayden Helm, Merrick Ohata, Carey Priebe

AI总结本文研究了在黑盒模型分类任务中如何通过查询集区分模型特性的问题。作者提出了一种判别因子分解方法，用于评估查询集质量，并证明在该框架下，随机分类的概率会随查询预算指数级下降。实验表明，基于估计的判别因子选择的查询集能够有效重现最优查询集的性能排序，为黑盒模型分析提供了新的理论依据和实用工具。

2605.07877 2026-05-11 cs.RO

Melding LLM and temporal logic for reliable human-swarm collaboration in complex scenarios

Junfeng Chen, Yuxiao Zhu, An Zhuo, Xintong Zhang, Shuo Zhang, Guanghui Wen, Xiwang Dong, Meng Guo, Zhongkui Li

AI总结本文研究了如何在复杂动态环境中实现可靠的人群机器人协作任务规划问题。作者提出了一种将可验证时序逻辑与上下文感知的大语言模型（LLM）相结合的神经符号框架，用于生成符合任务规则且可执行的子任务序列，并通过不确定性感知的调度器和事件触发的交互协议，实现高效、鲁棒的异构机器人集群协作。该方法有效减少了操作员干预需求，提升了长期任务下的系统可靠性与可扩展性。

2605.07872 2026-05-11 cs.CV cs.AI

Video Understanding Reward Modeling: A Robust Benchmark and Performant Reward Models

Yuancheng Wei, Linli Yao, Lei Li, Haojie Zhang, Hao Zhou, Fandong Meng, Xu Sun

AI总结本文针对视频理解领域奖励模型研究不足的问题，提出了一种统一的框架，涵盖基准设计、数据构建和奖励模型训练。研究引入了包含2100个偏好对的视频理解奖励基准VURB，并构建了大规模高质量的VUP-35K偏好数据集，用于训练出性能优越的VideoDRM和VideoGRM奖励模型，显著提升了视频理解任务中的模型表现与推理能力。

2605.07865 2026-05-11 cs.LG cs.AI cs.CL

KL for a KL: On-Policy Distillation with Control Variate Baseline

Minjae Oh, Sangjun Song, Gyubin Choi, Yunho Choi, Yohan Jo

AI总结本文提出了一种名为vOPD的策略梯度方法，用于稳定大型语言模型的在线蒸馏（OPD）过程。该方法引入了来自强化学习领域的控制变量基线，通过计算学生模型与教师模型之间每词的负反向KL散度作为价值函数，从而在不增加额外计算开销的情况下降低梯度方差。实验表明，vOPD在保持单样本估计器轻量性的同时，有效提升了训练稳定性，并在多个数学和科学推理任务中优于传统OPD方法。

2605.07863 2026-05-11 cs.LG

ADKO: Agentic Decentralized Knowledge Optimization

Lucas Nerone Rillo, Zhanhong Jiang, Nastaran Saadati, Aditya Balu, Baskar Ganapathysubramanian, Chinmay Hegde, Soumik Sarkar

AI总结本文提出了一种名为ADKO的智能体去中心化知识优化框架，旨在实现多个自主智能体之间的协作黑箱优化，具备样本效率高、隐私保护、处理异构目标和通信高效等优势。每个智能体维护一个基于本地数据训练的私有高斯过程代理模型，通过知识令牌进行通信，令牌包含方向信号、优势评分和可选的语言模型见解，无需共享原始数据或模型参数。该方法结合了高斯过程上置信界、并行贝叶斯优化、去中心化学习和语言模型引导发现，理论分析表明其累积遗憾可分解为多个可控制的误差项，并提出了基于保真度的令牌剪枝策略以在内存限制下保留高信息量的令牌，实验验证了其在神经架构搜索和科学发现任务中的有效性。

Comments 31 pages

2605.07861 2026-05-11 cs.CV

From Synthetic to Real: Toward Identity-Consistent Makeup Transfer with Synthetic and Real Data

Yue Yu, Jiayu Wang, Jiajia Shi, Jingjing Chen, Yu-Gang Jiang

AI总结该研究旨在解决从合成数据到真实场景的妆容迁移问题，重点在于保持人物身份一致性和背景真实感。为克服现有方法在身份保持和跨域泛化方面的不足，作者提出了ConsistentBeauty数据生成管道和RealBeauty后训练框架，通过强化学习和定制奖励机制提升模型在真实场景中的表现。此外，研究还构建了一个多样化的妆容迁移基准，涵盖多种肤色、年龄、性别和妆容风格，全面评估模型在复杂现实条件下的性能。

2605.07860 2026-05-11 cs.LG cs.AI

On the Tradeoffs of On-Device Generative Models in Federated Predictive Maintenance Systems

Usevalad Milasheuski, Piero Baraldi, Enrico Zio, Stefano Savazzi

AI总结本文研究了在联邦预测性维护系统中使用设备端生成模型（如变分自编码器、生成对抗网络和扩散模型）时面临的性能与通信开销之间的权衡。通过对比全联邦和部分联邦设置下的模型表现，论文提出了一种新的联邦生成模型分类方法，将部分模型组件共享作为个性化机制。实验表明，在异构和带宽受限的联邦学习环境中，不同生成模型在实用性、稳定性和可扩展性方面存在显著差异，部分联邦策略在某些场景下能优于全联邦方法。

2605.07859 2026-05-11 cs.CV

EyeCue: Driver Cognitive Distraction Detection via Gaze-Empowered Egocentric Video Understanding

Lang Zhang, JinYi Yoon, Matthew Corbett, Abhijit Sarkar, Bo Ji

AI总结驾驶员认知分心是导致道路碰撞的主要原因之一，但目前仍难以检测。本文提出EyeCue，一种基于注视信息的自我中心视频理解框架，用于检测驾驶员的认知分心。该方法通过融合眼动信息与视频内容，建模驾驶员随时间变化的注意力分布，从而捕捉认知分心的特征。此外，研究还构建了多场景数据集CogDrive，并在该数据集上验证了EyeCue的有效性，其准确率高达74.38%，显著优于多个基线方法。

Comments Accepted to the 35th International Joint Conference on Artificial Intelligence (IJCAI 2026)

2605.07857 2026-05-11 cs.LG

Actor-Critic Algorithm for Dynamic Expectile and CVaR

Yudong Luo, Erick Delage

AI总结本文研究了在动态风险环境下优化随机策略的挑战，提出了无需转移扰动的替代策略梯度方法，并基于softmax策略参数化进行改进。通过利用可计算性，开发了无模型的价值学习方法，用于动态期望分位数和条件风险价值的估计。受预期SARSA和预期策略梯度的启发，构建了一个无模型的异策略actor-critic算法，在验证性风险规避场景中表现出优越的性能。

2605.07850 2026-05-11 cs.CL cs.AI cs.LG

MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning

Ionut-Vlad Modoranu, Mher Safaryan, Dan Alistarh

AI总结随着大语言模型参数规模的增长，微调过程中的计算成本成为部署的重要障碍。本文提出MatryoshkaLoRA，一种受俄罗斯套娃启发的LoRA训练框架，通过在现有LoRA适配器之间插入一个精心设计的对角矩阵，学习准确的层次化低秩表示，从而实现动态秩选择与高效梯度信息嵌入。该方法在保持高精度的同时提升了秩适应的灵活性，并引入AURAC指标用于评估层次化低秩适配器的性能，实验表明其在多个数据集上取得了更优的精度-效率权衡。

2605.07847 2026-05-11 cs.CL

Measuring and Mitigating the Distributional Gap Between Real and Simulated User Behaviors

Shuhaib Mehri, Philippe Laban, Sumuk Shashidhar, Marwa Abdulhai, Sergey Levine, Michel Galley, Dilek Hakkani-Tür

AI总结随着用户模拟器在AI助手的交互训练与评估中应用增多，准确模拟真实用户行为变得尤为重要。本文提出了一种衡量真实用户行为与模拟行为之间分布差异的方法，并通过人类研究和消融实验进行了验证。研究发现，现有24种基于大语言模型的用户模拟器在行为分布上与真实用户存在显著差距，且该差距在不同模型家族、规模和行为维度上有所不同；结合行为互补的模拟器可使生成的行为分布更接近真实用户。

2605.07844 2026-05-11 cs.LG

Distributional simplicity bias and effective convexity in Energy Based Models

Aurélien Decelle, Alfonso de Jesús Navas Gómez, Beatriz Seoane

AI总结本文研究能量基模型（EBM）训练中的非凸性问题，通过有效模型的视角分析其动态特性。作者发现，在足够表达能力下，学习正分布的梯度流会产生两类固定点：与数据一致的点和虚假的局部平稳点，并揭示了在数据一致点附近扰动的稳定性特性。研究进一步表明，梯度动态会优先学习低阶相互作用，从而解释了分布简单性偏差的机制，并阐明了为何实践中难以观察到低阶非数据一致的固定点。

Comments 13 pages, 2 figures

2605.07841 2026-05-11 cs.LG cs.AI cs.DC

\mathsf{VISTA}: Decentralized Machine Learning in Adversary Dominated Environments

Hanzaleh Akbari Nodehi, Parsa Moradi, Soheil Mohajer, Mohammad Ali Maddah-Ali

AI总结本文研究了在敌对节点占多数的去中心化机器学习环境中如何实现鲁棒训练的问题。提出了一种基于激励机制的框架，通过设定一致性阈值来接受和奖励工人节点的报告，使敌对节点从纯粹破坏者转变为权衡误差与奖励风险的理性参与者。为此，作者设计了自适应算法 $\mathsf{VISTA}$，根据优化历史动态调整接受阈值，在保证收敛性的同时提升训练效率，并通过理论分析证明其在无需诚实多数假设下仍可保持标准SGD的渐近收敛性能。

2605.07840 2026-05-11 cs.LG

RelAgent: LLM Agents as Data Scientists for Relational Learning

Xingyue Huang, Louis Tichelman, Jinwoo Kim, Krzysztof Olejniczak, İsmail İlkan Ceylan

AI总结 RelAgent 是一种基于大语言模型（LLM）的自主数据科学家系统，旨在解决关系学习问题。该方法分为两个阶段：在搜索阶段，LLM 代理利用数据库、验证和评估工具构建 SQL 特征程序并选择预测模型；在推理阶段，生成的程序直接执行，无需进一步调用 LLM。RelAgent 最终输出由 SQL 查询和经典模型组成的预测器，具有快速、确定性和内在可解释性，便于在标准数据库系统中部署。

2605.07839 2026-05-11 cs.AI

Exact Regular-Constrained Variable-Order Markov Generation via Sparse Context-State Belief Propagation

François Pachet

AI总结该论文研究了在满足正则约束条件下，如何精确生成可变阶马尔可夫模型序列的问题。核心方法是将传统的信念传播算法扩展到可变阶模型，通过引入观察到的上下文状态与正则约束自动机的乘积结构，实现对生成分布的精确计算。该方法在固定训练好的上下文图和自动机下，推理复杂度与序列长度线性相关，避免了对所有K元组进行展开，从而提高了效率并保持了精确性。

2605.07837 2026-05-11 cs.LG cs.AI

Approximation-Free Differentiable Oblique Decision Trees

Subrat Prasad Panda, Blaise Genest, Arvind Easwaran

AI总结决策树因其可解释性和在表格数据上的有效性，广泛应用于医疗诊断等安全关键领域。然而，训练准确的斜决策树面临优化复杂和过拟合等挑战，现有方法多依赖近似技术。本文提出DTSemNet，一种新颖的、语义等价且可逆的硬斜决策树神经网络表示，实现了无需近似的端到端训练，显著提升了分类与回归任务的性能，并拓展了决策树在强化学习中的应用潜力。

Comments Accepted for publication in JMLR, Vol. 27, 2026

2605.07835 2026-05-11 cs.RO cs.MA

Many-to-Many Multi-Agent Pickup and Delivery

Ethan Schneider, Jingkai Chen, Tianyi Gu, Kunlei Lian, Seth Hutchinson, Sonia Chernova

AI总结本文研究了自动化仓库中多机器人系统面临的多对多配送与取货（MAPD）问题，该问题相较于传统的单对单任务更具挑战性，因为每个任务的取货和送货地点可能有多个选择，导致问题复杂度显著增加。为了解决这一难题，作者提出了一种新的算法 M2M，该算法通过优化任务持续时间或结合商品库存分布进行任务分配，显著提升了任务完成效率。实验结果表明，该方法在不同仓库环境和库存密度下均能稳定匹配或超越现有最优方法，平均任务完成量最多可提高22,000项。

2605.07831 2026-05-11 cs.CV

Explainable Part-Based Vehicle Classifier with Spatial Awareness

Andreas Caduff, Klaus Zahn, Jonas Hofstetter, Martin Rechsteiner, Patrick Flaig

AI总结在智能交通系统中，细粒度车辆分类对于提升交通管理效率具有重要意义。本文提出了一种具有空间感知能力的可解释部件级车辆分类方法，将传统端到端卷积神经网络分解为部件检测、特征构建和决策树分类三个模块，显著提升了模型的可解释性。通过引入部件的空间概率图，该方法增强了对部件位置的感知能力，有效提高了分类鲁棒性，并在保持高分类精度的同时挑战了准确率与可解释性之间不可兼得的传统认知。

2605.07823 2026-05-11 cs.CL

SCENE: Recognizing Social Norms and Sanctioning in Group Chats

Mateusz Jacniacki, Maksymilian Bilski

AI总结本文提出SCENE，一个用于评估大型语言模型在群体聊天中识别社会规范并应对社会制裁能力的基准。SCENE通过设定隐含规范和制造违规场景，测试模型对负面制裁的响应能力以及从同伴行为中学习规范的能力。实验表明，某些封闭源模型在适应隐含社会规范方面表现优于开源模型，SCENE为动态评估LLM社交能力提供了新的研究方向。

2605.07821 2026-05-11 cs.CV cs.AI

Divide and Conquer: Object Co-occurrence Helps Mitigate Simplicity Bias in OOD Detection

Boyang Dai, Chaoqi Chen, Yizhou Yu

AI总结本文研究了如何利用物体共现信息来缓解深度学习模型在分布外检测（OOD detection）中的简单性偏差问题。作者提出了一种以物体为中心的OOD检测框架，通过学习图像中的物体共现模式，将检测任务分解为三种基于共现关系的场景进行处理，从而更有效地识别近似分布外数据。该方法通过考虑图像中的语义上下文关系，提升了模型对语义偏移和协变量偏移的鲁棒性，并在多种挑战性OOD设置中取得了有竞争力的实验结果。

Comments This paper has been accepted by CVPR2026

2605.07817 2026-05-11 cs.CV cs.AI cs.CL

GazeVLM: Active Vision via Internal Attention Control for Multimodal Reasoning

Brown Ebouky, Gabriele Carrino, Niccolo Avogaro, Christoph Studer, Andrea Bartezzaghi, Mattia Rigotti

AI总结本文提出了一种名为GazeVLM的多模态模型，旨在通过内部注意力控制机制模拟人类主动视觉过程，从而提升视觉-语言推理能力。该模型引入了自主生成的注视标记（$\texttt{<LOOK>}$），实现对注意力掩码的自上而下控制，动态聚焦于任务相关细节并抑制无关视觉信息，从而在无需外部工具的情况下实现全局与局部视角的灵活切换。实验表明，GazeVLM在高分辨率多模态推理任务中表现出色，优于同参数规模的最先进模型和基于图像思考的代理系统。

2605.07815 2026-05-11 cs.LG cs.CL

OrScale: Orthogonalised Optimization with Layer-Wise Trust-Ratio Scaling

Yuxuan Lou, Yang You

AI总结 OrScale 是一种基于正交化优化的新型训练方法，通过引入层-wise 信任比缩放机制，改进了 Muon 在神经网络训练中的更新策略。该方法利用实际参数方向的 Frobenius 范数作为分母，实现了更精确的层适应性更新，有效避免了传统混合方法中的收敛问题。实验表明，OrScale 在图像分类和语言模型预训练任务中均优于现有方法，展现出更强的收敛性和泛化能力。