arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.12167 2026-05-13 cs.RO cs.CV

From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation

Yajie Li, Bozhou Zhang, Chun Gu, Zipei Ma, Jiahui Zhang, Jiankang Deng, Xiatian Zhu, Li Zhang

AI总结该论文研究了如何将视频生成模型预测的未来场景有效转化为机器人可执行的动作，解决了现有方法在视觉真实感与控制相关性之间不匹配的问题。为此，作者提出了MoLA（Mixture of Latent Actions）方法，通过预训练的逆动力学模型从生成的视频中推断出潜在动作的混合表示，从而实现更稳定和可控的策略执行。实验表明，该方法在多个仿真和真实机器人任务中提升了任务成功率与泛化能力。

Comments ICML 2026

2605.12162 2026-05-13 cs.RO

X-Imitator: Spatial-Aware Imitation Learning via Bidirectional Action-Pose Interaction

Kai Xiong, Hongjie Fang, Lixin Yang, Cewu Lu

AI总结在机器人操作任务中，空间感知与动作生成之间的交互仍是一个关键难题。本文提出X-Imitator，一种双路径框架，通过双向动作-姿态交互将空间感知与动作执行建模为紧密耦合的循环过程，从而实现空间推理与动作生成的持续互优化。该方法模仿人类内部前向模型，模块化设计便于集成到多种视觉运动策略中，实验表明其在多个仿真和真实任务中显著优于现有方法。

2605.12161 2026-05-13 cs.LG cs.CY math.MG

Fused Gromov-Wasserstein Distance with Feature Selection

Harlin Lee, Ying Yu, Mingxin Li, Ranthony Clark

AI总结本文提出了一种带有特征选择的融合格罗莫夫-瓦瑟斯坦（FGW）距离，用于在比较结构和节点特征时自适应地抑制不相关或噪声特征，从而提升模型的可解释性和鲁棒性。研究引入了两种方法：一种是结合Lasso和岭惩罚的正则化FGW，另一种是基于单纯形约束权重的FGW，并扩展到组级特征选择。理论分析表明该方法具有良好的度量性质，并通过高效交替优化算法实现，实验显示其在计算分区等任务中能有效揭示任务相关结构。

2605.12160 2026-05-13 cs.RO cs.AI

Premover: Fast Vision-Language-Action Control by Acting Before Instructions Are Complete

Joonha Park, Jiseung Jeong, Taesik Gong

AI总结该研究提出了一种名为Premover的轻量模块，旨在提升视觉-语言-动作（VLA）策略在实际部署中的响应效率。Premover通过在用户指令完成前进行预计算，有效利用了机器人等待指令的空闲时间，从而加快了整体执行速度。该方法通过冻结VLA主干网络，并引入两个投影头将中间层特征映射到共享空间，结合模拟渲染的目标分割掩码进行监督学习，最终显著减少了任务执行的平均时间，同时保持了较高的成功率。

2605.12159 2026-05-13 cs.AI cs.GR

ALGOGEN: Tool-Generated Verifiable Traces for Reliable Algorithm Visualization

Kunpeng Liao, Yuexiao Ma, Yisheng Lin, Hualin Zeng, Xiawu Zheng, Rongrong Ji

AI总结该论文提出了一种名为ALGOGEN的新方法，用于生成可验证的算法可视化轨迹，以提高算法可视化过程的可靠性。其核心思想是将算法执行与渲染过程解耦，通过引入可视化轨迹代数（VTA）和渲染风格语言（RSL）分别控制算法状态和视觉呈现，从而避免了传统端到端方法中大语言模型产生的幻觉问题。实验表明，ALGOGEN在LeetCode基准测试中显著提升了生成成功率，验证了其在复杂任务中的有效性。

2605.12156 2026-05-13 cs.CL cs.SI

Latent Causal Void: Explicit Missing-Context Reconstruction for Misinformation Detection

Hui Li, Zhongquan Jian, Jinsong Su, Junfeng Yao

AI总结本文研究了一类隐蔽性较强的信息误导检测问题，即文章在局部语义上保持连贯，但通过与同期背景信息对比才显现出误导性。为此，提出了一种名为“潜在因果空洞”（LCV）的方法，通过检索时间对齐的背景文章，并利用冻结的大语言模型显式重建每句目标文本所缺失的上下文信息，将其作为图推理中的跨源关系进行建模。实验表明，该方法在双语基准测试中显著优于现有方法，验证了显式重建缺失事实对检测信息误导的有效性。

2605.12154 2026-05-13 cs.AI

MM-OptBench: A Solver-Grounded Benchmark for Multimodal Optimization Modeling

Zhong Li, Qi Huang, Yuxuan Zhu, Mohammad Mohammadi Amiri, Niki van Stein, Thomas Bäck, Matthijs van Leeuwen, Zaiwen Wen, Lincen Yang

AI总结 MM-OptBench 是一个基于求解器验证的多模态优化建模基准，旨在评估模型从文本和视觉信息中构建数学优化模型及可执行求解代码的能力。该基准涵盖6类优化问题、26个子类和3个难度级别，共包含780个经过求解器验证的实例。实验表明，当前主流多模态大语言模型在该任务上表现有限，尤其在处理复杂实例时效果显著下降，突显了多模态优化建模任务的挑战性。

Comments Paper under review

详情

英文摘要

Optimization modeling translates real decision-making problems into mathematical optimization models and solver-executable implementations. Although language models are increasingly used to generate optimization formulations and solver code, existing benchmarks are almost entirely text-only. This omits many optimization-modeling tasks that arise in operational practice, where requirements are described in text but instance information is conveyed through visual artifacts such as tables, graphs, maps, schedules, and dashboards. We introduce multimodal optimization modeling, a benchmark setting in which models must construct both a mathematical formulation and executable solver code from a text-and-visual problem specification. To evaluate this setting, we develop a solver-grounded framework that generates structured optimization instances, verifies each with an exact solver, and builds both the model-facing inputs and hidden reference files from the same verified source. We instantiate the framework as MM-OptBench, a benchmark of 780 solver-verified instances spanning 6 optimization families, 26 subcategories, and 3 structural difficulty levels. We evaluate 9 multimodal large language models (MLLMs), including 6 frontier general-purpose models and 3 math-specialized models, with aggregate, family-level, difficulty-level, and failure-mode analyses. The results show that the task remains far from solved: the best two models reach 52.1% and 51.3% pass@1, while on average across the six general-purpose MLLMs, pass@1 is 43.4% on easy instances and 15.9% on hard instances. All three math-specialized MLLMs solve 0/780 instances. Failure attribution shows that errors arise both when extracting instance data from text and visuals and when turning extracted data into solver-correct formulations and code. MM-OptBench provides a testbed for solver-grounded, decision-oriented multimodal intelligence.

URL PDF HTML ☆

赞 0 踩 0

2605.12144 2026-05-13 cs.CV

PoseCompass: Intelligent Synthetic Pose Selection for Visual Localization

Yanan Zhou, Zhaoyan Qian, Yanli Li, Nan Yang, Zhongliang Guo, Dong Yuan

AI总结在视觉定位任务中，绝对姿态回归（APR）能够从单张图像中实时推断相机的6自由度姿态，但其性能高度依赖于训练数据的质量和覆盖范围。为了解决现有基于3D高斯溅射（3DGS）的视图合成数据增强方法中随机采样导致的冗余视角和噪声样本问题，本文提出了一种智能姿态选择方法PoseCompass，通过定位难度、覆盖新颖性和渲染可观测性三个维度对合成姿态进行排序，生成轨迹约束的候选视角并进行合成，从而显著提升了姿态回归模型的训练效率和定位精度。实验表明，PoseCompass在7-Scenes数据集上将适配时间缩短了3倍，并大幅降低了姿态误差。

2605.12140 2026-05-13 cs.CV

EchoTracker2: Enhancing Myocardial Point Tracking by Modeling Local Motion

Md Abulkalam Azad, Vegard Holmstrøm, John Nyberg, Lasse Lovstakken, Håvard Dalen, Bjørnar Grenne, Andreas Østvik

AI总结本文提出了一种名为EchoTracker2的新型心肌点跟踪方法，旨在提升超声心动图中心肌运动估计的准确性。该方法通过建模局部运动特征，摒弃了传统两阶段架构中的粗粒度初始化步骤，采用仅细阶段的网络结构，结合局部时空上下文信息与长距离时序推理，实现了更鲁棒的点跟踪。实验表明，该方法在多个数据集上均优于现有最佳模型，提升了位置精度并降低了轨迹误差，同时在临床相关指标如全局纵向应变的一致性方面也表现出色。

Comments Early accepted (top 9%) to MICCAI 2026

2605.12139 2026-05-13 cs.AI

BoolXLLM: LLM-Assisted Explainability for Boolean Models

Du Cheng, Serdar Kadioglu, Xin Wang

AI总结 BoolXLLM 是一种结合大型语言模型（LLM）与布尔逻辑规则的学习框架，旨在提升布尔模型的可解释性。该方法在特征选择、数值特征离散化策略推荐以及布尔规则压缩与解释三个关键阶段引入LLM，从而生成更符合领域语义且易于理解的解释。研究展示了这种混合方法在保持预测性能的同时，有效提升了非技术用户对模型决策过程的理解能力。

2605.12138 2026-05-13 cs.CV cs.CL cs.IR

Design Your Ad: Personalized Advertising Image and Text Generation with Unified Autoregressive Models

Yexing Xu, Wei Feng, Shen Zhang, Haohan Wang, Yuxin Qin, Yaoyu Li, Ao Ma, Yuhao Luo, Lu Wang, Xudong Ren, Haoran Wang, Run Ling, Zheng Zhang, Jingjing Lv, Junjie Shen, Ching Law, Longguang Wang, Yulan Guo

AI总结生成符合用户偏好且真实的广告内容是电商领域的重要挑战。本文提出了一种统一的自回归生成模型Uni-AdGen，能够同时生成个性化广告图像和文本，通过引入前景感知模块和指令微调提升生成内容的真实性，并利用粗到细的偏好理解模块从多模态历史行为中捕捉用户兴趣以实现更精准的个性化生成。此外，研究还构建了首个大规模个性化广告图文数据集PAd1M，并引入产品背景相似度指标PBS，实验表明该方法在通用和个性化广告生成任务中均优于现有方法。

Comments 22 pages, 19 figures, CVPR 2026

2605.12135 2026-05-13 cs.SD cs.LG eess.AS

STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts

Joshua Opria

AI总结本文提出STRUM模型，一种无需任何人工标注元数据即可将原始音频转换为可玩的节奏游戏图表（如Clone Hero和YARG）的端到端系统，支持鼓、吉他、贝斯、人声和键盘等乐器。STRUM采用多阶段混合方法，结合卷积循环神经网络（CRNN）进行鼓声起始检测、神经网络进行吉他和贝斯的单音音高跟踪、词对齐的语音识别处理人声，并利用频谱分析检测键盘音符。实验在基于音频质量筛选的30首歌曲数据集上进行，取得了较高的F1分数，并对模型组件进行了全面消融分析。

Comments 9 pages, 4 figures, 3 tables. Code and models: https://github.com/<your-github-username>/autocharter

2605.12134 2026-05-13 cs.CV cs.LG

MULTI: Disentangling Camera Lens, Sensor, View, and Domain for Novel Image Generation

Sonali Godavarthy, Matthias Neuwirth-Trapp, Tim-Felix Faasch, Maarten Bieshaar, Michael Moeller, Danda Pani Paudel

AI总结本文提出了一种名为MULTI的新方法，旨在解决文本到图像生成中因文本歧义导致的精确控制难题，通过分离相机镜头、传感器类型、视角和场景域等成像因素，实现对图像生成过程的更精细控制。该方法分为两个阶段，先学习通用成像因素，再提取数据集特定因素，从而支持现有数据集的扩展和新因素组合，减少分布差距，并可通过ControlNets实现特定因素的修改和图像到图像生成。实验表明，MULTI在新构建的DF-RICO基准上表现良好，突显了成像因素解耦作为图像生成研究新方向的重要性。

Comments Accepted at ICPR 2026

2605.12131 2026-05-13 cs.AI

Rollout Cards: A Reproducibility Standard for Agent Research

Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

AI总结本文针对智能体研究中日益严重的可复现性问题，提出了一种新的标准化方法——Rollout Cards。研究指出，当前许多论文仅报告系统得分，却未公开支撑这些得分的完整运行记录，导致相同行为可能因评估方式不同而得出不同结果。为此，作者引入Rollout Cards，将运行记录而非报告得分作为可复现性的基本单位，并通过实际案例验证了其有效性，展示了仅改变报告规则即可显著影响模型排名的现象。

2605.12128 2026-05-13 cs.CL cs.CY

Metaphor Is Not All Attention Needs

Olga Sorokoletova, Francesco Giarrusso, Giacomo De Luca, Piercosma Bisconti, Matteo Prandi, Federico Pierucci, Marcello Galisai, Vincenzo Suriani, Daniele Nardi

AI总结这篇论文研究了文学性指令如何绕过大型语言模型的安全机制，并探讨其背后的原因。作者通过分析注意力模式，发现模型能够准确区分诗歌与散文格式，但无法有效预测文学性指令是否会导致安全风险。研究结果表明，文学性指令的成功并非源于模型无法识别其格式，而是因为其风格上的不规则性改变了模型的处理方式，从而避开了训练时关注的关键词触发机制。这一发现对构建更具鲁棒性的安全机制具有重要意义。

详情

英文摘要

Large language models are increasingly deployed in safety-critical applications, where their ability to resist harmful instructions is essential. Although post-training aims to make models robust against many jailbreak strategies, recent evidence shows that stylistic reformulations, such as poetic transformation, can still bypass safety mechanisms with alarming effectiveness. This raises a central question: why do literary jailbreaks succeed? In this work, we investigate whether their effectiveness depends on specific poetic devices, on a failure to recognize literary formatting, or on deeper changes in how models process stylistically irregular prompts. We address this problem through an interpretability analysis of attention patterns. We perform input-level ablation studies to assess the contribution of individual and combinations of poetic devices; construct an interpretable vector representation of attention maps; cluster these representations and train linear probes to predict safety outcomes and literary format. Our results show that models distinguish poetic from prose formats with high accuracy, yet struggle to predict jailbreak success within each format. Clustering further reveals clear separation by literary format, but not by safety label. These findings indicate that jailbreak success is not caused by a failure to recognize poetic formatting; rather, poetic prompts induce distinct processing patterns that remain largely independent of harmful-content detection. Overall, literary jailbreaks appear to misalign large language models not through any single poetic device, but through accumulated stylistic irregularities that alter prompt processing and avoid lexical triggers considered during post-training. This suggests that robustness requires safety mechanisms that account for style-induced shifts in model behavior. We use Qwen3-14B as a representative open-weight case study.

URL PDF HTML ☆

赞 0 踩 0

2605.12122 2026-05-13 cs.LG cs.AI cs.CV

Disentangled Sparse Representations for Concept-Separated Diffusion Unlearning

Hyeonjin Kim, Hangyeol Jung, Heechan Yun, Sungjun Yun, Dong-Jun Han

AI总结本文研究了如何在文本到图像的扩散模型中去除特定概念，提出了一个名为SAEParate的方法。该方法通过引入概念感知的对比目标，将潜在表示组织成概念特定的聚类，从而实现更精确的概念抑制并减少去学习过程中的干扰。此外，作者还增强编码器以提升其在分离目标下的表达能力，实验表明该方法在去学习任务中取得了当前最优的性能，尤其在联合风格-对象去学习任务中表现突出。

Comments 40 pages, 23 figures

2605.12120 2026-05-13 cs.AI

To Whom Do Language Models Align? Measuring Principal Hierarchies Under High-Stakes Competing Demands

Fangyi Yu, Nabeel Seedat, Jonathan Richard Schwarz, Andrew M. Bean

AI总结该研究探讨了语言模型在高风险专业场景中面对用户、机构权威和职业规范等多方冲突需求时的对齐倾向。通过在法律和医疗领域共7,136个场景中测试十种前沿模型，发现模型在任务执行时常常忽视职业标准，且对用户、权威和标准的优先级排序在不同领域和模型间存在不稳定性。研究指出，模型主要通过知识遗漏的方式导致对专业标准的违背，即使其内部推理过程已识别相关知识，也可能在外部输出中选择性忽略，从而产生有害结果。

2605.12112 2026-05-13 cs.CV

When Policy Entropy Constraint Fails: Preserving Diversity in Flow-based RLHF via Perceptual Entropy

Xiaofeng Tan, Jun Liu, Bin-Bin Gao, Yuanting Fan, Xi Jiang, Chengjie Wang, Hongsong Wang, Feng Zheng

AI总结在基于强化学习的文本到图像生成模型对齐中，策略熵约束常用于保持多样性，但在流模型中这一方法失效，导致生成结果多样性严重下降。本文理论与实验分析表明，流模型中策略熵不变而感知多样性却崩溃，原因是固定噪声调度与策略梯度的模式搜索特性所致。为此，研究提出感知熵概念以捕捉感知空间中的多样性，并设计了两种熵正则化策略，有效提升了生成质量与多样性，实验表明其在多个基准上均优于现有方法。

2605.12111 2026-05-13 cs.AI cs.DS

Adaptive Multi-Round Allocation with Stochastic Arrivals

Yuqi Pan, Davin Choo, Haichuan Wang, Milind Tambe, Alastair van Heerden, Cheryl Johnson

AI总结本文研究了一个受自适应网络招募启发的多轮资源分配问题，其中有限的同质资源需在多轮中分配给具有随机推荐能力的个体，成功推荐会带来未来的决策机会，而对同一个体追加资源则存在边际递减效应。为解决多轮设置下的复杂动态规划问题，作者引入了一个仅依赖剩余预算和前沿规模的群体级替代价值函数，从而构建出复杂度与总预算成多项式关系的精确动态规划算法。此外，作者还分析了模型误设下的鲁棒性，并给出了分解为单轮前沿误差和群体级转移误差的多轮误差界。

Comments Accepted into ICML 2026

2605.12106 2026-05-13 cs.AI

Large Language Models as Amortized Pareto-Front Generators for Constrained Bi-Objective Convex Optimization

Peipei Xu, SiYuan Ma, Yaohua Liu, Yu Wu, Guanliang Liu, Yang Zhang, Yong Liu

AI总结该研究探讨了如何利用大语言模型生成约束条件下双目标凸优化问题的帕累托前沿。提出了一种端到端框架DIPS，通过微调大语言模型，使其能够直接根据文本描述生成近似帕累托前沿的连续决策向量。DIPS结合了数值标记初始化、分阶段课程优化等技术，实现了高效的生成效果，并在多个问题族上取得了接近参考前沿的高精度结果，展示了大语言模型在连续帕累托前沿近似中的潜力。

Comments 31 pages

2605.12105 2026-05-13 cs.AI

Autonomy and Agency in Agentic AI: Architectural Tactics for Regulated Contexts

Damir Safin, Dian Balta

AI总结在监管环境中部署自主智能体AI系统，需要对系统“能力”（agency）和“自主性”（autonomy）两个设计维度进行系统性考量。本文提出一个二维设计空间，将这两个维度划分为五个操作层级，明确其耦合关系，并提出六种架构策略以调整系统在该空间中的位置。此外，文章还分析了五个影响系统部署效果的参数，为合规导向的智能体AI设计提供了理论框架和实践指导。

详情

英文摘要

Deploying agentic AI in regulated contexts requires principled reasoning about two design dimensions: agency (what the system can do) and autonomy (how much it acts without human involvement). Though often treated independently, they are coupled: at higher autonomy, human error correction is less available, so reliable operation requires constraining agency accordingly; compliance requirements reinforce this by mandating human involvement as action consequences grow. Yet no established approach addresses them jointly, leaving practitioners without a principled basis for reasoning about oversight, action consequences, and error correction. This work introduces a two-dimensional design space in which both dimensions are organised into five operational levels, making the coupling explicit and navigable. Autonomy ranges from human-commanded operation (L1) to fully autonomous monitoring (L5); agency ranges from reasoning over supplied context (L1) to committed writes to authoritative records (L5). Building on this space, we propose six architectural tactics--checkpoints, escalation, multi-agent delegation, tool provisioning, tool fencing, and write staging--for adjusting a deployment's position within it. The tactics are grounded in two worked examples from public-sector contexts, illustrating how they apply under realistic compliance constraints. We further examine five deployment parameters--model capability, agent architecture, tool fidelity, workflow bottlenecks, and evaluation--that shape what is achievable at any configuration independently of agency and autonomy. Together, the design space, tactics, and deployment parameters provide a shared vocabulary for principled, compliance-aware agentic AI design in which responsibility, auditability, and reversibility are explicit design considerations rather than properties that must be retrofitted after deployment.

URL PDF HTML ☆

赞 0 踩 0

2605.12096 2026-05-13 cs.CL

Sign Language Recognition and Translation for Low-Resource Languages: Challenges and Pathways Forward

Nigar Alishzade, Gulchin Abdullayeva

AI总结本文探讨了针对资源匮乏的低资源手语语言（如阿塞拜疆手语）进行识别与翻译的挑战与未来方向。研究通过分析全球相关项目，总结出八条可行经验，提出从数据驱动、 signer-adaptive 系统和任务特定评估等三个范式转变，并基于轻量级 MediaPipe 架构和社区验证的标注，制定了阿塞拜疆手语的技术发展路线。研究强调需以聋人社区为中心，推动跨学科合作，确保技术的文化适配性与实际应用价值。

2605.12090 2026-05-13 cs.RO cs.CL cs.CV

World Action Models: The Next Frontier in Embodied AI

Siyin Wang, Junhao Shi, Zhaoyang Fu, Xinzhe He, Feihong Liu, Chenchen Yang, Yikang Zhou, Zhaoye Fei, Jingjing Gong, Jinlan Fu, Mike Zheng Shou, Xuanjing Huang, Xipeng Qiu, Yu-Gang Jiang

AI总结视觉-语言-动作（VLA）模型在具身策略学习中表现出良好的语义泛化能力，但其主要学习的是对观测到动作的反应映射，而未显式建模物理世界在干预下的演变过程。为解决这一问题，研究提出将环境动态预测模型融入动作生成流程，形成一种新的范式——世界动作模型（WAMs），旨在联合建模未来状态与动作的联合分布。本文系统梳理了WAMs的研究现状，定义其核心概念，区分其与相关模型的异同，并从架构、学习目标和应用场景等方面进行分类，同时分析其数据生态和评估方法，为该领域的发展提供了清晰的框架与未来方向。

2605.12087 2026-05-13 cs.AI cs.MA

Intermediate Artifacts as First-Class Citizens: A Data Model for Durable Intermediate Artifacts in Agentic Systems

Josh Rosen, Seth Rosen

AI总结许多AI系统围绕模型推理、调用工具、观察结果的循环进行运作，但中间生成的工件往往只存在于临时状态，难以被追踪和复用。本文提出将中间工件作为系统中的核心组成部分，强调其应具备结构化、可追溯、可修订等特性，以便后续人类或代理进行审查和优化。研究贡献在于提出了一种系统级数据模型，明确区分中间工件与对话记录、思维过程等，并为工件的更新、版本管理和质量评估提供了理论支持，从而提升AI生成工作的可维护性和可追溯性。

Comments 18 pages, 1 figure, 3 tables

2605.12084 2026-05-13 cs.RO cs.AI cs.IT cs.LG cs.SY eess.SY math.IT

Learning What Matters: Adaptive Information-Theoretic Objectives for Robot Exploration

Youwei Yu, Jionghao Wang, Zhengming Yu, Wenping Wang, Lantao Liu

AI总结本文研究了如何为机器人探索任务设计可学习的信息论目标函数，以更有效地减少模型参数的不确定性。作者提出了一种基于最优实验设计的自适应信息目标——准最优实验设计（QOED），通过分析费舍尔信息矩阵的特征空间，识别可观察的参数方向并抑制无关参数的干扰，从而优化探索策略。实验表明，该方法在导航和操作任务中显著提升了探索效率和策略性能。

2605.12079 2026-05-13 cs.LG

Elicitation-Augmented Bayesian Optimization

Alvar Haltia, Ville Hyvönen, Samuel Kaski

AI总结本文研究了如何在人类专家参与的贝叶斯优化中更有效地利用隐性领域知识。传统方法依赖专家明确量化知识，而本文提出通过成对比较来获取专家的隐性判断，并将其视为目标函数值的噪声证据。文章提出了一种结合直接观测与成对查询的代价感知信息价值获取函数，能够在不同查询成本下自适应地平衡两种信息源，从而提升优化效率。

2605.12077 2026-05-13 cs.CV cs.AI

The Missing GAP: From Solving Square Jigsaw Puzzles to Handling Real World Archaeological Fragments

Ofir Itzhak Shahar, Gur Elkin, Ohad Ben-Shahar

AI总结本文研究了从解决标准拼图问题到处理真实考古碎片这一更具挑战性的任务。为了解决非规则形状且严重磨损的考古碎片拼接问题，作者提出了GAP数据集，并设计了基于ViT和流匹配的新型框架PuzzleFlow。该方法在处理复杂形状的碎片拼接任务中表现出色，显著优于现有方法。

2605.12074 2026-05-13 cs.CV

BARISTA: A Multi-Task Egocentric Benchmark for Compositional Visual Understanding

Patrick Knab, Orgest Xhelili, Inis Buzi, Drago Andres Guggiana Nilo, Mohd Saquib Khan, Lorenz Kolb, Manuel Scherzer, Kerem Yildirir, Christian Bartelt, Philipp Johannes Schubert

AI总结 BARISTA 是一个用于组合视觉理解的多任务第一人称视角基准数据集，包含185个真实世界的咖啡制作视频，涵盖了全自动、portafilter 和胶囊式等多种流程。该数据集提供了详细的帧级场景图，包含物体身份、属性、关系、手-物交互及过程步骤等信息，并由此衍生出多项零样本语言任务，如短语定位、活动识别和时序问答等。BARISTA 为诊断模型在程序性视频理解中的不足提供了具有挑战性的评估基准。

2605.12071 2026-05-13 cs.RO cs.SY eess.SY

Control of Fully Actuated Aerial Vehicles: A Comparison of Model-based and Sensor-based Dynamic Inversion

Ali Sidar Yilmaz, Buday Turan, Lukas Pries, Markus Ryll

AI总结本文比较了基于模型的几何非线性动态逆控制器（geometric NDI）与基于传感器的增量动态逆控制器（INDI）在固定倾角六旋翼飞行器上的控制性能。研究通过多个实验评估了两种控制器在参数偏差、风扰、传感器退化等不同条件下的表现，发现INDI在参数不匹配和传感器退化情况下具有明显优势，而几何NDI在控制频率降低时表现出更优的姿态跟踪能力。该工作首次对具有解耦平动和转动动力学的完整姿态跟踪INDI控制器进行了实验验证，揭示了基于测量与基于模型的动态逆方法在鲁棒控制与快速部署之间的权衡。

2605.12069 2026-05-13 cs.CV cs.AI cs.LG

Anomaly-Aware Vision-Language Adapters for Zero-Shot Anomaly Detection

Muhammad Aqeel, Maham Nazir, Uzair Khan, Marco Cristani, Francesco Setti

AI总结该论文研究了无需目标类别训练的零样本异常检测问题，针对现有方法对正常与异常数据分布不对称性利用不足的问题，提出了一种名为AVA-DINO的异常感知视觉-语言适配框架。该方法通过两个专门分支分别处理正常和异常模式，结合文本引导的路由机制和显式路由正则化，在训练时实现分支特化；测试时仅依赖输入图像和预定义语言描述动态组合分支，实现不对称激活。实验表明，该方法在多个工业和医学基准上取得了最先进的性能，且具备良好的跨领域泛化能力。

Comments Accepted to ICIP 2026