arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.12160 2026-05-13 cs.RO cs.AI

Premover: Fast Vision-Language-Action Control by Acting Before Instructions Are Complete

Joonha Park, Jiseung Jeong, Taesik Gong

发表机构 * UNIST（全南大学）； The Catholic University of Korea（韩国天主教大学）

AI总结该研究提出了一种名为Premover的轻量模块，旨在提升视觉-语言-动作（VLA）策略在实际部署中的响应效率。Premover通过在用户指令完成前进行预计算，有效利用了机器人等待指令的空闲时间，从而加快了整体执行速度。该方法通过冻结VLA主干网络，并引入两个投影头将中间层特征映射到共享空间，结合模拟渲染的目标分割掩码进行监督学习，最终显著减少了任务执行的平均时间，同时保持了较高的成功率。

2605.12159 2026-05-13 cs.AI cs.GR

ALGOGEN: Tool-Generated Verifiable Traces for Reliable Algorithm Visualization

Kunpeng Liao, Yuexiao Ma, Yisheng Lin, Hualin Zeng, Xiawu Zheng, Rongrong Ji

发表机构 * Key Laboratory of Multimedia Trusted Perception and Efficient Computing, Ministry of Education of China, Xiamen University（教育部多媒体可信感知与高效计算重点实验室，厦门大学）

AI总结该论文提出了一种名为ALGOGEN的新方法，用于生成可验证的算法可视化轨迹，以提高算法可视化过程的可靠性。其核心思想是将算法执行与渲染过程解耦，通过引入可视化轨迹代数（VTA）和渲染风格语言（RSL）分别控制算法状态和视觉呈现，从而避免了传统端到端方法中大语言模型产生的幻觉问题。实验表明，ALGOGEN在LeetCode基准测试中显著提升了生成成功率，验证了其在复杂任务中的有效性。

2605.12156 2026-05-13 cs.CL cs.SI

Latent Causal Void: Explicit Missing-Context Reconstruction for Misinformation Detection

Hui Li, Zhongquan Jian, Jinsong Su, Junfeng Yao

发表机构 * School of Informatics, Xiamen University（厦门大学信息学院）； School of Computer and Data Science, Minjiang University（闽江学院计算机与数据科学学院）

AI总结本文研究了一类隐蔽性较强的信息误导检测问题，即文章在局部语义上保持连贯，但通过与同期背景信息对比才显现出误导性。为此，提出了一种名为“潜在因果空洞”（LCV）的方法，通过检索时间对齐的背景文章，并利用冻结的大语言模型显式重建每句目标文本所缺失的上下文信息，将其作为图推理中的跨源关系进行建模。实验表明，该方法在双语基准测试中显著优于现有方法，验证了显式重建缺失事实对检测信息误导的有效性。

2605.12154 2026-05-13 cs.AI

MM-OptBench: A Solver-Grounded Benchmark for Multimodal Optimization Modeling

Zhong Li, Qi Huang, Yuxuan Zhu, Mohammad Mohammadi Amiri, Niki van Stein, Thomas Bäck, Matthijs van Leeuwen, Zaiwen Wen, Lincen Yang

发表机构 * Great Bay University（大湾大学）； Leiden University（莱顿大学）； Rensselaer Polytechnic Institute（伦塞拉尔理工学院）； Peking University（北京大学）

AI总结 MM-OptBench 是一个基于求解器验证的多模态优化建模基准，旨在评估模型从文本和视觉信息中构建数学优化模型及可执行求解代码的能力。该基准涵盖6类优化问题、26个子类和3个难度级别，共包含780个经过求解器验证的实例。实验表明，当前主流多模态大语言模型在该任务上表现有限，尤其在处理复杂实例时效果显著下降，突显了多模态优化建模任务的挑战性。

Comments Paper under review

详情

英文摘要

Optimization modeling translates real decision-making problems into mathematical optimization models and solver-executable implementations. Although language models are increasingly used to generate optimization formulations and solver code, existing benchmarks are almost entirely text-only. This omits many optimization-modeling tasks that arise in operational practice, where requirements are described in text but instance information is conveyed through visual artifacts such as tables, graphs, maps, schedules, and dashboards. We introduce multimodal optimization modeling, a benchmark setting in which models must construct both a mathematical formulation and executable solver code from a text-and-visual problem specification. To evaluate this setting, we develop a solver-grounded framework that generates structured optimization instances, verifies each with an exact solver, and builds both the model-facing inputs and hidden reference files from the same verified source. We instantiate the framework as MM-OptBench, a benchmark of 780 solver-verified instances spanning 6 optimization families, 26 subcategories, and 3 structural difficulty levels. We evaluate 9 multimodal large language models (MLLMs), including 6 frontier general-purpose models and 3 math-specialized models, with aggregate, family-level, difficulty-level, and failure-mode analyses. The results show that the task remains far from solved: the best two models reach 52.1% and 51.3% pass@1, while on average across the six general-purpose MLLMs, pass@1 is 43.4% on easy instances and 15.9% on hard instances. All three math-specialized MLLMs solve 0/780 instances. Failure attribution shows that errors arise both when extracting instance data from text and visuals and when turning extracted data into solver-correct formulations and code. MM-OptBench provides a testbed for solver-grounded, decision-oriented multimodal intelligence.

URL PDF HTML ☆

赞 0 踩 0

2605.12144 2026-05-13 cs.CV

PoseCompass: Intelligent Synthetic Pose Selection for Visual Localization

Yanan Zhou, Zhaoyan Qian, Yanli Li, Nan Yang, Zhongliang Guo, Dong Yuan

发表机构 * The University of Sydney（悉尼大学）； University of St Andrews（圣安德鲁大学）

AI总结在视觉定位任务中，绝对姿态回归（APR）能够从单张图像中实时推断相机的6自由度姿态，但其性能高度依赖于训练数据的质量和覆盖范围。为了解决现有基于3D高斯溅射（3DGS）的视图合成数据增强方法中随机采样导致的冗余视角和噪声样本问题，本文提出了一种智能姿态选择方法PoseCompass，通过定位难度、覆盖新颖性和渲染可观测性三个维度对合成姿态进行排序，生成轨迹约束的候选视角并进行合成，从而显著提升了姿态回归模型的训练效率和定位精度。实验表明，PoseCompass在7-Scenes数据集上将适配时间缩短了3倍，并大幅降低了姿态误差。

2605.12140 2026-05-13 cs.CV

EchoTracker2: Enhancing Myocardial Point Tracking by Modeling Local Motion

Md Abulkalam Azad, Vegard Holmstrøm, John Nyberg, Lasse Lovstakken, Håvard Dalen, Bjørnar Grenne, Andreas Østvik

发表机构 * Norwegian University of Science and Technology（挪威科学技术大学）； Clinic of Cardiology, St. Olavs Hospital（斯德哥尔摩医院心内科）； SINTEF Digital（SINTEF数字技术）

AI总结本文提出了一种名为EchoTracker2的新型心肌点跟踪方法，旨在提升超声心动图中心肌运动估计的准确性。该方法通过建模局部运动特征，摒弃了传统两阶段架构中的粗粒度初始化步骤，采用仅细阶段的网络结构，结合局部时空上下文信息与长距离时序推理，实现了更鲁棒的点跟踪。实验表明，该方法在多个数据集上均优于现有最佳模型，提升了位置精度并降低了轨迹误差，同时在临床相关指标如全局纵向应变的一致性方面也表现出色。

Comments Early accepted (top 9%) to MICCAI 2026

2605.12139 2026-05-13 cs.AI

BoolXLLM: LLM-Assisted Explainability for Boolean Models

Du Cheng, Serdar Kadioglu, Xin Wang

发表机构 * AI Center of Excellence, Fidelity Investments（富达投资人工智能卓越中心）； Department of Computer Science, Brown University（布朗大学计算机科学系）

AI总结 BoolXLLM 是一种结合大型语言模型（LLM）与布尔逻辑规则的学习框架，旨在提升布尔模型的可解释性。该方法在特征选择、数值特征离散化策略推荐以及布尔规则压缩与解释三个关键阶段引入LLM，从而生成更符合领域语义且易于理解的解释。研究展示了这种混合方法在保持预测性能的同时，有效提升了非技术用户对模型决策过程的理解能力。

2605.12138 2026-05-13 cs.CV cs.CL cs.IR

Design Your Ad: Personalized Advertising Image and Text Generation with Unified Autoregressive Models

Yexing Xu, Wei Feng, Shen Zhang, Haohan Wang, Yuxin Qin, Yaoyu Li, Ao Ma, Yuhao Luo, Lu Wang, Xudong Ren, Haoran Wang, Run Ling, Zheng Zhang, Jingjing Lv, Junjie Shen, Ching Law, Longguang Wang, Yulan Guo

发表机构 * Sun Yat-Sen University（中山大学）； Northeastern University（东北大学）

AI总结生成符合用户偏好且真实的广告内容是电商领域的重要挑战。本文提出了一种统一的自回归生成模型Uni-AdGen，能够同时生成个性化广告图像和文本，通过引入前景感知模块和指令微调提升生成内容的真实性，并利用粗到细的偏好理解模块从多模态历史行为中捕捉用户兴趣以实现更精准的个性化生成。此外，研究还构建了首个大规模个性化广告图文数据集PAd1M，并引入产品背景相似度指标PBS，实验表明该方法在通用和个性化广告生成任务中均优于现有方法。

Comments 22 pages, 19 figures, CVPR 2026

2605.12135 2026-05-13 cs.SD cs.LG eess.AS

STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts

Joshua Opria

发表机构 * Independent Researcher（独立研究者）

AI总结本文提出STRUM模型，一种无需任何人工标注元数据即可将原始音频转换为可玩的节奏游戏图表（如Clone Hero和YARG）的端到端系统，支持鼓、吉他、贝斯、人声和键盘等乐器。STRUM采用多阶段混合方法，结合卷积循环神经网络（CRNN）进行鼓声起始检测、神经网络进行吉他和贝斯的单音音高跟踪、词对齐的语音识别处理人声，并利用频谱分析检测键盘音符。实验在基于音频质量筛选的30首歌曲数据集上进行，取得了较高的F1分数，并对模型组件进行了全面消融分析。

Comments 9 pages, 4 figures, 3 tables. Code and models: https://github.com/<your-github-username>/autocharter

2605.12134 2026-05-13 cs.CV cs.LG

MULTI: Disentangling Camera Lens, Sensor, View, and Domain for Novel Image Generation

Sonali Godavarthy, Matthias Neuwirth-Trapp, Tim-Felix Faasch, Maarten Bieshaar, Michael Moeller, Danda Pani Paudel

发表机构 * Bosch Research（博世研究）； ETH Zürich（苏黎世联邦理工学院）； University of Siegen（锡根大学）

AI总结本文提出了一种名为MULTI的新方法，旨在解决文本到图像生成中因文本歧义导致的精确控制难题，通过分离相机镜头、传感器类型、视角和场景域等成像因素，实现对图像生成过程的更精细控制。该方法分为两个阶段，先学习通用成像因素，再提取数据集特定因素，从而支持现有数据集的扩展和新因素组合，减少分布差距，并可通过ControlNets实现特定因素的修改和图像到图像生成。实验表明，MULTI在新构建的DF-RICO基准上表现良好，突显了成像因素解耦作为图像生成研究新方向的重要性。

Comments Accepted at ICPR 2026

2605.12131 2026-05-13 cs.AI

Rollout Cards: A Reproducibility Standard for Agent Research

Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

发表机构 * Deepflow ； Nanyang Technological University（南洋理工大学）

AI总结本文针对智能体研究中日益严重的可复现性问题，提出了一种新的标准化方法——Rollout Cards。研究指出，当前许多论文仅报告系统得分，却未公开支撑这些得分的完整运行记录，导致相同行为可能因评估方式不同而得出不同结果。为此，作者引入Rollout Cards，将运行记录而非报告得分作为可复现性的基本单位，并通过实际案例验证了其有效性，展示了仅改变报告规则即可显著影响模型排名的现象。

2605.12128 2026-05-13 cs.CL cs.CY

Metaphor Is Not All Attention Needs

Olga Sorokoletova, Francesco Giarrusso, Giacomo De Luca, Piercosma Bisconti, Matteo Prandi, Federico Pierucci, Marcello Galisai, Vincenzo Suriani, Daniele Nardi

发表机构 * Sapienza University of Rome Department of Computer, Control and Management Engineering（罗马大学Sapienza计算机、控制与管理工程系）； DEXAI – Icaro Lab（DEXAI – Icaro实验室）； University of Rome Tor Vergata（罗马大学Tor Vergata）； Sant’Anna School of Advanced Studies（Sant’Anna高级研究学校）

AI总结这篇论文研究了文学性指令如何绕过大型语言模型的安全机制，并探讨其背后的原因。作者通过分析注意力模式，发现模型能够准确区分诗歌与散文格式，但无法有效预测文学性指令是否会导致安全风险。研究结果表明，文学性指令的成功并非源于模型无法识别其格式，而是因为其风格上的不规则性改变了模型的处理方式，从而避开了训练时关注的关键词触发机制。这一发现对构建更具鲁棒性的安全机制具有重要意义。

详情

英文摘要

Large language models are increasingly deployed in safety-critical applications, where their ability to resist harmful instructions is essential. Although post-training aims to make models robust against many jailbreak strategies, recent evidence shows that stylistic reformulations, such as poetic transformation, can still bypass safety mechanisms with alarming effectiveness. This raises a central question: why do literary jailbreaks succeed? In this work, we investigate whether their effectiveness depends on specific poetic devices, on a failure to recognize literary formatting, or on deeper changes in how models process stylistically irregular prompts. We address this problem through an interpretability analysis of attention patterns. We perform input-level ablation studies to assess the contribution of individual and combinations of poetic devices; construct an interpretable vector representation of attention maps; cluster these representations and train linear probes to predict safety outcomes and literary format. Our results show that models distinguish poetic from prose formats with high accuracy, yet struggle to predict jailbreak success within each format. Clustering further reveals clear separation by literary format, but not by safety label. These findings indicate that jailbreak success is not caused by a failure to recognize poetic formatting; rather, poetic prompts induce distinct processing patterns that remain largely independent of harmful-content detection. Overall, literary jailbreaks appear to misalign large language models not through any single poetic device, but through accumulated stylistic irregularities that alter prompt processing and avoid lexical triggers considered during post-training. This suggests that robustness requires safety mechanisms that account for style-induced shifts in model behavior. We use Qwen3-14B as a representative open-weight case study.

URL PDF HTML ☆

赞 0 踩 0

2605.12122 2026-05-13 cs.LG cs.AI cs.CV

Disentangled Sparse Representations for Concept-Separated Diffusion Unlearning

Hyeonjin Kim, Hangyeol Jung, Heechan Yun, Sungjun Yun, Dong-Jun Han

发表机构 * Yonsei University（延世大学）； Kookmin University（韩国釜山大学）

AI总结本文研究了如何在文本到图像的扩散模型中去除特定概念，提出了一个名为SAEParate的方法。该方法通过引入概念感知的对比目标，将潜在表示组织成概念特定的聚类，从而实现更精确的概念抑制并减少去学习过程中的干扰。此外，作者还增强编码器以提升其在分离目标下的表达能力，实验表明该方法在去学习任务中取得了当前最优的性能，尤其在联合风格-对象去学习任务中表现突出。

Comments 40 pages, 23 figures

2605.12120 2026-05-13 cs.AI

To Whom Do Language Models Align? Measuring Principal Hierarchies Under High-Stakes Competing Demands

Fangyi Yu, Nabeel Seedat, Jonathan Richard Schwarz, Andrew M. Bean

发表机构 * Thomson Reuters Foundational Research（汤姆森·路透基础研究）； University of Oxford（牛津大学）； Imperial College London（帝国理工学院伦敦分校）

AI总结该研究探讨了语言模型在高风险专业场景中面对用户、机构权威和职业规范等多方冲突需求时的对齐倾向。通过在法律和医疗领域共7,136个场景中测试十种前沿模型，发现模型在任务执行时常常忽视职业标准，且对用户、权威和标准的优先级排序在不同领域和模型间存在不稳定性。研究指出，模型主要通过知识遗漏的方式导致对专业标准的违背，即使其内部推理过程已识别相关知识，也可能在外部输出中选择性忽略，从而产生有害结果。

2605.12112 2026-05-13 cs.CV

When Policy Entropy Constraint Fails: Preserving Diversity in Flow-based RLHF via Perceptual Entropy

Xiaofeng Tan, Jun Liu, Bin-Bin Gao, Yuanting Fan, Xi Jiang, Chengjie Wang, Hongsong Wang, Feng Zheng

发表机构 * Southeast University（东南大学）； Tencent Youtu Lab（腾讯云图实验室）； Southern University of Science and Technology（南方科技大学）

AI总结在基于强化学习的文本到图像生成模型对齐中，策略熵约束常用于保持多样性，但在流模型中这一方法失效，导致生成结果多样性严重下降。本文理论与实验分析表明，流模型中策略熵不变而感知多样性却崩溃，原因是固定噪声调度与策略梯度的模式搜索特性所致。为此，研究提出感知熵概念以捕捉感知空间中的多样性，并设计了两种熵正则化策略，有效提升了生成质量与多样性，实验表明其在多个基准上均优于现有方法。

2605.12111 2026-05-13 cs.AI cs.DS

Adaptive Multi-Round Allocation with Stochastic Arrivals

Yuqi Pan, Davin Choo, Haichuan Wang, Milind Tambe, Alastair van Heerden, Cheryl Johnson

发表机构 * Harvard University（哈佛大学）； University of Witwatersrand（沃特沙兰大学）

AI总结本文研究了一个受自适应网络招募启发的多轮资源分配问题，其中有限的同质资源需在多轮中分配给具有随机推荐能力的个体，成功推荐会带来未来的决策机会，而对同一个体追加资源则存在边际递减效应。为解决多轮设置下的复杂动态规划问题，作者引入了一个仅依赖剩余预算和前沿规模的群体级替代价值函数，从而构建出复杂度与总预算成多项式关系的精确动态规划算法。此外，作者还分析了模型误设下的鲁棒性，并给出了分解为单轮前沿误差和群体级转移误差的多轮误差界。

Comments Accepted into ICML 2026

2605.12106 2026-05-13 cs.AI

Large Language Models as Amortized Pareto-Front Generators for Constrained Bi-Objective Convex Optimization

Peipei Xu, SiYuan Ma, Yaohua Liu, Yu Wu, Guanliang Liu, Yang Zhang, Yong Liu

发表机构 * University of Shanghai for Science and Technology（上海科技大学）； Nanyang Technological University（南洋理工大学）； Guangdong Institute of Intelligence Science and Technology（广东智能科学与技术研究院）； Georgia Institute of Technology（佐治亚理工学院）； The University of Michigan（密歇根大学）； The Hong Kong University of Science and Technology（香港科学与技术大学）

AI总结该研究探讨了如何利用大语言模型生成约束条件下双目标凸优化问题的帕累托前沿。提出了一种端到端框架DIPS，通过微调大语言模型，使其能够直接根据文本描述生成近似帕累托前沿的连续决策向量。DIPS结合了数值标记初始化、分阶段课程优化等技术，实现了高效的生成效果，并在多个问题族上取得了接近参考前沿的高精度结果，展示了大语言模型在连续帕累托前沿近似中的潜力。

Comments 31 pages

2605.12105 2026-05-13 cs.AI

Autonomy and Agency in Agentic AI: Architectural Tactics for Regulated Contexts

Damir Safin, Dian Balta

发表机构 * fortiss GmbH（fortiss公司）； Research Institute of the Free State of Bavaria for software-intensive systems（巴伐利亚自由州软件密集系统研究机构）

AI总结在监管环境中部署自主智能体AI系统，需要对系统“能力”（agency）和“自主性”（autonomy）两个设计维度进行系统性考量。本文提出一个二维设计空间，将这两个维度划分为五个操作层级，明确其耦合关系，并提出六种架构策略以调整系统在该空间中的位置。此外，文章还分析了五个影响系统部署效果的参数，为合规导向的智能体AI设计提供了理论框架和实践指导。

详情

英文摘要

Deploying agentic AI in regulated contexts requires principled reasoning about two design dimensions: agency (what the system can do) and autonomy (how much it acts without human involvement). Though often treated independently, they are coupled: at higher autonomy, human error correction is less available, so reliable operation requires constraining agency accordingly; compliance requirements reinforce this by mandating human involvement as action consequences grow. Yet no established approach addresses them jointly, leaving practitioners without a principled basis for reasoning about oversight, action consequences, and error correction. This work introduces a two-dimensional design space in which both dimensions are organised into five operational levels, making the coupling explicit and navigable. Autonomy ranges from human-commanded operation (L1) to fully autonomous monitoring (L5); agency ranges from reasoning over supplied context (L1) to committed writes to authoritative records (L5). Building on this space, we propose six architectural tactics--checkpoints, escalation, multi-agent delegation, tool provisioning, tool fencing, and write staging--for adjusting a deployment's position within it. The tactics are grounded in two worked examples from public-sector contexts, illustrating how they apply under realistic compliance constraints. We further examine five deployment parameters--model capability, agent architecture, tool fidelity, workflow bottlenecks, and evaluation--that shape what is achievable at any configuration independently of agency and autonomy. Together, the design space, tactics, and deployment parameters provide a shared vocabulary for principled, compliance-aware agentic AI design in which responsibility, auditability, and reversibility are explicit design considerations rather than properties that must be retrofitted after deployment.

URL PDF HTML ☆

赞 0 踩 0

2605.12096 2026-05-13 cs.CL

Sign Language Recognition and Translation for Low-Resource Languages: Challenges and Pathways Forward

Nigar Alishzade, Gulchin Abdullayeva

发表机构 * Engineering Faculty of Karabakh University（卡拉巴克大学工程学院）； MSERA Institute of Mathematics（MSERA数学研究所）

AI总结本文探讨了针对资源匮乏的低资源手语语言（如阿塞拜疆手语）进行识别与翻译的挑战与未来方向。研究通过分析全球相关项目，总结出八条可行经验，提出从数据驱动、 signer-adaptive 系统和任务特定评估等三个范式转变，并基于轻量级 MediaPipe 架构和社区验证的标注，制定了阿塞拜疆手语的技术发展路线。研究强调需以聋人社区为中心，推动跨学科合作，确保技术的文化适配性与实际应用价值。

2605.12090 2026-05-13 cs.RO cs.CL cs.CV

World Action Models: The Next Frontier in Embodied AI

Siyin Wang, Junhao Shi, Zhaoyang Fu, Xinzhe He, Feihong Liu, Chenchen Yang, Yikang Zhou, Zhaoye Fei, Jingjing Gong, Jinlan Fu, Mike Zheng Shou, Xuanjing Huang, Xipeng Qiu, Yu-Gang Jiang

发表机构 * Fudan University（复旦大学）； Shanghai Innovation Institute（上海创新研究院）； National University of Singapore（新加坡国立大学）

AI总结视觉-语言-动作（VLA）模型在具身策略学习中表现出良好的语义泛化能力，但其主要学习的是对观测到动作的反应映射，而未显式建模物理世界在干预下的演变过程。为解决这一问题，研究提出将环境动态预测模型融入动作生成流程，形成一种新的范式——世界动作模型（WAMs），旨在联合建模未来状态与动作的联合分布。本文系统梳理了WAMs的研究现状，定义其核心概念，区分其与相关模型的异同，并从架构、学习目标和应用场景等方面进行分类，同时分析其数据生态和评估方法，为该领域的发展提供了清晰的框架与未来方向。

2605.12087 2026-05-13 cs.AI cs.MA

Intermediate Artifacts as First-Class Citizens: A Data Model for Durable Intermediate Artifacts in Agentic Systems

Josh Rosen, Seth Rosen

发表机构 * ThruWire, Inc.（ThruWire公司）

AI总结许多AI系统围绕模型推理、调用工具、观察结果的循环进行运作，但中间生成的工件往往只存在于临时状态，难以被追踪和复用。本文提出将中间工件作为系统中的核心组成部分，强调其应具备结构化、可追溯、可修订等特性，以便后续人类或代理进行审查和优化。研究贡献在于提出了一种系统级数据模型，明确区分中间工件与对话记录、思维过程等，并为工件的更新、版本管理和质量评估提供了理论支持，从而提升AI生成工作的可维护性和可追溯性。

Comments 18 pages, 1 figure, 3 tables

2605.12084 2026-05-13 cs.RO cs.AI cs.IT cs.LG cs.SY eess.SY math.IT

Learning What Matters: Adaptive Information-Theoretic Objectives for Robot Exploration

Youwei Yu, Jionghao Wang, Zhengming Yu, Wenping Wang, Lantao Liu

发表机构 * Luddy School of Informatics, Computing, and Engineering（信息学、计算与工程学院）

AI总结本文研究了如何为机器人探索任务设计可学习的信息论目标函数，以更有效地减少模型参数的不确定性。作者提出了一种基于最优实验设计的自适应信息目标——准最优实验设计（QOED），通过分析费舍尔信息矩阵的特征空间，识别可观察的参数方向并抑制无关参数的干扰，从而优化探索策略。实验表明，该方法在导航和操作任务中显著提升了探索效率和策略性能。

2605.12079 2026-05-13 cs.LG

Elicitation-Augmented Bayesian Optimization

Alvar Haltia, Ville Hyvönen, Samuel Kaski

发表机构 * Aalto University（阿尔托大学）； University of Helsinki（赫尔辛基大学）； University of Manchester（曼彻斯特大学）

AI总结本文研究了如何在人类专家参与的贝叶斯优化中更有效地利用隐性领域知识。传统方法依赖专家明确量化知识，而本文提出通过成对比较来获取专家的隐性判断，并将其视为目标函数值的噪声证据。文章提出了一种结合直接观测与成对查询的代价感知信息价值获取函数，能够在不同查询成本下自适应地平衡两种信息源，从而提升优化效率。

2605.12077 2026-05-13 cs.CV cs.AI

The Missing GAP: From Solving Square Jigsaw Puzzles to Handling Real World Archaeological Fragments

Ofir Itzhak Shahar, Gur Elkin, Ohad Ben-Shahar

发表机构 * Stein Faculty of Computer and Information Science（Stein 计算机与信息科学学院）

AI总结本文研究了从解决标准拼图问题到处理真实考古碎片这一更具挑战性的任务。为了解决非规则形状且严重磨损的考古碎片拼接问题，作者提出了GAP数据集，并设计了基于ViT和流匹配的新型框架PuzzleFlow。该方法在处理复杂形状的碎片拼接任务中表现出色，显著优于现有方法。

2605.12074 2026-05-13 cs.CV

BARISTA: A Multi-Task Egocentric Benchmark for Compositional Visual Understanding

Patrick Knab, Orgest Xhelili, Inis Buzi, Drago Andres Guggiana Nilo, Mohd Saquib Khan, Lorenz Kolb, Manuel Scherzer, Kerem Yildirir, Christian Bartelt, Philipp Johannes Schubert

发表机构 * Ramblr.ai Research（Ramblr.ai 研究院）； Technical University of Clausthal（Clausthal 技术大学）

AI总结 BARISTA 是一个用于组合视觉理解的多任务第一人称视角基准数据集，包含185个真实世界的咖啡制作视频，涵盖了全自动、portafilter 和胶囊式等多种流程。该数据集提供了详细的帧级场景图，包含物体身份、属性、关系、手-物交互及过程步骤等信息，并由此衍生出多项零样本语言任务，如短语定位、活动识别和时序问答等。BARISTA 为诊断模型在程序性视频理解中的不足提供了具有挑战性的评估基准。

2605.12071 2026-05-13 cs.RO cs.SY eess.SY

Control of Fully Actuated Aerial Vehicles: A Comparison of Model-based and Sensor-based Dynamic Inversion

Ali Sidar Yilmaz, Buday Turan, Lukas Pries, Markus Ryll

发表机构 * Professorship of Autonomous Aerial Systems, School of Engineering and Design, Technical University of Munich（自主航空系统教授职位，工程与设计学院，慕尼黑技术大学）

AI总结本文比较了基于模型的几何非线性动态逆控制器（geometric NDI）与基于传感器的增量动态逆控制器（INDI）在固定倾角六旋翼飞行器上的控制性能。研究通过多个实验评估了两种控制器在参数偏差、风扰、传感器退化等不同条件下的表现，发现INDI在参数不匹配和传感器退化情况下具有明显优势，而几何NDI在控制频率降低时表现出更优的姿态跟踪能力。该工作首次对具有解耦平动和转动动力学的完整姿态跟踪INDI控制器进行了实验验证，揭示了基于测量与基于模型的动态逆方法在鲁棒控制与快速部署之间的权衡。

2605.12069 2026-05-13 cs.CV cs.AI cs.LG

Anomaly-Aware Vision-Language Adapters for Zero-Shot Anomaly Detection

Muhammad Aqeel, Maham Nazir, Uzair Khan, Marco Cristani, Francesco Setti

发表机构 * Dept. of Engineering for Innovation Medicine, University of Verona, Italy（创新医学工程系，威尼斯大学，意大利）； School of Computer Science and Engineering, Beihang University, China（计算机科学与工程学院，北航大学，中国）； Dept. of Computer Science, Reykjavik University, Iceland（计算机科学系，雷克雅未克大学，冰岛）

AI总结该论文研究了无需目标类别训练的零样本异常检测问题，针对现有方法对正常与异常数据分布不对称性利用不足的问题，提出了一种名为AVA-DINO的异常感知视觉-语言适配框架。该方法通过两个专门分支分别处理正常和异常模式，结合文本引导的路由机制和显式路由正则化，在训练时实现分支特化；测试时仅依赖输入图像和预定义语言描述动态组合分支，实现不对称激活。实验表明，该方法在多个工业和医学基准上取得了最先进的性能，且具备良好的跨领域泛化能力。

Comments Accepted to ICIP 2026

2605.12064 2026-05-13 cs.CV

TAR: Text Semantic Assisted Cross-modal Image Registration Framework for Optical and SAR Images

Zhuoyu Cai, Dou Quan, Ning Huyan, Pei He, Shuang Wang, Licheng Jiao

发表机构 * Key Laboratory of Intelligent Perception and Image Understanding of Ministry of Education of China, School of Artificial Intelligence, Xidian University（中国教育部智能感知与图像理解重点实验室，西安电子科技大学人工智能学院）； Department of Automation, Tsinghua University（清华大学自动化系）

AI总结本文提出了一种基于文本语义辅助的跨模态图像配准框架TAR，用于光学图像与合成孔径雷达（SAR）图像的配准。该方法通过引入遥感场景和地物覆盖类型的文本语义先验，缓解了光学与SAR图像之间的模态差异，增强了跨模态特征学习能力。TAR包含多尺度视觉特征学习、文本辅助特征增强和由粗到细的密集匹配三个模块，实验表明其在大形变情况下仍能实现优于现有方法的配准性能。

2605.12061 2026-05-13 cs.AI

SAGE: A Self-Evolving Agentic Graph-Memory Engine for Structure-Aware Associative Memory

Juntong Wang, Haoyue Zhao, guanghui Pan, Xiyuan Wang, Yanbo Wang, Qiyan Deng, Muhan Zhang

发表机构 * Institute for Artificial Intelligence, Peking University（北京大学人工智能研究院）； School of Intelligence Science and Technology, Peking University（北京大学智能科学与技术学校）； School of Computer Science and Technology, Beijing Institute of Technology（北京理工大学计算机科学与技术学校）

AI总结本文提出了一种名为SAGE的自进化智能图记忆引擎，旨在解决语言智能体在长期记忆方面的瓶颈问题。SAGE将图记忆建模为动态的长期记忆载体，结合了用于构建结构化图记忆的“记忆写入器”和基于图基础模型的“记忆读取器”，通过交互历史逐步完善记忆结构，并利用反馈机制实现自我进化。实验表明，SAGE在多跳问答、开放域检索和长期记忆评估等任务中显著提升了证据恢复、答案置信度和检索效率，验证了其在构建稳健长期语言智能体中的有效性。

2605.12056 2026-05-13 cs.AI

OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models

Yuchen Deng, Zidang Cai, Hai-Tao Zheng, Jie Wang, Feidiao Yang, Yuxing Han

发表机构 * Tsinghua Shenzhen International Graduate School, Tsinghua University（清华大学深圳国际研究生院，清华大学）； Pengcheng Laboratory（鹏城实验室）

AI总结 OmniRefine 是一种用于高效多模态大语言模型的训练-free 两阶段压缩框架，旨在解决长视频和密集音频序列推理成本高的问题。该方法通过跨模态对齐的分块优化和模态感知的协同压缩，有效保留关键信息并减少冗余，从而在保持模型性能的同时提升推理效率。实验表明，OmniRefine 在多个任务上实现了优于现有方法的效率与性能平衡，并在较低压缩比下仍能保持稳定表现。