arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.10938 2026-05-12 cs.CL cs.AI cs.LG

ELF: Embedded Language Flows

Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He

发表机构 * MIT（麻省理工学院）

AI总结本文提出了一种名为ELF（Embedded Language Flows）的连续语言扩散模型，旨在解决当前主流离散扩散语言模型（DLMs）在生成质量与效率上的局限。ELF基于连续时间流匹配技术，在嵌入空间中进行建模，直到最终时间步才映射到离散词元，从而更有效地结合图像领域扩散模型的优化技术，如无分类器引导（CFG）。实验表明，ELF在生成质量与采样效率上均优于现有离散和连续DLMs，为构建高效的连续扩散语言模型提供了新方向。

Comments Tech Report. Project webpage: https://github.com/lillian039/ELF

2605.10937 2026-05-12 cs.CV

Power Reinforcement Post-Training of Text-to-Image Models with Super-Linear Advantage Shaping

Haoyuan Sun, Jing Wang, Yuxin Song, Yu Lu, Bo Fang, Yifu Luo, Jun Yin, Pengyu Zeng, Miao Zhang, Tiantian Zhang, Xueqian Wang, Shijian Lu

发表机构 * Nanyang Technological University（南洋理工大学）； Baidu Inc.（百度公司）； Zhejiang University（浙江大学）； City University of Hong Kong（香港城市大学）； Tsinghua University（清华大学）； Jimei University（集美大学）

AI总结本文研究了如何通过强化学习后训练进一步提升文本到图像生成模型的性能，并针对现有方法中奖励黑客问题提出了解决方案。作者指出标准化操作可能导致策略校准偏差，进而影响训练效果，为此提出了一种基于信息几何的超线性优势塑造方法（SLAS），通过引入优势依赖的权重对策略空间进行非线性重构，从而增强有效更新、抑制虚假梯度。实验表明，SLAS在多个模型和基准测试中均优于现有方法，提升了训练效率、泛化能力和生成质量。

2605.10936 2026-05-12 cs.CV

Personal Visual Context Learning in Large Multimodal Models

Zihui Xue, Ami Baid, Sangho Kim, Mi Luo, Kristen Grauman

发表机构 * The University of Texas at Austin（德克萨斯大学奥斯汀分校）

AI总结随着智能眼镜等可穿戴设备将大 multimodal 模型（LMMs）融入用户的连续第一人称视觉流，这些模型要成为真正的个人助手，关键在于视觉个性化能力。本文提出个人视觉上下文学习（Personal VCL），旨在利用用户特定的视觉信息解决个性化查询，并构建了 Personal-VCL-Bench 作为评估基准。研究发现当前 LMMs 在利用视觉上下文方面存在显著差距，为此提出了一种名为 Agentic Context Bank 的推理时基线方法，通过结构化的记忆银行和查询自适应的证据选择，有效提升了模型在多任务中的表现。

Comments Project website: https://vision.cs.utexas.edu/projects/PersonalVCL/

2605.10934 2026-05-12 cs.LG cs.AI cs.CV cs.RO stat.ML

Variational Inference for Lévy Process-Driven SDEs via Neural Tilting

Yaman Kindap, Manfred Opper, Benjamin Dupuis, Umut Simsekli, Tolga Birdal

发表机构 * Imperial College London, UK（伦敦帝国学院）； Technical University of Berlin, Germany（柏林技术大学）； INRIA, CNRS, Département d’Informatique de l’Ecole Normale Supérieure / PSL, France（法国国家信息与自动化研究所（INRIA）、国家科学研究中心（CNRS）、巴黎社会科学高等师范学院信息学系/巴黎社会科学高等师范学院）

AI总结该论文研究了如何利用变分推断方法对由Lévy过程驱动的随机微分方程（SDEs）进行建模，以准确捕捉金融、气候等领域的极端事件和重尾现象。传统方法要么计算开销大，要么依赖高斯假设而无法处理跳跃特性。为此，作者提出了一种基于神经网络的指数倾斜框架，通过神经网络对Lévy测度进行指数加权，构建灵活的变分族，在保留跳跃结构的同时保证计算可行性。实验表明，该方法在合成和真实数据上均能有效捕捉跳跃动态，并在高斯变分方法失效的情况下提供可靠的后验推断。

Comments The associated project page which contains the official implementation can be found in https://circle-group.github.io/research/NeuralTilting/

2605.10925 2026-05-12 cs.RO

PriorVLA: Prior-Preserving Adaptation for Vision-Language-Action Models

Xinyu Guo, Bin Xie, Wei Chai, Xianchi Deng, Tiancai Wang, Zhengxing Wu, Xingyu Chen

发表机构 * Institute of Automation, Chinese Academy of Sciences（中国科学院自动化研究所）； Dexmal ； University of Chinese Academy of Sciences（中国科学院大学）； Zhongguancun Academy（中关村学院）； Nanjing University of Aeronautics and Astronautics（南京航空航天大学）

AI总结该研究提出了一种名为 PriorVLA 的新型框架，旨在在视觉-语言-动作（VLA）模型的下游任务适配中保留预训练的先验知识。该方法通过冻结预训练专家模型作为只读先验源，并训练一个适配专家模型进行任务特定学习，从而在保持广泛先验的同时实现有效适配。实验表明，PriorVLA 在多个基准和现实任务中均优于全微调和现有先进方法，尤其在分布外和少样本场景下表现突出。

Comments 32 pages. Project page: https://priorvla.github.io/

2605.10922 2026-05-12 cs.CV

Pixal3D: Pixel-Aligned 3D Generation from Images

Dong-Yang Li, Wang Zhao, Yuxin Chen, Wenbo Hu, Meng-Hao Guo, Fang-Lue Zhang, Ying Shan, Shi-Min Hu

发表机构 * BNRist, Department of Computer Science and Technology, Tsinghua University（清华大学计算机科学与技术系BNRist）； Tencent ARC Lab（腾讯ARC实验室）； Victoria University of Wellington（惠灵顿维多利亚大学）

AI总结 Pixal3D 是一种基于图像的高保真3D生成方法，旨在解决现有3D生成模型在像素级细节还原方面的不足。该方法通过引入像素级反投影条件机制，直接在输入视角下生成与像素对齐的3D几何结构，建立了明确的像素到3D特征的对应关系，从而显著提升了生成结果的保真度。此外，Pixal3D 还支持多视角生成和场景级合成，为从单张或多张图像生成高精度3D物体和场景提供了新的解决方案。

Comments SIGGRAPH 2026. Project page: https://ldyang694.github.io/projects/pixal3d/

2605.10921 2026-05-12 cs.RO

RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

Huashuo Lei, Wenxuan Song, Huarui Zhang, Jieyuan Pei, Jiayi Chen, Haodong Yan, Han Zhao, Pengxiang Ding, Zhipeng Zhang, Lida Huang, Donglin Wang, Yan Wang, Haoang Li

发表机构 * The Hong Kong University of Science and Technology（香港科学与技术大学）； Zhejiang University（浙江大学）； Westlake University（西湖大学）； Tsinghua University（清华大学）； Zhejiang University of Technology（浙江工业大学）； Shanghai Jiao Tong University（上海交通大学）

AI总结《RoboMemArena: 一个全面且具有挑战性的机器人记忆基准》提出了一种新的机器人记忆评估基准，旨在解决现有基准在多模态注释、任务覆盖和现实环境评估方面的不足。该基准包含26个任务，平均轨迹长度超过1000步，其中68.9%的子任务依赖记忆。研究还设计了PrediMem，一种结合视觉-语言模型的双系统架构，通过预测编码机制提升对任务动态的感知能力，实验表明其在复杂记忆任务中表现优异。

Comments Project website: https://robomemarena.github.io

2605.10917 2026-05-12 cs.LG cs.MA cs.RO

Optimal and Scalable MAPF via Multi-Marginal Optimal Transport and Schrödinger Bridges

Usman A. Khan, Joseph W. Durham

发表机构 * Amazon Robotics（亚马逊机器人技术）

AI总结本文研究匿名多智能体路径规划（MAPF）问题，将其建模为具有马尔可夫结构的多边际最优传输（MMOT）问题，并证明在该结构下原指数级规模的问题可简化为多项式规模的线性规划（LP）。通过引入薛定谔桥的概率框架，作者提出了一种基于熵正则化的迭代解法，能够在保证近似最优性的同时显著降低计算复杂度。实验表明，该方法在保持解的质量方面具有优越的可扩展性。

Comments Accepted in ICML 2026 as a spotlight paper

2605.10912 2026-05-12 cs.CL

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

Shuangrui Ding, Xuanlang Dai, Long Xing, Shengyuan Ding, Ziyu Liu, Yang JingYi, Penghui Yang, Zhixiong Zhang, Xilin Wei, Xinyu Fang, Yubo Ma, Haodong Duan, Jing Shao, Jiaqi Wang, Dahua Lin, Kai Chen, Yuhang Zang

发表机构 * Shanghai AI Laboratory（上海人工智能实验室）； The Chinese University of Hong Kong（香港中文大学）； Fudan University（复旦大学）； University of Science and Technology of China（中国科学技术大学）； Shanghai Jiao Tong University（上海交通大学）； Tsinghua University（清华大学）； Shanghai Innovation Institute（上海创新研究院）； Zhejiang University（浙江大学）； Nanyang Technological University（南洋理工大学）

AI总结 WildClawBench 是一个用于评估真实环境中长期任务执行能力的基准，包含60个由人类编写的双语多模态任务，涵盖六个主题类别。该基准在可复现的Docker容器中运行，使用真实的命令行代理框架和工具，任务平均耗时约8分钟，涉及20次以上工具调用。评估方法结合了规则检查、环境状态审计和大模型语义判断，结果显示当前前沿模型在真实运行时的长期任务表现仍有较大提升空间。

Comments Github link: https://github.com/internlm/WildClawBench

2605.10909 2026-05-12 cs.LG stat.ML

Revisiting Policy Gradients for Restricted Policy Classes: Escaping Myopic Local Optima with $k$-step Policy Gradients

Alex DeWeese, Guannan Qu

发表机构 * Department of Electrical and Computer Engineering（电气与计算机工程系）

AI总结本文重新审视了在受限策略类中使用的标准策略梯度方法，发现其容易陷入次优临界点，主要原因在于策略梯度本身具有短视性，仅依赖于一步Q函数进行优化。为此，作者提出了一种基于$k$-步策略梯度的通用方法，通过结合$k$步时间窗口内的随机性，能够逃离受限策略类中的短视局部最优解。理论分析表明，该方法在性能上可以指数级接近最优确定性策略，并且在仅假设价值函数光滑可微的前提下，投影梯度下降和镜像下降方法能在$O(1/T)$次迭代内实现这一保证，适用于状态聚合和部分可观测协作多智能体等之前难以求解的问题。

2605.10904 2026-05-12 cs.RO

MDrive: Benchmarking Closed-Loop Cooperative Driving for End-to-End Multi-agent Systems

Marco Coscoy, Zewei Zhou, Seth Z. Zhao, Henry Wei, Angela Magtoto, Johnson Liu, Rui Song, Walter Zimmer, Zhiyu Huang, Chen Tang, Bolei Zhou, Jiaqi Ma

发表机构 * University of California, Los Angeles（加州大学洛杉矶分校）

AI总结本文提出MDrive，一个用于端到端多智能体系统的闭环协作驾驶基准，旨在解决现有V2X基准在闭环评估和场景多样性方面的不足。该基准基于NHTSA预碰撞类型和真实V2X数据构建了225个场景，实验表明多智能体系统在整体表现上优于单智能体系统，但在感知共享和协商机制在复杂交通场景中的效果仍有挑战。MDrive还提供了开源工具箱，支持场景生成、现实到模拟转换及人机协同仿真，为评估和提升协作驾驶系统的泛化性和鲁棒性提供了可复现的基础。

Comments website:https://mdrive-challenge.github.io/

2605.10903 2026-05-12 cs.CV cs.RO

CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models

Wenxuan Song, Han Zhao, Fuhao Li, Ziyang Zhou, Xi Wang, Jing Lyu, Pengxiang Ding, Yan Wang, Donglin Wang, Haoang Li

发表机构 * Zhejiang University（浙江大学）； Westlake University（西湖大学）； Tsinghua University（清华大学）； Beijing Academy of Artificial Intelligence（北京人工智能研究院）

AI总结本文提出了一种新的方法，解决预训练视觉-语言-动作（VLA）模型在标准监督微调过程中性能提升有限且适应成本高的问题。该方法通过在参数空间中解耦辅助目标微调的两个目标——增强通用能力和拟合任务特定动作分布，并利用两种不同的训练策略在小规模任务集上训练出两个微调模型，从而提取出由辅助目标提供的能力向量。将这些能力向量与预训练参数结合形成增强能力的元模型，并引入轻量正交正则化损失，使模型在保持高性能的同时显著降低计算开销。实验表明，该方法在多种模型和新环境中均具有良好的有效性和泛化能力。

2605.10901 2026-05-12 cs.LG

Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers

Nikita Kezins, Urbas Ekka, Pascal Berrang, Luca Arnaboldi

发表机构 * Delft University of Technology（代尔夫特理工大学）； University of Birmingham（伯明翰大学）； Zeroth Research（Zeroth研究）

AI总结该研究旨在为语言模型的防护分类器提供形式化保证，以确保其能有效防御有害行为。传统方法在离散输入空间中难以定义“有害行为”的形式化规范，因此作者将验证转移到分类器的预激活空间，通过构造凸区域并利用分类头的单调性，实现了高效且无近似的形式化证明。实验表明，现有防护分类器在形式化验证下存在可验证的安全漏洞，揭示了其在实际应用中可能存在的稳定性与覆盖范围问题。

详情

英文摘要

Guardrail Classifiers defend production language models against harmful behavior, but although results seem promising in testing, they provide no formal guarantees. Providing formal guarantees for such models is hard because "harmful behavior" has no natural specification in a discrete input space: and the standard epsilon-ball properties used in other domains do not carry semantic meaning. We close this gap by shifting verification from the discrete input space to the classifier's pre-activation space, where we define a harmful region as a convex shape enclosing the representations of known harmful prompts. Because the sigmoid classification head is monotonic, certifying the worst-case point is sufficient to certify the entire region, yielding a closed-form soundness proof without approximation in O(d) time. To formally evaluate these classifiers, we propose two constructions of such regions: SVD-aligned hyper-rectangles, which yield exact SAT/UNSAT certificates, and Gaussian Mixture Models, which yield probabilistic certificates over semantically coherent clusters. Applying this framework to three author-trained Guardrail Classifiers on the toxicity domain, every hyper-rectangle configuration returns SAT, exposing verifiable safety holes across all classifiers, despite seemingly high empirical metrics. Probabilistic GMM certificates also expose a divergent structural stability in how these models represent harm. While GPT-2 and Llama-3.1-8B maintain robust coverage of 90% and 80% across varying boundaries, BERT's safety guarantees prove uniquely volatile. This 'coverage collapse' to 55% at the optimal threshold reveals a sparsely populated safety margin in BERT, which only achieves full coverage by adopting an extremely conservative pessimistic threshold. These approaches combined, provide new insights on how effective Guardrail Classifiers really are, beyond traditional red-teaming.

URL PDF HTML ☆

赞 0 踩 0

2605.10899 2026-05-12 cs.CL cs.LG

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； Google Cloud AI Research（谷歌云人工智能研究）

AI总结本文提出 RubricEM，一种基于评分标准引导的元强化学习框架，旨在解决深度研究智能体在缺乏明确奖励信号下的训练问题。该方法通过将研究过程分解为多个阶段，并结合基于反思的元策略进化，实现了对长期任务的高效优化。RubricEM 通过结构化的评分标准提供更精细的反馈，并将评估经验转化为可复用的指导，显著提升了智能体在长文本生成等复杂任务中的表现。

Comments 63 pages, 6 figures

2605.10894 2026-05-12 cs.CV

Counterfactual Stress Testing for Image Classification Models

Moritz Stammel, Fabio De Sousa Ribeiro, Raghav Mehta, Mélanie Roschewitz, Ben Glocker

发表机构 * Department of Computing, Imperial College London, UK（伦敦帝国理工学院计算机系）

AI总结本文研究了医学影像分类模型在新临床环境中因分布偏移而失效的问题，提出了一种基于因果生成模型的反事实压力测试框架，通过干预扫描仪类型、患者性别等属性生成具有临床真实性的“假设”图像，从而在保持解剖结构不变的前提下，进行有针对性的分布偏移评估。实验表明，该方法相比传统扰动方法能更准确地反映模型在真实分布外场景下的性能变化，为医学AI系统的鲁棒性评估提供了更可靠的基础。

2605.10889 2026-05-12 cs.LG cs.AI

Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why

Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar

发表机构 * Apple（苹果公司）

AI总结本文研究了策略蒸馏在训练推理模型中的作用机制，探讨了在何种情况下蒸馏信号是有益的、在何种情况下是有害的。作者提出了一种无需训练的诊断框架，能够在每个标记、每个问题和每个教师模型的粒度上分析蒸馏效果，并通过梯度对齐分数衡量实际蒸馏梯度与理想梯度的接近程度。实验表明，蒸馏信号在学生模型表现不佳时更有效，而在正确推理路径上容易引入噪声，且最佳蒸馏配置依赖于任务和模型能力，不存在普适的最优方案。

2605.10887 2026-05-12 cs.CV

Count Anything at Any Granularity

Chang Liu, Haoning Wu, Weidi Xie

发表机构 * School of Artificial Intelligence, Shanghai Jiao Tong University, China（人工智能学院，上海交通大学，中国）； CMIC, Shanghai Jiao Tong University, China（计算机医学研究所，上海交通大学，中国）

AI总结本文研究了开放世界物体计数中的细粒度计数问题，指出当前方法因未明确计数粒度而导致计数可靠性不足。为此，作者提出了多粒度计数框架，通过视觉示例和细粒度文本描述明确指定计数目标，并构建了首个自动化的数据增强管道，生成了目前最大的细粒度计数数据集KubriCount。基于该数据集，作者进一步训练了HieraCount模型，显著提升了细粒度计数的准确性和实际场景的泛化能力。

Comments Project page: https://verg-avesta.github.io/KubriCount/

2605.10885 2026-05-12 cs.CV

Geometry-aware Prototype Learning for Cross-domain Few-shot Medical Image Segmentation

Feifan Song, Yuntian Bo, Haofeng Zhang

发表机构 * School of Computer Science and Engineering, Nanjing University of Science and Technology（南京理工大学计算机科学与工程学院）

AI总结跨域小样本医学图像分割（CD-FSMIS）旨在仅凭少量标注样本，使模型同时适应新的解剖类别和未见过的成像领域。现有基于原型的方法往往将解剖结构与领域特定的外观变化混杂在一起，导致在领域变化下难以实现稳定匹配。本文提出GeoProto框架，通过引入几何感知的原型增强机制，利用人体解剖结构的几何先验信息，提升原型匹配的鲁棒性与泛化能力，并在多个跨模态、跨序列和跨场景的数据集上取得了最先进的性能。

2605.10880 2026-05-12 cs.RO

Safe Aerial 3D Path Planning for Autonomous UAVs using Magnetic Potential Fields

Haechan Mark Bong, Giovanni Beltrame

发表机构 * Department of Computer Engineering and Software Engineering, Polytechnique Montréal（蒙特利尔理工学院计算机工程与软件工程系）； MILA（蒙特利尔人工智能实验室）

AI总结本文研究了如何在城市环境中实现自主无人机的安全三维路径规划问题。提出了一种基于麦克斯韦方程性质的磁势场方法——3DMaxConvNet，利用卷积自编码器从激光雷达生成的三维体素网格中预测避障势场，从而生成无局部极小值的路径。实验表明，该方法在两个不同的城市环境中均实现了100%的路径规划成功率，并在运行时间和路径质量方面优于传统算法如A*和RRT*。

2605.10878 2026-05-12 cs.LG cs.IT math.IT

Neural Weight Norm = Kolmogorov Complexity

Tiberiu Musat

发表机构 * ETH Zürich（苏黎世联邦理工学院）

AI总结本文研究了权重衰减（weight decay）在神经网络中的理论依据，证明在固定精度下，神经网络输出二进制字符串的最小权重范数与该字符串的 Kolmogorov 复杂度成比例，相差一个对数因子。这一结果表明，权重衰减诱导的先验与 Solomonoff 的通用先验在多项式因子内一致，并且该结论适用于任意权重范数。研究还展示了固定精度神经网络参数与 Kolmogorov 复杂度之间的编码关系，并指出无限精度下该结论不再成立。

2605.10877 2026-05-12 cs.CL cs.IR

Neural at ArchEHR-QA 2026: One Method Fits All: Unified Prompt Optimization for Clinical QA over EHRs

Abrar Majeedi, Viswanatha Reddy Gajjala, Sai Prasanna Teja Reddy Bogireddy, Siddhant Rai

发表机构 * University of Wisconsin–Madison（威斯康星大学麦迪逊分校）； University of Chicago（芝加哥大学）； Independent Researcher（独立研究员）

AI总结该研究针对电子健康记录（EHR）上的临床问答任务，提出了一种统一的提示优化方法Neural1.5，用于解决包括问题理解、证据识别、答案生成和证据对齐在内的四个子任务。该方法通过模块化处理每个阶段，并结合自动提示优化与自一致性验证机制，有效提升了答案的准确性和可靠性。实验结果表明，该方法在ArchEHR-QA 2026共享任务中整体排名第二，验证了其在多阶段临床问答任务中的有效性与高效性。

Comments Accepted to CL4Health @ LREC 2026

2605.10876 2026-05-12 cs.LG cs.AI q-bio.QM

AssayBench: An Assay-Level Virtual Cell Benchmark for LLMs and Agents

Edward De Brouwer, Carl Edwards, Alexander Wu, Jenna Collier, Graham Heimberg, Xiner Li, Meena Subramaniam, Ehsan Hajiramezanali, David Richmond, Jan-Christian Hütter, Sara Mostafavi, Gabriele Scalia

发表机构 * Genentech（基因泰克）

AI总结本文提出 AssayBench，一个用于评估大语言模型和智能体在虚拟细胞表型筛选任务中表现的基准数据集，涵盖1920个公开的CRISPR筛选实验，涉及五类细胞表型。研究将表型筛选任务转化为基因排序预测问题，并引入调整后的nDCG指标以衡量不同实验间的模型性能。实验表明，现有的方法与经验估计的性能上限仍有较大差距，零样本通用大语言模型在该任务中表现优于专门的生物语言模型和可训练基线模型。

Comments 22 pages

2605.10875 2026-05-12 cs.LG cs.CL

Compute Where it Counts: Self Optimizing Language Models

Yash Akhauri, Mohamed S. Abdelfattah

发表机构 * Cornell University（康奈尔大学）

AI总结本文研究了如何在自回归解码过程中动态分配计算资源，以提高大语言模型推理的效率与质量。提出了一种自优化语言模型（SOL），通过一个轻量的策略网络，在解码过程中根据当前隐藏状态选择不同的计算效率动作，从而动态控制注意力稀疏性、MLP激活剪枝和量化位宽。实验表明，SOL在保持预算一致的情况下优于静态分配和随机调度策略，显著提升了模型在多个任务上的性能，如MMLU准确率最高提升了7.3%。

Comments Accepted at ICML'26 Code: https://github.com/akhauriyash/SOL

2605.10870 2026-05-12 cs.AI

Remember the Decision, Not the Description: A Rate-Distortion Framework for Agent Memory

Mingxi Zou, Zhihan Guo, Langzhang Liang, Zhuo Wang, Qifan Wang, Qingsong Wen, Irwin King, Lizhen Qu, Zenglin Xu

发表机构 * Fudan University（复旦大学）； The Chinese University of Hong Kong（香港中文大学）； Meta AI ； AI Research Institute, Squirrel Ai Learning（Squirrel Ai Learning人工智能研究院）； Monash University（墨尔本大学）； Shanghai Academy of AI for Science（上海人工智能科学研究院）

AI总结本文提出了一种以决策为中心的记忆压缩框架DeMem，用于解决长期语言智能体在有限运行内存下的记忆管理问题。不同于传统基于描述性特征的记忆机制，该方法通过率失真理论衡量记忆对决策质量的影响，从而确定可以安全遗忘的信息边界，并优化记忆预算与决策质量之间的权衡。实验表明，DeMem在保证相同运行预算的前提下，能有效提升决策性能，验证了记忆应服务于决策区分而非单纯描述的观点。

2605.10863 2026-05-12 cs.CL

DGPO: Beyond Pairwise Preferences with Directional Consistent Groupwise Optimization

Mengyi Deng, Zhiwei Li, Xin Li, Tingyu Zhu, Yulan Yuan, Zhijiang Guo, Wei Wang

发表机构 * Information Hub, The Hong Kong University of Science and Technology (Guangzhou), China（香港科学与技术大学（广州）信息中心，中国）； The Hong Kong University of Science and Technology, Hong Kong SAR（香港科学与技术大学，香港特别行政区）

AI总结尽管大语言模型（LLMs）取得了显著进展，但现有的偏好优化方法在保持推理多样性的同时仍难以保证方向一致性。为此，本文提出了一种轻量级框架——方向一致性组优化（DGPO），通过多候选比较显式建模方向感知对齐，并在组级别聚合监督信号。DGPO通过结构化集合组织正向和反向问答实例，优化基于边距的似然目标，以区分一致的推理路径与不一致的替代方案，从而在多个数据集和模型家族中实现了稳定的性能提升。

2605.10862 2026-05-12 cs.CL

RUBEN: Rule-Based Explanations for Retrieval-Augmented LLM Systems

Joel Rorseth, Parke Godfrey, Lukasz Golab, Divesh Srivastava, Jarek Szlichta

发表机构 * University of Waterloo（滑铁卢大学）； York University（约克大学）

AI总结本文介绍了RUBEN，一个用于发现解释检索增强型大语言模型（LLM）输出的最小规则的交互式工具。该工具通过新颖的剪枝策略高效识别出能够涵盖所有其他规则的最小规则集，并将其应用于LLM安全领域，用于测试安全训练的有效性和对抗性提示注入的影响。这一方法为理解与提升LLM的可解释性与安全性提供了新的途径。

Comments Accepted by ICDE 2026 (Demonstration Track)

2605.10859 2026-05-12 cs.CV cs.LG

Masked Generative Transformer Is What You Need for Image Editing

Wei Chow, Linfeng Li, Xian Sun, Lingdong Kong, Zefeng Li, Qi Xu, Hang Song, Tian Ye, Xian Wang, Jinbin Bai, Shilin Xu, Xiangtai Li, Junting Pan, Shaoteng Liu, Ran Zhou, Tianshu Yang, Songhua Liu

发表机构 * ByteDance（字节跳动）； National University of Singapore（新加坡国立大学）； Duke University（杜克大学）； Shanghai Jiao Tong University（上海交通大学）； HKUST(GZ)（香港科技大学（广州））

AI总结该论文提出了一种基于掩码生成变压器（MGT）的图像编辑框架EditMGT，旨在解决扩散模型在编辑过程中修改扩散到非目标区域的问题。通过局部化token预测机制和多层注意力整合，EditMGT能够精确控制编辑区域，同时避免非目标区域的意外变化。研究还构建了一个包含200万张高分辨率图像的编辑数据集CrispEdit-2M，并在多个基准测试中取得了最先进的图像相似度表现，且编辑速度比现有方法快6倍。

Comments CVPR 2026 HiGen Workshop; Project Page at https://weichow23.github.io/EditMGT/ GitHub at https://github.com/weichow23/EditMGT

2605.10855 2026-05-12 cs.CL

Learning More from Less: Exploiting Counterfactuals for Data-Efficient Chart Understanding

Jianzhu Bao, Haozhen Zhang, Kuicai Dong, Bozhi Wu, Sarthak Ketanbhai Modi, Zi Pong Lim, Yon Shin Teo, Wenya Wang

发表机构 * Nanyang Technological University（南洋理工大学）； Aumovio Singapore Pte. Ltd.（Aumovio新加坡私人有限公司）

AI总结该论文提出了一种名为ChartCF的数据高效训练框架，旨在提升视觉-语言模型在图表理解中的反事实敏感性。通过代码修改生成反事实数据，并结合图表相似性筛选和多模态偏好优化，ChartCF能够在较少训练数据的情况下实现与现有强模型相当甚至更优的图表理解性能。这一方法充分利用了图表作为程序生成视觉对象的特性，有效提升了模型对细微视觉变化的感知能力。

Comments Accepted to ACL 2026 Main Conference

2605.10853 2026-05-12 cs.CL

Grounded Satirical Generation with RAG

Oona Itkonen, Yuxin Su, Linyao Du, Ona De Gibert

发表机构 * University of Helsinki（赫尔辛基大学）

AI总结本文研究了基于现实背景的讽刺生成问题，提出了一种结合检索增强生成（RAG）的方法，用于在芬兰语环境下生成基于当前新闻的讽刺词典定义。研究还构建了一个新的任务特定评估框架，并通过多人标注分析了不同实验条件下的生成效果，发现生成内容更偏向政治性而非幽默性。实验表明，RAG和基于主题的词选择提升了政治相关性，但对幽默生成效果不明显，同时大型语言模型在政治相关性判断上与人类一致，但在幽默判断上表现较差。

2605.10851 2026-05-12 cs.AI cs.CL cs.LG

The Generalized Turing Test: A Foundation for Comparing Intelligence

Daniel Mitropolsky, Susan S. Hong, Riccardo Neumarker, Emanuele Rimoldi, Tomaso Poggio

发表机构 * MIT（麻省理工学院）； ETH Zurich（苏黎世联邦理工学院）； EPFL（苏黎世联邦理工学院）

AI总结本文提出了一种通用图灵测试（GTT），作为一种通过不可区分性来比较任意智能体能力的正式框架。该框架定义了智能体之间的相对智能关系，并研究了其结构特性及变体形式，同时在多个现代模型上进行了实证评估，结果显示出与现有排名一致的分层结构。该研究为智能的评估和潜在训练目标提供了一个与具体数据集或基准无关的统一视角。