arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.08863 2026-05-14 cs.CL cs.LG

Max-pooling Network Revisited: Analyzing the Role of Semantic Probability in Multiple Instance Learning for Hallucination Detection

Shota Fujikawa, Issei Sato

发表机构 * Department of Computer Science, The University of Tokyo（东京大学计算机科学系）

AI总结本文重新审视了最大池化网络在幻觉检测中的应用，分析了语义概率在多重实例学习中的作用。研究指出，通过扩大决策边界，结合语义一致性缩放内部状态可以提升模型性能。基于这一发现，作者提出了一种高效的分类方法，利用最大池化聚合词级特征，并通过轻量级MLP直接估计句子得分，无需复杂的语义相似度计算，从而在保持竞争力的同时显著提升了计算效率。

2605.08759 2026-05-14 cs.LG

MDL-GBG: A Non-parametric and Interpretable Granular-Ball Generation Method for Clustering

Zeqiang Xian, Caihui Liu, Yong Zhang, Wenjing Qiu, Duoqian Miao, Witold Pedrycz

发表机构 * Department of Mathematics and Computer Science, Gannan Normal University（赣南师范大学数学与计算机科学学院）； Key Laboratory of Data Science and Artificial Intelligence of Jiangxi Education Institutes, Gannan Normal University（江西省教育研究院数据科学与人工智能重点实验室）； Department of Computer Science and Technology, Tongji University（同济大学计算机科学与技术学院）； Department of Electrical and Computer Engineering, University of Alberta（阿尔伯塔大学电气与计算机工程学院）

AI总结现有粒球生成方法主要依赖人工设计的质量度量和启发式分裂或停止准则，可能削弱聚类过程中局部生成决策的透明性。为此，本文提出了一种基于最小描述长度原理的非参数且可解释的粒球生成方法MDL-GBG，将粒球生成问题转化为局部模型选择问题，通过比较单球模型、双球模型和核心球加残差模型，选择描述长度最短的模型进行粒球的保留、分裂或残差剥离。实验表明，MDL-GBG生成的稳定粒球能有效提升聚类性能，在多个评估指标上优于现有方法。

Comments 13 pages, 5 figures, 4 tables. Revised version with updated computational complexity analysis, experiments, and discussion. The implementation was optimized to reduce redundant computation and improve efficiency; experimental results and related descriptions were updated accordingly

2605.08541 2026-05-14 cs.LG

Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation

Joshua Shay Kricheli, Alexander Lawrence Reid, Soumajyoti Sarkar, Venkata Gandikota, Paulo Shakarian

发表机构 * Syracuse University（Syracuse大学）； Amazon AGI Foundations（Amazon AGI研究院）

AI总结该研究指出，在语言模型的规模定律拟合中，固定 tokens-per-parameter（TPP）比例的设计会导致参数估计的病态问题，使得模型外推性能下降。研究揭示了当参数数量 $N$ 和 token 数量 $D$ 的指数接近时，最小二乘问题的条件数会显著增大，导致尺度系数难以准确估计。为此，作者提出了一个 TPP 多样性阈值，确保良好条件的估计，并通过实验验证非共线设计在多个数据集和精度模式下均优于传统方法。

2605.08504 2026-05-14 cs.CL

A Single Layer to Explain Them All:Understanding Massive Activations in Large Language Models

Zeru Shi, Zhenting Wang, Fan Yang, Qifan Wang, Ruixiang Tang

发表机构 * Rutgers University（罗格斯大学）； Wake Forest University（威克森林大学）； Meta AI

AI总结本文研究了大语言模型中大规模激活值的来源，发现了一种普遍存在的“大规模涌现层（ME Layer）”，该层是激活值首次出现并经残差连接传播到深层的关键位置。研究指出，该层中的RMSNorm和FFN参数共同促成了大规模激活的形成，且一旦形成，这些激活在后续层中变化较小，降低了注意力模块接收到的隐藏表示的多样性。为此，作者提出了一种简单有效的方法来缓解这种激活的刚性，该方法在多项任务中提升了模型性能，并有助于减轻注意力陷阱问题。

2605.08293 2026-05-14 cs.CV

Distill, Diffuse, and Semanticize (DDS): Annotation-Free 3D Scene Understanding Based on Multi-Granularity Distillation and Graph-Diffusion-Based Segmentation

Yijing Wang, Ruonan Li, Qilin Wang, Rongqiang Zhao, Jie Liu

发表机构 * Faculty of Computing, Harbin Institute of Technology（哈尔滨工业大学计算机学院）； Pengcheng Laboratory（鹏城实验室）

AI总结本文提出了一种名为DDS的轻量级框架，用于无需标注的3D场景理解。该方法结合多粒度知识蒸馏和基于图扩散的分割技术，在保留超点结构组织的同时引入视觉语义信息，实现了区域一致且语义化的3D场景理解。实验表明，DDS在多个真实数据集上优于现有方法，在多项指标上均有显著提升，为无标注的3D场景理解提供了可扩展且可解释的解决方案。

2605.08078 2026-05-14 cs.CV cs.LG

Normalizing Trajectory Models

Jiatao Gu, Tianrong Chen, Ying Shen, David Berthelot, Shuangfei Zhai, Josh Susskind

发表机构 * Apple（苹果公司）

AI总结本文提出了一种名为 Normalizing Trajectory Models（NTM）的新型生成模型，用于解决在少量采样步骤下扩散模型性能下降的问题。NTM 通过将每个逆向步骤建模为具有精确似然训练的条件归一化流，保留了完整的似然框架，同时提升了生成效率。该模型结合了浅层可逆模块与深层并行预测器，支持从头训练或基于预训练流匹配模型初始化，并通过自蒸馏技术实现了仅需四步即可生成高质量图像的效果，在文本到图像任务中表现优异。

Comments 25 pages, 10 figures; corrected typos and citations

2605.07483 2026-05-14 cs.LG cs.AI

Does Your Neural Network Extrapolate? Feature Engineering as Identifiability Bias for OOD Generalization

Leonel Aguilar, Jan Nagler, Christoph Hoelscher, Nino Antulov-Fantulin

发表机构 * Chair of Cognitive Science, ETH Zürich（认知科学教授职位，苏黎世联邦理工学院）； Centre for Human and Machine Intelligence, Frankfurt School（人机智能中心，法兰克福学校）； Aisot Technologies AG, D-GESS, ETH Zürich（Aisot技术公司，D-GESS，苏黎世联邦理工学院）

AI总结本文研究了深度神经网络在分布外（OOD）场景下泛化失败的原因，指出其根本问题在于从训练数据中学习到的特征无法反映真实的数据生成过程（DGP）。作者提出，通过引入结构化的特征映射、标签映射和模型类（φ, ψ, M），可以明确DGP的假设，从而提升OOD泛化能力。实验表明，正确的特征表示和模型选择能够显著降低OOD误差，并在多个自然科学和机器学习任务中验证了该方法的有效性。

2605.07188 2026-05-14 cs.CV

PicoEyes: Unified Gaze Estimation Framework for Mixed Reality with a Large-Scale Multi-View Dataset

Fuxin Duan, Hui Wang

发表机构 * Pico, Bytedance（字节跳动）

AI总结本文提出了一种统一的注视估计框架PicoEyes，能够从单目或双目输入中直接预测注视的多个关键属性，包括3D眼参数、眼区分割、光轴、视线轴和深度图，并在端到端流程中同时解决校准、注视预测和设备姿态变化问题。研究还引入了一个大规模多视角近眼数据集，包含多种条件下的详尽2D和3D标注。实验表明，PicoEyes在无校准、校准、重戴校准和预测等多种设置下均优于现有学术和工业注视追踪方法，为混合现实应用中的鲁棒且通用的注视估计提供了实用范式。

Comments 15 pages, 10 figures, conference

2605.07161 2026-05-14 cs.AI

SREGym: A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios

Jackson Clark, Yiming Su, Saad Mohammad Rafid Pial, Yifang Tian, Lily Gniedziejko, Hans-Arno Jacobsen, Yinfang Chen, Tianyin Xu

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； University of Toronto（多伦多大学）

AI总结本文提出SREGym，一个用于评估AI Site Reliability Engineering（SRE）代理的高保真基准平台。SREGym基于真实云原生系统架构构建，能够模拟多层故障、环境噪声和多种失效模式，提供90个现实且具有挑战性的SRE问题。该平台设计模块化且可扩展，支持故障注入与噪声控制，研究结果显示当前前沿代理在处理不同类型故障时表现差异显著，最高可达40%的端到端结果差异。

2605.06869 2026-05-14 cs.AI

Agentick: A Unified Benchmark for General Sequential Decision-Making Agents

Roger Creus Castanyer, Pablo Samuel Castro, Glen Berseth

发表机构 * Mila Quebec AI Institute（魁北克AI研究所）； Université de Montréal（蒙特利尔大学）； Google DeepMind（谷歌DeepMind）

AI总结本文提出 Agentick，一个用于评估通用序列决策智能体的统一基准，旨在公平比较从头学习的强化学习智能体、基于预训练知识的语言模型智能体以及混合智能体等不同方法。Agentick 提供了 37 个程序生成的任务，涵盖六类能力、四个难度等级和五种观测模态，并通过统一的 Gymnasium 接口实现，同时配套了编码接口、参考策略、训练数据集和实时排行榜。实验表明，不同方法在不同任务上各有优劣，突显了当前智能体研究仍有较大提升空间，Agentick 为推动通用自主智能体的发展提供了重要的实验平台。

2605.06387 2026-05-14 cs.LG cs.AI

Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level

Nan Jia, Haojin Yang, Xing Ma, Jiesong Lian, Shuailiang Zhang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Zequn Sun

发表机构 * Huazhong University of Science and Technology（华中科技大学）； Peking University（北京大学）； Meituan（美团）

AI总结本文研究了如何改进基于策略的蒸馏方法，以在令牌级别更好地结合探索与模仿学习。针对传统方法在优势权重策略梯度中的高方差更新、零优势区域梯度消失和探索瓶颈等问题，提出了一种不对称的在策略蒸馏方法（AOPD），通过在非正优势区域采用局部散度最小化替代无效的负强化，同时保留正强化学习。实验表明，AOPD在数学推理基准中表现优于标准方法，且在训练过程中保持更高的策略熵和更好的工具使用适应能力。

2605.06309 2026-05-14 cs.CL

MultiLinguahah : A New Unsupervised Multilingual Acoustic Laughter Segmentation Method

Sofia Callejas, Nahuel Gomez, Catherine Pelachaud, Brian Ravenet, Valentin Barriere

发表机构 * Université Paris-Saclay LISN -- Orsay, France（巴黎-萨克雷大学LISN研究所--欧塞尔，法国）； Universidad de Chile DCC -- Santiago, Chile（智利大学DCC学院--圣地亚哥，智利）； Sorbonne University ISIR -- Paris, France（索邦大学ISIR研究所--巴黎，法国）

AI总结本文提出了一种新的无监督多语言笑声分割方法MultiLinguahah，旨在解决跨语言环境下音频中笑声检测和分割的难题。该方法将笑声分割任务转化为基于能量的音频序列异常检测问题，并利用BYOL-A编码器学习音频表示，再通过孤立森林进行分割。实验结果表明，该方法在非英语语境下优于现有的先进算法，展示了其在多语言场景中的优越性和泛化能力。

2605.05875 2026-05-14 cs.RO physics.flu-dyn

Cycle-resolved Cephalopod-Inspired Pulsed-Jet Robot With High-Volume Expulsion and Drag-Reduced Gliding

Yiyuan Zhang, Anye Zhong, Junkai Chen, Wenci Xin

发表机构 * Department of Mechanical Engineering, College of Design and Engineering, National University of Singapore（机械工程系，设计与工程学院，新加坡国立大学）； Advanced Robotics Centre, National University of Singapore（先进机器人中心，新加坡国立大学）； Singapore-MIT Alliance for Research and Technology Centre（新加坡-麻省理工联合研究技术中心）

AI总结本文提出了一种受章鱼启发的脉冲喷射机器人，其采用刚柔结合的折纸式外套结构，实现了大体积主动喷射和减阻滑翔。该机器人通过协调喷射、滑翔和外套充盈的完整周期运动，提升了整体推进效率。实验表明，该机器人在首次喷射周期内即可达到0.5 m/s的峰值速度，并验证了高喷射体积比、减阻滑翔和被动进水阀对推进性能的关键作用。

Comments Updated author list; no changes to the scientific content

2605.04759 2026-05-14 cs.CL cs.AI cs.ET cs.LG

Gyan: An Explainable Neuro-Symbolic Language Model

Venkat Srinivasan, Vishaal Jatav, Anushka Chandrababu, Geetika Sharma

发表机构 * Innospark Ventures & Gyan AI（Innospark Ventures及Gyan AI）； Gyan AI Inc.（Gyan AI公司）

AI总结本文提出了一种可解释的神经符号语言模型Gyan，其基于一种新颖的非Transformer架构，克服了传统大语言模型在可解释性、可维护性和计算资源消耗等方面的不足。Gyan通过结合修辞结构理论、语义角色理论和基于知识的计算语言学，实现了对完整组合语境的捕捉，并构建了一个类人“世界模型”以增强理解能力。实验表明，Gyan在多个数据集上取得了优越的性能，展示了其在关键任务中构建可信、可靠语言模型的潜力。

Comments also submitted to NeurIPS 2026

2605.04506 2026-05-14 cs.CV cs.AI

Ilov3Splat: Instance-Level Open-Vocabulary 3D Scene Understanding in Gaussian Splatting

Binh Long Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes, Peyman Moghadam

发表机构 * School of Electrical Engineering and Robotics（电气工程与机器人学学院）； Queensland University of Technology（昆士兰理工大学）； CSIRO Robotics（CSIRO机器人部）； CSIRO

AI总结 Ilov3Splat 是一种基于高斯点扩散（3D-GS）的新型框架，用于实现实例级别的开放词汇三维场景理解。该方法通过在高斯点中引入视图一致的特征场，联合优化场景几何与语义表示，从而提升跨视角一致性与实例级推理能力。通过结合多分辨率哈希嵌入与对比损失训练实例特征场，Ilov3Splat 能够在无需类别监督的情况下，基于自然语言描述准确识别和分割三维场景中的任意物体，显著优于现有开放词汇三维理解方法。

Comments The International Conference on Pattern Recognition (ICPR) 2026

2605.03410 2026-05-14 cs.AI

Geometry over Density: Few-Shot Cross-Domain OOD Detection

Shawn Li, You Qin, Jiate Li, Charith Peris, Lisa Bauer, Roger Zimmermann, Yue Zhao

发表机构 * University of Southern California（南加州大学）； National University of Singapore（新加坡国立大学）； Amazon（亚马逊）

AI总结本文研究了在仅有少量样本的情况下，如何利用预训练模型进行跨领域异常检测的问题。提出了一种名为UFCOD的统一框架，通过分析扩散过程中的信息几何特性，提取路径能量和动力学能量两个特征，实现无需额外训练即可在任意新领域进行OOD检测。该方法在12个跨领域基准测试中取得了93.7%的平均AUROC，展示了其在样本效率上的显著优势。

2605.00238 2026-05-14 cs.CL

Estimating LLM Grading Ability and Response Difficulty in Automatic Short Answer Grading via Item Response Theory

Longwei Cong, Sonja Hahn, Sebastian Gombert, Leon Camus, Hendrik Drachsler, Ulf Kroehne

发表机构 * DIPF | Leibniz Institute for Research and Information in Education（德意志教育研究所 | 列支敦士登教育研究所）； Faculty of Computer Science, Goethe University Frankfurt（法兰克福歌德大学计算机学院）； Chemnitz University of Technology（化学工业大学）

AI总结该研究提出了一种基于项目反应理论（IRT）的评估框架，用于分析基于大语言模型（LLM）的自动短答案评分系统的评分能力和响应难度。该方法能够揭示模型在不同难度回答上的评分表现差异，发现整体性能相似的模型在面对难度增加时其评分准确性下降程度存在显著差异。研究还发现，困难回答的错误主要集中于“部分正确但不完整”标签，且这类回答在语义对齐度、矛盾信号和嵌入空间孤立性等方面表现出更高的难度特征。

Comments accepted at BEA 2026, the 21st Workshop on Innovative Use of NLP for Building Educational Applications

2605.00200 2026-05-14 cs.CL

Confidence Estimation in Automatic Short Answer Grading with LLMs

Longwei Cong, Sonja Hahn, Sebastian Gombert, Leon Camus, Hendrik Drachsler, Ulf Kroehne

发表机构 * DIPF | Leibniz Institute for Research and Information in Education（莱布尼茨教育研究与信息研究所）； Faculty of Computer Science, Goethe University Frankfurt（弗赖堡大学计算机科学系）； Chemnitz University of Technology（化学工业大学）

AI总结本文研究了基于大语言模型的自动短答案评分中的置信度估计问题，旨在提升人机协作教育评估的安全性与可靠性。作者提出了一种结合模型置信度和数据集不确定性的混合置信度框架，通过对比多种模型置信度估计方法，发现单一模型置信度不足以准确反映评分不确定性。该框架引入了基于学生回答语义聚类的噪声估计，有效提升了置信度估计的可靠性与选择性评分性能，为可信的AI辅助教育评估系统提供了支持。

Comments accepted to the 27th International Conference on Artificial Intelligence in Education (AIED 2026)

2604.27996 2026-05-14 cs.AI cs.GR cs.HC

Exploring Interaction Paradigms for LLM Agents in Scientific Visualization

Jackson Vonderhorst, Kuangshi Ai, Haichao Miao, Shusen Liu, Chaoli Wang

发表机构 * Univ. Notre Dame（诺特难大学）； LLNL（劳伦斯利弗莫尔国家实验室）

AI总结本文研究了不同类型的大型语言模型（LLM）代理在科学可视化任务中的表现，用户通过自然语言指令生成可视化流程。通过比较三种主要交互范式，包括使用结构化工具的领域特定代理、计算机使用代理和通用编程代理，在15个基准任务中评估了八种代表性代理的可视化质量、效率、鲁棒性和计算成本。研究还分析了不同交互方式及持久记忆对性能的影响，结果表明各类方法在灵活性、效率和稳定性方面存在明显权衡，未来科学可视化系统应结合结构化工具使用、交互能力和自适应记忆机制以实现性能与灵活性的平衡。

2604.27389 2026-05-14 cs.CV cs.AI

COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts

Bingli Wang, Huanze Tang, Haijun Lv, Zhishan Lin, Lixin Gu, Lei Feng, Qipeng Guo, Kai Chen

发表机构 * Southeast University Shanghai AI Laboratory（上海大学上海人工智能实验室）； Shanghai AI Laboratory（上海人工智能实验室）

AI总结本文提出COHERENCE基准，旨在评估多模态大语言模型在交织图文上下文中进行细粒度图文对齐的能力。现有基准多关注单一或多个图像的理解，而现实场景中信息常以图文交织形式呈现，要求模型不仅识别图像内容，还需建立图文间的细粒度关联并进行推理。COHERENCE涵盖四个代表性领域的交织图文内容，包含6,161个高质量问题，并通过六类错误分析，揭示当前模型在该任务中的不足。

2604.21345 2026-05-14 cs.AI cs.CL

Evaluating AI Meeting Summaries with a Reusable Cross-Domain Pipeline

Philip Zhong, Don Wang, Jason Zhang

发表机构 * Cisco Systems, Inc.（思科系统公司）

AI总结本文提出了一种可复用的跨领域评估系统，用于评估AI会议摘要的质量，系统整合了结构化真实标签构建、固定候选生成、基于主张的评分、持久化报告以及隐私保护的在线监控与提名接口。通过在114场会议数据上进行测试，研究发现不同模型在准确性方面差异不显著，但在保留率方面，gpt-5.1模型表现出更高的完整性和覆盖率。该工作为AI会议摘要的评估提供了一套标准化且可扩展的评估框架。

Comments AI Application Feature Quality Evaluation (28 pages total)

2604.17895 2026-05-14 cs.RO

Locomotion of an Elastic Snake Robot via Natural Dynamics

Tristan Ehlert, Arne Sachtler, Annika Schmidt, Davide Calzolari, Alin Albu-Schäffer

发表机构 * German Aerospace Center (DLR), Robotics and Mechatronics Center (RMC)（德国航空航天中心（DLR）机器人与机电中心）； Technical University of Munich (TUM), Department of Computer Engineering（慕尼黑技术大学（TUM）计算机工程系）

AI总结本文研究了如何利用弹性蛇形机器人的自然动力学特性设计高效运动模式。通过引入特征流形理论，作者分析了系统的非线性动力学行为，并提出了两种基于自然动力学的步态。实验表明，在无摩擦的理想情况下，基于非制动周期轨迹的步态具有完美的能量效率，而在更现实的有摩擦场景中，该步态相比传统刚性系统步态也表现出更高的效率，为基于自然动力学的步态设计提供了有价值的参考。

2604.09025 2026-05-14 cs.CV cs.AI

Skill-Conditioned Visual Geolocation for Vision-Language Models

Chenjie Yang, Yutian Jiang, Yutong Deng, Chenyu Wu

发表机构 * Southwest Jiaotong University（西南交通大学）； The Hong Kong University of Science and Technology (Guangzhou)（香港科技大学（广州））； Zhejiang University（浙江大学）

AI总结该研究针对视觉语言模型在地理定位任务中缺乏结构化地理推理和自主进化能力的问题，提出了一种无需训练的GeoSkill框架。该方法基于一个可演进的技能图（Skill-Graph），通过提炼人类专家轨迹生成自然语言技能，并利用推理模型进行引导式推理。同时，通过自主进化机制，从大规模网络数据中不断生成和优化技能，提升地理定位的准确性和推理可信度，显著增强了模型对真实地理知识的理解与泛化能力。

2604.08944 2026-05-14 cs.LG cs.MA

Multi-Agent Decision-Focused Learning via Value-Aware Sequential Communication

Benjamin Amoh, Geoffrey Parker, Wesley Marrero

发表机构 * Thayer School of Engineering, Dartmouth College（达特茅斯大学泰勒工程学院）

AI总结该研究提出了一种名为 SeqComm-DFL 的多智能体决策聚焦学习方法，旨在提升部分可观测环境下智能体之间的协作效率。该方法通过价值感知的序列通信机制，使智能体在优先级顺序下生成有助于提升决策质量的消息，并结合Stackelberg条件进行信息传递。研究还扩展了最优模型设计框架，结合QMIX分解实现高效端到端训练，并在多个基准任务中显著提升了累积奖励和胜率。

Comments 9 pages, 2 figues, 1 table, neurips 2026

2604.08039 2026-05-14 cs.CV cs.AI cs.LG

LINE: LLM-based Iterative Neuron Explanations for Vision Models

Vladimir Zaigrajew, Michał Piechota, Gaspar Sekula, Paweł Gelar, Przemysław Biecek

发表机构 * Centre for Credible AI（可信AI中心）； Warsaw University of Technology（华沙理工大学）； University of Warsaw, Poland（波兰华沙大学）

AI总结本文提出了一种基于大语言模型的迭代神经元解释方法LINE，用于对视觉模型中的神经元进行开放词汇的概念标注。LINE在黑盒设置下，通过语言模型和图像生成器迭代生成并优化概念描述，无需模型训练，能够发现传统预定义词汇表中遗漏的概念，并在多个数据集上取得了优于现有方法的性能。该方法不仅能够识别每个神经元的主要概念，还能提供完整的生成历史，支持多义性评估和生成可视化解释。

2604.04692 2026-05-14 cs.CL cs.AI cs.CV

Is a Picture Worth a Thousand Words? Adaptive Multimodal Fact-Checking with Visual Evidence Necessity

Jaeyoon Jung, Yejun Yoon, Kunwoo Park

发表机构 * School of AI Convergence, Soongsil University（顺斯利大学人工智能融合学院）； MAUM AI Inc.（MAUM人工智能公司）； Department of Intelligent Semiconductors, Soongsil University（顺斯利大学智能半导体系）

AI总结本文研究了在多模态事实核查任务中是否应普遍使用视觉证据的问题，挑战了现有研究中“视觉证据总是有助于提升性能”的假设。为此，作者提出了AMuFC框架，通过两个协作的视觉-语言模型，分别用于判断是否需要视觉证据以及基于证据进行事实验证，从而实现对视觉证据的自适应使用。实验表明，该方法在三个数据集上显著提升了事实核查的准确性。

Comments preprint, 18 pages

2604.04667 2026-05-14 cs.CV cs.LG cs.RO

ZeD-MAP: Bundle Adjustment Guided Zero-Shot Depth Maps for Real-Time Aerial Imaging

Selim Ahmet Iz, Francesco Nex, Norman Kerle, Henry Meissner, Ralf Berger

发表机构 * German Aerospace Center (DLR), Institute of Space Research（德国航空航天中心（DLR）空间研究所）； Faculty of Geo-Information Science and Earth Observation (ITC), University of Twente（代尔夫特理工大学地理信息科学与地球观测学院）

AI总结本文提出了一种名为ZeD-MAP的框架，用于实现实时无人机航拍图像的高精度深度重建。该方法结合零样本扩散模型与增量聚类式光束法平差（BA），在无需任务特定再训练的情况下，提升了深度估计的度量一致性和时间连续性。实验表明，该方法在高分辨率航拍图像上实现了亚米级精度，且单帧处理时间在1.47到4.91秒之间，适用于实时三维地图生成。

详情

英文摘要

Real-time depth reconstruction from ultra-high-resolution UAV imagery is essential for time-critical geospatial tasks such as disaster response, yet remains challenging due to wide-baseline parallax, large image sizes, low-texture or specular surfaces, occlusions, and strict computational constraints. Recent zero-shot diffusion models offer fast per-image dense predictions without task-specific retraining, and require fewer labelled datasets than transformer-based predictors while avoiding the rigid capture geometry requirement of classical multi-view stereo. However, their probabilistic inference prevents reliable metric accuracy and temporal consistency across sequential frames and overlapping tiles. We present ZeD-MAP, a cluster-level framework that converts a test-time diffusion depth model into a metrically consistent, SLAM-like mapping pipeline by integrating incremental cluster-based bundle adjustment (BA). Streamed UAV frames are grouped into overlapping clusters; periodic BA produces metrically consistent poses and sparse 3D tie-points, which are reprojected into selected frames and used as metric guidance for diffusion-based depth estimation. Validation on ground-marker flights captured at approximately 50 m altitude (GSD is approximately 0.85 cm/px, corresponding to 2,650 square meters ground coverage per frame) with the DLR Modular Aerial Camera System (MACS) shows that our method achieves sub-meter accuracy, with approximately 0.87 m error in the horizontal (XY) plane and 0.12 m in the vertical (Z) direction, while maintaining per-image runtimes between 1.47 and 4.91 seconds. Results are subject to minor noise from manual point-cloud annotation. These findings show that BA-based metric guidance provides consistency comparable to classical photogrammetric methods while significantly accelerating processing, enabling real-time 3D map generation.

URL PDF HTML ☆

赞 0 踩 0

2604.02022 2026-05-14 cs.AI

ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis

Yu Li, Haoyu Luo, Yuejin Xie, Yuqian Fu, Zhonghao Yang, Shuai Shao, Qihan Ren, Wanying Qu, Yanwei Fu, Yujiu Yang, Jing Shao, Xia Hu, Dongrui Liu

发表机构 * Shanghai AI Lab（上海人工智能实验室）； Fudan University（复旦大学）； Shanghai Jiao Tong University（上海交通大学）； Tsinghua University（清华大学）； KAUST（卡塔尔人工智能科学中心）； East China Normal University（华东师范大学）

AI总结 ATBench 是一个用于评估和诊断基于大语言模型的智能体安全性的多样化且真实的轨迹基准。该基准通过风险来源、失败模式和现实危害三个维度系统地组织风险，并采用异构工具池和长上下文延迟触发机制，构建出具有多阶段真实风险演进的轨迹数据。ATBench 包含 1000 条轨迹，涵盖丰富的交互场景和工具调用，数据经过规则和大模型过滤并由人工全面审核，能够有效评估先进模型在长期交互中的安全表现，并支持分层分析和跨基准比较。

2604.01690 2026-05-14 cs.AI

Scale over Preference: The Impact of AI-Generated Content on Online Content Ecology

Tianhao Shi, Yang Zhang, Xiaoyan Zhao, Fengbin Zhu, Chenyi Lei, Han Li, Wenwu Ou, Tian Yang, Yang Song, Yongdong Zhang, Fuli Feng

发表机构 * University of Science and Technology of China（中国科学技术大学）； National University of Singapore（新加坡国立大学）； Kuaishou Technology（快手科技）； The Chinese University of Hong Kong（香港中文大学）

AI总结本研究探讨了人工智能生成内容（AIGC）对在线内容生态的影响，通过分析中国主流视频平台上的海量用户数据，揭示了AIGC与人类生成内容（HGC）在创作与消费行为上的显著差异。研究发现，尽管用户更偏好HGC，但AIGC创作者通过高产量策略仍能获得与HGC相当的总体互动量，算法推荐机制在其中起到了调节作用。研究建议引入对AIGC敏感的推荐算法和精准治理框架，以保障在线平台内容生态的长期健康发展。

Comments update authors in v2

2604.00001 2026-05-14 cs.LG cs.AI cs.CL

Filter-then-Weight: Online Data Selection and Reweighting for LLM Fine-Tuning

Fangxin Wang, Peyman Baghershahi, Langzhou He, Henry Peng Zou, Sourav Medya, Philip S. Yu

发表机构 * Department of Computer Science（计算机科学系）

AI总结本文研究了大语言模型在线微调中的数据选择与重加权问题，提出了一种基于优化器状态的在线数据选择框架。核心方法是将数据选择视为根据当前优化器状态塑造下一步更新方向的问题，并设计了两阶段的Filter-then-Weight算法，先筛选几何上有用的样本，再优化其权重系数。该方法通过引入因子化梯度表示和优化矩阵计算，有效提升了在线微调的收敛效率和下游任务性能。

Comments 24 pages, 2 figures, 9 tables

AI 大模型

视觉与机器人

科学与医疗