arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.12741 2026-05-14 cs.LG

Learning with Rare Success but Rich Feedback via Reflection-Enhanced Self-Distillation

Yuwei Zhang, Sha Li, Changlong Yu, Qin Lu, Shuowei Jin, Chengyu Dong, Haoran Liu, Ilgee Hong, Xintong Li, Zhenyu Shi, Bing Yin, Jingbo Shang

发表机构 * UC San Diego（UC圣地亚哥大学）； Amazon（亚马逊）； Georgia Institute of Technology（佐治亚理工学院）

AI总结本文研究了如何使大语言模型在与环境交互中持续改进，特别是在成功案例稀少的情况下。为此，提出了一种基于反思增强的自蒸馏框架（RESD），通过将失败反馈转化为积极的纠正信号，生成回顾性反思以诊断局部错误，并构建全局经验库以保留可复用的知识。实验表明，RESD在持续学习任务中显著优于传统自蒸馏方法，且在早期阶段表现出更高的交互效率。

Comments Work in progress

2605.12736 2026-05-14 cs.LG

ConRetroBert: EMA Stabilized Dual Encoders for Template-Based Single-Step Retrosynthesis

Mohammad Jahid Ibna Basher, Ali Khodabandeh Yalabadi, Ivan Garibay, Ozlem Ozmen Garibay

发表机构 * Department of Industrial Engineering（工业工程系）

AI总结 ConRetroBert 是一种基于模板的单步逆合成方法，通过双编码器框架将模板选择问题转化为密集模板检索与候选集排序任务。该方法采用对比预训练学习产品与反应模板的共享嵌入空间，并引入多正例列表排序目标优化模板排名，同时利用指数移动平均技术稳定模板编码器更新，提升模型鲁棒性。实验表明，ConRetroBert 在 USPTO-50k 数据集上显著提升了反应预测准确率，并在稀有模板预测方面表现出色。

Comments Submitted to NeurIPS 2026 Main Conference

2605.12735 2026-05-14 cs.RO

The Unified Autonomy Stack: Toward a Blueprint for Generalizable Robot Autonomy

Mihir Dharmadhikari, Nikhil Khedekar, Mihir Kulkarni, Morten Nissov, Martin Jacquet, Angelos Zacharia, Marvin Harms, Albert Gassol Puigjaner, Philipp Weiss, Kostas Alexis

发表机构 * Autonomous Robots Lab（自主机器人实验室）

AI总结本文介绍了并开源了“统一自主系统栈”（Unified Autonomy Stack），这是一个面向空中和地面机器人形态的系统级解决方案，旨在实现鲁棒的通用自主性。该系统包含多模态感知、多行为规划和多层级安全导航三个协同模块，通过融合激光雷达、雷达、视觉和惯性传感器数据，实现了环境建模、语义理解、路径规划与安全导航等功能，能够在无GNSS信号、复杂和高障碍物密度的环境中实现安全自主导航与探索。该系统已在多种空中和地面机器人上进行了实地测试，验证了其在复杂环境中的稳定性能。

Comments 35 pages, 22 figures, 8 tables

2605.12733 2026-05-14 cs.LG cs.AI stat.ML

From Generalist to Specialist Representation

Yujia Zheng, Fan Feng, Yuke Li, Shaoan Xie, Kevin Murphy, Kun Zhang

发表机构 * CMU（卡内基梅隆大学）； UIUC（伊利诺伊大学香槟分校）； UCSD（加州大学圣地亚哥分校）； MBZUAI（穆斯林人工智能研究所）； UMD（马里兰大学）； UBC（不列颠哥伦比亚大学）

AI总结本文研究了从通用模型中学习任务相关的专家表征问题，核心在于在非参数设定下证明任务结构和任务相关潜在表征的可识别性。研究无需干预、参数形式或结构约束，证明了即使在时间序列缺乏严格时序依赖或存在断开的情况下，任务结构仍可在完全无监督条件下被识别，同时在每个时间步内，通过简单的稀疏性正则化可将任务相关与无关部分分离。这些结果为从通用模型向专家模型的可证性转变奠定了理论基础。

Comments ICML 2026

2605.12730 2026-05-14 cs.AI cs.GR cs.MA physics.soc-ph

BEHAVE: A Hybrid AI Framework for Real-Time Modeling of Collective Human Dynamics

Helene Malyutina

发表机构 * Independent Researcher, Collective Dynamics Lab（独立研究者，集体动力学实验室）

AI总结本文提出BEHAVE，一种用于实时建模群体人类动态行为的混合人工智能框架。传统AI系统多关注个体行为或事后事件检测，难以捕捉群体稳定、升级或崩溃等集体动态特性。BEHAVE将群体视为具有涌现性、非线性、反馈环和临界点敏感性的复杂动态系统，通过可观测的物理信号构建交互空间，并将其建模为连续行为场，从而实现对群体状态的分布式表征与预测。该框架结合数学定理与神经网络模型，在多个实际场景中展示了其对群体动态的有效建模与预测能力。

Comments 19 pages

2605.12726 2026-05-14 cs.LG

Before the Last Token: Diagnosing Final-Token Safety Probe Failures

Shravan Doda

发表机构 * SafeSwitch ； HarmBench ； SorryBench

AI总结该研究探讨了最终token安全探针在检测有害内容时的失效问题，指出某些越狱提示中的危险信息可能分布在早期token中，而未被最终token读取所捕捉。通过分析多个指令微调大语言模型中的隐藏状态，研究发现现有探针在召回干净有害提示时表现良好，但容易遗漏越狱案例并产生误报。研究进一步提出了一种基于PCA-HMM的轨迹模型，能够有效恢复被最终token探针遗漏的安全风险，为安全检测提供了新的分析思路。

Comments 8 pages, 2 figures, 7 tables

2605.12725 2026-05-14 cs.CV

Is Video Anomaly Detection Misframed? Evidence from LLM-Based and Multi-Scene Models

Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

发表机构 * University of South Florida（佛罗里达州立大学）； Mitsubishi Electric Research Laboratories（三菱电机研究实验室）

AI总结近年来，视频异常检测研究逐渐转向构建跨场景的通用正常行为模型，但这一趋势忽视了场景特定和上下文依赖的正常行为特性。现有方法常依赖多模态大语言模型的预训练表示和视频级弱监督，导致模型更关注语义层面的异常类别，而非特定环境中的正常行为偏差。本文通过视觉分析和实验评估指出，这种做法削弱了空间定位能力，引入语义偏差，并将异常检测简化为动作识别，强调视频异常检测应在单一场景中重新聚焦于空间感知和可解释的正常行为建模。

2605.12724 2026-05-14 cs.CV cs.AI

Inline Critic Steers Image Editing

Weitai Kang, Xiaohang Zhan, Yizhou Wang, Mang Tik Chiu, Jason Kuen, Kangning Liu, Yan Yan

发表机构 * University of Illinois Chicago（伊利诺伊大学芝加哥分校）； Adobe

AI总结本文研究了基于指令的图像编辑中不同区域的难度差异问题，提出了一种在生成过程中实时修正模型输出的方法。核心方法是引入一个可学习的“Inline Critic”模块，在模型中间层对生成结果进行评估，并引导后续生成过程。该方法通过三阶段训练策略稳定模型学习，显著提升了图像编辑的效果，在多个基准测试中取得了当前最优性能。

Comments 9 pages

2605.12719 2026-05-14 cs.RO cs.LG

A Five-Layer MLOps Architecture for Connected Automated Driving

Bastian Lampe, Lutz Eckstein

发表机构 * Institute for Automotive Engineering (ika), RWTH Aachen University（汽车工程研究所（ika），亚琛工业大学）

AI总结自动驾驶系统（ADS）在复杂、动态的开放环境中运行，其安全性和性能的持续保障面临重大挑战。本文提出了一种基于MLOps原理的五层架构，旨在支持自动驾驶系统通过车队协同学习实现持续改进。该架构为车队运营商及相关利益方提供了设计和实施MLOps流程的概念蓝图，通过多层级的自我评估机制，有助于检测和减少包括黑天鹅事件在内的边缘案例。

Comments 8 pages, 6 figures

2605.12714 2026-05-14 cs.LG cs.CL

Layer-wise Representation Dynamics: An Empirical Investigation Across Embedders and Base LLMs

Jingzhou Jiang, Yi Yang, Kar Yan Tam

发表机构 * The Hong Kong University of Science and Technology（香港科技大学）

AI总结该研究提出了一种名为Layer-wise Representation Dynamics（LRD）的框架，用于分析现代语言模型各层表示的变化特性，包含三个测量指标：用于全局子空间运动的Frenet、用于局部近邻保留的Neighborhood Retention Score（NRS）以及用于对齐最终层的Graph Filtration Mutual Information（GFMI）。通过在31种模型和30个MTEB任务上的实验，揭示了不同架构和任务在层间表示上的差异，并展示了LRD在无标签模型选择和推理时层剪枝中的应用价值，表明层间结构信息对模型解释和部署决策具有重要意义。

2605.12710 2026-05-14 cs.RO

Belief-Space Residual Risk for Automated Driving under Localization Uncertainty

Nijinshan Karunainayagam, Nils Gehrke, Frank Diermeyer

发表机构 * Institute of Automotive Technology at the Technical University of Munich（慕尼黑技术大学汽车技术研究所）

AI总结本文研究了在定位不确定性条件下自动驾驶系统的残余风险评估问题。为准确反映车辆自身位置的不确定性，作者将残余风险度量扩展到信念空间，将自身姿态不确定性建模为高斯分布，并重新定义残余风险为该分布下风险退化期望值。通过粒子滤波框架下的协方差融合方法，将定位不确定性纳入碰撞概率计算，提升了风险评估的鲁棒性。

Comments 7 Pages, this work has been accepted for publication in IEEE Intelligent Transportation Systems (ITSC) 2026. The final published version will be available via IEEE Xplore

2605.12709 2026-05-14 cs.LG

Spectral Energy Centroid: a Metric for Improving Performance and Analyzing Spectral Bias in Implicit Neural Representations

Tomasz Dądela, Adam Kania, Maciej Rut, Przemysław Spurek

发表机构 * Jagiellonian University（雅盖隆大学）； IDEAS

AI总结本文提出了一种名为光谱能量质心（SEC）的度量方法，用于分析和提升隐式神经表示（INRs）的性能。SEC能够量化目标图像的频率特性以及INR模型的频谱偏差，揭示了频率与INR性能之间的关系。研究展示了SEC在三个任务中的有效性，包括超参数选择、信号复杂度评估以及跨不同架构的频谱偏差对齐，为理解与优化INR提供了新的分析工具。

2605.12706 2026-05-14 cs.LG q-bio.GN

A Resampling-Based Framework for Network Structure Learning in High-Dimensional Data

Ziwei Huang, Zeyuan Song, Paola Sebastiani, Stefano Monti

发表机构 * Department of Physics, Boston University（波士顿大学物理系）； Institute for Clinical Research and Health Policy Studies, Tufts Medical Center（塔夫茨医疗中心临床研究与健康政策研究所）； Department of Medicine, School of Medicine, Tufts University（塔夫茨大学医学院医学系）； Data Intensive Study Center, Tufts University（塔夫茨大学数据密集型研究中心）； Division of Computational Biomedicine, Boston University Chobanian & Avedisian School of Medicine（波士顿大学Chobanian与Avedisian医学院计算生物医学系）； Department of Biostatistics, Boston University School of Public Health（波士顿大学公共卫生学院生物统计学系）； Bioinformatics Program, Faculty of Computing and Data Science, Boston University（波士顿大学计算与数据科学学院生物信息学项目）

AI总结 RSNet 是一个开源的 R 软件包，提供了一种基于重采样的框架，用于在高维数据中进行稳健且可解释的网络结构学习，旨在解决小样本量带来的挑战。该框架支持连续和离散混合数据类型的条件高斯贝叶斯网络及部分相关网络的估计，并结合多种重采样策略以适应独立或相关观测。RSNet 通过引入基于图元的拓扑分析，增强了网络结构的可解释性，并首次实现了在稀疏网络中高效构建带符号的图元度向量矩阵，从而支持对高阶网络结构的可扩展分析。

Comments 7 pages, 1 figure

2605.12705 2026-05-14 cs.LG

Early Data Exposure Improves Robustness to Subsequent Fine-Tuning

Lawrence Feng, Gaurav R. Ghosal, Jacob Mitchell Springer, Ziqian Zhong, Aditi Raghunathan

发表机构 * Department of Computer Science（计算机科学系）； Cranberry-Lemon University（Cranberry-Lemon 大学）； Department of Computational Neuroscience（计算神经科学系）； University of the Witwatersrand（沃茨沃斯兰德大学）

AI总结本文研究了如何训练模型，使其在后续微调过程中仍能保持已习得的能力。通过控制实验，作者发现早期数据暴露（将微调数据混合到预训练阶段）能有效提升模型对后续微调的鲁棒性，优于传统的微调阶段应对遗忘的方法。实验表明，合理分配数据到预训练和微调阶段，能够更有效地平衡模型的初始能力和后续适应能力，为模型训练提供了新的策略方向。

2605.12703 2026-05-14 cs.CV cs.AI

MMCL-Bench: Multimodal Context Learning from Visual Rules, Procedures, and Evidence

Yifan Chen, Fei Yin, Qingyan Bai, Zicheng Lin, Yujiu Yang

发表机构 * University of Cambridge（剑桥大学）； HKUST（香港科技大学）； Tsinghua University（清华大学）

AI总结本文介绍了 MMCL-Bench，一个用于多模态上下文学习的基准，旨在从视觉或混合模态的教学内容中学习任务相关的规则、程序和经验模式，并应用于新的视觉实例。该基准包含102个任务，涵盖规则应用、流程执行和经验归纳三个类别，评估结果显示当前主流多模态模型在严格评分标准下仍远未达到鲁棒的多模态上下文学习能力，揭示了多模态上下文学习作为当前模型的重要能力瓶颈。

2605.12702 2026-05-14 cs.AI cs.HC

DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models

Eugenia Kim, Ioana Tanase, Christina Mallon

发表机构 * Microsoft（微软）

AI总结本文提出 DisaBench，一个用于评估语言模型中与残疾相关危害的参与式评价框架。该框架通过与残疾人士和红队专家共同创建的十二类残疾危害分类，结合七类生活场景中的良性与对抗性提示，构建了一个包含175个提示和525对标注响应的数据集。研究发现，残疾相关危害因类型不同而差异显著，并在非文本模态中叠加出现，且其评估具有文化与时间依赖性，常规安全评估难以识别细微危害。该框架强调残疾危害的个人性、交叉性和社区定义特征，现有通用安全基准难以全面捕捉此类问题。

2605.12700 2026-05-14 cs.LG cs.NA math.NA

UFO: A Domain-Unification-Free Operator Framework for Generalized Operator Learning

Hanli Qiao, George Em Karniadakis, Muhammad Muniruzzaman

发表机构 * Division of Applied Mathematics, Brown University（布朗大学应用数学系）； Institute of Geosciences, University of Bonn（波恩大学地质科学研究院）

AI总结本文提出了一种名为UFO的跨域神经算子框架，能够在不同表示域之间进行自适应的联合条件交互，无需统一域表示即可实现算子学习。该框架支持输入与输出的离散化解耦，允许在训练时未使用的分辨率或位置进行预测，提升了模型的灵活性和泛化能力。实验表明，UFO在多个具有不连续输入、谱不匹配、非线性动力学和随机高频场等挑战的基准任务中，均能提供准确、鲁棒且物理一致的预测结果。

2605.12699 2026-05-14 cs.LG cs.AI

Modeling Heterophily in Multiplex Graphs: An Adaptive Approach for Node Classification

Kamel Abdous, Nairouz Mrabah, Mohamed Bouguessa

发表机构 * Department of Computer Science, University of Quebec at Montreal（魁北克大学蒙特利尔分校计算机科学系）

AI总结该论文研究了在多层图中建模异质性（heterophily）的问题，即相连节点可能属于不同类别且属性差异较大的情况。现有方法多假设同质性（homophily），难以处理多层图中同时存在的同质与异质交互。为此，作者提出了一种名为\methodname的新方法，通过引入维度特定的兼容性矩阵和可训练的低通与高通滤波器，动态适应不同维度的异质特性，从而更有效地进行节点分类。实验表明，该方法在合成和真实数据集上均取得了优于现有方法的分类性能。

Comments 38 pages, 7 figures, 4 tables, 1 algorithm. Published in Expert Systems with Applications

Journal ref Expert Systems with Applications, Volume 323, 2026, Article 132374

2605.12693 2026-05-14 cs.LG

IGT-OMD: Implicit Gradient Transport for Decision-Focused Learning under Delayed Feedback

Benjamin Amoh, Geoffrey G. Parker, Wesley Marrero

发表机构 * Thayer School of Engineering, Dartmouth College（达特茅斯学院泰勒工程学院）

AI总结该研究针对延迟反馈环境下决策导向学习中的挑战，提出了一种新的算法IGT-OMD，用于解决双层优化中的梯度陈旧问题。通过隐式梯度传输技术，该方法在在线镜像下降中重新评估存储的内部解，从而将运输误差从延迟的二次依赖降低到线性依赖，并首次实现了具有自适应步长的延迟双层优化的次线性遗憾界。实验表明，该方法在多个任务中显著降低了决策损失，验证了理论分析的有效性。

Comments 9 pages, 4 figures, NeurIPS 2026 conference

2605.12691 2026-05-14 cs.AI

On the Size Complexity and Decidability of First-Order Progression

Jens Classen, Daxin Liu

发表机构 * Department of People and Technology, Roskilde University, Denmark（罗斯基尔德大学人机技术系，丹麦）； State Key Laboratory for Novel Software Technology, Nanjing University, China（南京大学新型软件技术国家重点实验室，中国）

AI总结本文研究了在一阶逻辑框架下动作进展（progression）的规模复杂性与可判定性问题。作者在情境演算（Situation Calculus）框架下，分析了具有局部效应、正常和无环等特性的动作类别的进展规模，证明在合理假设下其规模仅呈多项式增长。此外，当知识库属于可判定的逻辑片段（如二元一阶逻辑或带有常量的全称理论）时，进展仍保持在相同片段内，从而保证了可判定性和实际应用价值。

Comments This is an extended version of an identically-titled paper accepted for publication at IJCAI 2026. This version contains an appendix with further proofs

2605.12685 2026-05-14 cs.LG cs.AI

A Unified Perspective for Learning Graph Representations Across Multi-Level Abstractions

Mohamed Mahmoud Amar, Nairouz Mrabah, Mohamed Bouguessa, Abdoulaye Baniré Diallo

发表机构 * Department of Computer Science, University of Quebec at Montreal（魁北克大学蒙特利尔分校计算机科学系）

AI总结该论文提出了一种统一的对比学习框架，用于从节点级、邻近级、聚类级和图级等多个抽象层次学习图结构数据的表示。为了解决现有方法大多只关注单一抽象层次的问题，该方法通过相似度与不相似度分数的线性组合整合多级信息，并引入一种无需参数的细粒度自适应加权机制，以增强优化灵活性并提升模型收敛性。实验表明，该方法在多个下游任务中优于现有先进方法，适用于单层次和多层次场景。

Comments Accepted for publication in IEEE Transactions on Knowledge and Data Engineering (TKDE). 18 pages, 8 figures

2605.12684 2026-05-14 cs.CV cs.AI cs.HC

Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?

Yichen Feng, Yuetai Li, Chunjiang Liu, Yuanyuan Chen, Fengqing Jiang, Yue Huang, Hang Hua, Zhengqing Yuan, Kaiyuan Zheng, Luyao Niu, Bhaskar Ramasubramanian, Basel Alomair, Xiangliang Zhang, Misha Sra, Zichen Chen, Radha Poovendran, Zhangchen Xu

发表机构 * Bake AI ； University of Washington（华盛顿大学）； University of California, Santa Barbara（加州大学圣巴巴拉分校）； Stanford University（斯坦福大学）； University of Notre Dame（诺丁汉大学）； Carnegie Mellon University（卡内基梅隆大学）； MIT-IBM Watson AI Lab（麻省理工-IBM沃森人工智能实验室）； Western Washington University（西雅图华盛顿大学）； King Abdulaziz City for Science and Technology（国王阿卜杜勒阿齐兹科技城）

AI总结该研究探讨了前沿多模态大语言模型在视觉审美判断方面的能力，指出当前模型在判断图像美感时存在显著不足。研究引入了“视觉审美基准”（VAB），通过专家标注的对比任务评估模型表现，发现即使是最好的模型在识别最佳和最差图像时也远不如人类专家。研究还表明，通过少量专家示例对模型进行微调，可以显著提升其性能，凸显了VAB在推动审美判断模型发展中的重要价值。

Comments Project page: https://vab.bakelab.ai. Code: https://github.com/BakeLab/Visual-Aesthetic-Benchmark. Dataset: https://huggingface.co/datasets/BakeLab/Visual-Aesthetic-Benchmark

2605.12683 2026-05-14 cs.LG cs.AI cs.DC physics.comp-ph

Parallel-in-Time Training of Recurrent Neural Networks for Dynamical Systems Reconstruction

Florian Hess, Florian Götz, Daniel Durstewitz

发表机构 * Dept. of Theoretical Neuroscience, Central Institute of Mental Health, Mannheim, Germany（理论神经科学系，心理健康中央研究所，曼海姆，德国）； Faculty of Physics and Astronomy, Heidelberg University, Germany（物理与天文学院，海德堡大学，德国）； Faculty of Mathematics and Computer Science, Heidelberg University, Germany（数学与计算机科学学院，海德堡大学，德国）； Interdisciplinary Center for Scientific Computing (IWR), Heidelberg University, Germany（跨学科科学计算中心（IWR），海德堡大学，德国）

AI总结本文研究了如何通过时间并行化方法提高递归神经网络在动态系统重建任务中的训练效率。作者提出了两种基于并行关联扫描的算法，分别适用于线性非自主动力学模型和通用非线性模型，并发现前者在训练时存在限制，难以准确学习非线性动力学。为此，作者将广义教师强制（GTF）引入DEER框架，有效提升了模型在长序列上的学习能力，实验表明长轨迹数据对具有长时程特征的动态系统重建具有显著提升作用。

Comments 29 pages, 6 figures, preprint

2605.12682 2026-05-14 cs.AI

Learning Transferable Latent User Preferences for Human-Aligned Decision Making

Alina Hyk, Sandhya Saisubramanian

发表机构 * Oregon State University（俄勒冈州立大学）

AI总结该研究旨在解决大语言模型在生成人类对齐决策时面临的挑战，即如何从有限的交互中学习可迁移的潜在用户偏好。为此，作者提出了CLIPR框架，通过少量对话输入学习可操作的自然语言规则，以表示用户的潜在偏好，并通过自适应反馈不断优化这些规则。实验表明，CLIPR在多个任务和环境中均能有效提升决策对齐度并降低推理成本。

2605.12674 2026-05-14 cs.AI cs.LG cs.RO

Revealing Interpretable Failure Modes of VLMs

Isha Chaudhary, Vedaant V Jain, Kavya Sachdeva, Sayan Ranu, Gagandeep Singh

发表机构 * UIUC（伊利诺伊大学香槟分校）； Kumo AI ； IIT Delhi（德里印度理工学院）

AI总结该论文提出了一种名为REVELIO的框架，用于系统性地揭示视觉-语言模型（VLMs）中可解释的失效模式。研究通过结合多样性感知的束搜索和高斯过程汤普森采样策略，高效探索VLM在特定场景下的失效组合空间。实验表明，该方法在自动驾驶和室内机器人任务中发现了现有VLM的潜在漏洞，为提升模型安全性提供了结构化且可解释的改进方向。

2605.12673 2026-05-14 cs.AI cs.CR

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

Hao Wang, Hanchen Li, Qiuyang Mang, Alvin Cheung, Koushik Sen, Dawn Song

发表机构 * UC Berkeley（加州大学伯克利分校）

AI总结该论文研究了人工智能代理基准测试中的奖励黑客问题，即代理通过非预期方式最大化得分而非完成任务的现象。为此，作者提出了 BenchJack 系统，通过自动化红队测试方法系统性地审计基准测试，识别潜在的奖励黑客漏洞。研究还构建了一个迭代生成对抗流程，不断发现并修复新漏洞，显著提升了基准测试的安全性。实验表明，BenchJack 能在多个主流基准中发现大量漏洞，并有效降低了可被攻击的任务比例。

2605.12671 2026-05-14 cs.CL

All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs

Xi Chen, Mingyu Jin, Jingcheng Niu, Yutong Yin, Jinman Zhao, Bangwei Guo, Dimitris N. Metaxas, Zhaoran Wang, Yutao Yue, Gerald Penn

发表机构 * Rutgers University（罗格斯大学）； Northwestern University（西北大学）； The Hong Kong University of Science and Technology (Guangzhou)（香港科学与技术大学（广州））； University of Toronto（多伦多大学）

AI总结本文挑战了大型语言模型（LLMs）中电路与sheaf发现（CSD）领域的一个核心假设——功能各向异性假设，即认为模型功能由单一或近似唯一的内部机制实现。研究通过实证和理论分析表明，同一任务可由多个结构不同的电路或sheaf同时完成，且它们均具备稀疏性、完整性和任务表现力。为此，作者提出了一种结构重叠感知的sheaf排斥方法，有效揭示了具有高性能但结构差异显著的替代机制，并提出了分布式稠密电路假设，解释了在高维叠加下非唯一、低重叠的电路解释为何自然出现。

Comments ICML 2026

2605.12662 2026-05-14 cs.LG q-bio.GN

scShapeBench: Discovering geometry from high dimensional scRNAseq data

Andrew J Steindl, João Felipe Rocha, Brian Tshilengi Di Bassinga, Zachary Warren, Matthew Scicluna, César Miguel Valdez Córdova, Shabarni Gupta, Leire Torices, Daniel Neumann, Timothy J. Mann, Ihuan Gunawan, Dhananjay Bhaskar, John G Lock, Christine L Chaffer, Guy Wolf, Smita Krishnaswamy

发表机构 * Yale University（耶鲁大学）； Mila / Université de Montréal（Mila / 蒙特利尔大学）； Garvan Institute of Medical Research（Garvan医学研究机构）； School of Biomedical Sciences, University of New South Wales（新南威尔士大学生物医学科学学院）； University of Wisconsin–Madison（威斯康星大学麦迪逊分校）

AI总结 scShapeBench 是一个用于单细胞转录组数据形状检测的基准数据集，旨在自动识别数据中的几何结构，如聚类、轨迹和典型模式，从而辅助选择合适的下游分析流程。该研究引入了 scReebTower 方法，基于扩散几何提取 Reeb 图，实现了可视化与分析流程的自动匹配，并提供了拓扑感知的评估指标。实验表明，scReebTower 在合成和真实数据上均优于现有方法，为单细胞数据的自动化分析提供了重要工具。

详情

英文摘要

High-dimensional point cloud data arise across many scientific domains, especially single-cell biology. The shapes or topologies of these datasets determine the types of information that can be extracted. For example, clustered data supports cell-type identification, trajectory structures support transition analysis, and archetypal structures capture continua of cellular behaviors. Existing analysis pipelines often assume a specific shape. The standard Seurat pipeline combines UMAP visualization with Louvain clustering and therefore assumes clustered data, while tools such as Monocle and SPADE assume tree-like structures, and flow-based models such as MIOFlow and Conditional Flow Matching target trajectories. Choosing which pipeline to apply is therefore often left to bioinformaticians who visually inspect datasets before selecting an analysis strategy. With the rise of agentic AI scientists, automating shape detection is increasingly important for selecting downstream analysis pipelines. To address this problem, we introduce scShapeBench, a benchmark dataset for shape detection containing both synthetic and expert-annotated single-cell datasets. Synthetic datasets are sampled from ground-truth skeleton graphs with controlled variance. Real single-cell datasets are curated from diverse sources and annotated by experts into four categories: clusters, single trajectory, multi-branching, and archetypal. We additionally introduce scReebTower, a baseline method that uses diffusion geometry to extract Reeb graphs and connect visualization with pipeline selection. We provide topology-aware evaluation metrics and compare scReebTower against PAGA and Mapper on synthetic and real data. Our results indicate that scReebTower outperforms existing baselines. Overall, our contributions span benchmarks, evaluation metrics, and a baseline for automated shape detection in single-cell data.

URL PDF HTML ☆

赞 0 踩 0

2605.12654 2026-05-14 cs.RO

COSMIC: Concurrent Optimization of Structure, Material, and Integrated Control for robotic systems

Qinsong Guo, Liwei Wang

发表机构 * Dept. of Mechanical Engineering（机械工程系）

AI总结本文提出了一种基于梯度的协同设计框架COSMIC，用于同时优化机器人的结构、材料和控制策略，以实现超越传统分步设计的性能。该框架通过将混合类型的拓扑和材料变量嵌入连续设计空间，并结合可微分模拟器中的神经网络控制器，实现了对结构、材料与控制策略之间交互关系的高效建模与梯度计算。研究展示了该方法在多样化的运动策略优化和适应不同功能需求方面的有效性，并揭示了各设计要素对机器人性能的独立与协同影响。

2605.12653 2026-05-14 cs.LG cs.AI stat.ML

Plan Before You Trade: Inference-Time Optimization for RL Trading Agents

Eun Go, Rohan Deb, Arindam Banerjee

发表机构 * Siebel School of Computing and Data Science（塞比尔计算与数据科学学院）； University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）

AI总结本文提出了一种名为FPILOT的推理时优化框架，用于改进强化学习在投资组合管理中的应用。该方法受模型预测控制启发，利用价格预测信息在推理阶段动态优化交易策略，而无需依赖训练时的固定策略。FPILOT能够在不重新训练策略的情况下，结合价格预测模型生成多步价格轨迹，并据此优化每一步的资产配置，从而在多个风险调整指标上显著提升交易表现。

AI 大模型

视觉与机器人

科学与医疗