arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.10154 2026-05-12 cs.LG

Stable Long-Horizon PDE Forecasting via Latent Structured Spectral Propagators

Xiaoxiao Lu, Ye Yuan, Jiahao Shi

发表机构 * School of AIA, Huazhong University of Science and Technology（华中科技大学人工智能学院）

AI总结本文研究了长时间尺度偏微分方程（PDE）的稳定预测问题，提出了一种基于隐结构谱传播器（SSP）的神经预测框架。该方法通过将PDE演化重构为传播导向的潜在空间中的结构化谱传播过程，有效分离了动态演化与空间细节，提升了预测的稳定性与准确性。实验表明，SSP在长期预测任务中显著优于现有方法，大幅降低了预测误差并增强了时间外推的稳定性。

2605.10153 2026-05-12 cs.SD cs.LG

APEX: Audio Prototype EXplanations for Classification Tasks

Piotr Kawa, Kornel Howil, Piotr Borycki, Miłosz Adamczyk, Przemysław Spurek, Piotr Syga

发表机构 * Department of Artificial Intelligence, Wroclaw University of Science and Technology, Poland（华沙理工大学人工智能系）； Resemble AI, USA（Resemble AI公司）； IDEAS Research Institute, Poland（波兰IDEAS研究院）； Faculty of Mathematics and Computer Science, Jagiellonian University, Poland（雅盖隆大学数学与计算机科学系）； Doctoral School of Exact and Natural Sciences, Jagiellonian University, Poland（雅盖隆大学博士学院）

AI总结本文提出了一种名为APEX的音频分类解释框架，旨在解决当前音频领域可解释AI方法不足的问题。该方法基于预训练音频分类器，无需微调即可生成与原模型输出一致的解释结果。APEX通过将解释分解为时域、频域及时频联合四个视角，提供了更符合音频特性的直观解释，提升了分类结果的语义可理解性。

2605.10151 2026-05-12 cs.LG cs.SY eess.SY math.OC

Learning to Sparsify Stochastic Linear Bandits

Zhengmiao Wang, Ming Chi, Zhi-Wei Liu, Lintao Ye, Carla Fabiana Chiasserini

发表机构 * School of Artificial Intelligence and Automation, Huazhong University of Science and Technology（华中科技大学人工智能与自动化学院）； Department of Electronics and Telecommunications, Politecnico di Torino（托里尼 Politecnico 电子与电信系）

AI总结本文研究了在高维空间中带有稀疏性约束的随机线性博弈问题，旨在在最小化累积遗憾的同时选择稀疏动作。作者提出了一种自适应分阶段的探索与利用算法框架，结合普通最小二乘法进行参数学习，并采用专门的子程序进行稀疏动作选择。对于欧几里得球形动作集，算法可高效计算最优稀疏动作并获得 $\tilde{\mathcal{O}}(d\sqrt{T})$ 的遗憾界；对于一般凸紧动作集，采用贪心子程序并分别给出了不同情况下的遗憾上界。实验验证了算法在推荐系统等实际场景中的有效性。

Comments Include all the omitted details and proofs from the conference paper accepted to IJCAI 2026

2605.10149 2026-05-12 cs.CV

Improving Temporal Action Segmentation via Constraint-Aware Decoding

Yeo Keat Ee, Debaditya Roy, Chen Li, Hao Zhang, Basura Fernando

发表机构 * Institute of High-Performance Computing, Agency for Science, Technology and Research, Singapore（高性能计算研究所，科学、技术与研究局，新加坡）； Centre for Frontier AI Research, Agency for Science, Technology and Research, Singapore（前沿人工智能研究中心，科学、技术与研究局，新加坡）； Indian Institute of Technology Kharagpur, India（印度克哈格浦理工学院）； College of Computing and Data Science, Nanyang Technological University, Singapore（计算与数据科学学院，南洋理工大学，新加坡）

AI总结本文研究如何通过引入结构先验约束来提升时序动作分割的性能。作者提出了一种轻量级的约束感知解码框架，通过整合动作转移置信度、动作边界集和类别持续时间等统计结构先验，在不增加模型复杂度的情况下实现推理阶段的预测优化。该方法有效提升了全监督和半监督动作分割模型的性能，尤其在标注数据有限或新领域场景中表现突出。

Comments accepted to ICPR 2026

2605.10148 2026-05-12 cs.CV

MicroViTv2: Beyond the FLOPS for Edge Energy-Friendly Vision Transformers

Novendra Setyawan, Chi-Chia Sun, Mao-Hsiu Hsu, Wen-Kai Kuo, Jun-Wei Hsieh

发表机构 * Department of Electro-Optics, National Formosa University（国立.formosa大学电光学系）； Department of Electrical Engineering, National Taipei University（台北国立大学电气工程系）； College of Artificial Intelligence and Green Energy, National Yang Ming Chiao Tung University（阳明交通大学人工智能与再生能源学院）

AI总结本文提出了一种轻量级的视觉Transformer模型MicroViTv2，旨在提升边缘设备上的能效表现。通过引入重参数化设计，包括重参数化块嵌入（RepEmbed）和重参数化深度可分离卷积混合器（RepDW），并结合单深度可分离转置注意力（SDTA）模块，模型在保持快速推理速度的同时，实现了更高的准确率。实验表明，MicroViTv2在Jetson AGX Orin等硬件平台上展现出优越的能效比，验证了超越FLOPs指标进行效率评估的重要性。

2605.10146 2026-05-12 cs.AI cs.CR

Benchmarking Safety Risks of Knowledge-Intensive Reasoning under Malicious Knowledge Editing

Qinghua Mao, Xi Lin, Jinze Gu, Jun Wu, Siyuan Li, Yuliang Chen

发表机构 * School of Computer Science（计算机科学学院）

AI总结本文研究了在恶意知识编辑背景下，知识密集型推理中的安全风险问题。为填补现有基准在安全评估方面的不足，作者提出了EditRisk-Bench，该基准通过集成多种恶意场景和复杂的推理任务，系统评估恶意知识对推理行为和可靠性的影响。实验表明，恶意知识编辑能够在不显著影响模型整体能力的前提下，诱导错误或危险的推理，揭示了知识编辑安全风险的隐蔽性和复杂性。

2605.10142 2026-05-12 cs.CV cs.AI

Scaling Vision Models Does Not Consistently Improve Localisation-Based Explanation Quality

Mateusz Cedro, Marcin Chlebus

发表机构 * University of Warsaw（华沙大学）

AI总结本文研究了视觉模型的规模扩大是否能提升基于定位的解释质量。通过在多个图像数据集上评估不同深度和复杂度的ResNet、DenseNet和Vision Transformer模型，结合五种事后解释方法，发现模型规模的增加并未在大多数情况下提升解释质量，较小的模型往往表现相当甚至更优。研究还指出，预训练虽能提升预测性能，但对定位精度的提升并不一致，表明在模型选择中应明确评估解释性以确保安全应用。

Comments 28 pages, 8 figures, 8 tables

2605.10141 2026-05-12 cs.AI

FormalRewardBench: A Benchmark for Formal Theorem Proving Reward Models

Zeynel A. Uluşan, Burak S. Akbudak, Can S. Erer, Gözde Gül Şahin

发表机构 * Koç University, Department of Computer Science and Engineering（科克大学计算机科学与工程系）； Codeway Studios（Codeway工作室）； Boğaziçi University, Department of Computer Engineering（博雅奇大学计算机工程系）； Friedrich-Alexander-Universität Erlangen-Nürnberg, Intelligent Language Systems（埃尔兰根-纽伦堡弗里德里希-亚历山大大学智能语言系统）

AI总结该论文提出了一种名为 FormalRewardBench 的基准，用于评估形式化定理证明中奖励模型的表现。研究针对当前基于可验证奖励的神经定理证明器在稀疏奖励分配上的不足，引入了五种专家设计的错误注入策略，构建了包含250对证明对比的基准数据集。实验表明，前沿大语言模型在证明质量评估上表现最佳，而专门的定理证明模型表现较差，揭示了定理证明能力与证明评估能力之间的差异。

2605.10136 2026-05-12 cs.LG

Per-Loss Adapters for Gradient Conflict in Physics-Informed Neural Networks

Bum Jun Kim, Gnankan Landry Regis N'guessan

发表机构 * The University of Tokyo, Japan（东京大学）； Axiom Research Group（Axiom研究组）； Department of Applied Mathematics and Computational Science, NM-AIST, Tanzania（应用数学与计算科学系，NM-AIST，坦桑尼亚）； African Institute for Mathematical Sciences (AIMS), Research and Innovation Centre, Rwanda（非洲数学科学研究所（AIMS），研究与创新中心，卢旺达）

AI总结物理信息神经网络（PINNs）通过最小化多个物理和数据驱动的损失函数来训练单一神经网络近似模型，但这些损失的梯度常发生冲突，导致优化停滞。本文指出，这种梯度冲突并非单一失效模式，而是存在不同类型的冲突场景，需采用不同的干预策略。为此，作者提出了一种基于诊断的框架，通过低秩适配器为每个损失创建独立的参数子空间，从而在保持共享主干网络的前提下，为每个损失提供直接的梯度路径，实验表明该方法在多种偏微分方程问题中显著提升了性能。

Comments 49 pages, 10 figures

2605.10130 2026-05-12 cs.CV

Thermal-Det: Language-Guided Cross-Modal Distillation for Open-Vocabulary Thermal Object Detection

Yasiru Ranasinghe, Elim Schenck, Florence Yellin, Shuowen Hu, Christopher Funk, Vishal M. Patel

发表机构 * Johns Hopkins University（约翰霍普金斯大学）； Kitware ； DEVCOM Army Research Laboratory（国防部陆军研究实验室）

AI总结现有开放词汇检测方法主要针对RGB图像，难以推广到热成像领域，因热图像纹理低、发射率变化大，给基于RGB的语义理解带来挑战。本文提出Thermal-Det，首个由大语言模型（LLM）监督的开放词汇热成像目标检测方法，通过构建包含百万级热成像对齐样本的合成数据集，并结合跨模态蒸馏与文本校准模块，实现了无需人工标注的热成像检测知识迁移。实验表明，该方法在公开数据集上相比现有开放词汇检测器平均精度提升2-4%，为语言驱动的热感知系统奠定了基础。

Comments Accepted at CVPR 26

2605.10129 2026-05-12 cs.CL

Synthetic Pre-Pre-Training Improves Language Model Robustness to Noisy Pre-Training Data

Xu Guo, Runyu Peng, Jian Tong, Yunhua Zhou, Haijun Lv, Zhihui Lu, Qipeng Guo

发表机构 * Shanghai AI Laboratory（上海人工智能实验室）； Shanghai Innovation Institute（上海创新研究院）； Fudan University（复旦大学）

AI总结本文研究了如何通过引入一种轻量级的预预训练（PPT）阶段来提升大型语言模型在噪声预训练数据下的鲁棒性。作者提出使用具有可学习时间结构的合成数据进行PPT，从而在正式预训练阶段增强模型对噪声的抵抗能力。实验表明，这种方法在不同噪声水平下均能有效提升模型性能，并减少了对自然文本预训练数据的依赖。

2605.10122 2026-05-12 cs.AI cs.LG

Rethinking Constraint Awareness for Efficient State Embedding of Neural Routing Solver

Canhong Yu, Changliang Zhou, Rongsheng Chen, Zhenkun Wang, Yu Zhou

发表机构 * College of Computer Science and Software Engineering, Shenzhen University（深圳大学计算机科学与软件工程学院）； School of Automation and Intelligent Manufacturing, Southern University of Science and Technology（南方科技大学自动化与智能制造学院）； Guangdong Provincial Key Laboratory of Fully Actuated System Control Theory and Technology, Southern University of Science and Technology（广东省全驱动系统控制理论与技术重点实验室，南方科技大学）； Pengcheng Laboratory（鹏城实验室）

AI总结本文针对神经路由求解器在处理具有复杂约束的车辆路径问题（VRP）时的不足，重新审视了状态嵌入的生成机制，指出当前方法在解码过程中限制了观察空间，成为性能瓶颈。为此，作者提出了一种名为CARM的约束感知残差调制模块，通过自适应地利用约束相关变量对上下文嵌入进行调制，有效增强了模型对约束的感知能力。实验表明，CARM模块在多个单任务和多任务路由求解器中均显著提升了性能，尤其在处理大规模实例和泛化到新VRP变体时表现突出。

2605.10121 2026-05-12 cs.LG cs.AI cs.HC

Explainability of Recurrent Neural Networks for Enhancing P300-based Brain-Computer Interfaces

Christian Oliva, Vinicio Changoluisa, Francisco B Rodríguez, Luis F Lago-Fernández

发表机构 * Grupo de Neurocomputación Biológica, Departamento de Ingeniería Informática, Escuela Politécnica Superior, Universidad Autónoma de Madrid（生物神经计算组，信息工程系，理工大学高级学院，马德里自治大学）； Grupo de Investigación en Electrónica y Telemática, Universidad Politécnica Salesiana（电子与电信研究组，萨利纳斯理工大学）

AI总结本文研究了如何提高基于P300事件相关电位的脑机接口中循环神经网络的可解释性。作者提出了一种称为后循环模块（PRM）的附加层，将其集成到RNN架构中，以提升模型性能和透明度。该方法通过全局和局部解释技术，实现了对时空信号的双重分析，能够识别分类过程中涉及的关键脑区和时间区间，并与已有的神经生理学描述保持一致。实验表明，该方法在性能上比现有方法提升了9%，并揭示了个体间和个体内部变异的重要性，为构建可解释的脑电模型提供了有效框架。

2605.10120 2026-05-12 cs.CV cs.AI

MicroWorld: Empowering Multimodal Large Language Models to Bridge the Microscopic Domain Gap with Multimodal Attribute Graph

Manyu Li, Ruian He, Chenxi Ma, Weimin Tan, Bo Yan

发表机构 * Shanghai Key Laboratory of Intelligent Information Processing（上海智能信息处理关键实验室）； School of Computer Science, Fudan University（复旦大学计算机科学学院）

AI总结本文提出了一种名为MicroWorld的框架，旨在解决多模态大语言模型在显微镜等专业微观领域表现不足的问题。该方法通过构建多模态属性图（MAPG）来增强模型的推理能力，无需特定领域的微调即可在推理阶段提升模型表现。实验表明，MicroWorld显著提升了Qwen3-VL-8B-Instruct在MicroVQA等基准上的性能，取得了当前最优结果，并展示了其在跨领域泛化能力上的优势。

Comments 29 pages, 14 figures

2605.10118 2026-05-12 cs.RO

Plan in Sandbox, Navigate in Open Worlds: Learning Physics-Grounded Abstracted Experience for Embodied Navigation

Zhixuan Shen, Jiawei Du, Ziyu Guo, Han Luo, Lilan Peng, Joey Tianyi Zhou, Haonan Luo, Tianrui Li

发表机构 * School of Computing and Artificial Intelligence, Southwest Jiaotong University, China（计算机与人工智能学院，西南交通大学，中国）； Centre for Frontier AI Research A*STAR, Singapore（前沿人工智能研究A*STAR中心，新加坡）； School of Computer Science, University of Leeds, UK（计算机科学学院，利兹大学，英国）

AI总结该研究旨在解决具身导航中视觉语言模型因缺乏真实世界数据而表现受限的问题，提出了一种基于物理约束语义抽象的框架SAGE。通过构建语义环境、强化学习训练及抽象策略到现实控制的迁移，SAGE实现了在简化物理抽象中学习并规划，最终在A-EQA数据集上取得了显著提升的导航成功率，并展示了良好的现实机器人部署迁移能力。

Comments 28 pages, 15 figures, Extended Version of accepted ICML 2026 Paper

2605.10117 2026-05-12 cs.CV cs.AI

Think as Needed: Geometry-Driven Adaptive Perception for Autonomous Driving

Donghyun Kim, Jaehyoung Park

发表机构 * Stony Brook University（史蒂文尼森布鲁克大学）

AI总结本文研究了自动驾驶场景中如何根据环境复杂度动态调整感知计算资源的问题。提出了一种名为Enhanced HOPE的自适应感知架构，通过无监督方法估计LiDAR帧的几何复杂度，并据此选择浅层或深层处理路径，从而在保证精度的同时提升计算效率。该方法还引入了线性时间的子空间注意力网络和持续的时序记忆模块，有效提升了对遮挡目标的跟踪能力，并在多个基准测试中表现出优越的性能。

2605.10115 2026-05-12 cs.LG cond-mat.mtrl-sci

Generating Symmetric Materials using Latent Flow Matching

Anmar Karmush, Cedric Mathieu Brandenburg, Soheil Ershadrad, Johanna Rosén, Michael Felsberg, Filip Ekström Kelvinius

发表机构 * Department of Electrical Engineering (ISY) & AI4x, Linköping University（电气工程系（ISY）及AI4x，利厄普大学）； Department of Physics, Chemistry and Biology (IFM), Linköping University（物理、化学与生物学系（IFM），利厄普大学）； Wallenberg Initiative Materials Science for Sustainability (WISE), Linköping University（可持续材料科学倡议（WISE），利厄普大学）； Department of Computer and Information Science (IDA), Linköping University（计算机与信息科学系（IDA），利厄普大学）

AI总结本文提出了一种名为SymADiT的对称感知材料生成模型，旨在改进现有的全原子扩散变换器（ADiT）。该方法基于Wyckoff位置对材料进行表征，并在潜在空间中进行生成建模，通过强制生成结果满足晶体空间群和原子Wyckoff位置的对称性约束，从而生成具有更真实对称特性的材料。实验表明，SymADiT在生成稳定且对称的材料方面表现出与现有模型相当甚至更优的性能。

Comments Preprint

2605.10114 2026-05-12 cs.CL

SkillRAE: Agent Skill-Based Context Compilation for Retrieval-Augmented Execution

Xiangcheng Meng, Shu Wang, Yixiang Fang

发表机构 * The Chinese University of Hong Kong, Shenzhen（香港中文大学（深圳））

AI总结 SkillRAE 是一种基于技能的上下文编译方法，旨在提升检索增强执行（RAE）在复杂任务中的表现。该方法分为离线和在线两个阶段，离线阶段构建多级技能图谱以捕捉技能之间的关系，在线阶段通过技能排序检索和关键证据编译生成紧凑、可靠且易于使用的任务上下文。实验表明，SkillRAE 在多个基准测试中显著优于现有方法，展示了其在上下文编译方面的有效性与重要性。

2605.07846 2026-05-12 cs.CV

BRIDGE: Background Routing and Isolated Discrete Gating for Coarse-Mask Local Editing

Peilin Xiong, Honghui Yuan, Junwen Chen, Keiji Yanai

发表机构 * Department of Informatics, The University of Electro-Communications（信息学系，电通大学）

AI总结本文研究了粗粒度掩码局部图像编辑中因掩码形状偏差导致的编辑区域边界失真问题，提出了一种名为BRIDGE的方法。该方法通过将掩码分离于DiT主干网络之外，并引入可学习的离散几何门控机制，实现背景稳定与编辑区域灵活生成的双重约束。实验表明，BRIDGE在多个基准测试中显著提升了编辑质量，同时保持了模型的轻量化特性。

Comments 11 pages, 6 figures

2605.07820 2026-05-12 cs.LG

Scaling Categorical Flow Maps

Oscar Davis, Anastasiia Filippova, Pierre Ablin, Victor Turrisi, Amitis Shidani, Marco Cuturi, Louis Béthune

发表机构 * Apple, University of Oxford（苹果公司，牛津大学）

AI总结本文研究了如何扩展分类流图（CFMs）在大规模语言建模中的应用，提出了一种基于1.7B参数的流模型，并通过自蒸馏方法将其转化为能够在4步内生成高质量文本的CFM。该方法在保持接近数据级词元熵的同时，实现了与离散扩散模型相当的性能。此外，作者还引入了半离散设置下的似然界，并探讨了大规模训练中出现的挑战及损失权重和时间调度的优化策略。

Comments Minor style changes

2605.07786 2026-05-12 cs.CV cs.AI

APEX: Assumption-free Projection-based Embedding eXamination Metric for Image Quality Assessment

Caterina Gallegati, Monica Bianchini, Franco Scarselli, Vittorio Murino, Barbara Toniella Corradini

发表机构 * University of Siena（锡耶纳大学）； AI for Good (AIGO), Istituto Italiano di Tecnologia（AI for Good（AIGO），意大利理工学院）； University of Verona（威尼斯大学）

AI总结随着生成模型在视觉质量上取得突破，传统的基于特征分布的图像评估指标（如FID）仍被视为黄金标准，但其受到过时特征和参数化假设的限制。为解决这些问题，本文提出APEX，一种基于切片沃谢尔距离的无假设嵌入评估框架，无需依赖特定参数形式，且能兼容多种嵌入模型，如CLIP和DINOv2。实验表明，APEX在高维空间中具有良好可扩展性，对视觉退化具有更强鲁棒性，并在跨数据集评估中表现出高度稳定性。

2605.07575 2026-05-12 cs.CV cs.AI

Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding

Ke Ma, Jiaqi Tang, Bin Guo, Xueting Han, Ruonan Xu, Qingfeng He, Ziheng Wang, Xu Wang, Qifeng Chen, Zhiwen Yu, Yunhao Liu

发表机构 * Northwestern Polytechnical University（北华大学）； Tsinghua University（清华大学）； The Hong Kong University of Science and Technology（香港科技大学）； Harbin Engineering University（哈尔滨工程大学）

AI总结本文提出了一种名为Response-G1的新型框架，旨在解决流媒体视频理解中主动响应时机判断的问题。该方法通过显式的场景图建模，将视频内容与查询响应条件进行结构化对齐，从而提升响应决策的准确性和可解释性。框架包含三个无需微调的阶段，包括在线生成场景图、基于记忆的语义检索以及增强触发提示，实验表明其在主动和被动任务中均优于现有方法。

Comments Accepted to ACL 2026

2605.07574 2026-05-12 cs.CV

PolarVLM: Bridging the Semantic-Physical Gap in Vision-Language Models

Yuliang Li, Chu Zhou, Heng Guo, Boxin Shi, Imari Sato, Zhanyu Ma

发表机构 * Beijing University of Posts and Telecommunications, China（北京邮电大学）； National Institute of Informatics, Japan（日本国立信息机构）； Peking University, China（北京大学）； The University of Tokyo, Japan（东京大学）

AI总结主流的视觉-语言模型（VLMs）由于依赖标准RGB输入，在处理反射、透明物体等光学模糊场景时存在显著困难。为解决这一问题，本文提出PolarVLM，首个将偏振物理参数融入VLM的多模态框架，通过双流架构和渐进式训练策略，有效避免物理误判并保持通用视觉能力。同时，研究构建了首个面向偏振感知的视觉问答基准PolarVQA，实验表明PolarVLM在多个任务上显著优于RGB基线，尤其在反射识别和玻璃计数任务中提升明显。

Comments 23 pages, 12 figures, including appendices

2605.07429 2026-05-12 cs.CV

Towards Photorealistic and Efficient Bokeh Rendering via Diffusion Framework

Linxiao Shi, Siming Zheng, Zerong Wang, Hao Zhang, Jinwei Chen, Bo Li, Shifeng Chen, Peng-Tao Jiang

发表机构 * Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences（深圳先进技术研究院，中国科学院）； vivo BlueImage Lab, vivo Mobile Communication Co., Ltd.（vivo BlueImage实验室，vivo移动通信有限公司）； Shenzhen University of Advanced Technology（深圳大学）

AI总结现有移动设备由于光学设计限制，难以生成自然的光学景深效果。为解决这一问题，本文提出 MagicBokeh，一种基于扩散框架的统一方法，能够高效生成高质量的逼真景深效果。该方法通过替代训练策略和聚焦感知的掩码注意力机制，联合优化景深渲染与超分辨率，显著提升了控制精度和视觉真实感，并引入退化感知深度模块以提升低质量输入的深度估计准确性。实验表明，MagicBokeh 能在真实低分辨率图像上高效生成高度逼真的景深效果，为未来景深渲染研究提供了新方向。

Comments Accepted by CVPR 2026

2605.07384 2026-05-12 cs.LG

StreamPhy: Streaming Inference of High-Dimensional Physical Dynamics via State Space Models

Panqi Chen, Yifan Sun, Shikai Fang, Xiao Fu, Lei Cheng

发表机构 * College of Information Science and Electronic Engineering, Zhejiang University（浙江大学信息科学与电子工程学院）； School of EECS,Oregon State University（俄勒冈州立大学电子工程与计算机科学学院）

AI总结 StreamPhy 是一个用于从不规则稀疏测量数据中实时推断高维物理场动态的端到端框架。该方法结合了自适应观测编码器、结构化状态空间模型和高效的 FT-FiLM 解码器，能够在不规则时间间隔下实现内存高效的在线更新与高精度场生成。研究证明 FT-FiLM 在表达能力上优于传统函数张量模型，并在多个物理系统实验中展现出比现有方法更高的准确性和更快的推理速度。

2605.07177 2026-05-12 cs.LG cs.AI

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

Guankai Li, Jiabin Chen, Yi Xu, Xichen Zhang, Yuan Lu

发表机构 * Xiaohongshu Inc.（小红书公司）； University of Cambridge（剑桥大学）

AI总结现有的多模态搜索代理通常按顺序处理目标实体，导致在查询分解为多个独立检索任务时产生冗余的交互轮次。为此，本文提出HyperEyes，一种基于双粒度效率感知强化学习的并行多模态搜索代理，通过将视觉定位与检索融合为单一原子操作，实现对多个实体的并发搜索，并将推理效率作为核心训练目标。HyperEyes采用两阶段训练策略，结合平行可用数据合成管道和双粒度强化学习框架，有效提升了搜索效率与准确性，并引入了兼顾搜索能力与效率的新型评估基准IMEB。

Comments Code & Data: https://github.com/DeepExperience/HyperEyes

2605.06856 2026-05-12 cs.LG cs.CL

Benchmarked Yet Not Measured -- Generative AI Should be Evaluated Against Real-World Utility

Ishani Mondal, Shweta Bhardwaj

发表机构 * University of Maryland, College Park（马里兰大学学院公园分校）

AI总结该论文指出，尽管生成式AI系统在标准基准测试中表现优异，但在实际应用场景中却难以发挥实际效用，这一问题在教育、医疗、软件工程和法律等28个部署案例中均有体现。研究认为，当前评估方法存在代理替代、时间坍缩和分布隐藏等缺陷，导致评估结果与实际效用脱节。为此，论文提出了一种新的评估框架SCU-GenEval，强调应基于人类目标和情境，通过长期交互效果来衡量AI系统的实际价值，并引入了多项实用工具以支持该评估范式的落地实施。

Comments 20 pages

2605.06644 2026-05-12 cs.LG

Edge-specific signal propagation on mature chromophore-region 3D mechanism graphs for fluorescent protein quantum-yield prediction

Yuchen Xiong, Swee Keong Yeap, Steven Aw Yoong Kit

发表机构 * China-ASEAN College of Marine Sciences（中国-东盟海洋科学学院）

AI总结该研究提出了一种基于成熟染料区域三维结构的机制图算法，用于预测荧光蛋白的量子产率。方法将蛋白质结构转化为分区域的三维残基图，并通过信号通道传播捕捉局部物理信号对染料区域的影响，结合121个特征进行回归预测。该方法在多个基准测试中表现出色，尤其在远程同源蛋白中优于现有模型，揭示了不同荧光蛋白的区域特异性机制。

Comments Includes appendix; source code, processed feature tables and evaluation scripts are available from the first author upon reasonable request

2605.06366 2026-05-12 cs.LG

Layer Collapse in Diffusion Language Models

Alexander Conzelmann, Albert Catalan-Tatjer, Shiwei Liu

发表机构 * Tübingen AI Center（图宾根人工智能中心）； Max Planck Institute for Intelligent Systems（马克斯·普朗克智能系统研究所）； ELLIS Institute Tübingen（图宾根ELLIS研究所）

AI总结本文研究了扩散语言模型（DLMs）中出现的“层坍缩”现象，发现其早期层的激活模式高度相似，且由一个主导的超级异常值主导，这一结构在长文本范围内保持稳定。尽管该异常值看似冗余，但对模型输出至关重要，去除会导致输出退化为重复的随机序列。研究还表明，DLMs的冗余分布与自回归模型相反，其冗余主要集中在浅层，且层坍缩是由过度训练而非欠训练引起的，这对模型压缩和部署具有重要实践意义。

Comments 9 Pages, Preprint

2605.06042 2026-05-12 cs.RO

Accurate Trajectory Tracking with MPCC for Flapping-Wing MAVs

Charbel Toumieh, Jack Zeng, Niel Mistry, Dario Floreano

发表机构 * Laboratory of Intelligent Systems, Ecole Polytechnique Federale de Lausanne (EPFL)（智能系统实验室，瑞士联邦理工学院（EPFL））

AI总结本文研究了扑翼式微型飞行器（MAVs）的高精度轨迹跟踪问题，针对其升力、空速和转向高度耦合且控制输入有限的特点，提出了基于模型预测轮廓控制（MPCC）的控制方法。该方法采用弧长参数化轨迹，实时优化飞行进度，无需预设时间剖面，同时设计了一个紧凑且连续可微的动力学模型，以准确描述扑翼飞行器的耦合气动特性。实验表明，该方法在复杂三维轨迹跟踪中实现了厘米级的轨迹偏差，显著优于现有方法。

Comments 7 pages, 6 figures

AI 大模型

视觉与机器人

科学与医疗