arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.10500 2026-05-12 cs.AI

SkillEvolver: Skill Learning as a Meta-Skill

Genrui Zhang, Erle Zhu, Jinfeng Zhou, Caiyan Jia, Hongning Wang

发表机构 * Tsinghua University（清华大学）； Beijing Jiaotong University（北京交通大学）

AI总结当前智能体技能大多是静态生成的，一旦创建便无法根据实际使用情况进行改进。本文提出了一种名为 SkillEvolver 的轻量级在线技能学习方法，通过一个元技能迭代生成、部署并优化领域特定技能，使技能能够持续进化。该方法直接学习技能的描述与代码，而非模型参数，使得生成的技能可直接用于任意智能体而无需重新训练。实验表明，SkillEvolver 在多个任务中显著优于人工编写技能和无技能基线。

2605.10498 2026-05-12 cs.CV cs.AI stat.ML

Simultaneous Long-tailed Recognition and Multi-modal Fusion for Highly Imbalanced Multi-modal Data

Heegeon Yoon, Heeyoung Kim

发表机构 * Department of Industrial and Systems Engineering, Korea Advanced Institute of Science and Technology (KAIST)（工业与系统工程系，韩国科学技术院（KAIST））

AI总结该研究针对高度不平衡的多模态数据，提出了一个同时处理长尾识别与多模态融合的新框架。该方法通过引入多专家架构，结合模态特异性网络估计各模态的信息量，并利用置信度引导的权重动态调整融合过程，从而更有效地整合多源数据。实验表明，该方法在多个基准和真实数据集上优于现有方法，展示了其在长尾分类任务中的鲁棒性和泛化能力。

2605.10494 2026-05-12 cs.SD cs.AI

Multi-layer attentive probing improves transfer of audio representations for bioacoustics

Marius Miron, David Robinson, Masato Hagiwara, Titouan Parcollet, Jules Cauzinille, Gagan Narula, Milad Alizadeh, Ellen Gilsenan-McMahon, Sara Keen, Emmanuel Chemla, Benjamin Hoffman, Maddie Cusimano, Diane Kim, Felix Effenberger, Jane K. Lawton, Aza Raskin, Olivier Pietquin, Matthieu Geist

发表机构 * Earth Species Project（地球物种项目）

AI总结本文研究了不同探针策略对生物声学任务中音频表征迁移性能的影响，提出使用多层注意力探针可以更有效地利用时间信息，提升模型在下游任务中的表现。研究对比了线性探针和注意力探针在多个生物声学基准上的性能，发现多层探针优于传统的单层探针，尤其在Transformer模型中，注意力探针显著优于线性探针。该工作为评估和提升音频表征的可迁移性提供了新的方法和见解。

2605.10488 2026-05-12 cs.CL cs.AI

DeepRefine: Agent-Compiled Knowledge Refinement via Reinforcement Learning

Haoyu Huang, Jiaxin Bai, Shujie Liu, Yang Wei, Hong Ting Tsang, Yisen Gao, Zhongwei Xie, Yufei Li, Yangqiu Song

发表机构 * HKUST（香港科技大学）； HKBU（香港大学）； Microsoft Research Asia Hong Kong（微软亚洲研究院（香港））

AI总结 DeepRefine 是一种基于大型语言模型的推理方法，旨在提升智能体编译知识库的质量，以更好地支持开放场景下的下游任务。该方法通过与知识库进行多轮交互，进行归因诊断，定位潜在缺陷并执行针对性的优化操作，从而实现知识库的逐步完善。为了在没有标准答案的情况下优化优化策略，DeepRefine 引入了“超越草稿收益”奖励机制，并通过强化学习进行端到端训练，实验表明其在多个任务上均优于现有方法。

2605.10485 2026-05-12 cs.RO

VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models

Hao Wang, Xiaobao Wei, Jingyang He, Chengyu Bai, Chun-Kai Fan, Jiajun Cao, Jintao Chen, Ying Li, Shanyu Rong, Ming Lu, Xiaozhu Ju, Jian Tang, Shanghang Zhang

发表机构 * Peking University（北京大学）； Beijing Innovation Center of Humanoid Robotics（北京人形机器人创新中心）

AI总结 VEGA 是一种用于提升视觉-语言-动作（VLA）模型空间感知能力的框架，旨在解决当前模型因缺乏三维几何监督而导致的空间理解不足问题。该方法通过将 VLA 模型的视觉编码器输出与基于多视角一致的三维高斯点云监督训练的 DINOv2-FiT3D 模型特征对齐，实现更准确和可解释的空间感知对齐。VEGA 在视觉编码器输出层进行对齐，避免了语言语义的干扰，且对齐模块在推理时被移除，不增加额外计算负担，实验表明其在模拟和现实任务中均优于现有方法。

2605.10484 2026-05-12 cs.CV cs.RO

OpenSGA: Efficient 3D Scene Graph Alignment in the Open World

Gang Chen, Sebastián Barbas Laina, Stefan Leutenegger, Javier Alonso-Mora

发表机构 * Autonomous Multi-Robots Lab, Department of Cognitive Robotics, School of Mechanical Engineering, Delft University of Technology, 2628 CD, Delft, Netherlands（代尔夫特理工大学机械工程学院认知机器人学系自主多机器人实验室）； Mobile Robotics Lab, School of Computation, Information and Technology, Technical University of Munich（慕尼黑技术大学计算、信息与技术学院移动机器人实验室）

AI总结本文提出了一种名为 OpenSGA 的高效三维场景图对齐框架，旨在解决机器人在开放环境中重新访问场景时的物体级定位与地图融合问题。该方法通过融合视觉-语言、文本和几何特征，并结合空间上下文信息，实现了即使在坐标偏差较大的情况下也能准确对齐场景图。此外，作者还构建了一个大规模数据集 ScanNet-SG，包含超过 70 万样本和丰富的物体类别，显著提升了场景图对齐任务的训练与评估能力。实验表明，该方法在帧到扫描（F2S）和子扫描到子扫描（S2S）任务中均取得了最佳性能。

Comments 13 figures

2605.10480 2026-05-12 cs.AI

ASIA: an Autonomous System Identification Agent

Dario Piga, Marco Forgione

发表机构 * Dalle Molle Institute for Artificial Intelligence (IDSIA), SUPSI（达勒莫利人工智能研究所（IDSIA），SUPSI）

AI总结本文提出了一种名为ASIA的自主系统识别代理框架，旨在自动化系统识别过程中的模型选择、算法训练和超参数调优等繁琐任务。该方法基于大型语言模型作为自主编码代理，通过自然语言描述问题，无需人工干预即可完成从假设生成到模型评估的闭环流程。研究在两个系统识别基准上验证了ASIA的有效性，分析了其搜索行为与发现的模型结构，并探讨了该方法的潜力及当前存在的测试泄露、透明度降低和可复现性等局限。

2605.10474 2026-05-12 cs.LG cs.AI

Formally Verifying Analog Neural Networks Under Process Variations Using Polynomial Zonotopes

Yasmine Abu-Haeyeh, Tobias Ladner, Matthias Althoff, Lars Hedrich

发表机构 * Goethe University Frankfurt, Germany（法兰克福歌德大学，德国）； Technical University of Munich, Germany（慕尼黑技术大学，德国）

AI总结本文研究了模拟神经网络在制造工艺变化下的行为验证问题，提出了一种基于多项式的方法来建模神经元电路的性能变化，并利用多项式zonotope进行可达性分析，从而实现了对电路级模型的正式验证。该方法有效避免了传统的耗时蒙特卡洛仿真，实验表明其能在秒级时间内验证99%的工艺变化样本，显著提升了验证效率。

2605.10470 2026-05-12 cs.CV

Adaptive Context Matters: Towards Provable Multi-Modality Guidance for Super-Resolution

Jinyi Luo, Minghao Liu, Yifan Li, Zejia Fan, Jiaying Liu

发表机构 * Wangxuan Institute of Computer Technology, Peking University（北京大学王轩计算机技术研究院）

AI总结超分辨率（SR）是一个严重病态的问题，存在固有的歧义性。本文首次对多模态超分辨率进行了理论建模，揭示了现有方法在模态利用上的不足，并提出了一种基于动态模态融合的多模态专家混合超分辨率框架（M$^3$ESR），通过空间动态模态权重模块和时间自适应模态温度调度机制，实现了更精确的风险控制和模态贡献优化。实验表明，该方法在泛化能力和语义一致性方面均有显著提升。

2605.10468 2026-05-12 cs.LG

Can Muon Fine-tune Adam-Pretrained Models?

Xingyu Qu, Peigeng Huang, Samuel Horvath

发表机构 * Nanjing University（南京大学）

AI总结本文研究了在微调预训练模型时使用Muon优化器替代Adam所带来的性能下降问题。通过实验分析，作者发现这种性能下降源于优化器之间的隐式偏差不匹配，并提出通过限制更新幅度（如使用LoRA方法）可以有效缓解这一问题。研究结果为理解优化器不匹配对微调的影响提供了新见解，并展示了如何通过调整更新策略来减轻其负面影响。

2605.10466 2026-05-12 cs.LG

Self-Attention as a Covariance Readout: A Unified View of In-Context Learning and Repetition

Haoren Xu, Guanhua Fang

发表机构 * Fudan University（复旦大学）

AI总结该论文探讨了大语言模型在上下文学习（ICL）和重复生成中的行为，揭示了其背后的统一机制。研究指出，当输入满足特定统计条件时，自注意力机制的输出可近似为输入协方差矩阵的线性读取，从而解释了模型在处理长上下文时对统计信息的提取与细节的遗忘。这一机制不仅能够实现单步的群体梯度下降，还为重复生成提供了结构化的解释，将两种看似无关的现象统一于协方差读取的原理之下。

2605.10464 2026-05-12 cs.CV

Automated Detection of Abnormalities in Zebrafish Development

Sarath Sivaprasad, Hui-Po Wang, Anna-Lisa Jäckel, Jonas Baumann, Carole Baumann, Jennifer Herrmann, Mario Fritz

发表机构 * CISPA Helmholtz Center for Information Security（CISPA海德堡信息安全中心）； Helmholtz Institute for Pharmaceutical Research Saarland（萨尔兰州制药研究所海德堡中心）

AI总结本文提出了一种用于斑马鱼胚胎发育异常自动检测的方法，针对目前依赖人工评估效率低的问题，构建了一个包含高分辨率显微图像序列的大型数据集，涵盖正常发育和药物暴露两种条件，并提供了细粒度时间标注。研究还引入了基于Transformer的模型，能够融合时空特征以早期预测发育异常，在受精卵存活率分类和毒性评估任务中分别达到98%和92%的准确率，为自动化斑马鱼毒性分析提供了有效工具。

2605.10462 2026-05-12 cs.CL cs.LO

Coherency through formalisations of Structured Natural Language, A case study on FRETish

Joost J. Joosten, Marina López Chamosa, Sofía Santiago Fernández

发表机构 * Universitat de Barcelona（巴塞罗那大学）； Centre de Recerca Matemàtica（数学研究中心）； Formal Vindications S.L.（Formal Vindications公司）

AI总结本文提出了一种新的形式化指南——“通过形式化实现一致性”，主张在将自然语言需求转化为形式化语言的过程中，不同层次的描述应保持逻辑结构的一致性。研究以NASA的FRET工具和其控制自然语言FRETish为案例，提出了一种将其自动翻译为MTL形式化语言的新方法，并通过模型检测证明了其与原有翻译的等价性。实验统计结果显示新翻译具有优势，同时揭示了形式化过程中存在的不一致问题，为形式化方法的改进提供了新思路。

2605.10458 2026-05-12 cs.LG cond-mat.mtrl-sci physics.chem-ph

QT-Net: Rethinking Evaluation of AI Models in Atomic Chemical Space

Pablo Martínez Crespo, Stefano Ribes, Martin Rahm, Richard Beckmann, Robert S. Jordan, Marisa Gliege, Santiago Miret, Vijay Kris Narasimhan, Rocío Mercado

发表机构 * Department of Computer Science and Engineering（计算机科学与工程系）； Chalmers University of Technology（楚姆勒技术大学）； University of Gothenburg（哥德堡大学）； Department of Chemistry and Chemical Engineering（化学与化工系）； Technology Research（技术研究部）； Intel Corporation（英特尔公司）； Chief Technology Office（首席技术办公室）； EMD Electronics（EMD电子公司）； Lila Sciences（Lila科学）； M Ventures（M资本）

AI总结该研究针对原子尺度上AI模型的评估问题，提出了一种基于SOAP描述符的留出评估协议，用于更准确地评估机器学习模型在预测原子电荷和多极矩等化学特性时的泛化能力。通过严格的交叉验证和统计检验，作者比较了E(3)-等变模型与非等变模型的性能，并基于结果提出了旋转增强的非等变图神经网络QT-Net。该模型能够从QM9数据集外的分子中推断原子属性，并有效提升下游分子性质预测任务的性能，为原子尺度分子机器学习提供了新的归纳偏置。

2605.10456 2026-05-12 cs.RO

Learning Point Cloud Geometry as a Statistical Manifold: Theory and Practice

Jinwoo Lee, Jiwoo Kim, Woojae Shin, Giseop Kim, Hyondong Oh

发表机构 * Korea Advanced Institute of Science and Technology (KAIST)（韩国科学技术院）； Daegu Gyeongbuk Institute of Science and Technology (DGIST)（大邱庆北科学技术院）

AI总结该论文研究了如何从稀疏且不规则的激光雷达点云中学习几何结构，提出了一个基于统计流形的数学建模方法。核心思想是将每个点的局部几何结构建模为高斯分布，从而构建出一个统计流形表示。基于此，作者设计了Point-to-Ellipsoid（POLI）方法，通过自监督学习从点云中预测每个点的高斯几何参数，无需标注数据即可实现鲁棒的几何估计，并在多个机器人感知任务中取得了显著性能提升。

2605.10455 2026-05-12 cs.LG

AxiomOcean: Forecasting the Three-Dimensional Structure of the Upper Ocean

Sensen Wu, Yifan Chen, Guantao Pu, Xiaoyao Sun, Yijun Chen, Jin Qi, Ming Kong, Keyi Yang, Lichen Xu, Wenguan Wang, Xiaofeng Li, Zhenhong Du

发表机构 * School of Earth Sciences & Zhejiang Key Laboratory of Geographic Information Science, Zhejiang University（地球科学学院及浙江省地理信息科学重点实验室，浙江大学）； State Key Laboratory of Ocean Sensing, Zhejiang University（海洋感知国家重点实验室，浙江大学）； The State Key Lab of Brain-Machine Intelligence, Zhejiang University（脑机智能国家重点实验室，浙江大学）； Key Laboratory of Ocean Circulation and Waves, Institute of Oceanology, Chinese Academy of Sciences（海洋环流与波浪重点实验室，中国科学院海洋研究所）

AI总结 AxiomOcean 是一个全球人工智能海洋预测模型，旨在提升对上层海洋三维结构的预报能力。该模型通过引入全三维编码-主干-解码架构，显式表示水柱中的垂直分层和跨层依赖关系，结合海面大气强迫信息，联合预测温度、盐度及三维洋流等变量。实验表明，AxiomOcean 在10天预报中显著优于现有先进模型，降低了约20%至35%的均方根误差，同时保持更高的异常相关性，且在涡动能、温度和盐度方差等方面具有更好的保持能力，提升了预报的物理一致性与准确性。

2605.10453 2026-05-12 cs.LG cs.CL

SlimSpec: Low-Rank Draft LM-Head for Accelerated Speculative Decoding

Anton Plaksin, Sergei Krutikov, Sergei Skvortsov, Alexander Samarin

发表机构 * Nebius

AI总结本文提出SlimSpec，一种用于加速推测解码的低秩语言模型头部（LM-head）参数化方法。该方法通过压缩草案模型的内部表示而非输出词汇表，有效降低了计算瓶颈，同时保持完整的词汇支持。实验表明，SlimSpec在多种目标模型和基准测试中实现了比标准LM-head架构4到5倍的加速，并在端到端速度提升上优于现有方法8%到9%。该方法对训练和推理流程的调整需求极小，适用于多种草案LM-head架构。

2605.10451 2026-05-12 cs.LG cs.NA math.FA math.NA

Don't Fix the Basis -- Learn It: Spectral Representation with Adaptive Basis Learning for PDEs

Xuxiang Zhao, Angelica I. Aviles-Rivero

发表机构 * Qiuzhen College, Tsinghua University（清华大学求真学院）； YMSC, Tsinghua University（清华大学数学科学中心）

AI总结该研究针对偏微分方程（PDE）学习中传统谱神经算子依赖固定基函数、难以有效捕捉空间异质性和多尺度动态的问题，提出了一种自适应基学习框架ABLE。ABLE通过学习数据相关的谱表示，构建空间自适应的Parseval框架，使算子在提升的谱空间中高效运作，同时保持可逆性和$O(N\log N)$复杂度。实验表明，ABLE在多个基准任务中提升了模型精度，尤其在梯度陡峭和多尺度场景下表现突出，并可作为模块化组件增强现有神经算子架构。

Comments 26 pages, 4 figures

2605.10449 2026-05-12 cs.CV

Automated high-frequency quantification of fish communities and biomass using computer vision

Kota Ishikawa, Takuma Masui, Keita Koeda, Rickdane Gomez, Lucas Yutaka Kimura, Michio Kondoh

发表机构 * Graduate School of Life Sciences, Tohoku University（东北大学生命科学研究生院）； Advanced Institute for Marine Ecosystem Change (WPI-AIMEC), Tohoku University（东北大学海洋生态系统变化先进研究所）； Graduate School of Science and Engineering, University of the Ryukyus（冲绳大学理学研究院）； Faculty of Science, University of the Ryukyus（冲绳大学理学部）

AI总结该研究提出了一种基于计算机视觉的自动化方法，用于高频量化水下鱼类群落结构和生物量。方法结合了深度学习鱼类识别、多目标跟踪和三维重建技术，能够从立体摄像系统采集的视频中准确估计鱼类的种类、数量及生物量。研究在珊瑚礁鱼类群落中进行了20天的连续监测，展示了该方法在捕捉物种丰富度、数量和生物量动态变化方面的优势，并验证了其在非侵入性、持续性监测中的有效性。

Comments 21 pages, 3 figures, supplementary information under Ancillary files

2605.10448 2026-05-12 cs.AI

Can Agent Benchmarks Support Their Scores? Evidence-Supported Bounds for Interactive-Agent Evaluation

Shanshan Gao, Liyi Zhou

发表机构 * The University of Sydney（悉尼大学）

AI总结本文探讨了交互式智能体基准测试中评分的可靠性问题，指出当前基准测试往往依赖于表面信号而非实际行为路径，导致评分可能不准确。为此，作者提出了一种无需修改任务、智能体或评估者的新方法——引入一个结果证据报告层，用于明确验证所需证据、标记运行结果的证据状态，并报告支持证据的评分范围以反映不确定性。实验表明，该方法在多个公开基准上有效区分了不同类型的失败模式，提升了评估的透明度和可信度。

2605.10445 2026-05-12 cs.CV

Uni-Synergy: Bridging Understanding and Generation for Personalized Reasoning via Co-operative Reinforcement Learning

Zijun Shen, Sihan Yang, Ruichuan An, Ziyu Guo, Hao Liang, Ming Lu, Renrui Zhang, Wentao Zhang

发表机构 * Peking University（北京大学）； Nanjing University（南京大学）； CUHK（香港中文大学）； Zhongguancun Academy（中关村学院）

AI总结本文提出了一种名为Sync-R1的端到端强化学习框架，旨在通过协同优化实现个性化理解和生成之间的桥梁。该方法引入了Sync-GRPO和动态组缩放（DGS）技术，以增强多任务间的协同效应并提升训练效率，同时构建了更贴近现实场景的UnifyBench++数据集。实验表明，Sync-R1在跨任务推理和个性化生成方面表现出色，且无需复杂的冷启动流程。

2605.10439 2026-05-12 cs.CV

Filtering Memorization from Parameter-Space in Diffusion Models

Yu Zhe, Yang Jiayan, Wei Junhao, Yu-Lin Tsai, Wang Chen

发表机构 * RIKEN AIP（理化学研究所Advanced Institute for Peripheral Research）； Science of Tokyo（东京科学大学）； University of California, Berkeley（加州大学伯克利分校）； Zhejiang University（浙江大学）

AI总结本文研究了扩散模型中低秩适配（LoRA）模块可能记住训练图像的问题，导致生成内容泄露受版权保护或敏感信息。为此，作者提出了一种无需训练和数据的后处理方法——Base-Anchored Filtering（BAF），通过分解LoRA更新为频谱通道，并衡量其与预训练主干网络主子空间的对齐程度，从而过滤掉可能包含记忆内容的通道。实验表明，BAF在多个数据集和扩散模型主干上有效减少了记忆效应，同时保持或提升了生成质量。

2605.10438 2026-05-12 cs.LG cs.CV

Beyond Spatial Compression: Interface-Centric Generative States for Open-World 3D Structure

Xiang Chen, Alexander Binder

发表机构 * DSC ScaDS.AI, Leipzig University（DSC ScaDS.AI，莱比锡大学）； Institute for Cancer Genetics and Informatics (ICGI), Oslo, Norway（癌症遗传学与信息学研究所（ICGI），奥斯陆，挪威）； ICT Cluster, Singapore Institute of Technology, Singapore（信息科技集群，新加坡理工学院，新加坡）

AI总结当前3D编码器大多将表示视为空间压缩，虽然能重建表面几何，但无法明确组件归属和连接有效性。本文提出一种以接口为中心的生成状态表示方法，将编码过程构建为可操作的状态而非被动压缩代码，使得局部几何、组件归属和连接有效性在解码过程中可被查询、约束和修复。通过引入组件条件的局部规范标记（C2LT-3D），该方法在开放世界多组件场景中提升了结构鲁棒性，并展示了其潜在状态在装配级结构推理中的有效性。

2605.10434 2026-05-12 cs.CV

WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors

Keming Wu, Yijing Cui, Wenhan Xue, Qijie Wang, Xuan Luo, Zhiyuan Feng, Zuhao Yang, Sudong Wang, Sicong Jiang, Haowei Zhu, Zihan Wang, Ping Nie, Wenhu Chen, Bin Wang

发表机构 * Tsinghua University（清华大学）； Nanyang Technological University（南洋理工大学）； University of Waterloo（滑铁卢大学）； Hong Kong University of Science and Technology (Guangzhou)（香港科学与技术大学（广州））

AI总结本文提出WorldReasonBench，用于评估视频生成模型作为未来世界状态预测器的能力，重点检验其在物理、社会、逻辑和信息一致性方面的推理能力。该基准包含436个结构化测试案例，并采用人类对齐的两阶段评估方法，分别验证推理过程和视频质量。研究揭示了当前视频生成模型在视觉合理性与世界推理能力之间存在显著差距，并提供了WorldRewardBench用于奖励模型评估，推动更真实的世界感知视频生成研究。

Comments Project Page: https://unix-ai-lab.github.io/WorldReasonBench/

2605.10419 2026-05-12 cs.CL cs.AI

Can Language Models Analyze Data? Evaluating Large Language Models for Question Answering over Datasets

Andreas Xenofontos, Pavlos Fafalios

发表机构 * School of Production Engineering and Management, Technical University of Crete（生产工程与管理学院，希腊克里特技术大学）； Institute of Computer Science, Foundation for Research and Technology - Hellas（计算机科学研究所，希腊基础研究与技术研究院）

AI总结本文研究了大型语言模型在数据集问答任务中的有效性，探讨了它们在直接回答数据集问题和根据数据库模式生成SQL查询两种场景下的表现。研究还评估了不同提示策略对模型性能的影响，并在两个包含不同难度问题的数据集上进行了实验。结果表明，大型语言模型表现出色，而小型、更节省资源的模型则存在明显局限，这些发现有助于更深入理解大语言模型在数据分析任务中的应用潜力与限制。

Comments Accepted for publication in CARMA 2026 proceedings

2605.10414 2026-05-12 cs.LG

Remember to Forget: Gated Adaptive Positional Encoding

Riccardo Ali, Alessio Borgi, Christopher Irwin, Mario Severino, Pietro Liò

发表机构 * Department of Computer Science and Technology, University of Cambridge（计算机科学与技术系，剑桥大学）； Department of Computer, Control and Management Engineering, Sapienza University（计算机、控制与管理工程系，萨皮恩扎大学）； Department of Information Engineering, University of Padova（信息工程系，帕多瓦大学）

AI总结该研究针对现代大语言模型中旋转位置编码（RoPE）在处理超出训练范围的长序列时出现的注意力偏差和检索性能下降问题，提出了一种新的位置编码方法——门控自适应位置编码（GAPE）。GAPE 通过引入内容感知的注意力偏差，在保持旋转几何结构的同时，利用查询门和键门分别抑制无关上下文和保留重要远距离信息，从而提升长上下文下的注意力聚焦能力和模型鲁棒性。实验表明，GAPE 在合成检索和长上下文基准测试中均优于传统旋转位置编码方法。

2605.10410 2026-05-12 cs.LG

Equilibrium Residuals Expose Three Regimes of Matrix-Game Strategic Reasoning in Language Models

Wenhua Nie, Binhan Luo, Zijie Meng, Jyh-Shing Roger Jang, Ching-Wen Ma

发表机构 * National Taiwan University（国立台湾大学）

AI总结该研究探讨了大型语言模型在矩阵博弈中的战略推理能力，发现模型在去除语义线索后表现显著下降。通过程序生成的零和矩阵博弈实验，研究揭示了模型在不同规模博弈中的三种推理模式，并证明利用收益残差进行训练可以在格式不稳定的条件下提升模型的泛化能力。实验还表明，通过监督微调和残差奖励训练，模型在未见过的较大规模博弈中的成功率大幅提升，揭示了战略推理能力的格式依赖性和改进潜力。

2605.10409 2026-05-12 cs.CV

Progressive Photorealistic Simplification

Adi Rosenthal, Dana Berman, Yedid Hoshen, Ariel Shamir

发表机构 * Reichman University and Google（里奇曼大学和谷歌）； Google Israel（谷歌以色列）； Hebrew University and Google（希伯来大学和谷歌）； Google（谷歌）

AI总结本文提出了一种渐进式光栅化简化方法，旨在在保持图像真实感的前提下减少视觉复杂度。该方法通过结合语义理解和生成编辑，利用视觉语言模型识别并优先移除图像中的元素，并通过学习验证器确保简化过程中的真实感和一致性。研究还进一步将该过程蒸馏为一个图像到视频生成模型，能够直接从单张图像生成连贯的简化序列，适用于内容感知去杂、语义分层分解等任务。

2605.10407 2026-05-12 cs.LG

Identified-Set Geometry of Distributional Model Extraction under Top-$K$ Censored API Access

Wenhua Nie, ZiCheng Zhu, Jianan Wu, Binhan Luo, Haoran Zheng, Jyh-Shing Roger Jang

发表机构 * National Taiwan University（国立台湾大学）

AI总结本文研究了在仅能获取顶部-$K$个logit分数的API访问模式下，对语言模型分布进行恢复的限制。通过分析截断阈值$τ$，作者确定了可兼容的教师分布构成的识别集，并给出了其总变分直径的精确表达式。实验表明，尽管顶部-$K$截断限制了每个位置的分布恢复能力，但并不妨碍对模型能力的提取，揭示了分布恢复与能力迁移之间的分离现象。

2605.10405 2026-05-12 cs.LG

Valid Best-Model Identification for LLM Evaluation via Low-Rank Factorization

Elad Tolochinsky, Yaniv Tenzer, Yaniv Romano

发表机构 * Department of Computer Science, Technion – Israel Institute of Technology（计算机科学系，技术离子理工学院）； Department of Electrical and Computer Engineering, Technion – Israel Institute of Technology（电气与计算机工程系，技术离子理工学院）

AI总结本文研究如何在有限资源下高效识别性能最佳的大型语言模型（LLM），提出了一种结合多臂老虎机（MAB）算法与低秩分解预测的框架。该方法通过利用低秩分解预测模型得分，减少对低效模型的评估次数，同时引入双重稳健估计器以保证统计有效性，从而在适应性模型选择和无放回采样场景下构建有效的置信区间。实验表明，该方法在实际基准测试中显著减少了评估次数，降低了计算和成本开销，同时仍能准确识别最佳模型。