arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.01288 2026-05-11 cs.LG cond-mat.dis-nn stat.ML

A Theory of Saddle Escape in Deep Nonlinear Networks

Divit Rawal, Michael R. DeWeese

AI总结本文研究了深度非线性网络在小初始化条件下训练过程中出现的长时间平坦期及突变特征获取现象。通过推导适用于任意平滑激活函数和可微损失函数的矩阵Frobenius范数不平衡恒等式，作者将激活函数分为四类通用类别，并在对称子流形上将矩阵演化简化为标量ODE，得出了临界深度逃逸时间与瓶颈层数相关的解析公式。理论结果与数值模拟高度一致，揭示了深度网络训练动态中瓶颈结构对逃逸时间的关键影响。

2605.00814 2026-05-11 cs.CV cs.AI

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Zefeng He, Muxin Fu, Daizong Liu, Wei-Long Zheng, Yu Cheng

AI总结尽管自回归的大型视觉-语言模型（LVLMs）在多模态任务中表现出色，但在生成过程中会出现“视觉信号稀释”现象，导致视觉注意力随着生成长度增加而衰减。为解决这一问题，本文提出了一种轻量可学习模块——持久视觉记忆（PVM），通过并行于前馈网络（FFN）的分支，建立一种与距离无关的视觉信息检索路径，从而增强模型对视觉信息的持续感知能力。实验表明，PVM在参数开销极小的情况下显著提升了模型性能，尤其在需要长期视觉感知的复杂推理任务中表现突出。

2605.00380 2026-05-11 cs.LG cs.CL

ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning

Zihan Lin, Xiaohan Wang, Jie Cao, Jiajun Chai, Li Wang, Xiaodong Lu, Wei Lin, Ran He, Guojun Yin

AI总结该论文提出了一种名为ResRL的新方法，旨在提升大语言模型的推理能力，同时保持生成多样性。ResRL通过引入负样本投影残差强化学习，将正负样本之间的语义分布解耦，并利用低秩正空间投影和梯度调制策略，在增强推理性能的同时避免多样性下降。实验表明，ResRL在多个基准任务中优于现有方法，尤其在数学推理任务上取得了显著提升。

Comments Accepted to ICML 2026. Preprint version. https://github.com/1229095296/ResRL.git

2604.26509 2026-05-11 cs.RO cs.CV

3D Generation for Embodied AI and Robotic Simulation: A Survey

Tianwei Ye, Yifan Mao, Minwen Liao, Jian Liu, Chunchao Guo, Dazhao Du, Quanxin Shou, Fangqi Zhu, Song Guo

AI总结本文综述了用于具身人工智能和机器人仿真中的3D生成技术，重点探讨了其在生成可交互对象、构建任务导向仿真环境以及促进仿真到现实迁移中的三大作用。研究指出，当前领域正从追求视觉真实转向注重交互能力，并指出了物理注释不足、几何质量与物理合理性不匹配等主要瓶颈问题。该综述为推动3D生成成为具身智能可靠基础提供了系统性分析与未来方向。

Comments 27 pages, 11 figures, 8 tables

2604.24013 2026-05-11 cs.LG cs.AI cs.CV cs.DC

CommFuse: Hiding Tail Latency via Communication Decomposition and Fusion for Distributed LLM Training

Rezaul Karim, Austin Wen, Wang Zongzuo, Weiwei Zhang, Yang Liu, Walid Ahmed

AI总结随着大语言模型规模的快速增长，分布式训练中的通信开销成为影响计算效率的主要瓶颈。本文提出了一种名为CommFuse的新方法，通过通信分解与融合技术，有效消除现有重叠策略中的尾部延迟问题。该方法将传统的集体通信操作替换为细粒度的点对点通信，并优化计算调度，从而在数据并行和张量并行场景下显著降低通信开销，提升模型训练的吞吐量和计算利用率。

Comments Slightly modified the title, and corresponding minor wording change in the content

2604.20403 2026-05-11 cs.LG

Robustness of Spatio-temporal Graph Neural Networks for Fault Location in Partially Observable Distribution Grids

Burak Karabulut, Carlo Manna, Chris Develder

AI总结本文研究了在部分可观测的配电网络中，时空图神经网络（STGNN）用于故障定位的鲁棒性问题。作者提出了一种基于测量节点构建图结构的新方法，并引入了基于GraphSAGE和改进的GATv2的STGNN模型，实验表明该方法在性能和训练效率上均优于传统RNN模型。研究还发现，仅使用测量节点构建的图结构能够显著提升模型效率和稳定性，为部分可观测配电网络的故障定位提供了更实用和鲁棒的解决方案。

2604.19697 2026-05-11 cs.CV

Unveiling Fine-Grained Visual Traces: Evaluating Multimodal Interleaved Reasoning Chains in Multimodal STEM Tasks

Jing Jin, Hao Liu, Yan Bai, Yihang Lou, Zhenke Wang, Tianrun Yuan, Juntong Chen, Yongkang Zhu, Fanhu Zeng, Xuanyu Zhu, Tao Feng, Yige Xu

AI总结该研究针对多模态大语言模型在STEM领域中的推理能力评估问题，提出了一个名为StepSTEM的细粒度基准测试，涵盖数学、物理、化学等283道研究生级别题目，强调跨模态推理过程的评估。该基准通过严格构建文本与视觉输入的互补性，并引入基于动态规划的步骤级评估框架，全面衡量模型的推理链表现。实验表明，当前主流模型仍主要依赖文本推理，跨模态能力仍有较大提升空间，StepSTEM为细粒度多模态推理研究提供了重要参考。

2604.15719 2026-05-11 cs.AI

Harnessing Pre-Resolution Signals for Future Prediction Agents

Chuyang Wei, Maohang Gao, Zhixin Han, Kefei Chen, Yu Zhuang, Haoxiang Guan, Yanzhi Zhang, Yilin Cheng, Xiren Zhou, Huanhuan Chen, Jian Li, Jiyan He, Yu Shi, Yitong Duan, Shuxin Zheng

AI总结本文研究了在结果尚未确定的情况下进行未来预测的问题，核心挑战在于监督信号仅在事后提供，难以指导预测过程中的关键判断。作者提出利用多次预测过程中产生的“预解决信号”来改进预测代理的判断能力，并设计了名为Milkyway的预测系统，通过持续更新的外部状态存储可复用的指导信息，从而在多次预测中不断优化预测结果。实验表明，该方法在多个基准测试中表现优异，其优势主要来源于预解决信号驱动的系统演化。

Comments Work in progress

2604.06333 2026-05-11 cs.LG cs.CV

Drifting Fields are not Conservative

Leonard T. Franz, Sebastian Hoffmann, Tim Weiland, Bernhard Schölkopf, Georg Martius

AI总结本文研究了漂移场（drift field）在生成模型中的性质，指出漂移场通常不是保守场，因此不能表示为任何标量势函数的梯度。作者发现非保守性的根源在于位置依赖的归一化操作，而高斯核是唯一的径向例外。为此，他们引入了尖锐核（sharp kernel）和对应的归一化漂移场，使其对于一般的径向核都成为保守场，从而可以使用梯度下降直接优化标量势函数，提升了模型的理论基础和生成性能。

2604.05777 2026-05-11 cs.AI

Emergent social transmission of model-based representations without inference

Silja Keßler, Miriam Bautista-Salinero, Claudio Tennie, Charley M. Wu

AI总结本文探讨了人们如何在有限认知能力下，通过他人获取丰富且灵活的环境知识。研究通过强化学习模拟表明，无需推断他人心理状态，仅通过观察行为并利用简单社会线索，即可间接传递高层表征。研究发现，基于模型的学习者在社会暴露下能更快学习并形成更接近专家的表征，揭示了文化传递可能源于非心智化的过程。

Comments Code available at https://github.com/skessler01/social-transmission-rl.git

2604.03147 2026-05-11 cs.CL cs.AI cs.CY

Valence-Arousal Subspace in LLMs: Circular Emotion Geometry and Multi-Behavioral Control

Lihao Sun, Lewen Yan, Xiaoya Lu, Andrew Lee, Jie Zhang, Jing Shao

AI总结本研究揭示了大语言模型中情感向量在二维“效价-唤醒”（VA）子空间中呈现出环形几何结构，并通过主成分分解和岭回归方法，恢复出与情感控制向量相关的VA轴。研究发现，沿这些轴进行情感引导可实现对生成文本情感属性的单调控制，并能同时双向调控下游行为（如拒绝和奉承）。实验在多个主流模型中复现，表明该方法具有普适性，且提出词汇中介机制解释其有效性。

2603.23198 2026-05-11 cs.LG cs.CL

Sparser, Faster, Lighter Transformer Language Models

Edoardo Cetin, Stefano Peluchetti, Emilio Castillo, Akira Naruse, Mana Murakami, Llion Jones

AI总结本文研究如何通过引入非结构化稀疏性来降低大型语言模型（LLM）的计算成本，重点优化前馈层的参数和计算效率。作者提出了一种新的稀疏打包格式和配套的CUDA内核，以适配现代GPU的优化执行流程，从而在推理和训练过程中实现高效的稀疏计算。实验表明，使用简单的L1正则化可以实现超过99%的稀疏度，且对模型性能影响极小，同时显著提升了模型的吞吐量、能效和内存使用效率。

Comments Code and checkpoints available at: https://github.com/SakanaAI/sparser-faster-llms

2603.15001 2026-05-11 cs.LG cs.AI

How Log-Barrier Helps Exploration in Policy Optimization

Leonardo Cesani, Matteo Papini, Marcello Restelli

AI总结本文研究了策略优化中探索机制的问题，指出现有的随机梯度老虎机（SGB）算法在收敛性保证上依赖于不现实的假设，因此提出通过引入对数障碍（log-barrier）正则化来增强策略的探索能力。该方法在保持样本复杂度的同时，能够在更一般的情况下保证收敛，并揭示了对数障碍与自然策略梯度之间的几何联系。实验验证了理论分析的有效性。

2603.09742 2026-05-11 cs.LG math.DS stat.ML

Upper Generalization Bounds for Neural Oscillators

Zifeng Huang, Konstantin M. Zuev, Yong Xia, Michael Beer

AI总结本文研究了源自二阶常微分方程的神经振荡器在学习复杂非线性结构系统动态映射时的泛化能力。通过Rademacher复杂度框架，推导了其在连续时间函数空间之间逼近因果和一致连续算子，以及逼近一致渐近增量稳定二阶动力系统的上界泛化界，并将其扩展到目标算子与神经振荡器输出之间的平方Wasserstein-1距离。理论分析表明，估计误差随神经网络规模和时间长度多项式增长，避免了参数复杂度的灾难，并指出通过损失函数正则化约束MLP的Lipschitz常数可提升泛化性能。数值实验验证了理论预测的误差幂律关系，并证实了在有限训练数据下约束MLP矩阵和向量范数的有效性。

Comments This manuscript contains 33 pages with 6 figures

2603.09652 2026-05-11 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li

AI总结随着大型语言模型在代码生成方面的发展，人机交互正从静态文本响应转向动态的、基于HTML的交互式应用，即MiniApps。为评估模型在生成此类应用方面的能力，本文提出了MiniAppBench，这是首个全面评估原理驱动型交互应用生成的基准测试，包含来自真实应用场景的500个任务。同时，文章还引入了MiniAppEval评估框架，通过浏览器自动化进行类人探索测试，从意图、静态和动态三个维度系统评估应用质量，为未来研究提供了可靠的标准。

2603.06859 2026-05-11 cs.LG cs.AI

Exact Is Easier: Credit Assignment for Cooperative LLM Agents

Yanjun Chen, Yirong Sun, Hanlin Wang, Jinghan Wang, Xinming Zhang, Xiaoyu Shen, Wenjie Li, Wei Zhang

AI总结本文研究了如何准确评估合作大型语言模型（LLM）系统中各智能体的贡献问题。不同于传统多智能体强化学习依赖近似方法，作者指出在合作LLM系统中，由于交互历史是可观测文本的确定性函数，因此可以精确还原每个决策点的状态，从而实现无偏的因果贡献度量。基于此，提出了一种名为C3的方法，通过固定完整历史、冻结行为策略并采样替代动作，计算出精确的每步优势值，实验表明该方法在多个基准上优于现有方法，并且还提出了首个与方法无关的多智能体LLM信用分配审计工具。

2603.06811 2026-05-11 cs.AI

Making AI Evaluation Deployment Relevant Through Context Specification

Matthew Holmes, Thiago Lacerda, Reva Schwartz

AI总结本文探讨了如何通过上下文规范（context specification）提升AI评估在实际部署中的相关性。研究指出，当前AI评估方法往往忽视了影响部署效果的实际操作环境，导致组织难以判断AI工具能否带来持久价值。为此，作者提出通过明确界定评估场景中的关键属性、行为和结果，将模糊的利益相关者观点转化为可观察和衡量的构建，从而为AI系统的部署评估提供清晰的指导框架。

Comments 8 pages; 2 figures

2603.05539 2026-05-11 cs.LG cs.AI cs.IR cs.MM

VDCook:DIY video data cook your MLLMs

Chengwei Wu

AI总结本文提出 VDCook，一种可自我演进的视频数据操作系统，旨在为研究人员和垂直领域团队提供灵活的视频数据构建平台。用户可通过自然语言查询和参数调整发起数据请求，系统自动优化查询并并行运行视频检索与可控合成模块，最终生成带有完整来源信息和元数据的数据包。VDCook 支持基于 MCP 协议的自动数据摄入机制，使数据集能够持续更新和扩展，同时提供多维元数据标注，为后续数据处理和索引奠定基础，显著降低了构建专业视频训练数据集的门槛。

2603.00223 2026-05-11 cs.CV quant-ph

Pretty Good Measurement for Radiomics: A Quantum-Inspired Multi-Class Classifier for Lung Cancer Subtyping and Prostate Cancer Risk Stratification

Giuseppe Sergioli, Carlo Cuccu, Giovanni Pasini, Alessandro Stefano, Giorgio Russo, Andrés Camilo Granda Arango, Roberto Giuntini

AI总结本文提出了一种基于量子启发的多分类方法——Pretty Good Measurement（PGM），用于解决医学影像中的肺癌亚型分类和前列腺癌风险分层问题。该方法将每个类别映射为一个编码的混合量子态，并通过单个正交测量（POVM）进行分类，实现了真正的多类分类策略，无需降维为二分类或一对一比较。实验表明，该方法在多个医学影像分析任务中表现优异，尤其在肺癌的二分类和三分类任务中优于传统方法，且在前列腺癌风险分层中也展现出良好的临床相关性。

Comments 22 pages, 9 figures, 12 table, in preparation for journal submission

2603.00041 2026-05-11 cs.LG cs.AI econ.EM stat.ME

Econometric vs. Causal Structure-Learning for Time-Series Policy Decisions: Evidence from the UK COVID-19 Policies

Bruno Petrungaro, Anthony C. Constantinou

AI总结本文研究了在时间序列政策决策中，计量经济学方法与因果结构学习方法在因果关系发现上的表现差异，以英国新冠疫情政策为案例进行实证分析。研究对比了四种计量经济学方法与十一种因果机器学习算法在图结构、模型维度和因果效应恢复能力方面的表现，发现计量经济学方法在时间结构上提供了明确的规则，而因果机器学习方法则能探索更广泛的图结构空间，从而发现更多可识别的因果关系。研究为因果机器学习从计量经济学中借鉴经验提供了实证依据，并提供了将计量经济学结果转换为贝叶斯网络工具的代码支持。

2602.16360 2026-05-11 cs.RO

Docking and Persistent Operations for a Resident Underwater Vehicle

Leonard Günzel, Gabrielė Kasparavičiūtė, Ambjørn Grimsrud Waldum, Bjørn-Magnus Moslått, Abubakar Aliyu Badawi, Celil Yılmaz, Md Shamin Yeasher Yousha, Robert Staven, Martin Ludvigsen

AI总结本文研究了如何实现水下驻留机器人在深海环境下的持续自主运行，以克服传统水下监测方法在成本和效率上的限制。作者提出了一种结合对接站和小型遥控水下机器人（ROV）的驻留系统，在90米深度环境下实现了自主导航、视觉定位对接和局部检测任务。该系统展示了高自主对接成功率和快速任务执行能力，验证了声学与视觉导航融合在实际水下环境中的可行性，为低成本、可扩展的水下监测提供了新思路。

2602.14868 2026-05-11 cs.LG cs.AI

Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning

Ilia Mahrooghi, Aryo Lotfi, Emmanuel Abbe

AI总结该研究针对强化学习中因稀疏奖励导致的样本效率低下的问题，提出了一种名为Goldilocks的新型数据采样策略。该方法通过教师模型预测学生模型在不同问题上的难度，选择适中的问题（既不太简单也不太困难），从而更高效地训练模型的推理能力。实验表明，该方法在相同计算预算下显著提升了模型在数学推理任务中的表现。

Comments 28 pages, 13 figures

2602.13298 2026-05-11 cs.CV cs.AI

The Effective Depth Paradox: Evaluating the Relationship between Architectural Topology and Trainability in Deep CNNs

Manfred M. Fischer, Joshua Pitts

AI总结本文通过对比VGG、ResNet和GoogLeNet等卷积神经网络架构，研究了CNN拓扑结构与其图像识别性能之间的关系。研究引入了名义深度和有效深度的概念，揭示了网络结构中身份捷径和分支模块对优化稳定性的影响。结果表明，有效深度比名义深度更能准确反映网络的可训练性和扩展潜力，指出网络拓扑结构而非单纯的层数是影响深度学习模型梯度健康的关键因素。

2602.11758 2026-05-11 cs.RO

HAIC: Humanoid Agile Object Interaction Control via Dynamics-Aware World Model

Dongting Li, Xingyu Chen, Qianyang Wu, Bo Chen, Sikai Wu, Hanyu Wu, Guoyao Zhang, Liang Li, Mingliang Zhou, Diyun Xiang, Jianzhu Ma, Qiang Zhang, Renjing Xu

AI总结本文提出HAIC，一种用于人形机器人敏捷物体交互的控制框架，解决了与非完整约束和独立动力学物体交互时的控制难题。HAIC通过仅依靠本体感觉历史预测物体的高阶状态（如速度、加速度），并结合静态几何先验生成动态占用地图，从而在无外部状态估计的情况下实现鲁棒交互。实验表明，HAIC在多种敏捷任务和多物体长期任务中表现出色，展示了其对惯性扰动的主动补偿能力和环境适应性。

Comments RSS 2026. Webpage: https://haic-humanoid.github.io/

2602.10693 2026-05-11 cs.LG cs.AI

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Guobin Shen, Chenxiao Zhao, Xiang Cheng, Lei Huang, Xing Yu

AI总结在大型语言模型的强化学习训练中，由于异步训练和训练与推理引擎不匹配，导致策略更新需要依赖离线策略。传统的重要度采样方法虽无偏，但方差大，且在自回归生成中问题更严重。本文提出了一种基于变分序列级软策略优化的方法VESPO，通过直接对序列级重要性权重进行处理，有效降低方差并提供明确的方差上界，实验表明该方法在数学推理和代码生成任务中能稳定训练并优于现有方法。

2602.07425 2026-05-11 cs.LG cs.CL math.OC

Sign-Based Optimizers Are Effective Under Heavy-Tailed Noise

Dingzhi Yu, Hongyi Tao, Yuanyu Wan, Luo Luo, Lijun Zhang

AI总结本文研究了在重尾噪声环境下符号梯度优化算法（如Lion和Muon）的优越性问题，提出了一个新的重尾噪声条件，更准确地描述了大语言模型训练中的梯度特性。理论分析表明，符号梯度方法在该噪声模型下具有与现有最佳结果相当或更优的收敛速度，并首次对Muon等算法在矩阵优化中的表现进行了严格分析。实验验证了理论结论，说明符号优化器在处理重尾噪声时具有显著优势。

Comments Code is available at https://github.com/Dingzhen230/Heavy-tailed-Noise-in-LLMs

2602.04939 2026-05-11 cs.CV

SynthForensics: Benchmarking and Evaluating People-Centric Synthetic Video Deepfakes

Roberto Leotta, Salvatore Alfio Sambataro, Claudio Vittorio Ragaglia, Mirko Casu, Yuri Petralia, Francesco Guarnera, Luca Guarnera, Sebastiano Battiato

AI总结本文提出SynthForensics，一个以人物为中心的合成视频深度伪造基准数据集，包含来自8个文本到视频和7个图像到视频生成器的20,445个视频，并与真实视频进行配对验证。该数据集在四个压缩版本中提供完整元数据，实验表明现有检测方法在该数据集上的性能显著下降，突显了当前评估体系的不足。研究还揭示了合成视频与传统伪造视频在特征上的差异，为未来检测方法的改进提供了重要参考。

2602.03490 2026-05-11 cs.LG q-bio.NC

Path Integration and Object-Location Binding Emerge in an Action-Conditioned Predictive Sequence Network

Linda Ariel Ventura, Victoria Bosch, Tim C Kietzmann, Sushrut Thorat

AI总结该研究探讨了如何通过行动条件下的预测序列网络实现路径整合和物体-位置绑定。研究中使用了一个递归神经网络，在连续的二维场景中依次采样标记，并通过预测下一个标记来学习环境模型。实验表明，网络能够逐步提升预测准确性，并在解码分析中展现出路径整合和动态绑定能力，揭示了结构化表征如何通过灵活绑定支持预测，为认知科学中的序列世界建模提供了机制性解释。

Comments 8 pages, 4 figures; accepted at CogSci 2026

2602.03473 2026-05-11 cs.LG cs.CV

Scaling Continual Learning to 300+ Tasks with Bi-Level Routing Mixture-of-Experts

Meng Lou, Yunxiang Fu, Yizhou Yu

AI总结本文提出了一种名为CaRE的可扩展持续学习框架，旨在解决在数百个任务序列上同时保持模型稳定性和可塑性的挑战。其核心方法是引入双级路由混合专家（BR-MoE）机制，通过动态激活任务相关的路由和专家模块，增强模型对判别性和综合性特征的提取能力。此外，研究还构建了一个包含上千任务的挑战性数据集OmniBenchmark-1K，并在多种任务设置下验证了CaRE的优越性能，尤其在超长任务序列上表现突出，是目前首个支持300多个非重叠任务的持续学习模型。

Comments Accepted by ICML 2026

2602.02832 2026-05-11 cs.LG physics.flu-dyn

Koopman Autoencoders with Continuous-Time Latent Dynamics for Fluid Dynamics Forecasting

Rares Grozavescu, Pengyu Zhang, Etienne Meunier, Mark Girolami

AI总结本文提出了一种基于连续时间动力学的Koopman自编码器，用于流体动力学的长期预测，其核心在于通过连续时间演化方程 $dz/dt = \mathbf{K}_{\mathrm{cont}} z$ 实现闭式推理，从而摆脱固定时间步长的限制，并提升计算效率。面对高维混沌系统中潜在状态不稳定的挑战，作者引入了包括滚动训练、前后一致性、潜在正则化和物理条件化的LoRA等结构约束，有效提升了长期预测的稳定性。实验表明，该方法在复杂流体基准测试中优于现有扩散模型和算子学习方法，并实现了110倍的推理加速。

AI 大模型

视觉与机器人

科学与医疗