arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.11131 2026-05-13 cs.CV

USEMA: a Scalable Efficient Mamba Like Attention for Medical Image Segmentation

Elisha Dayag, Nhat Thanh Tran, Jack Xin

发表机构 * University of California Irvine（加州大学 Irvine 分校）

AI总结本文提出了一种可扩展且高效的类似Mamba的注意力机制USEMA，用于医学图像分割，旨在解决传统视觉Transformer因二次计算复杂度带来的效率问题。USEMA结合了局部窗口注意力和理论一致的算术平均，以兼顾局部特征提取与全局信息捕捉，并与卷积神经网络融合构建混合UNet架构。实验表明，USEMA在多种模态和图像尺寸下均表现出优于纯卷积模型和基于Mamba模型的分割性能和计算效率。

2605.11128 2026-05-13 cs.CL

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Amin Banayeeanzade, Qingchuan Yang, Dhruv Tarsadiya, Fatemeh Bahrani, Leonardo Blas, Alfy Samuel, Robin Jia, Meisam Razaviyayn, Sai Praneeth Karimireddy

发表机构 * University of Southern California（南加州大学）

AI总结该研究探讨了大型语言模型（LLMs）在生成过程中多样性下降的问题，指出其根源在于推理时概率分布的校准不足。研究提出了一个有效性-多样性框架，将多样性崩溃归因于模型在解码过程中对有效和无效续写分配概率质量的方式，并将其分解为两种形式的校准错误：顺序校准和形状校准。实验表明，这种校准问题在多个规模和类型的语言模型中普遍存在，而非单纯由采样策略导致。

2605.11119 2026-05-13 cs.RO

ASIP-Planner: Adaptive Planning for UAV Surface Inspection in Partially Known Indoor Environments

Hanyu Jin, Zhefan Xu, Haoyu Shen, Xinming Han, Kanlong Ye, Kenji Shimada

发表机构 * Department of Mechanical Engineering, Carnegie Mellon University（卡内基梅隆大学机械工程系）

AI总结本文提出了一种适用于部分已知室内环境的无人机表面检测规划框架ASIP-Planner，旨在解决因临时障碍物导致的视野遮挡和检测质量下降问题。该方法结合基于区域划分的全局覆盖规划器和面向检测的局部视角自适应模块，能够在保证轨迹结构的前提下，生成避障轨迹并实时调整视角以减少遮挡影响。实验表明，该框架在仿真和实际飞行测试中均能实现较高的检测覆盖率和轨迹效率，提升了无人机在部分已知结构化室内环境中的检测性能和适应能力。

详情

英文摘要

Indoor infrastructure inspection, such as tunnels and industrial facilities, requires systematic surface coverage to ensure that all inspection targets are properly observed. Unmanned Aerial Vehicles (UAVs) offer an alternative to manual inspection by conducting map-guided surface inspection using prior structural models. However, in practice, indoor inspection often relies on floorplan-derived reference maps that may not reflect unforeseen obstacles, such as temporary structures or equipment, leading to occluded viewpoints and degraded inspection quality. Existing coverage planning methods typically assume a fully known inspection environment and perform deterministic global viewpoint optimization based on accurate prior maps, making them vulnerable to environmental discrepancies during execution. This work presents an adaptive UAV inspection framework for partially known structured indoor environments. The proposed method integrates a segment-based global coverage planner with an inspection-oriented local view-angle adaptation module. The global planner organizes planar inspection targets into surface-aligned clusters to generate compact viewpoint sequences with improved orientation consistency. The local planner generates collision-free trajectories and adjusts the viewing direction online to mitigate occlusion-induced coverage loss while preserving the planned trajectory structure. The simulation results across randomized scene configurations demonstrate that the proposed global planner achieves near-complete coverage while reducing trajectory length compared to representative baselines. Real-world flight experiments further validate that the framework produces usable inspection data for downstream analysis. These results indicate that the proposed framework improves inspection efficiency and adaptability in partially known structured indoor environments.

URL PDF HTML ☆

赞 0 踩 0

2605.11117 2026-05-13 cs.LG cs.MA math.PR

GRAFT-ATHENA: Self-Improving Agentic Teams for Autonomous Discovery and Evolutionary Numerical Algorithms

Juan Diego Toscano, Zhaojie Chai, George Em Karniadakis

发表机构 * Division of Applied Mathematics, Brown University（布朗大学应用数学系）

AI总结 GRAFT-ATHENA 是一种自我改进的智能代理团队框架，旨在实现自主科学发现和演化数值算法。该框架通过将组合决策空间映射为因子概率树，显著降低了参数规模，并能够跨不同领域积累和共享方法经验。研究展示了 GRAFT-ATHENA 在多个物理信息机器学习基准和实际工程问题中的优越性能，包括自主提出正则化约束和发现新的数值方法，为自主实验室的发展提供了基础。

2605.11115 2026-05-13 cs.CV cs.GR cs.LG

LatentHDR: Decoupling Exposure from Diffusion via Conditional Latent-to-Latent Mapping for Text/Image-to-Panoramic HDR

Pedram Fekri, WenChen Li, William Chen, Peter Altamirano

发表机构 * Monks AI Research Lab（Monks AI研究院）

AI总结本文提出了一种名为LatentHDR的新型框架，用于生成高质量的高动态范围（HDR）图像。该方法通过在潜在空间中将场景生成与曝光建模解耦，利用预训练的扩散模型生成一致的场景表示，并通过一个轻量的条件潜在到潜在映射模块，将其确定性地映射到特定曝光的表示，从而在单次生成过程中实现结构一致的多曝光堆栈。该方法显著降低了计算成本，提升了生成效率，并在多个基准测试中取得了领先的动态范围和感知质量。

2605.11114 2026-05-13 cs.RO cs.AI

SEVO: Semantic-Enhanced Virtual Observation for Robust VLA Manipulation via Active Illumination and Data-Centric Collection

Tianchonghui Fang, Yuan Zhuang, Fei Miao

发表机构 * School of Computing, University of Connecticut（康奈尔大学计算学院）

AI总结该研究提出了一种名为SEVO的语义增强虚拟观测方法，旨在提升低成本机器人在不同环境下的视觉-语言-动作（VLA）操作鲁棒性。SEVO通过固定摄像头覆盖操作区域、主动红光照明标准化物体外观以及实时语义分割提供背景不变的提示，结合多样化数据采集策略，显著提升了模型的泛化能力。实验表明，在相同政策架构下，SEVO使机器人在训练和新环境中的抓取成功率大幅提升，验证了观测设计和数据多样性对低成本机器人可靠操作的重要性。

2605.11107 2026-05-13 cs.CV cs.AI

Birds of a Feather Flock Together: Background-Invariant Representations via Linear Structure in VLMs

Youssef Zaazou, Mark Thomas

发表机构 * Independent Researcher（独立研究者）

AI总结该研究针对视觉语言模型（VLMs）在处理图像分类任务时易受背景干扰的问题，提出了一种基于嵌入空间线性可加性的方法，将场景表示分解为前景和背景成分，从而构建背景不变的表示。通过利用合成数据进行预训练，该方法在存在完美虚假关联的Waterbirds数据集上实现了首个超过90%的最差群体准确率，且无需依赖真实去偏数据，具有良好的模拟到现实迁移能力，适用于实际部署。

Comments 36 pages, 7 figures

2605.11102 2026-05-13 cs.LG cs.AI cs.SY eess.SY

Newton's Lantern: A Reinforcement Learning Framework for Finetuning AC Power Flow Warm Start Models

Shourya Bose, Helgi Hilmarsson, Dhruv Suri

发表机构 * Pravah（普拉瓦）

AI总结该研究提出了一种名为“牛顿灯”的强化学习框架，用于优化交流潮流问题的暖启动模型。通过分析牛顿-拉夫森迭代次数的下界，研究揭示了现有监督方法在接近电压崩溃的重载场景下泛化能力不足的原因，并基于此设计了一种结合群体相对策略优化和学习奖励模型的微调方法，以迭代次数作为监督信号进行训练。实验表明，该方法在多个标准测试案例中均能稳定收敛，并实现了最小的平均迭代次数。

2605.11098 2026-05-13 cs.SD

AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling

Jiacheng Shi, Hongfei Du, Xinyuan Song, Y. Alicia Hong, Yanfu Zhang, Ye Gao

发表机构 * College of William & Mary（威廉姆斯与玛丽学院）； Emory University（埃默里大学）； George Mason University（乔治·梅森大学）

AI总结 AffectCodec 是一种用于情感表达语音建模的情绪感知神经语音编解码器，旨在在量化过程中保留语音中的情感信息。该方法通过结合情感语义引导的潜在调制、关系保持的情感语义蒸馏和情感加权语义对齐，实现了在压缩过程中保持语义保真度和韵律自然性的同时保留情感关键线索。实验表明，AffectCodec 在语音重建、情感识别和下游文本到语音生成任务中均表现出更优的情感一致性和感知质量。

Comments Accepted to ACL Findings 2026

2605.11093 2026-05-13 cs.LG cs.AI cs.PF cs.SE cs.SY eess.SY

Enabling Performant and Flexible Model-Internal Observability for LLM Inference

Nengneng Yu, Sixian Xiong, Yibo Zhao, Wei Wang, Zaoxing Liu

发表机构 * Department of Computer Science（计算机科学系）

AI总结当前大语言模型推理任务越来越依赖对模型内部状态的实时访问。本文提出 DMI-Lib，一种高性能的深度模型检测工具，通过异步观测子系统、基于 Ring² 的 GPU-CPU 内存抽象以及策略控制的主机后端，将内部可观测性作为系统级核心原语，实现与推理主路径的解耦。实验表明，DMI-Lib 在保持服务优化和严格 GPU 内存限制的同时，显著降低了观测开销，相比现有方法在延迟上减少了 2 到 15 倍。

2605.11091 2026-05-13 cs.LG cs.AI

ASD-Bench: A Four-Axis Comprehensive Benchmark of AI Models for Autism Spectrum Disorder

Shubhankit Singh, Hassan Shaikh, Kuldeep Raghuwanshi, Keshav Bulia

发表机构 * Research Commons AI ； IIT Bombay（印度理工学院博伊斯）； IIT Delhi（印度理工学院德里）

AI总结本文提出ASD-Bench，一个针对自闭症谱系障碍（ASD）的四维综合基准，用于评估AI模型在不同年龄段群体中的表现。该基准涵盖预测性能、校准、可解释性和对抗鲁棒性四个维度，基于4,068份AQ-10问卷数据，测试了多种传统机器学习和深度学习模型。研究发现不同年龄段的特征重要性存在显著差异，并指出单一性能指标不足以评估临床AI系统的可靠性。

Comments 20 pages, 12 figures, 8 tables

2605.11055 2026-05-13 cs.CV cs.LG

The first global agricultural field boundary map at 10m resolution

Caleb Robinson, Gedeon Muhawenayo, Subash Khanal, Zhanpei Fang, Isaac Corley, Ana M. Tárano, Lyndon Estes, Jennifer Marcus, Nathan Jacobs, Hannah Kerner, Inbal Becker-Reshef, Juan M. Lavista Ferres

发表机构 * Microsoft AI for Good Research Lab（微软AI for Good研究实验室）； Arizona State University（亚利桑那州立大学）； Washington University in St. Louis（圣路易斯华盛顿大学）； Oregon State University（俄勒冈州立大学）； Clark University（克拉克大学）； Taylor Geospatial（泰勒地理空间）

AI总结本文提出了首个全球10米分辨率的农业地块边界地图，覆盖2024和2025年共241个国家和地区，包含31.7亿个遥感地块多边形。研究采用基于“Fields of The World”数据集训练的U-Net分割模型，对Sentinel-2无云影像进行处理生成地图，并通过多国实地数据验证其准确性。该数据集以三种形式公开发布，为全球农作物监测、粮食安全及相关农业研究提供了首个一致的地块级分析单元。

2605.11048 2026-05-13 cs.RO cs.AI

ForceFlow: Learning to Feel and Act via Contact-Driven Flow Matching

Shuoheng Zhang, Yifu Yuan, Hongyao Tang, Yan Zheng, Qiaojun Yu, Pengyi Li, Guowei Huang, Helong Huang, Xingyue Quan, Jianye Hao

发表机构 * Tianjin University（天津大学）； Huawei Noah's Ark Lab（华为诺亚实验室）； Shanghai AI Lab（上海人工智能实验室）

AI总结本文提出了一种名为ForceFlow的力感知反应框架，旨在解决机器人在复杂接触场景下的操作任务。该方法基于流匹配技术，通过融合力信号与多模态感知信息，实现了对接触力和运动的深度耦合，并采用视觉主导与触觉主导分阶段的策略，提升了任务执行的鲁棒性和泛化能力。实验表明，ForceFlow在六个实际接触密集任务中表现出更高的成功率和更低的成本，展示了其在接触力自调节和跨分布泛化方面的优越性能。

2605.11020 2026-05-13 cs.LG cs.AI cs.RO

Trust Region Inverse Reinforcement Learning: Explicit Dual Ascent using Local Policy Updates

Anish Diwan, Davide Tateo, Christopher E. Mower, Haitham Bou-Ammar, Jan Peters, Oleg Arenz

发表机构 * Technical University of Darmstadt（达姆斯塔特技术大学）； Lund University（隆德大学）； German Research Center for AI (DFKI)（人工智能研究中心（DFKI））； Robotics Institute Germany (RIG)（德国机器人研究所（RIG））； Huawei, Noah’s Ark Lab（华为诺亚实验室）； University College London（伦敦大学学院）

AI总结本文提出了一种名为 Trust Region Inverse Reinforcement Learning（TRIRL）的逆强化学习方法，旨在在无需每次迭代都完整求解强化学习问题的前提下，实现奖励函数和策略的单调改进。其核心思想是通过信任区域优化策略，在当前策略附近进行局部搜索，从而显式优化对偶目标。该方法在保持对偶改进单调性的同时，避免了对抗方法的训练不稳定性，并在多个复杂任务中表现出色，奖励函数也具有对系统动态变化的鲁棒性。

Comments Accepted as a conference paper at the International Conference on Machine Learning (ICML) 2026

2605.11019 2026-05-13 cs.LG cs.AI

Efficient LLM Reasoning via Variational Posterior Guidance with Efficiency Awareness

Zizhao Chen, Yuying Li, Siting Lin, Lianxi Wang

发表机构 * Guangdong University of Foreign Studies（广东外语外贸大学）

AI总结尽管大语言模型依赖于思维链进行复杂推理，但过度思考现象严重降低了推理效率。本文受认知科学启发，提出了一种基于变分后验引导的高效推理框架VPG-EA，通过引入效率感知的证据下界，将高效推理建模为变分推断问题，并采用参数共享的双流架构，将后验分布中的高效模式通过变分蒸馏迁移至先验策略中。实验表明，该方法在不同规模模型上均显著提升了综合效率指标。

2605.11017 2026-05-13 cs.LG cs.AI cs.IR

Simpson's Paradox in Behavioral Curves: How Aggregation Distorts Parametric Models of User Dynamics

Chao Zhou

发表机构 * Meta Platforms, Inc.（Meta平台公司）

AI总结该论文研究了在用户行为曲线建模中，由于数据聚合导致的参数模型系统性偏差问题，即行为曲线中的辛普森悖论。研究发现，个体用户的行为峰值与聚合后的整体曲线存在显著差异，这种偏差主要由生存偏差引起。论文提出了合成零校准方法以减少个体分类中的误判，并指出这一现象在推荐系统、广告和临床给药等领域具有广泛影响。

Comments Submitted to NeurIPS 2026

2605.11014 2026-05-13 cs.LG cs.AI

Backbone-Equated Diffusion OOD via Sparse Internal Snapshots

Yadang Alexis Rouzoumka, Jean Pinsolle, Eugénie Terreaux, Christèle Morisseau, Jean-Philippe Ovarlez, Chengfang Ren

发表机构 * ONERA ； SONDRA ； Université Paris-Saclay（巴黎-萨克雷大学）； CentraleSupélec（中央理工-巴黎高等学院）

AI总结该论文提出了一种名为MBE的公平比较协议，用于解决扩散模型在异常检测（OOD）任务中因主干网络、噪声参数化和推理预算不同而导致的评估不一致问题。研究引入了基于稀疏内部激活的Canonical Feature Snapshots（CFS）检测方法，仅需少量冻结扩散模型的内部激活即可实现高效的OOD检测。实验表明，CFS在CIFAR尺度基准上表现出色，且其性能主要依赖于少量稀疏状态，而非完整的去噪过程或复杂的下游模块。论文还从理论角度解释了这一现象，揭示了扩散模型在低噪声条件下内部状态与编码器-解码器互补性的关系。

2605.11011 2026-05-13 cs.LG cs.AI

LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models

Taekhyun Park, Yongjae Lee, Dohee Kim, Hyerim Bae

发表机构 * Department of Data Science（数据科学系）； Department of Industrial Engineering（工业工程系）； Pusan National University（釜山国立大学）； Changwon National University（昌原国立大学）

AI总结 LoopUS 是一种将预训练大语言模型（LLM）转化为循环潜层优化模型的后训练框架，旨在提升模型的推理能力。该方法通过分解模型结构、引入选择性门控机制、随机深度监督和置信度头部等核心组件，实现了在不破坏原有能力的前提下，将标准模型改造成稳定的循环架构。LoopUS 有效缓解了计算瓶颈和表示崩溃问题，显著提升了模型的推理性能。

2605.11010 2026-05-13 cs.LG

A Comparative Study of Federated Learning Aggregation Strategies under Homogeneous and Heterogeneous Data Distributions

Antonios Makris, Christos Dousis, Emmanouil Kritharakis, Stavros Bouras, Konstantinos Tserpes

发表机构 * School of Electrical and Computer Engineering, National Technical University of Athens, Greece（电气与计算机工程学院，国家技术大学亚历山大学院，希腊）； Department of Informatics and Telematics, Harokopio University of Athens, Greece（信息与电信学院，哈罗基奥大学亚历山大学院，希腊）

AI总结本文对比研究了在同质和异质数据分布下常用的联邦学习聚合策略的性能。通过实验分析不同聚合方法在数据异质性变化时对模型精度、损失及系统效率（如聚合、训练和通信时间）的影响，揭示了各类策略在不同数据分布和任务条件下的优劣差异。研究为选择适合实际场景的聚合方法提供了重要参考。

2605.11009 2026-05-13 cs.LG cs.RO

ACSAC: Adaptive Chunk Size Actor-Critic with Causal Transformer Q-Network

Qian Chen, Junqiao Zhao, Hongtu Zhou, Hang Yu, Yanping Zhao, Chen Ye, Guang Chen

发表机构 * Tongji University（同济大学）

AI总结本文提出了一种名为ACSAC的自适应块大小的Actor-Critic方法，用于解决长期稀疏奖励任务中的强化学习挑战。该方法通过引入因果Transformer作为Q网络，能够在不同大小的动作块之间灵活选择最优块长度，从而在无需任务特定调参的情况下实现反应性与时间一致性之间的自适应平衡。实验表明，ACSAC在多个长期稀疏奖励操作任务中表现出优越的性能，达到了当前最先进的水平。

2605.11008 2026-05-13 cs.LG cs.AI

When and How to Canonize: A Generalization Perspective

Yonatan Sverdlov, Benjamin Friedman, Snir Hordan, Nadav Dym

发表机构 * Technion – Israel Institute of Technology（技术学院–以色列理工学院）

AI总结本文从理论角度分析了通过规范化（canonization）实现不变性的方法在对称数据处理中的泛化性能。研究引入了一种基于覆盖数界分析的理论框架，揭示了规范化模型的误差界处于结构不变模型与非不变基线模型之间，并证明了规范化效果依赖于其正则性。在点云处理中，作者进一步证明了字典序排序的覆盖数随维度指数增长，而Hilbert曲线规范化则保证多项式增长，为该方法在点云架构中的成功提供了理论依据。

2605.11007 2026-05-13 cs.LG cs.AI

RT-Transformer: The Transformer Block as a Spherical State Estimator

Peter Racioppo

发表机构 * Independent Researcher（独立研究者）

AI总结本文提出了一种将Transformer模块视为球面上状态估计器的方法，揭示了Transformer中的核心组件——注意力机制、残差连接和归一化——实际上源于一个统一的几何估计问题。通过将潜在状态建模为超球面上的方向，并在当前估计的切平面上定义噪声，研究构建了一个基于精度加权的方向推断过程，其中注意力聚合证据，残差连接实现状态更新，归一化将更新后的状态重新投影到超球面上。该工作表明，这些组件是估计问题几何性质的自然结果，而非独立的架构设计选择。

2605.11005 2026-05-13 cs.LG cs.AI cs.DC

DisagMoE: Computation-Communication overlapped MoE Training via Disaggregated AF-Pipe Parallelism

Zhichen Zeng, Chi-Chih Chang, Jiayi Wang, Zezhou Wang, Ningxin Zheng, Zheng Zhong, Cesar A. Stuardo, Dongyang Wang, Mohamed S. Abdelfattah, Haibin Lin, Banghua Zhu, Ang Li, Ziheng Jiang

发表机构 * University of Washington（华盛顿大学）； Cornell University（康奈尔大学）

AI总结本文提出了一种名为DisagMoE的混合专家（MoE）训练系统，旨在解决大规模语言模型训练中专家并行策略面临的通信瓶颈问题。该方法通过将注意力层和前馈网络层分组到不同的GPU组中，并引入多阶段流水线和单向多对多通信机制，有效实现了计算与通信的重叠。实验表明，DisagMoE在多个MoE模型上显著提升了训练效率，尤其在16节点8xH800集群上实现了最高1.8倍的加速。

2605.11001 2026-05-13 cs.LG

Finite Volume-Informed Neural Network Framework for 2D Shallow Water Equations: Rugged Loss Landscapes and the Importance of Data Guidance

Xiaofeng Liu

发表机构 * Department of Civil and Environmental Engineering, Pennsylvania State University, University Park, PA, USA（宾夕法尼亚州立大学土木与环境工程系，大学公园，PA，美国）； Institute for Computational and Data Sciences, Pennsylvania State University, University Park, PA, USA（宾夕法尼亚州立大学计算与数据科学研究所，大学公园，PA，美国）

AI总结本文提出了一种基于有限体积法的物理信息神经网络（FVM-PINN）框架，用于求解二维浅水方程，解决了传统PINNs在处理守恒性、不连续性和非结构网格时的不足。研究发现，仅依赖物理方程训练的FVM-PINN在实际问题中容易陷入低动量的平凡解，而引入稀疏数据指导可显著提升模型性能，减少速度场的误差达数十倍。实验表明，该框架在真实河流场景中能够有效构建高精度的替代模型。

2605.10999 2026-05-13 cs.LG cs.AI cs.MA

SkillGen: Verified Inference-Time Agent Skill Synthesis

Yuchen Ma, Yue Huang, Han Bao, Haomin Zhuang, Swadheen Shukla, Michel Galley, Xiangliang Zhang, Stefan Feuerriegel

发表机构 * Munich Center for Machine Learning, LMU Munich（慕尼黑马尔他学习中心，慕尼黑大学）； University of Notre Dame（诺特尔达大学）； Microsoft Research（微软研究院）

AI总结 SkillGen 是一种多智能体框架，旨在从基础智能体生成的轨迹中合成可审计的单一技能，无需重新训练模型即可提升智能体性能。该方法通过对比成功与失败轨迹，识别可复用的成功模式和失败原因，并生成可读的技能描述，支持人工验证。SkillGen 的核心创新在于将技能建模为对智能体行为的干预，并通过对比使用和不使用该技能时的性能差异，评估其整体效果，从而有效提升模型在多个任务和数据集上的表现。

2605.10993 2026-05-13 cs.RO

ECHO: Continuous Hierarchical Memory for Vision-Language-Action Models

Yanbin Hu, Jin Cui, Jiayi Lu, Ruixuan Yang, Jun Ye, Boran Zhao, Xingyu Chen, Xuguang Lan, Pengju Ren

发表机构 * School of Software, Xi’an Jiaotong University（西安交通大学软件学院）； School of Artificial Intelligence, Xi’an Jiaotong University（西安交通大学人工智能学院）； State Key Laboratory of Human-Machine Hybrid Augmented Intelligence, Institute of Artificial Intelligence and Robotics, Xi’an Jiaotong University（西安交通大学人机混合增强智能国家重点实验室，人工智能与机器人研究院）

AI总结 ECHO 是一种用于视觉-语言-动作（VLA）模型的连续层次记忆框架，旨在提升模型在长时域操作任务中的性能。该方法受人类经验层次组织的启发，通过双曲自编码器将VLA隐藏状态映射到连续层次空间，并利用双曲度量和蕴含约束机制构建语义记忆树，实现高效的自上而下经验检索。同时，背景巩固机制通过几何插值和结构分割持续优化记忆树，支持连续空间中的虚拟记忆合成，显著提升了模型在长任务组合和未知场景中的泛化能力。

2605.10991 2026-05-13 cs.LG cs.AI

Test-Time Personalization: A Diagnostic Framework and Probabilistic Fix for Scaling Failures

Linhai Zhang, Yulan He

发表机构 * King’s College London（伦敦国王学院）； The Alan Turing Institute（艾伦·图灵研究所）

AI总结本文研究了测试时个性化（TTP）这一新兴方向，提出通过从个性化策略模型中采样多个候选并利用个性化奖励模型选择最优解，以提升推理阶段的计算扩展性。研究证明，理想选择方式下，预期效用随采样数量对数增长，但现有奖励模型难以实现这一潜力。为此，作者推导出统一的扩展定律，揭示了两种失效模式，并提出一种概率化的个性化奖励模型，有效缓解了这些问题。实验表明，该框架在多种策略模型和文本生成任务中均能实现稳定的扩展效果。

2605.10988 2026-05-13 cs.LG cs.AI

Seeing the Needle in the Haystack: Towards Weakly-Supervised Log Instance Anomaly Localization via Counterfactual Perturbation

Yutszyuk Wong, Wentai Wu, Yuen-Ying Yeung, Weiwei Lin

发表机构 * Jinan University Guangzhou, China（广州吉林大学）； South China University of Technology Guangzhou, China（华南理工大学）

AI总结本文研究了在大规模网络系统中如何在仅有包级标注的情况下实现日志实例级别的异常定位问题。为此，作者提出了LogMILP方法，结合多实例学习、原型引导和反事实扰动一致性正则化，实现了在弱监督条件下的高效异常检测与定位。实验表明，该方法在多个公开数据集上表现出优异的检测性能和更可靠的实例级定位能力。

Comments 6 pages,2 figures

2605.10987 2026-05-13 cs.LG cs.AI cs.CR

AESOP: Adversarial Execution-path Selection to Overload Deep Learning Pipelines

Tingxi Li, Mingfang Ji, Ravishka Shemal Rathnasuriya, Simin Chen, Yitao Hu, Wei Yang

发表机构 * The University of Texas at Dallas（德克萨斯大学达拉斯分校）； Tianjin University（天津大学）

AI总结本文研究了深度学习推理流水线中由于动态路径选择带来的效率攻击问题，提出了一种名为AESOP的对抗性路径选择框架。该方法通过结合漏洞引导的路径排序与自适应损失加权，有效放大了模型的计算量和延迟，实验证明其在白盒和灰盒设置下均能显著提升攻击效果。研究揭示了现有针对单一模型的攻击方法在动态流水线场景下存在显著性能差距，并展示了系统级防御措施虽能缓解攻击但无法完全阻止其影响。

2605.10985 2026-05-13 cs.LG cs.AI q-bio.BM

Structural Interpretations of Protein Language Model Representations via Differentiable Graph Partitioning

Siddhant Dutta, Edward Tan Beng Wai, Soumick Sarker, Pasan Gunawardane, Jagath C. Rajapakse

发表机构 * Nanyang Technological University（南洋理工大学）

AI总结该研究提出了一种可解释的蛋白质语言模型表示方法，通过可微分图划分技术将ESM-2的表示映射到蛋白质接触图，并利用SoftBlobGIN网络学习功能子结构，从而提升预测任务的性能与可解释性。该方法无需重新训练语言模型，仅增加少量参数，即可在酶分类、功能预测等任务中取得优异表现，并能自动识别生物意义的功能区域，如活性位点残基和催化接触模式。实验表明，该框架显著提升了结构解释的准确性与可审计性，为蛋白质语言模型提供了结构层面的透明性支持。

Comments 19 Pages, 8 figures, 11 Tables, Submitted to NeurIPS 2026

详情

英文摘要

Protein language models such as ESM-2 learn rich residue representations that achieve strong performance on protein function prediction, but their features remain difficult to interpret as structural $\&$ evolutionary signals are encoded in dense latent spaces. We propose a plug-$\&$-play framework that projects ESM-2 representations onto protein contact graphs $\&$ applies $\textbf{SoftBlobGIN}$, a lightweight Graph Isomorphism Network with differentiable Gumbel-softmax substructure pooling, to perform structure-aware message passing $\&$ learn coarse functional substructures for downstream prediction tasks. Across enzyme classification, SoftBlobGIN achieves 92.8\% accuracy $\&$ 0.898 macro-F1. Unlike post hoc analysis of protein language models alone, our method produces directly auditable structural explanations: GNNExplainer recovers biologically meaningful active-site residues, spatially localized functional clusters, $\&$ catalytic contact patterns. On binding-site detection, SoftBlobGIN improves residue AUROC from $0.885$ using an ESM-2 linear probe to $0.983$, indicating that these structural explanations are not recoverable from language-model features alone. Learned blob partitions provide an additional layer of interpretability by automatically grouping residues into functional substructures, with blobs containing annotated active-site residues showing $1.85\times$ higher importance than other blobs ($ρ{=}0.339$, $p{=}0.009$), without any active-site supervision. Our framework requires no retraining of the language model, adds only $\sim$1.1M parameters, $\&$ generalises across ProteinShake tasks, achieving $F_{\max}$ of $0.733$ on Gene Ontology prediction $\&$ AUROC of $0.969$ on binding-site detection. We position this as an interpretable structural companion to protein language models that makes their predictions more transparent $\&$ auditable.

URL PDF HTML ☆

赞 0 踩 0

AI 大模型

视觉与机器人

科学与医疗

USEMA: a Scalable Efficient Mamba Like Attention for Medical Image Segmentation

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

ASIP-Planner: Adaptive Planning for UAV Surface Inspection in Partially Known Indoor Environments

GRAFT-ATHENA: Self-Improving Agentic Teams for Autonomous Discovery and Evolutionary Numerical Algorithms

LatentHDR: Decoupling Exposure from Diffusion via Conditional Latent-to-Latent Mapping for Text/Image-to-Panoramic HDR

SEVO: Semantic-Enhanced Virtual Observation for Robust VLA Manipulation via Active Illumination and Data-Centric Collection

Birds of a Feather Flock Together: Background-Invariant Representations via Linear Structure in VLMs

Newton's Lantern: A Reinforcement Learning Framework for Finetuning AC Power Flow Warm Start Models

AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling

Enabling Performant and Flexible Model-Internal Observability for LLM Inference

ASD-Bench: A Four-Axis Comprehensive Benchmark of AI Models for Autism Spectrum Disorder

The first global agricultural field boundary map at 10m resolution

ForceFlow: Learning to Feel and Act via Contact-Driven Flow Matching

Trust Region Inverse Reinforcement Learning: Explicit Dual Ascent using Local Policy Updates

Efficient LLM Reasoning via Variational Posterior Guidance with Efficiency Awareness

Simpson's Paradox in Behavioral Curves: How Aggregation Distorts Parametric Models of User Dynamics

Backbone-Equated Diffusion OOD via Sparse Internal Snapshots

LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models

A Comparative Study of Federated Learning Aggregation Strategies under Homogeneous and Heterogeneous Data Distributions

ACSAC: Adaptive Chunk Size Actor-Critic with Causal Transformer Q-Network

When and How to Canonize: A Generalization Perspective

RT-Transformer: The Transformer Block as a Spherical State Estimator

DisagMoE: Computation-Communication overlapped MoE Training via Disaggregated AF-Pipe Parallelism

Finite Volume-Informed Neural Network Framework for 2D Shallow Water Equations: Rugged Loss Landscapes and the Importance of Data Guidance

SkillGen: Verified Inference-Time Agent Skill Synthesis

ECHO: Continuous Hierarchical Memory for Vision-Language-Action Models

Test-Time Personalization: A Diagnostic Framework and Probabilistic Fix for Scaling Failures

Seeing the Needle in the Haystack: Towards Weakly-Supervised Log Instance Anomaly Localization via Counterfactual Perturbation

AESOP: Adversarial Execution-path Selection to Overload Deep Learning Pipelines

Structural Interpretations of Protein Language Model Representations via Differentiable Graph Partitioning