arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.11235 2026-05-13 cs.LG cs.AI

Internalizing Curriculum Judgment for LLM Reinforcement Fine-Tuning

Han Zheng, Yining Ma, Karthick Gunasekaran, Bharathan Balaji, Zheng Du, Shiv Vitaladevuni, Cathy Wu

发表机构 * MIT（麻省理工学院）； Amazon AGI（亚马逊人工智能实验室）

AI总结在大语言模型的强化微调中，课程学习有助于提升训练效率与性能，但现有方法依赖人工设计的启发式规则或辅助模型进行课程判断，可能与策略的训练动态不一致。本文提出METIS框架，将课程判断内化为模型的原生能力，通过分析提示内部奖励的方差来衡量提示的信息量，并基于近期训练结果进行轻量化的上下文学习预测，从而动态调整训练分配。METIS通过联合优化标准奖励与自我判断奖励，实现策略的元认知学习，在多个基准任务中展现出更高的性能与更快的收敛速度。

2605.11234 2026-05-13 cs.AI

The Semantic Training Gap: Ontology-Grounded Tool Architectures for Industrial AI Agent Systems

Grama Chethan

发表机构 * Siemens Digital Industries Software（西门子数字工业软件）

AI总结本文提出并解决了工业AI代理系统中的“语义训练差距”问题，即大语言模型虽能掌握领域术语，却缺乏对制造操作语义结构的深入理解。为弥补这一差距，研究设计了一种基于制造本体的工具架构，将领域知识直接嵌入AI工具层，通过运行时语义约束替代传统训练方式，有效减少了领域标识符的错误生成。实验表明，该方法在不修改应用代码的情况下，实现了跨领域配置和工具调用零幻觉的性能提升。

Comments 29 pages, 2 figures

2605.11233 2026-05-13 cs.LG

A Comparative Study of Model Selection Criteria for Symbolic Regression

Ali Soltani, Gabriel Kronberger, Fabricio Olivetti de Franca, Mattia Billa, Alessandro Lucantonio

发表机构 * Aarhus University（奥胡斯大学）； Heuristic and Evolutionary Algorithms Laboratory (HEAL)（启发式和进化算法实验室）； Federal University of ABC（巴西联邦大学ABC分校）； University of Modena and Reggio Emilia（摩德纳和雷吉奥艾米利亚大学）； University of Modena（摩德纳大学）； Reggio Emilia Department of Physics, Informatics（雷吉奥艾米利亚物理与信息学系）

AI总结本文对比研究了符号回归中常用的模型选择准则，旨在从生成的候选数学表达式中选择出在准确性与复杂性之间取得平衡且具有良好泛化能力的模型。研究通过在七个含高斯噪声的合成数据集上系统评估了AIC、AICc、BIC、MDL以及Efron引导法等准则的表现，发现MDL在多数数据集上能最有效地识别出测试误差最小且表达式最简的模型，BIC也有较高概率选择出真实函数表达式。

2605.11232 2026-05-13 cs.AI cs.LG

Rethinking LLMOps for Fraud and AML: Building a Compliance-Grade LLM Serving Stack

Prathamesh Vasudeo Naik, Naresh Dintakurthi, Yue Wang

发表机构 * GitHub

AI总结本文研究了如何为欺诈检测和反洗钱（AML）等合规性场景构建高效的大语言模型（LLM）服务架构。针对这类任务中常见的前缀密集、结构约束强和证据丰富的输入特点，作者提出了一套面向工作负载的LLMOps系统，结合了运行时调优、前缀缓存、多适配器服务、批处理优化等多种技术，显著提升了服务吞吐量和响应速度。实验表明，该方法在公共合成数据集上实现了性能的大幅提升，展示了合规性LLM服务需从工作负载设计、服务优化和质量控制多方面综合提升。

2605.11224 2026-05-13 cs.CV cs.AI

ABRA: Agent Benchmark for Radiology Applications

Bulat Maksudov, Vladislav Kurenkov, Kathleen M. Curran, Alessandra Mileo

发表机构 * School of Computing（计算学院）； Dublin City University（都柏林城市大学）； School of Medicine（医学院）； University College Dublin（都柏林大学）

AI总结 ABRA 是一个面向放射学应用的智能体基准，旨在评估医疗智能体在实际影像处理任务中的能力。该基准通过21个功能调用工具，使智能体能够操作医学影像查看器和DICOM服务器，完成包括切片导航、窗口调节、标注和结构化报告等任务。ABRA 包含655个自动生成的任务，涵盖多个难度等级和任务类型，并通过自动评分系统评估智能体在规划、执行和结果方面的表现，揭示了当前模型在感知层面存在较大瓶颈。

2605.11222 2026-05-13 cs.LG

ADMM-Q: An Improved Hessian-based Weight Quantizer for Post-Training Quantization of Large Language Models

Ryan Lucas, Mehdi Makni, Xiang Meng, Adam Deng, Rahul Mazumder

发表机构 * MIT Operations Research Center（麻省理工学院运筹学中心）； MIT Sloan School of Management（麻省理工学院斯隆管理学院）； MIT Center for Statistics（麻省理工学院统计中心）

AI总结本文提出了一种改进的基于海森矩阵的权重量化方法ADMM-Q，用于大语言模型的后训练量化。该方法基于改进的交替方向乘子法（ADMM），通过分层优化策略逐步最小化层间重构误差并满足量化约束，同时引入惩罚调度、预处理和局部搜索等增强技术以提升效率。实验表明，ADMM-Q在多个量化设置下显著降低了模型的困惑度，优于现有主流量化方法如GPTQ。

2605.11218 2026-05-13 cs.AI

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

M. Shalankin

发表机构 * M. Shalankin

AI总结该研究揭示了视觉-语言模型（VLMs）在评估图像质量时受到嵌入数字锚点的系统性偏差影响，并发现这种偏差在不同模型架构中普遍存在。通过逐层分析，研究发现模型中用于分类的浅层特征与质量预测性能存在解耦现象，而深层特征则更有利于质量判断。研究还揭示了不同模型对锚点信息的融合方式存在差异，为理解视觉锚定偏差的成因及其与模型表征动态的关系提供了因果解释。

2605.11217 2026-05-13 cs.LG cs.AI cs.CR

Leveraging RAG for Training-Free Alignment of LLMs

John T. Halloran

发表机构 * Leidos（莱迪奥斯公司）

AI总结该论文提出了一种基于检索增强生成（RAG）的对齐方法RAG-Pref，用于在无需额外训练的情况下提升大语言模型（LLM）对代理攻击的拒绝能力。该方法通过在推理过程中利用偏好和非偏好样本的对比信息，实现在线对齐，计算开销低且兼容现有工具。实验表明，RAG-Pref在五种主流LLM上显著提升了拒绝攻击的性能，同时在通用人类偏好对齐任务中也表现出色，且不显著增加计算资源需求。

Comments 19 pages, 4 figures, and 6 tables

2605.11214 2026-05-13 cs.LG

Enforcing Constraints in Generative Sampling via Adaptive Correction Scheduling

Noah Trupin, Yexiang Xue

发表机构 * Department of Computer Science（计算机科学系）

AI总结本文研究了在生成采样过程中如何有效施加硬约束的问题，指出传统方法在采样末尾或每一步进行投影的方式忽略了投影对状态分布的影响，可能导致采样结果虽满足约束但与原始动态不一致。为此，作者将约束施加形式化为生成过程中的修正调度问题，提出了一种基于状态的自适应修正调度策略，根据每一步的约束偏差动态分配投影资源，从而在减少修正次数的同时提升采样精度。实验表明，该方法在多种生成模型中均能显著优化约束采样的效率与质量。

2605.11210 2026-05-13 cs.RO

Distributed Pose Graph Optimization via Continuous Riemannian Dynamics

Jaeho Shin, Maani Ghaffari, Yulun Tian

发表机构 * University of Michigan Ann Arbor（密歇根大学安娜堡分校）

AI总结本文提出了一种基于李群上二阶连续时间动力系统的分布式姿态图优化（PGO）框架，通过将姿态变量建模为受阻尼作用的粒子，使所得黎曼动力学的平衡点与原PGO问题的一阶临界点一致。该方法利用阻尼欧拉-泊アン方程和半隐式几何积分器设计出一种优化算法，可推广现有黎曼梯度下降和高斯-牛顿方法，并在多机器人场景中实现了基于块对角质量与阻尼矩阵的全分布式并行求解，具有通信开销小、收敛性好的特点。实验表明，该求解器在同步与异步环境下均优于现有分布式方法。

2605.11209 2026-05-13 cs.LG

Measuring Five-Nines Reliability: Sample-Efficient LLM Evaluation in Saturated Benchmarks

Eungyeup Kim, Chenchen Gu, Vashisth Tiwari, J. Zico Kolter

发表机构 * Carnegie Mellon University（卡内基梅隆大学）

AI总结现有基准测试显示大型语言模型在多项任务上表现接近完美，但这掩盖了对其可靠性进行严格评估的必要性。本文提出了一种高效评估方法，通过识别模型失败的系统性模式，利用交叉熵方法学习聚焦于易失败输入的采样分布，从而大幅减少所需推理量。实验表明，该方法在多个模型和任务上实现了高达156倍的效率提升，揭示了即使在基准测试中表现相近的模型，其可靠性也可能存在显著差异，强调了可靠性作为模型质量独立且可衡量维度的重要性。

Comments Project page: https://five-nines-reliability.notion.site/Measuring-Five-Nines-Reliability-Sample-Efficient-LLM-Evaluation-in-Saturated-Benchmarks-312b998d4f39802d88c0e9886db1b9cd

2605.11205 2026-05-13 cs.LG cs.AI

The Scaling Law of Evaluation Failure: Why Simple Averaging Collapses Under Data Sparsity and Item Difficulty Gaps, and How Item Response Theory Recovers Ground Truth Across Domains

Jung Min Kang

发表机构 * Independent Researcher（独立研究员）

AI总结本文研究了在数据稀疏和项目难度差异较大的情况下，简单平均法在评估排名中的失效问题，并提出利用项目反应理论（IRT）可以更准确地恢复真实排名。通过在多个领域（如自然语言处理、临床试验等）的实验，作者发现当数据覆盖率下降时，简单平均的排名相关性显著降低，而基于IRT的模型则能保持高精度。研究揭示了评估失效的规模规律，并为物理AI等领域的基准测试提供了更可靠的评估方法。

Comments 15 pages, 4 tables, 1 figure. Code at https://github.com/testofschool/evaluation-failure-scaling-law

2605.11203 2026-05-13 cs.LG cs.CV

FeatMap: Understanding image manipulation in the feature space and its implications for feature space geometry

Elias B. Krey, Nils Neukirch, Nils Strodthoff

发表机构 * Division AI4Health（AI4Health部门）； Carl von Ossietzky Universität Oldenburg（奥尔登堡卡尔·冯·奥西特齐克大学）

AI总结本文研究了深度神经网络中间特征表示的几何结构，通过在输入空间应用多种图像变换，评估了在特征空间中学习从原始特征到变换后特征映射的可能性。研究设计了多种映射方式，包括线性与非线性、局部与全局映射，并分析了其重建质量和语义内容。结果表明，即使对于复杂的语义变换，使用单一特征向量的共享线性模型也能实现较好的重建效果，暗示特征空间可能在一定程度上具有线性结构。该研究为理解特征空间的组织方式提供了新视角，并展示了生成式图像编辑模型在这一领域的潜力。

Comments 27 pages, 24 figures, 3 tables, Code is available at https://github.com/AI4HealthUOL/FeatMap

2605.11196 2026-05-13 cs.LG

Variational Linear Attention: Stable Associative Memory for Long-Context Transformers

Vishal Pandey, Gopal Singh

发表机构 * Independent Researcher（独立研究者）； Metriqual

AI总结该论文提出了一种名为变分线性注意力（VLA）的新方法，旨在解决传统线性注意力在处理长上下文时出现的记忆干扰问题。VLA通过将记忆更新建模为带有自适应惩罚矩阵的在线正则最小二乘问题，有效控制了状态范数的增长，并保证了系统稳定性。实验表明，VLA在保持高检索性能的同时大幅降低了内存状态的范数，且在大规模序列处理中表现出优于现有方法的效率和准确性。

Comments 20 pages

2605.11195 2026-05-13 cs.CL

How Does Differential Privacy Affect Social Bias in LLMs? A Systematic Evaluation

Eduardo Tenorio, Karuna Bhaila, Xintao Wu

发表机构 * University of Arkansas（阿肯色大学）

AI总结本文系统评估了差分隐私（DP）对大型语言模型（LLMs）中社会偏见的影响，通过在四个互补任务范式中比较DP训练模型与非DP基线模型的表现。研究发现，DP在句子评分任务中能有效降低偏见，但在其他任务中效果不一，揭示了logit层偏见与输出层偏见之间的差异。结果表明，减少记忆并不必然减少不公平性，强调了在评估LLMs公平性时进行多范式分析的重要性。

Comments 14 pages, 1 figure

2605.11192 2026-05-13 cs.SD cs.AI cs.LG

Exploring Token-Space Manipulation in Latent Audio Tokenizers

Francesco Paissan, Luca Della Libera, Mirco Ravanelli, Cem Subakan

发表机构 * Mila – Québec AI Institute（魁北克人工智能研究所）； Université Laval（拉瓦尔大学）； Concordia University（康科迪亚大学）

AI总结本文研究了在潜空间音频编码器中对 token 空间进行操作的可能性，提出了一种名为 LATTE 的新型音频 tokenizer，通过引入可学习的潜空间 token 来实现对全局语音特征的编辑。该方法在保持高质量语音重建的同时，使得通过替换 token 来修改说话人身份或背景噪声等全局属性成为可能，并在语音转换和去噪任务中验证了其有效性，为无监督的可控音频编辑提供了新思路。

2605.11189 2026-05-13 cs.LG q-bio.BM

Deep Learning for Protein Complex Prediction and Design

Ziwei Xie

发表机构 * TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO（丰田技术研究所芝加哥分校）

AI总结本文研究如何利用深度学习准确建模和设计蛋白质复合物结构，这是计算结构生物学中的核心问题，对理解细胞功能和开发药物具有重要意义。研究提出了专门针对蛋白质结构层次特性的深度学习架构，并设计了高效的搜索算法，以在庞大的序列空间中寻找相互作用的同源蛋白，从而提升复合物结构预测和蛋白质序列设计的准确性。

Comments PhD thesis

2605.11186 2026-05-13 cs.LG cs.AI

CATS: Cascaded Adaptive Tree Speculation for Memory-Limited LLM Inference Acceleration

Yuning Han, Yangchenchen Jin, Dylan Zhao, Jingwei Sun

发表机构 * University of Florida（佛罗里达大学）

AI总结在内存受限的设备上进行大语言模型推理时，自回归解码过程受到内存带宽的限制，现有基于推测解码的方法通常假设设备内存足够容纳目标模型和辅助模型，这在边缘设备上并不适用。本文提出了一种名为CATS的级联自适应树推测框架，通过基于内存预算和参数卸载模式进行级联验证与修正，在不增加峰值内存占用的前提下，显著提升了推理速度。实验表明，CATS在多个真实边缘设备上实现了最高达5.08倍的加速，且生成质量无下降，优于现有最优方法1.45倍。

2605.11181 2026-05-13 cs.LG cs.AI cs.NA math.NA math.OC stat.ML

Muon is Not That Special: Random or Inverted Spectra Work Just as Well

Zakhar Shumaylov, Nathaël Da Costa, Peter Zaika, Bálint Mucsányi, Alex Massucco, Yoav Gelberg, Carola-Bibiane Schönlieb, Yarin Gal, Philipp Hennig

发表机构 * University of Cambridge（剑桥大学）； University of Tübingen（图宾根大学）； University of Oxford（牛津大学）

AI总结本文挑战了Muon优化器在非欧几里得优化中依赖几何结构的主流观点，提出精确的几何结构并非影响优化性能的关键因素。研究引入了基于Schatten（准）范数的Freon优化器，其性能在GPT-2等任务中优于Muon，并揭示了最佳参数位于准范数区域，无法用传统LMO理论解释。进一步提出Kaon优化器，通过用随机噪声替代奇异值仍能匹配Muon性能，证明严格的几何结构并非必要。研究指出，优化性能主要由对齐度和下降潜力等局部量决定，而非全局几何结构。

Comments 45 pages

2605.11178 2026-05-13 cs.LG cs.AI math.RT

Oversmoothing as Representation Degeneracy in Neural Sheaf Diffusion

Arif Dönmez, Axel Mosig, Ellen Fritsche, Katharina Koch

发表机构 * IUF – Leibniz Research Institute for Environmental Medicine（莱比锡环境医学研究所）； DNTOX GmbH（DNTOX公司）； Bioinformatics Group, Ruhr University Bochum（博德姆鲁尔大学生物信息学小组）； Swiss Centre for Applied Human Toxicology (SCAHT)（瑞士应用人类毒理学中心（SCAHT））

AI总结本文研究了神经束扩散（NSD）模型中的过平滑问题，将其解释为表示几何退化现象。通过将图上的细胞束与关联的入射图表示建立联系，作者揭示了NSD在扩散极限下所达到的调和空间的代数结构，并指出学习到的束几何可能退化为低复杂度的表示，导致判别信息丢失。文章进一步引入基于矩映射的正则化方法，以引导束限制映射趋向于更平衡的几何结构，并分析了等维结构中的稳定性障碍，提出了非均匀维数设计的有效性。实验表明，打破束维对称性有助于提升模型性能。

Comments 15 pages, Comments welcome

详情

英文摘要

Neural Sheaf Diffusion (NSD) generalizes diffusion-based Graph Neural Networks by replacing scalar graph Laplacians with sheaf Laplacians whose learned restriction maps define a task-adapted geometry. While the diffusion limit of NSD is known to be the space of global sections, the representation-theoretic structure of this harmonic space remains largely implicit. We develop a quiver-theoretic interpretation of NSD by identifying cellular sheaves on graphs with representations of the associated incidence quiver. Under this correspondence, learned sheaf geometries become points in a finite-dimensional representation space. We show that direct-sum decompositions of the underlying incidence-quiver representation induce decompositions of the harmonic space reached in the diffusion limit. This gives an algebraic interpretation of oversmoothing as representation degeneration: learned sheaves may collapse toward low-complexity summands whose global sections fail to preserve discriminative information. Building on this viewpoint, we connect sheaf diffusion to stability and moment-map principles from Geometric Invariant Theory. We introduce moment-map-inspired regularizers that bias restriction maps toward balanced representation geometries, and identify a structural obstruction in equal-stalk architectures: when $d_v = d_e$, admissibility for learnable stability parameters forces the trivial all-object summand onto a stability wall. Non-uniform stalk dimensions remove this obstruction, making adaptive stability meaningful. Experiments on heterophilic benchmarks are consistent with this mechanism: breaking stalk symmetry can reduce variance or improve validation behavior, and adaptive stability becomes more effective in selected rectangular settings. Overall, our framework reframes oversmoothing as a degeneration phenomenon in the representation geometry underlying learned sheaf diffusion.

URL PDF HTML ☆

赞 0 踩 0

2605.11172 2026-05-13 cs.LG

Optimistic Dual Averaging Unifies Modern Optimizers

Thomas Pethick, Wanyun Xie, Roman Machacek, Volkan Cevher

发表机构 * EPFL (LIONS)（苏黎世联邦理工学院（LIONS））； University of Bern（伯尔尼大学）

AI总结本文提出了一种名为SODA的优化框架，它是乐观对偶平均法的推广，能够统一当前先进的优化器如Muon、Lion、AdEMAMix和NAdam。通过该框架，研究者提出了一种实用的SODA包装器，能够通过理论支持的$1/k$衰减计划自动消除权重衰减调参的需求。实验表明，SODA在不同规模和训练周期下均能提升性能，且无需额外调整超参数。

2605.11169 2026-05-13 cs.AI

OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents

Sheldon Yu, Junda Wu, Xintong Li, Nikki Lijing Kuang, Sizhe Zhou, Tong Yu, Jiawei Han, Jingbo Shang, Julian McAuley

发表机构 * UC San Diego（加州大学圣地亚哥分校）； University of Illinois at Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； Adobe Research（Adobe研究）

AI总结本文提出OLIVIA，一种针对ReAct风格大语言模型代理的在线动作适配框架，用于提升其在部署时的决策性能。OLIVIA将代理的动作选择层建模为一个基于上下文的线性置信域上界（UCB）多臂老虎机问题，利用冻结的隐藏状态作为决策上下文，从而在保持原始推理过程的同时，实现对动作选择的直接调整和不确定性估计。实验表明，OLIVIA在多个基准任务中显著优于静态ReAct和基于提示的适配方法，展示了其在部署阶段进行高效、细粒度和不确定性感知的在线优化的有效性。

2605.11167 2026-05-13 cs.CL cs.AI cs.LG

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

Cedric Flamant, Udaya Ghai, Kanna Shimizu

发表机构 * AWS Agentic AI（AWS智能AI）

AI总结本文提出了一种名为“双室模型”的新方法，通过可训练的神经接口在两个预训练语言模型的中间隐藏状态之间建立双向耦合，使它们能够通过连续的并发通道进行协调，而非传统的文本生成方式。该模型在每一步生成过程中同步运行，主模型负责任务执行，辅助模型则处理工具调用、约束求解或代码执行，并通过翻译网络和学习抑制门实现相互条件控制。实验表明，该方法在算术、逻辑网格谜题和数学推理任务中显著提升了性能，展示了其在多模型协作中的有效性。

Comments 9 pages main text, 5 figures, 24 pages appendix

2605.11166 2026-05-13 cs.CV

Unpacking the Eye of the Beholder: Social Location, Identity, and the Moving Target of Political Perspectives

Elena Sirotkina

发表机构 * Center for Data Science（数据科学中心）

AI总结本文研究了政治和社会身份如何影响人们对政治信息的评价，并指出传统计算工具往往忽略这种差异。为此，作者提出了一个名为Perspectivist Visual Political Sentiment（PVPS）的分类器，通过大量美国成年人的评价数据，预测不同政治和社会身份群体对同一图像的评价差异。该方法保留了群体间的系统性分歧，揭示了政治图像意义的动态性，强调理解图像传达的内容必须考虑受众的身份背景。

2605.11161 2026-05-13 cs.LG cs.AI

Interpretability Can Be Actionable

Hadas Orgad, Fazl Barez, Tal Haklay, Isabelle Lee, Marius Mosbach, Anja Reusch, Naomi Saphra, Byron Wallace, Sarah Wiegreffe, Eric Wong, Ian Tenney, Mor Geva

发表机构 * Kempner Institute at Harvard University（哈佛大学凯默纳研究所）； University of Southern California（美国南加州大学）； Mila – Quebec AI Institute（魁北克AI研究所）； McGill University（麦吉尔大学）； Google DeepMind（谷歌DeepMind）； Tel Aviv University（特拉维夫大学）； University of Pennsylvania（宾夕法尼亚大学）； University of Maryland（马里兰大学）； University of Oxford（牛津大学）； Northeastern University（东北大学）； Boston University（波士顿大学）

AI总结本文探讨了深度神经网络可解释性研究的实践价值问题，指出当前研究缺乏将可解释性转化为实际决策和干预能力的评估标准。作者提出应以“行动性”作为可解释性的核心评价标准，从具体性和验证性两个维度定义可操作的可解释性，并分析了阻碍其实际应用的障碍。文章进一步识别了五个可解释性具有独特优势的领域，提出了与实际效果对齐的评估框架，旨在推动可解释性研究从理论探索向实际应用转化。

Comments Accepted to ICML 2026

2605.11153 2026-05-13 cs.CL cs.LG cs.NE

Decomposing Evolutionary Mixture-of-LoRA Architectures: The Routing Lever, the Lifecycle Penalty, and a Substrate-Conditional Boundary

Ramchand Kumaresan

发表机构 * Murai Labs（穆莱实验室）

AI总结本文研究了进化混合LoRA架构在特定基础模型上的性能分解问题，提出了三个关键因素：路由重写机制、领域评估范围和生命周期策略。通过实验分析，发现路由重写对模型性能提升具有显著贡献，而生命周期策略则带来一定负面影响。研究还揭示了进化搜索在路由通道中的有效性依赖于适配器的预对齐程度，为LoRA架构的优化提供了新的理论依据和实践指导。

2605.11144 2026-05-13 cs.RO

Forecast-aware Gaussian Splatting for Predictive 3D Representation in Language-Guided Pick-and-Place Manipulation

Kaixin Jia, Jiacheng Xu

发表机构 * KTH Royal Institute of Technology（皇家理工学院）

AI总结本文提出了一种名为Forecast-aware Gaussian Splatting（Forecast-GS）的预测性三维表示框架，用于语言引导的机器人抓取与放置操作。该方法通过显式建模任务完成状态，提升了机器人在部分观测条件下对动作可行性的评估能力。实验表明，Forecast-GS在多个真实场景任务中取得了优于现有方法的性能，显示出其在语言理解、三维感知与机器人规划之间建立可解释桥梁的有效性。

2605.11142 2026-05-13 cs.LG

Rank Is Not Capacity: Spectral Occupancy for Latent Graph Models

Nikolaos Nakis, Panagiotis Promponas, Konstantinos Tsirkas, Katerina Mamali, Eftychia Makri, Leandros Tassiulas, Nicholas A. Christakis

发表机构 * Human Nature Lab, Yale University（耶鲁大学人类本质实验室）； Department of Electrical and Computer Engineering, Yale University（耶鲁大学电气与计算机工程系）； Department of Statistics and Data Science, Yale University（耶鲁大学统计与数据科学系）； Department of Computer Science, Yale University（耶鲁大学计算机科学系）

AI总结本文研究了图表示学习中潜空间维度这一传统超参数的设定问题，指出其与模型行为的实际控制量不一致。为此，作者提出了一种基于谱分析的新方法Spectra，通过学习正定核的谱分布来替代传统的秩作为分析单位，并利用归一化特征值构建可控的训练坐标，从而在训练过程中动态调节模型容量。该方法在多个网络数据集上展示了预测性能与模型容量之间的权衡关系，为过参数化场景下的模型容量控制提供了理论依据和实用工具。

Comments Preprint

2605.11136 2026-05-13 cs.AI

EVOCHAMBER: Test-Time Co-evolution of Multi-Agent System at Individual, Team, and Population Scales

Yaolun Zhang, Tianyi Xu, Shengyu Dai, Zhenwen Shao, Qingyun Wu, Huazheng Wang

发表机构 * Oregon State University（俄勒冈州立大学）； University of Wisconsin–Madison（威斯康星大学麦迪逊分校）； Johnson & Johnson（强生公司）； Pennsylvania State University（宾夕法尼亚州立大学）； AG2AI, Inc.（AG2AI公司）

AI总结本文提出EVOCHAMBER，一种无需训练的框架，用于在个体、团队和种群三个层面实现多智能体系统的测试时协同进化。其核心方法CODREAM通过团队失败或分歧后协作反思与知识异步传递，实现跨智能体的非对称知识转移，保留专业化分工的同时填补知识空白。实验表明，该方法在数学、编程和多领域推理任务中均取得显著提升，并观察到多个稳定的专业化智能体自发形成，展现了多智能体进化的结构特征。

2605.11133 2026-05-13 cs.LG math.DG

Steerable Neural ODEs on Homogeneous Spaces

Emma Andersdotter, Daniel Persson, Fredrik Ohlsson

发表机构 * Department of Mathematics and Mathematical Statistics（数学与统计学系）； Umeå University（乌梅大学）； Department of Mathematical Sciences（数学科学系）； Chalmers University of Technology and Gothenburg University（楚姆勒技术大学和哥德堡大学）

AI总结本文提出了一种在齐性空间 $M=G/H$ 上的可操控神经常微分方程（Steerable Neural ODEs），将特征向量在局部对称群 $H$ 作用下的变换纳入模型设计。通过将特征解释为齐性空间上的向量丛截面，并将其演化视为平行移动，模型形成了一组耦合的微分方程，包括空间流方程和特征操控方程。该方法在满足特定对称性条件时具有 $G$-等变性，为学习齐性空间上一般向量值特征的连续时间等变动力学提供了几何基础。

Comments 39 pages, 3 figures

AI 大模型

视觉与机器人

科学与医疗