arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2602.04189 2026-05-12 cs.LG stat.CO

Beyond Accuracy: Evaluating Posterior Fidelity of Diffusion Inverse Solvers

Xiaoyu Qiu, Taewon Yang, Zhanhao Liu, Guanyang Wang, Liyue Shen

发表机构 * Department of Statistics, University of Michigan（密歇根大学统计学系）； Department of EECS, University of Michigan（密歇根大学电子工程与计算机科学系）； Department of Statistics, Rutgers University（罗格斯大学统计学系）

AI总结本文研究了扩散逆解器（DIS）在科学与工程反问题中的后验分布保真度问题，指出现有基准主要关注重建精度而忽视了不确定性量化。为此，作者提出了一种无需真实后验的评分核Stein分歧（score-KSD）指标，用于评估扩散采样器生成样本与目标后验分布的一致性。实验表明，该指标能有效揭示重建精度与后验一致性之间的差异，为更全面的模型评估提供了新方法。

2602.04093 2026-05-12 cs.LG

Federated Concept-Based Models: Interpretable models with distributed supervision

Dario Fenoglio, Arianna Casanova, Francesco De Santis, Gabriele Dominici, Johannes Schneider, Pietro Barbiero, Giovanni De Felice, Marc Langheinrich, Martin Gjoreski

发表机构 * Università della Svizzera italiana（瑞士联邦理工学院）； University of Liechtenstein（利亨斯坦大学）； Politecnico di Torino（都灵理工大学）； IBM Research Zurich（IBM 苏黎世研究实验室）

AI总结该论文提出了一种名为“联邦概念模型”（F-CMs）的新方法，旨在将可解释的概念模型与联邦学习相结合，以解决在分布式数据源中概念标注稀缺的问题。该方法能够在不同机构间聚合概念信息，并在概念监督变化时高效适应模型架构，同时保障隐私。实验表明，F-CMs在保持预测准确性的同时，还能在机构无法获取某些概念的情况下实现可解释推理，具有显著的创新性。

2602.03688 2026-05-12 cs.AI

TodyComm: Task-Oriented Dynamic Communication for Multi-Round LLM-based Multi-Agent System

Wenzhe Fan, Tommaso Tognoli, Henry Peng Zou, Chunyu Miao, Yibo Wang, Xinhua Zhang

发表机构 * Department of Compute Science, University of Illinois at Chicago（伊利诺伊大学芝加哥分校计算机科学系）

AI总结本文提出了一种名为TodyComm的任务导向动态通信算法，用于解决多轮基于大语言模型的多智能体系统中通信结构固定导致的协作效率问题。该方法通过策略梯度优化，在每轮交互中动态生成适应任务需求的协作拓扑，从而提升任务性能。实验表明，TodyComm在动态对抗环境和通信预算限制下表现出优越的性能，同时保持了高效性、可扩展性和良好的泛化能力。

2602.02281 2026-05-12 cs.LG cs.AI cs.NE physics.class-ph physics.comp-ph

A Physical Theory of Backpropagation: Exact Gradients from the Least-Action Principle

Antonino Emanuele Scurria

发表机构 * Quantum Information Laboratory (LIQ)（量子信息实验室（LIQ））； Université libre de Bruxelles (ULB)（布鲁塞尔自由大学（ULB））

AI总结本文从哈密顿最小作用量原理出发，推导出精确的反向传播算法，填补了物理原理与反向传播之间的重要理论空白。通过将前向传播过程转化为连续时间动力学，并引入适用于非保守系统的拉格朗日形式，作者在扩展的相空间中统一了推理与梯度计算，使激活值和敏感度共同编码于共轭场中。该方法无需独立的反向计算电路，实现了推理与梯度计算的同步进行，标准的反向传播可视为该连续流的离散时间投影，为经典力学工具在学习动力学分析中的应用提供了理论基础。

Comments 22 pages

2602.01698 2026-05-12 cs.CL cs.LG

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan

发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China（中国人民大学北京校区人工智能学院）； MiLM Plus, Xiaomi Inc., Beijing, China（小米公司北京MiLM Plus团队）； University of Modena and Reggio Emilia（莫德纳和雷吉奥艾米莉亚大学）； University of Pisa, Italy（比萨大学）

AI总结大型推理模型（LRMs）通过强化学习后训练在数学和代码推理任务中取得了显著进展，但研究发现这种后训练会导致探索能力下降，即温度采样无法有效提升任务成功率。本文提出了一种名为“潜在探索解码”（LED）的方法，通过利用中间层的高熵特性，结合深度条件解码策略，有效恢复模型的探索能力。实验表明，LED在多个基准测试中显著提升了推理准确率，且无需额外训练或参数，同时与强化学习结合还能加速性能提升。

Comments Project Page: https://github.com/AlbertTan404/LED

2601.23026 2026-05-12 cs.LG

Root Cause Analysis of Measurement and Mechanistic Anomalies

Hendrik Suhr, David Kaltenpoth, Jilles Vreeken

发表机构 * CISPA Helmholtz Center for Information Security（CISPA赫尔姆霍兹信息安全中心）

AI总结本文研究了异常的根本原因分析问题，旨在识别样本偏离正常过程的机制和原因。现有方法主要关注哪些特征导致异常，而忽略了异常可能源于测量错误或机制变化两种不同过程。作者提出了一种因果模型，明确区分这两种异常类型，并基于该模型开发了高效的推理方法，用于定位根本原因并分类异常类型。实验表明，该方法在合成和真实数据上均表现出优越的性能。

2601.22131 2026-05-12 cs.LG

SMOG: Scalable Meta-Learning for Multi-Objective Bayesian Optimization

Leonard Papenmeier, Petru Tighineanu

发表机构 * Department of Information Systems University of Münster（信息系统系穆斯特大学）； Robert Bosch GmbH（博世集团）

AI总结该论文提出了一种可扩展的元学习方法 SMOG，用于多目标贝叶斯优化。SMOG 基于多输出高斯过程，显式学习目标之间的相关性，并通过构建跨元任务和目标任务的结构化联合先验，实现对元数据不确定性的有效传播。该方法支持分层并行训练，具有良好的可扩展性，并能与标准多目标贝叶斯优化的获取函数无缝集成，显著提升了数据效率。

Comments 29 pages, 18 figures

2601.21926 2026-05-12 cs.RO

Information Filtering via Variational Regularization for Robot Manipulation

Jinhao Zhang, Wenlong Xia, Yaojia Wang, Zhexuan Zhou, Huizhe Li, Yichen Lai, Haoming Song, Youmin Gong, Jie Mei

发表机构 * Harbin Institute of Technology, Shenzhen（哈尔滨工业大学（深圳））； Shanghai Jiao Tong University（上海交通大学）

AI总结本文研究了基于扩散模型的视觉运动策略在机器人操作中的信息过滤问题，指出现有方法中去噪解码器过于庞大，导致中间特征块存在冗余和噪声。为此，作者提出了一种可插拔的变分正则化模块，通过引入条件高斯分布和KL散度正则化，形成自适应信息瓶颈，有效提升了模型性能。实验表明，该方法在多个仿真和实际机器人任务中均取得了优于基线的成果，达到了新的状态-of-the-art水平。

2601.21739 2026-05-12 cs.LG cs.AI stat.ML

Why Adam Works Better with $β_1 = β_2$: The Missing Gradient Scale Invariance Principle

Alberto Fernández-Hernández, Cristian Pérez-Corral, Jose I. Mestre, Manuel F. Dolz, Enrique S. Quintana-Ortí

发表机构 * Universitat Politècnica de València（巴塞罗那理工大学）； Universitat Jaume I（Jaime I 大学）

AI总结本文研究了Adam优化器中为何当动量参数满足 $β_1 = β_2$ 时表现更优这一长期未被解释的现象。作者提出并形式化了一个名为“梯度尺度不变性”的结构性质，证明当 $β_1 = β_2$ 时，Adam 优化器具有一阶梯度尺度不变性。该发现不仅解释了Adam在平衡参数设置下的优越性能，也为设计鲁棒性更强的优化算法提供了理论指导。

Comments 23 pages, 8 figures. Preprint

2601.20756 2026-05-12 cs.LG stat.ML

Supervised Guidance Training for Infinite-Dimensional Diffusion Models

Elizabeth L. Baker, Alexander Denker, Jes Frellsen

发表机构 * Department of Applied Mathematics and Computer Science, Technical University of Denmark, Denmark（应用数学和计算机科学系，丹麦技术大学，丹麦）

AI总结本文研究了如何在无限维函数空间中对扩散模型进行监督引导训练，以解决来自偏微分方程的贝叶斯反问题。作者提出了一种基于无限维Doob $h$-变换的条件化方法，并将条件分数分解为无条件分数和引导项，进而设计了一种无需模拟的分数匹配目标（称为监督引导训练），实现了高效稳定的后验采样。该方法为在函数空间中微调扩散模型以准确采样后验分布提供了首个系统性方案。

2601.20164 2026-05-12 cs.LG cs.AI cs.CL

What's the plan? Metrics for implicit planning in LLMs and their application to rhyme generation and question answering

Jim Maar, Denis Paperno, Callum Stuart McDougall, Neel Nanda

发表机构 * HPI / University of Potsdam（HPI/波茨坦大学）； Utrecht University（乌特勒支大学）； Google DeepMind（谷歌DeepMind）

AI总结本文研究了大型语言模型（LLMs）中的隐式规划行为，即模型在生成文本时可能为未来可能出现的词语（如押韵词或问题答案）提前做出选择。作者提出了一种简单有效的方法来评估这种隐式规划能力，并通过押韵生成和问答任务的案例研究验证了该方法的广泛适用性。研究发现，即使在参数量较小（如10亿参数）的模型中也存在隐式规划机制，这一发现对理解语言模型的规划能力及其在AI安全与控制中的应用具有重要意义。

Comments 41 pages, 34 figures, Accepted at ICLR 2026, Code available at https://github.com/Jim-Maar/implicit-planning-in-llms

2601.19914 2026-05-12 cs.CL cs.AI cs.SE

Simulating Complex Multi-Turn Tool Calling Interactions in Stateless Execution Environments

Maxwell Crouse, Ibrahim Abdelaziz, Kshitij Fadnis, Siva Sankalp Patel, Kinjal Basu, Chulaka Gunasekara, Sadhana Kumaravel, Asim Munawar, Pavan Kapanipathi

发表机构 * IBM Research AI（IBM人工智能研究院）

AI总结该研究旨在解决在无状态执行环境中生成复杂多轮工具调用对话的问题。传统方法通常假设存在能够维护状态的执行环境，但实际场景中如企业安全或多方来源工具规格合成等情况下，这种假设并不成立。为此，研究提出了一种名为DiGiT-TC的数据生成方法，通过一种新颖的生成模式隐式地在用户请求中表示工具调用，从而在无状态环境下模拟出类似有状态环境生成的对话。实验表明，该方法在标准基准测试中表现出色，即使在有状态问题设置下也取得了显著的性能提升。

2601.16097 2026-05-12 cs.CL

Incremental Multilingual Text2Cypher with Adapter Combination

Makbule Gulcin Ozsoy

发表机构 * Neo4j London UK（Neo4j伦敦英国）

AI总结该研究旨在开发一种可扩展的多语言Text2Cypher系统，能够在不重新进行完整微调的情况下支持新语言，从而提升数据库的多语言访问能力。研究通过训练特定语言的LoRA适配器，并结合统一线性合并或动态门控的融合MLP，实现了高效的多语言模型适配。实验表明，该方法在使用更少数据的情况下，性能接近联合多语言微调，且支持语言的逐步扩展，为多语言Text2Cypher任务提供了性能与数据效率兼顾的实用解决方案。

2601.15686 2026-05-12 cs.LG

Beyond Hard Writes and Rigid Preservation: Soft Recursive Least-Squares for Lifelong LLM Editing

Xinyu Wang, Sicheng Lyu, Yu Gu, Jerry Huang, Peng Lu, Yufei Cui, Xiao-Wen Chang

发表机构 * McGill University（麦吉尔大学）； Mila–Quebec AI Institute（蒙特利尔AI研究院）； Université de Montréal（蒙特利尔大学）

AI总结该论文研究了如何在不重新训练的前提下，对预训练的大语言模型进行长期的、连续的事实或规则编辑，以解决编辑过程中出现的干扰累积与行为稳定性之间的矛盾。提出了一种基于递归最小二乘法的编辑方法RLSEdit，通过在线二次优化框架，结合软约束和正则化项，实现对模型权重和锚定映射的偏差控制，并支持高效的在线递归计算。实验表明，该方法在多个模型和数据集上能够稳定处理大量编辑任务，在编辑效果和整体稳定性方面优于现有方法，同时保持早期编辑效果和模型的通用能力。

2601.15599 2026-05-12 cs.AI

Autonomous Business System via Neuro-symbolic AI

Cecil Pang, Hiroki Sayama

发表机构 * School of Systems Science and Industrial Engineering, Binghamton University, State University of New York（宾夕法尼亚州立大学布林顿分校系统科学与工业工程学院）； AI Engineering, USA TODAY Co., Inc.（USA TODAY公司人工智能工程部）； Binghamton Center of Complex Systems, Binghamton University, State University of New York（宾夕法尼亚州立大学布林顿复杂系统中心）； Waseda Innovation Lab, Waseda University（早稻田大学创新实验室）

AI总结现代企业环境中，跨职能流程需要持续调整，但现有企业系统多为部门隔离、流程僵化和硬编码自动化。本文提出一种基于神经符号AI的自主业务系统（AUTOBUS），将大语言模型、谓词逻辑编程和业务语义数据整合为统一架构，实现端到端业务任务的自动化执行。该系统通过知识图谱组织企业数据，结合AI代理生成任务逻辑程序，并由逻辑引擎确保执行的确定性和语义一致性，从而提升业务流程的灵活性与可审计性。

Comments IEEE SysCon 2026

Journal ref 2026 IEEE International Systems Conference (SysCon), Halifax, NS, Canada, 2026, pp. 1-8

详情

DOI: 10.1109/SysCon66367.2026.11503621

英文摘要

Modern business environments demand continuous reconfiguration of cross-functional processes, yet most enterprise systems remain organized around siloed departments, rigid workflows, and hard-coded automation. Meanwhile, large language models (LLMs) demonstrate strong capabilities in interpreting natural language and synthesizing unstructured information, but they lack deterministic, auditable execution of complex business logic. We introduce Autonomous Business System (AUTOBUS), a system that integrates LLM-based AI agents, predicate-logic programming, and business-semantics-centric enterprise data into a unified neuro-symbolic architecture for executing end-to-end business initiatives. AUTOBUS models a business initiative as a network of interrelated tasks with explicit pre- and post-conditions, required data, evaluation rules, and API-level actions. Enterprise data is organized as a knowledge graph, whose entities, relationships, and constraints are translated into logic facts and foundational rules that ground reasoning and ensure semantic consistency. Core AI agents synthesize task instructions, enterprise semantics, and available tools into task-specific logic programs, which are executed by a logic engine that enforces constraints, coordinates auxiliary tools, and produces deterministic outcomes. Humans specify task instructions, define and maintain business semantics and policies, curate tools, and supervise high-impact or ambiguous decisions, ensuring accountability and adaptability. We detail the AUTOBUS architecture, the structure of AI-generated logic programs, and the human-AI collaboration model and present a case study that demonstrates accelerated time to market in a data-rich organization. A reference implementation of the case study is available at https://github.com/cecilpang/autobus-paper.

URL PDF HTML ☆

赞 0 踩 0

2601.12374 2026-05-12 cs.CL cs.AI

A Scalable Entity-Based Framework for Auditing Bias in LLMs

Akram Elbouanani, Aboubacar Tuo, Adrian Popescu

发表机构 * Université Paris-Saclay, CEA, List（巴黎-萨克雷大学，法国原子能委员会，List）

AI总结本文提出了一种基于实体的可扩展框架，用于审计大型语言模型中的偏见。该框架利用命名实体作为可控探针，通过合成数据生成多样且可控的输入，从而系统性地评估模型在不同实体类型、任务、语言和提示策略下的行为差异。研究发现了模型在政治立场、国家偏好和行业倾向等方面的一致偏见模式，并指出模型规模的增加可能加剧偏见，而指令微调虽能缓解但无法完全消除。该框架为大规模偏见分析提供了有效工具，适用于多种应用场景，并已公开提供以支持后续研究。

2601.08321 2026-05-12 cs.CV

UM-Text: A Unified Multimodal Model for Image Understanding and Visual Text Editing

Lichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang

发表机构 * Sun Yat-sen University（中山大学）

AI总结随着图像生成技术的快速发展，基于自然语言指令的视觉文本编辑任务日益受到关注。该任务的核心挑战在于如何准确理解指令和参考图像，并生成与图像风格一致的视觉文本。为此，本文提出 UM-Text，一个统一的多模态模型，通过引入视觉语言模型（VLM）和 UM-Encoder，实现了对文本内容与布局的精细设计，并通过区域一致性损失和三阶段训练策略提升了生成效果，同时贡献了一个大规模视觉文本图像数据集 UM-DATA-200K。

Comments Accepted by AAAI 2026

2601.03042 2026-05-12 cs.CL

BaseCal: Unsupervised Confidence Calibration via Base Model Signals

Hexiang Tan, Wanli Yang, Junwei Zhang, Xin Chen, Rui Tang, Du Su, Jingang Wang, Yuanzhuo Wang, Fei Sun, Xueqi Cheng

发表机构 * State Key Laboratory of AI Safety, Institute of Computing Technology, CAS（人工智能安全国家重点实验室，计算技术研究所，中国科学院）

AI总结该研究针对大语言模型（PoLLMs）在实际应用中常表现出的过度自信问题，提出了一种无需监督的置信度校准方法BaseCal。通过利用对应的基座模型（base LLM）作为参考，BaseCal 提出了两种方法：一种是通过基座模型重新评估PoLLM的输出置信度，另一种是训练一个轻量投影模块将PoLLM的隐藏状态映射到基座模型的状态，从而生成校准后的置信度。实验表明，BaseCal 能有效降低预期校准误差（ECE），在多个数据集和模型家族中表现优异。

Comments ACL 2026 Main

2512.24601 2026-05-12 cs.AI cs.CL

Recursive Language Models

Alex L. Zhang, Tim Kraska, Omar Khattab

发表机构 * MIT CSAIL（麻省理工学院计算机科学与人工智能实验室）

AI总结本文研究了如何通过推理时的扩展，使大语言模型（LLMs）能够处理任意长度的提示。为此，作者提出了递归语言模型（RLMs），该方法将长提示视为外部环境的一部分，允许模型对提示进行编程式的分析、分解和递归调用自身。实验表明，RLMs 能够处理超出模型上下文窗口两个数量级的输入，在多个长上下文任务中显著优于现有的前沿模型，且成本相当。此外，作者基于 RLM 微调了首个模型 RLM-Qwen3-8B，在多个长上下文任务中表现优于基础模型，并接近 GPT-5 的水平。

Comments 9 pages, 43 with Appendix

2512.23964 2026-05-12 cs.LG cs.AI

DUALFloodGNN: Physics-informed Graph Neural Network for Operational Flood Modeling

Carlo Malapad Acosta, Herath Mudiyanselage Viraj Vidura Herath, Jia Yu Lim, Abhishek Saha, Sanka Rasnayaka, Lucy Marshall

发表机构 * Department of Computer Science, School of Computing, National University of Singapore（新加坡国立大学计算机科学系）； School of Civil Engineering, Faculty of Engineering, The University of Sydney（悉尼大学土木工程学院）； Delft Institute of Applied Mathematics, Delft University of Technology（代尔夫特理工大学应用数学研究所）

AI总结该论文提出了一种名为 DUALFloodGNN 的物理信息图神经网络模型，用于操作性洪水模拟。该模型通过在全局和局部尺度上嵌入物理约束，结合显式损失函数，实现了对节点水体积和边流量的联合预测。相比传统图神经网络和现有洪水模型，DUALFloodGNN 在预测水文变量（如水体积、流量和水深）方面表现出更高的准确性和计算效率，并且支持快速预测，适用于实际灾害管理场景。

Comments Accepted for publication at the IJCAI-ECAI 2026 AI4Tech track

2512.19995 2026-05-12 cs.CL cs.AI cs.LG

Schoenfeld's Anatomy of Mathematical Reasoning by Language Models

Ming Li, Chenrui Fan, Yize Cheng, Soheil Feizi, Tianyi Zhou

发表机构 * University of Maryland, College Park（马里兰大学学院公园分校）

AI总结该研究探讨了大型语言模型在数学推理过程中所展现的思维结构，采用Schoenfeld的“事件理论”作为分析框架，提出了一种名为ThinkARM的可扩展方法，将推理过程抽象为如分析、探索、验证等明确的推理步骤。通过该方法，研究揭示了不同模型在推理过程中的动态特征和结构差异，并通过案例分析表明，探索步骤对推理正确性具有关键影响，效率导向的方法可能抑制评估反馈步骤而非单纯缩短响应。这一工作为系统分析语言模型推理结构提供了新的视角。

Comments ACL2026, camera-ready

2512.17593 2026-05-12 cs.LG math.OC

A Unified Representation of Neural Networks Architectures

Christophe Prieur, Mircea Lazar, Bogdan Robu

发表机构 * Univ. Grenoble Alpes, CNRS, Grenoble INP（格勒诺布尔阿尔卑斯大学、法国国家科学研究中心、格勒诺布尔INP）； Eindhoven University of Technology Electrical Engineering, Control Systems（埃因霍温理工大学电子工程与控制系统）

AI总结本文研究了神经网络架构在隐藏层神经元数量和隐藏层数目趋于无穷时的极限情况，将其形式化为连续体，并推导了相应的逼近误差。作者首先考虑单隐藏层神经网络，提出了一种广义的无限宽度积分神经网络表示，进而扩展到具有有限积分隐藏层和残差连接的深度残差CNN。通过结合神经ODE与深度残差网络的关系，作者提出了一个统一的分布参数神经网络（DiPaNet）表示，展示了大多数现有有限和无限维神经网络架构均可通过同质化或离散化方法与此表示相关联，为神经网络的理论分析提供了新的视角。

Comments Typographical corrections and additional clarifications, remarks; few new relevant references added and acknowledgements; main results unchanged

2512.15977 2026-05-12 cs.CV

Are vision-language models ready to zero-shot replace supervised classification models in agriculture?

Earl Ranario, Mason J. Earles

发表机构 * University of California, Davis（加州大学戴维斯分校）

AI总结该研究评估了多种开源和闭源的视觉-语言模型（VLMs）在农业图像分类任务中的表现，涉及27个数据集、162个类别和248,000张图像。结果表明，零样本VLMs在多数任务中显著落后于监督学习的基准模型YOLO11，且在开放性提示下性能更低，需借助语义判断等方法提升效果。尽管部分开源模型如Qwen-VL-72B表现接近闭源模型，但整体来看，当前VLMs尚未具备作为独立农业诊断系统的能力，更适合在受限接口和领域知识支持下作为辅助工具使用。

2512.13919 2026-05-12 cs.LG cs.NA math.NA

Adaptive digital twins for predictive decision-making: Online Bayesian learning of transition dynamics

Eugenio Varetti, Matteo Torzoni, Marco Tezzele, Andrea Manzoni

发表机构 * MOX – Dipartimento di Matematica, Politecnico di Milano（MOX——数学系，米兰理工大学）； Dipartimento di Ingegneria Civile e Ambientale, Politecnico di Milano（土木工程与环境工程系，米兰理工大学）； Mathematics Department, Emory University（埃默里大学数学系）

AI总结本文研究了如何通过自适应机制提升数字孪生在土木工程中的价值实现，重点在于利用概率图模型对数字孪生中的状态转移模型进行自适应。通过动态贝叶斯网络建模物理与虚拟域之间的双向交互，并将状态转移概率作为具有共轭先验的随机变量，实现了基于贝叶斯更新的分层在线学习。该方法扩展了现有数字孪生框架中对分布类型的适用范围，并结合强化学习求解参数化马尔可夫决策过程，提升了系统的个性化、鲁棒性和成本效益，实验案例验证了其在铁路桥梁结构健康监测与维护规划中的有效性。

2512.13618 2026-05-12 cs.CL cs.LG

Temporal Tokenization Strategies for Event Sequence Modeling with Large Language Models

Zefang Liu, Nam H. Nguyen, Yinzhu Quan, Shi-Xiong Zhang

发表机构 * Capital One ； Georgia Institute of Technology（佐治亚理工学院）

AI总结本文研究了在使用大语言模型（LLM）对事件序列进行建模时，如何有效表示连续时间这一关键但尚未充分探索的问题。通过系统比较多种时间编码策略，如数值字符串、高精度字节表示、日历语义标记、均匀分箱和自适应残差量化等，发现不同方法在不同统计分布的数据上表现各异。研究强调，时间标记策略应与数据的统计特性相匹配，揭示了时间标记设计在基于LLM的事件建模中是一个关键但常被忽视的维度。

2512.06949 2026-05-12 cs.CV

Can We Go Beyond Visual Features? Neural Tissue Relation Modeling for Relational Graph Analysis in Non-Melanoma Skin Histology

Shravan Venkatraman, Muthu Subash Kavitha, Joe Dhanith P R, V Manikandarajan, Jia Wu

发表机构 * Mohamed bin Zayed University of AI（Mohamed bin Zayed人工智能大学）； School of Information and Data Sciences（信息与数据科学学院）； Vellore Institute of Technology（维洛雷理工学院）； Loughborough University（洛桑大学）； MD Anderson Cancer Center, The University of Texas（MD安德森癌症中心，德克萨斯大学）

AI总结在皮肤癌诊断中，组织病理学图像分割对于识别组织结构至关重要，但建模空间上下文和组织间关系仍是一个挑战，尤其是在组织重叠或形态相似的区域。为此，本文提出了一种新的分割框架——神经组织关系建模（NTRM），通过在卷积神经网络中引入图神经网络，建模不同组织类型之间的空间和功能关系，从而提升分割的结构一致性。实验表明，NTRM在非黑色素瘤皮肤癌分割数据集上显著优于现有方法，Dice相似性系数提升了4.9%至31.25%，展示了关系建模在提升分割准确性和可解释性方面的潜力。

Comments CVPR 2026 Workshops

2512.06427 2026-05-12 cs.LG

A new initialisation to Control Gradients in Sinusoidal Neural network

Andrea Combette, Antoine Venaille, Nelly Pustelnik

发表机构 * ENSL, CNRS UMR 5672（ENSL，CNRS UMR 5672）

AI总结本文提出了一种针对正弦激活函数神经网络（如SIREN）的新初始化方法，旨在更好地控制梯度、缓解梯度消失或爆炸问题，并提升模型的训练与泛化能力。该方法通过分析前激活分布和雅可比矩阵方差的收敛性，推导出一种闭式初始化表达式，与原始SIREN方案不同。实验表明，该初始化方法在函数拟合和图像重建任务中显著优于现有方法，尤其在物理信息神经网络任务中表现突出。

2512.04949 2026-05-12 cs.LG cs.AI cs.CL

CARL: Criticality-Aware Agentic Reinforcement Learning

Leyang Shen, Yang Zhang, Chun Kai Ling, Xiaoyan Zhao, Tat-Seng Chua

发表机构 * National University of Singapore, Singapore（新加坡国立大学）

AI总结本文提出了一种名为CARL的强化学习算法，旨在解决多步任务中传统策略优化方法因假设每一步贡献相同而导致的性能不足问题。CARL通过引入熵作为状态重要性的代理指标，专注于对关键状态的动作进行奖励分配，从而提升训练效率和效果。实验表明，CARL在多种评估场景中均表现出更强的性能和更高的效率。

Comments 18 pages, 6 figures

2511.23332 2026-05-12 cs.CV

UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes

Shuo Ni, Di Wang, He Chen, Haonan Guo, Ning Zhang, Jing Zhang

发表机构 * Beijing Institute of Technology（北京理工大学）； Wuhan University（武汉大学）； Zhongguancun Academy（中关村学院）； Hong Kong Polytechnic University（香港理工大学）

AI总结本文提出 UniGeoSeg，一种面向遥感地景的统一开放世界分割框架，旨在解决现有方法在任务定义分散和指令数据有限方面的不足。研究构建了 GeoSeg-1M 数据集，包含大量图像-掩码-指令三元组，并设计了 GeoSeg-Bench 用于评估模型在复杂地景场景中的理解与推理能力。UniGeoSeg 通过任务感知的文本增强、潜在知识记忆和渐进式训练策略，实现了多任务学习，在多个基准测试中表现出色，具有强大的零样本泛化能力。

Comments Datasets and source code were released at https://github.com/MiliLab/UniGeoSeg ; Accepted by CVPR 2026

2511.22963 2026-05-12 cs.RO cs.AI

Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary

Zhirui Liu, Kaiyang Ji, Ke Yang, Yahao Fan, Jingyi Yu, Ye Shi, Jingya Wang

发表机构 * ShanghaiTech University（上海科技大学）

AI总结本文研究了如何使人形机器人理解并执行自由形式的自然语言指令，提出了一个名为Humanoid-LLA的大语言动作模型，能够将自然语言直接转化为可执行的全身运动。该方法通过学习统一的人类-人形机器人运动词汇，解决了语言语义与物理控制之间的对齐问题，并采用两阶段微调框架，结合监督学习与强化学习，提升了运动的物理稳定性和鲁棒性。实验表明，该模型在模拟和真实环境中均能生成多样且物理合理的动作，具有良好的语言指令泛化能力。

Comments Project page: https://humanoidlla.github.io/

AI 大模型

视觉与机器人

科学与医疗