arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2602.02799 2026-05-13 cs.LG cs.AI

Joint Learning of Hierarchical Neural Options and Abstract World Model

Wasu Top Piriyakulkij, Wolfgang Lehrach, Kevin Ellis, Kevin Murphy

发表机构 * Cornell University（康奈尔大学）； Google Deepmind（谷歌DeepMind）

AI总结该研究旨在开发能够通过组合已有技能学习新技能的智能体，提出了一个名为AgentOWL的新方法，该方法能够高效地联合学习抽象世界模型和分层神经选项。与现有方法相比，AgentOWL在数据效率和技能泛化能力方面表现出显著优势，并在部分以物体为中心的Atari游戏中验证了其有效性。

2602.02408 2026-05-13 cs.CV cs.AI

ReasonEdit: Editing Vision-Language Models using Human Reasoning

Jiaxing Qiu, Kaihua Hou, Roxana Daneshjou, Ahmed Alaa, Thomas Hartvigsen

发表机构 * University of Virginia（弗吉尼亚大学）； University of California, Berkeley（加州大学伯克利分校）； Stanford University（斯坦福大学）

AI总结 ReasonEdit 是一种用于编辑视觉-语言模型（VLM）的新方法，旨在在不干扰模型其他功能的前提下修正其错误，特别针对需要人类与模型进行推理的视觉问答任务。该方法引入了用户在编辑过程中提供推理解释的机制，并通过一种基于网络科学的多模态嵌入技术，在推理时检索相关事实，从而提升编辑效果。实验表明，ReasonEdit 在多个数据集上取得了当前最优的编辑性能，验证了引入人类推理对模型编辑泛化能力的显著提升。

2602.02133 2026-05-13 cs.AI cs.CL

A Theoretical Analysis of Why Masked Diffusion Models Mitigate the Reversal Curse

Moongyu Jeon, Sangwoo Shin, BumJun Kim, Kyelim Lee, Albert No

发表机构 * Department of Artificial Intelligence, Yonsei University（燕山大学人工智能学院）

AI总结本文理论分析了为何掩码扩散语言模型（MDMs）能够缓解自回归语言模型（ARMs）中的“反转诅咒”问题。研究指出，MDMs通过其任意顺序的掩码训练目标，在参数层面建立了前向与反向条件之间的耦合，使得模型在训练中学习到的词对证据可以迁移到反转查询中。实验验证了这一机制的有效性，表明其有助于提升模型在反转任务中的预测性能。

2602.02007 2026-05-13 cs.CL cs.AI

Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation

Zhanghao Hu, Qinglin Zhu, Runcong Zhao, Di Liang, Hanqi Yan, Yulan He, Lin Gui

发表机构 * King’s College London（伦敦国王学院）； Tencent, Yuanbao Team（腾讯元宝团队）

AI总结本文针对传统检索增强生成（RAG）在智能体记忆应用中的不足，提出了一种新的记忆管理方法xMemory。该方法通过解耦和聚合的原理，将交互历史分解为可复用的事实、更新和区分细节，并构建分层的可修订记忆结构，以提升检索效率和信息准确性。实验表明，xMemory在多个任务和模型上均能有效提升答案质量与推理效率。

Comments Project Address: https://zhanghao-xmemory.github.io/Academic-project-page-template/; Code Address: https://github.com/HU-xiaobai/xMemory

2602.01682 2026-05-13 cs.LG cs.DS stat.ML

Finite and Corruption-Robust Regret Bounds in Online Inverse Linear Optimization under M-Convex Action Sets

Taihei Oki, Shinsaku Sakaue

发表机构 * Institute for Chemical Reaction Design and Discovery (ICReDD), Hokkaido University（化学反应设计与发现研究所（ICReDD），北海道大学）； D3 Center, The University of Osaka（大阪大学D3中心）； Center for Advanced Intelligence Project, RIKEN（先进智能项目中心，RIKEN）； CyberAgent, Tokyo, Japan（CyberAgent，日本东京）； National Institute of Informatics, Tokyo, Japan（信息技术国家研究所，日本东京）

AI总结本文研究在线逆线性优化问题，即根据随时间变化的可行集上观测到的最优动作，推断隐藏的目标向量，并推荐符合该目标的行动。研究关注在M-凸可行集（如拟阵）下，能否获得与维度多项式相关的有限悔度界。作者通过结合M-凸集最优解的结构特性与几何体积论证，证明了悔度界为 $O(d\log d)$，部分解决了该问题的开放性疑问，并进一步拓展到对抗性噪声场景，给出了无需先验知识的悔度界 $O((C+1)d\log d)$。

2602.01418 2026-05-13 cs.CV cs.LG

Parabolic Position Encoding: Vision-Centric, Principled, Extrapolatable, General

Christoffer Koo Øhrstrøm, Rafael I. Cabral Muchacho, Yifei Dong, Filippos Moumtzidellis, Ronja Güldenring, Florian T. Pokorny, Lazaros Nalpantidis

发表机构 * Technical University of Denmark（丹麦技术大学）； KTH Royal Institute of Technology（皇家理工学院）

AI总结本文提出了一种基于抛物线的位置编码方法PaPE，专门用于视觉模态中的注意力架构。该方法从视觉特性的角度出发，结合平移不变性、旋转不变性、距离衰减、方向性和上下文感知等原则进行设计，能够更准确地编码图像、视频、点云等视觉数据中位置信息。实验表明，PaPE在ImageNet-1K等数据集上具有出色的外推能力，并在多个不同模态的数据集上展现出广泛适用性和优越性能。

2602.01103 2026-05-13 cs.AI

Probing RLVR training instability through the lens of objective-level hacking

Yiming Dong, Kun Fu, Haoyu Li, Xinyuan Zhu, Yurou Liu, Lijing Shao, Jieping Ye, Zheng Wang

发表机构 * School of Physics, Peking University（北京大学物理学院）； Tongyi Lab（通义实验室）； Alibaba Group（阿里巴巴集团）； Kavli Institute for Astronomy and Astrophysics, Peking University（北京大学天文与天体物理研究院）； National Astronomical Observatories, Chinese Academy of Sciences（中国科学院国家天文台）

AI总结本文研究了可验证奖励强化学习（RLVR）在混合专家（MoE）架构中训练不稳定的问题，提出了一种基于目标层“黑客攻击”的分析框架，揭示了训练不稳定性背后的机制。研究发现，训练与推理之间的差距异常增长是导致不稳定的关键病理动态，这一现象此前缺乏机制解释。通过大量实验，本文为设计更稳定的RLVR算法提供了理论指导。

Comments Accepted by ICML 2026

2602.00400 2026-05-13 cs.AI

KEPO: Knowledge-Enhanced Preference Optimization for Multimodal Reasoning with Applications to Medical VQA

Fan Yang, Rui Meng, Trudi Di Qi, Ali Ezzati, Yuxin Wen

发表机构 * Chapman University（查普曼大学）； Lawrence Berkeley National Laboratory（劳伦斯伯克利国家实验室）； University of California, Irvine（加州大学伊文斯分校）

AI总结该研究提出了一种名为KEPO的知识增强偏好优化框架，旨在提升多模态模型在医疗视觉问答等复杂推理任务中的表现。针对传统强化学习在稀疏奖励下训练不稳定、探索困难的问题，KEPO引入了质量门控的策略蒸馏机制，仅对高质量轨迹进行教师模型指导，并结合知识引导的探索策略，有效减少噪声干扰，提升推理连贯性与泛化能力。实验表明，KEPO在医疗VQA任务中展现出更优的训练稳定性与分布外性能。

2601.22334 2026-05-13 cs.LG

DP-λCGD: Efficient Noise Correlation for Differentially Private Model Training

Nikita P. Kalinin, Ryan McKenna, Rasmus Pagh, Christoph H. Lampert

发表机构 * Institute of Science and Technology Austria（奥地利科学与技术研究所）； University of Copenhagen（哥本哈根大学）； Google（谷歌）

AI总结本文提出了一种名为DP-λCGD的高效噪声相关方法，用于提升差分隐私模型训练的准确性。该方法通过仅与前一次迭代的噪声相关，并控制性地抵消部分噪声，减少了对历史噪声存储的需求。与现有方法相比，该方法在保持差分隐私保证的同时，显著降低了内存开销，并在实验中表现出更高的模型精度。

2601.22301 2026-05-13 cs.CV

Coarse-to-Real: Generative Rendering for Populated Dynamic Scenes

Gonzalo Gomez-Nogales, Yicong Hong, Chongjian Ge, Peiye Zhuang, Marc Comino-Trinidad, Dan Casas, Yi Zhou

发表机构 * Universidad Rey Juan Carlos Móstoles, Spain（西班牙雷昂卡洛斯·莫斯特oles大学）； Adobe Research San Jose, USA（美国Adobe研究圣地亚哥实验室）； Roblox San Mateo, USA（美国Roblox圣马特奥实验室）

AI总结传统渲染流程依赖复杂的模型、精确的材质和光照以及大量的计算资源来生成逼真的图像，但在处理包含大量动态人物的场景时仍面临可扩展性和真实感的挑战。本文提出C2R（Coarse-to-Real）生成渲染框架，通过粗略的3D模拟生成具有真实风格的都市人群视频，结合粗略3D渲染对场景布局、相机运动和人物轨迹进行显式控制，并利用学习到的神经渲染器根据文本提示生成逼真的外观、光照和细粒度动态。该方法采用两阶段的合成-真实领域对齐策略，先从大规模真实视频中学习生成先验，再利用少量配对的合成数据引入可控性，实现了从粗略到精细的控制，适用于多种CG和游戏输入，并能从最小的3D输入生成时间一致、可控且逼真的城市场景视频。

Comments Project website at https://gonzalognogales.github.io/coarse2real/

2601.21944 2026-05-13 cs.LG

Clarity: The Flexibility-Interpretability Trade-Off in Sparsity-aware Concept Bottleneck Models

Konstantinos P. Panousis, Diego Marcos

发表机构 * Department of Statistics, University of Economics and Business（经济与商业大学统计系）； UMR TETIS, Inria, EVERGREEN, University of Montpellier（蒙彼利埃大学）

AI总结本文研究了稀疏感知概念瓶颈模型（CBMs）中灵活性与可解释性之间的权衡问题，提出了一种新的评估指标Clarity，用于衡量模型在保持稀疏性和概念激活精度的同时对下游任务的性能影响。通过基于真实概念标注数据集的评估框架，作者对比了多种基于视觉语言模型和属性预测器的CBM方法，并揭示了不同稀疏诱导策略在性能与语义对齐上的显著差异。实验和人类研究验证了Clarity能够更准确地反映人类对模型的信任程度，为可解释性模型的评估提供了新思路。

2601.21351 2026-05-13 cs.LG cs.AI

Analytical Provisioning for Attention-FFN Disaggregated LLM Serving under Stochastic Workloads

Chendong Song, Meixuan Wang, Hang Zhou, Hong Liang, Yuan Lyu, Zixi Chen, Yuwei Fan, Zijie Zhou

发表机构 * Dept. of Industrial Engineering and Decision Analytics HKUST（工业工程与决策分析系香港科技大学）； Dept. of Computer Science and Technology Tsinghua University（计算机科学与技术系清华大学）； IIIS Tsinghua University（清华大学信息学院）； Huawei Hong Kong Research Center（华为香港研发中心）； School of Mathematical Sciences Peking University（北京大学数学科学学院）

AI总结该研究针对分体式注意力-FFN（AFD）架构下的大语言模型服务，在随机工作负载条件下，提出了一个分析性的资源分配框架。研究通过分析每个计算槽的稳态令牌负载，识别出一个关键工作负载指标θ，并据此推导出最优的注意力与FFN计算比例，适用于任意预填充-解码分布。该方法还考虑了同步执行中的瓶颈效应，提供了闭式均场规则及高斯屏障感知的优化，实验表明其预测结果与仿真结果误差在10%以内，为分体式LLM服务的资源分配提供了理论依据和实用指导。

Comments Submitted to Neurips 2026

2601.13780 2026-05-13 cs.LG

Principled Latent Diffusion for Graphs via Laplacian Autoencoders

Antoine Siraudin, Christopher Morris

发表机构 * Faculty of Computer Science（计算机科学系）

AI总结该论文提出了一种基于拉普拉斯自编码器的图潜在扩散模型LG-Flow，用于解决传统图扩散模型在节点数量增加时计算复杂度呈二次增长的问题。通过将图结构编码到低维潜在空间，模型实现了近似无损的图重建，并有效避免了稀疏图中边缺失建模的冗余问题。该方法利用排列等变自编码器和扩散变换器，显著提升了图生成的效率与规模，实验表明其在生成性能上具有竞争力，且训练速度提升了近千倍。

Comments Preprint, under review

2601.07473 2026-05-13 cs.LG

AntiPaSTO: Self-Supervised Honesty Steering via Anti-Parallel Representations

Michael J. Clark

发表机构 * Independent Researcher, Perth, Australia（珀斯独立研究员）

AI总结随着模型能力增强，人类难以可靠地验证模型的输出。本文提出了一种名为 AntiPaSTO 的自监督方法，通过在反平行轴上分离表示并引入一致性约束，实现对模型诚实性的内部引导。该方法仅需在模板句中插入两个对比词进行训练，无需人工标注，实验表明其在多个价值轴上均优于传统提示方法，且具备双向控制能力。

Comments Code is available at https://github.com/wassname/AntiPaSTO

2601.07384 2026-05-13 cs.LG

CompNO: A Novel Foundation Model approach for solving Partial Differential Equations

Hamda Hmida, Hsiu-Wen Chang Joly, Youssef Mesri

发表机构 * Mines Paris - PSL University, Centre for Material Forming (CEMEF)（巴黎 Mines - PSL 大学，材料成型中心（CEMEF））； Mines Paris - PSL University, Centre for Robotics (CAOR)（巴黎 Mines - PSL 大学，机器人中心（CAOR））

AI总结本文提出了一种名为CompNO的新基础模型方法，用于求解参数化偏微分方程（PDEs）。该方法通过学习一组基础模块（每个模块对应一种基本微分算子的傅里叶神经算子），并结合轻量的适配模块构建任务特定求解器，从而避免了传统单一大模型的高昂预训练成本和可解释性不足的问题。实验表明，CompNO在多种PDEs上取得了比现有方法更低的相对L2误差，并能准确满足边界条件，展现出良好的泛化能力和物理可解释性。

Comments Under review at MDPI

详情

DOI: 10.3390/app16020972

英文摘要

Partial differential equations (PDEs) govern a wide range of physical phenomena, but their numerical solution remains computationally demanding, especially when repeated simulations are required across many parameter settings. Recent Scientific Foundation Models (SFMs) aim to alleviate this cost by learning universal surrogates from large collections of simulated systems, yet they typically rely on monolithic architectures with limited interpretability and high pretraining expense. In this work we introduce Compositional Neural Operators (CompNO), a compositional neural operator framework for parametric PDEs. Instead of pretraining a single large model on heterogeneous data, CompNO first learns a library of Foundation Blocks, where each block is a parametric Fourier neural operator specialized to a fundamental differential operator (e.g. convection, diffusion, nonlinear convection). These blocks are then assembled, via lightweight Adaptation Blocks, into task-specific solvers that approximate the temporal evolution operator for target PDEs. A dedicated boundary-condition operator further enforces Dirichlet constraints exactly at inference time. We validate CompNO on one-dimensional convection, diffusion, convection--diffusion and Burgers' equations from the PDEBench suite. The proposed framework achieves lower relative L2 error than strong baselines (PFNO, PDEFormer and in-context learning based models) on linear parametric systems, while remaining competitive on nonlinear Burgers' flows. The model maintains exact boundary satisfaction with zero loss at domain boundaries, and exhibits robust generalization across a broad range of Peclet and Reynolds numbers. These results demonstrate that compositional neural operators provide a scalable and physically interpretable pathway towards foundation models for PDEs.

URL PDF HTML ☆

赞 0 踩 0

2601.05752 2026-05-13 cs.CL cs.SE

AutoMonitor-Bench: Evaluating the Reliability of LLM-Based Misbehavior Monitor

Shu Yang, Jingyu Hu, Tong Li, Hanqi Yan, Wenxuan Wang, Di Wang

发表机构 * King Abdullah University of Science and Technology（卡塔尔国王 Abdullah 科学与技术大学）； University of Bristol（布里斯托大学）； Washington University in St. Louis（圣路易斯华盛顿大学）； King’s College London（伦敦国王学院）； Renmin University of China（中国人民大学）

AI总结本文介绍了 AutoMonitor-Bench，这是首个用于系统评估基于大语言模型（LLM）的异常行为监控可靠性 benchmark，涵盖问答、代码生成和推理等任务，包含 3,010 个精心标注的测试样本。研究通过误检率（MR）和误报率（FAR）两个指标评估监控性能，揭示了不同模型在检测能力与敏感度之间的权衡。此外，作者构建了大规模训练语料并微调 Qwen3-4B-Instruction，探索了针对已知异常行为数据训练是否能提升模型对未知隐性异常的监控能力，突显了构建可靠且可扩展的 LLM 异常监控系统所面临的挑战。

Comments ACL 2026 Findings

2601.03627 2026-05-13 cs.CL cs.AI

Evaluating the Pre-Consultation Ability of LLMs using Diagnostic Guidelines

Jean Seo, Gibaeg Kim, Kihun Shin, Seungseop Lim, Hyunkyung Lee, Wooseok Han, Jongwon Lee, Eunho Yang

发表机构 * AITRICS ； KAIST（韩国科学技术院）； Severance Hospital, Yonsei University（延世大学松云医院）； College of Medicine, The Catholic University of Korea（韩国天主大学医学院）

AI总结本文提出EPAG，一个用于评估大语言模型（LLMs）预诊能力的基准数据集和框架，通过比较病史信息与诊断指南直接评估模型能力，并通过疾病诊断间接评估。研究发现，经过精心构建的特定任务数据集微调的小型开源模型在预诊任务中可超越前沿大模型，同时发现病史信息量的增加并不一定提升诊断性能。研究还揭示了预诊对话的语言特性受对话内容影响，并开源了数据集和评估流程以促进临床场景中LLM应用的发展。

Comments EACL 2026 Industry

2512.22933 2026-05-13 cs.AI cs.CL

RW-Post: Auditable Evidence-Grounded Multimodal Fact-Checking in the Wild

Danni Xu, Shaojing Fan, Harry Cheng, Mohan Kankanhalli

发表机构 * School of Computing (SoC), National University of Singapore (NUS)（新加坡国立大学计算机学院（SoC））； National University of Singapore (NUS)（新加坡国立大学）； Department of Electrical and Computer Engineering (ECE), National University of Singapore (NUS)（新加坡国立大学电子与计算机工程系（ECE））

AI总结本文提出 RW-Post，一个用于真实场景下多模态事实核查的可审计基准数据集，每个样本都关联原始社交媒体帖子、推理过程和来自人工事实核查文章的明确证据。该数据集支持多种评估模式，有助于系统分析模型在视觉关联和证据利用方面的能力。实验表明，当前模型在证据关联方面仍有较大提升空间，而基于证据的评估方式能有效提升模型的准确性和可信度。

Comments Code and dataset will be released at https://github.com/xudanni0927/AgentFact

2512.22579 2026-05-13 cs.AI cs.NI

SANet: A Semantic-aware Agentic AI Networking Framework for Cross-layer Optimization in 6G

Yong Xiao, Xubo Li, Haoran Zhou, Yingyu Li, Yayu Gao, Guangming Shi, Ping Zhang, Marwan Krunz

发表机构 * the School of Electronic Information and Communications, the Huazhong University of Science and Technology, Wuhan, China（电子信息学院，华中科技大学，武汉，中国）； the Peng Cheng Laboratory, Shenzhen, China（鹏城实验室，深圳，中国）； the School of Mechanical Engineering and Electronic Information, China University of Geosciences (Wuhan), China（机械工程与电子信息学院，中国地质大学（武汉），中国）； the State Key Laboratory of Networking and Switching（网络与交换技术国家重点实验室）

AI总结本文提出了一种名为SANet的语义感知智能体网络框架，旨在实现6G无线网络中的跨层优化。该框架通过理解用户的语义目标，自动分配不同网络层的智能体以完成任务，并针对多智能体多目标优化问题，提出了寻找帕累托最优解的优化方法。此外，文章还引入了模型划分与共享（MoPS）机制，以提升计算资源的利用效率，并通过实验验证了该框架在性能提升和计算效率方面的显著优势。

Comments Accepted at IEEE Transactions on Mobile Computing

Journal ref IEEE Transactions on Mobile Computing, 2026

详情

DOI: 10.1109/TMC.2026.3691804

英文摘要

Agentic AI networking (AgentNet) is a novel AI-native networking paradigm in which a large number of specialized AI agents collaborate to perform autonomous decision-making, dynamic environmental adaptation, and complex missions. It has the potential to facilitate real-time network management and optimization functions, including self-configuration, self-optimization, and self-adaptation across diverse and complex environments. This paper proposes SANet, a novel semantic-aware AgentNet architecture for wireless networks that can infer the semantic goal of the user and automatically assign agents associated with different layers of the network to fulfill the inferred goal. Motivated by the fact that AgentNet is a decentralized framework in which collaborating agents may generally have different and even conflicting objectives, we formulate the decentralized optimization of SANet as a multi-agent multi-objective problem, and focus on finding the Pareto-optimal solution for agents with distinct and potentially conflicting objectives. We propose three novel metrics for evaluating SANet. Furthermore, we develop a model partition and sharing (MoPS) framework in which large models, e.g., deep learning models, of different agents can be partitioned into shared and agent-specific parts that are jointly constructed and deployed according to agents' local computational resources. Two decentralized optimization algorithms are proposed. We derive theoretical bounds and prove that there exists a three-way tradeoff among optimization, generalization, and conflicting errors. We develop an open-source RAN and core network-based hardware prototype that implements agents to interact with three different layers of the network. Experimental results show that the proposed framework achieved performance gains of up to 14.61% while requiring only 44.37% of FLOPs required by state-of-the-art algorithms.

URL PDF HTML ☆

赞 0 踩 0

2512.12177 2026-05-13 cs.AI

Floorplan2Guide: LLM-Guided Floorplan Parsing for BLV Indoor Navigation

Aydin Ayanzadeh, Tim Oates

发表机构 * University of Maryland, Baltimore County（马里兰大学巴尔的摩分校）

AI总结本文提出了一种基于大语言模型（LLM）引导的室内平面图解析方法Floorplan2Guide，旨在提升盲人和低视力（BLV）人群的室内导航能力。该方法将建筑平面图转化为可导航的知识图谱，并生成可读的导航指令，减少了传统方法对人工预处理的依赖。实验表明，该方法在模拟和真实环境中均能有效提升导航准确率，尤其在少样本学习下表现优异，且基于图结构的空间推理比直接视觉推理具有更高的成功率。

Comments Accepted for publication in the proceedings of the IEEE International Conference on Big Data (IEEE BigData 2025)

Journal ref IEEE International Conference on Big Data (IEEE BigData 2025), pp. 7477-7485

2512.12165 2026-05-13 cs.CV

Audio-Visual Camera Pose Estimation with Passive Scene Sounds and In-the-Wild Video

Daniel Adebi, Sagnik Majumder, Kristen Grauman

发表机构 * The University of Texas at Austin（德克萨斯大学奥斯汀分校）

AI总结本文研究了如何利用被动场景声音和野外视频进行音频-视觉相机位姿估计，解决视觉退化条件下相机运动估计的难题。作者提出了一种简单有效的音频-视觉框架，将到达方向（DOA）谱和双耳嵌入特征融合到先进的视觉位姿估计模型中，显著提升了位姿估计的准确性和鲁棒性。该方法在两个大规模数据集上的实验表明，相比纯视觉方法具有明显优势，尤其在视觉信息受损时表现突出，为现实场景中的相机位姿估计提供了新的音频辅助思路。

2512.12131 2026-05-13 cs.LG cs.DC

BOOST: BOttleneck-Optimized Scalable Training Framework for Low-Rank Large Language Models

Zhengyang Wang, Ziyue Liu, Ruijie Zhang, Avinash Maurya, Paul Hovland, Bogdan Nicolae, Franck Cappello, Zheng Zhang

发表机构 * Anonymous Authors（匿名作者）

AI总结本文提出了一种名为 BOOST 的高效训练框架，专门用于大规模低秩瓶颈架构的大语言模型。针对传统张量并行方法在低秩模型中通信开销大、GPU利用率低的问题，BOOST 引入了瓶颈感知的张量并行策略，并结合在线 RMSNorm、线性层分组和低秩激活检查点等优化技术，显著提升了训练速度。实验表明，BOOST 在多种低秩瓶颈架构上相比全秩模型和简单集成的 3D 并行方法分别实现了 1.46 到 1.91 倍和 1.87 到 2.27 倍的加速，同时提高了 GPU 利用率并减少了通信开销。

2512.11321 2026-05-13 cs.CV

KeyframeFace: Language-Driven Facial Animation via Semantic Keyframes

Jingchao Wu, Zejian Kang, Haibo Liu, Yuanchen Fei, Xiangru Huang

发表机构 * Westlake University（西湖大学）； Nanjing University（南京大学）； Zhejiang University（浙江大学）； Hunan University（湖南大学）

AI总结本文提出了一种名为 KeyframeFace 的语言驱动面部动画生成方法，通过语义关键帧实现对人脸表情的精确控制。与现有方法直接从文本生成连续帧不同，该方法借鉴动画制作中的关键帧理念，在可解释的 ARKit 控制空间中使用语义关键帧表示动画，并利用大语言模型生成与文本描述和情绪线索对齐的关键帧。实验表明，该方法在表情保真度和语义一致性方面优于传统方法，同时提供了更清晰的语义控制结构。

2512.05683 2026-05-13 cs.CV physics.optics

Physics-Informed Graph Neural Networks for Frequency-Aware Optical Aberration Correction

Yong En Kok, Bowen Deng, Alexander Bentley, Andrew J. Parkes, Michael G. Somekh, Amanda J. Wright, Michael P. Pound

发表机构 * School of Computer Science, University of Nottingham（诺丁汉大学计算机科学学院）； Photonics Group, Department of Electrical and Electronic Engineering, University of Nottingham（诺丁汉大学电子与电气工程系光子组）； Research Center for Humanoid Sensing, Zhejiang Laboratory（浙江实验室人机感知研究中心）

AI总结本文提出了一种基于物理信息的图神经网络ZRNet，用于频率感知的光学像差校正。该方法结合了Zernike多项式系数预测与光学图像复原，通过引入Zernike图模块和频率感知对齐损失，显式建模多项式间的物理关系并增强图像与系数预测在频域的一致性。实验表明，ZRNet在多种显微成像模态和复杂生物样本上均取得了最先进的像差校正和图像复原效果，并在真实光学系统数据上验证了其鲁棒性和泛化能力。

2512.00775 2026-05-13 cs.RO cs.SY eess.SY

SAGAS: Semantic-Aware Graph-Assisted Stitching for Offline Temporal Logic Planning

Ruijia Liu, Ancheng Hou, Xiang Yin

发表机构 * School of Automation and Intelligent Sensing（自动化与智能感知学院）

AI总结本文研究了在严格离线、无模型设定下，基于线性时序逻辑（LTL）的机器人任务规划与执行问题。为解决该问题，作者提出了一种名为SAGAS的框架，结合符号合成的组合性与从离线轨迹中学习到的数据驱动可达结构。该方法通过学习可复用的潜在可达图和固定的目标条件执行器，并对每个新的LTL公式进行语义图增强和布奇积搜索，从而生成可执行且成本高效的路径规划，实现了对未见过的LTL任务的零样本泛化。

2511.22475 2026-05-13 cs.LG cs.CV

Adversarial Flow Models

Shanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan

发表机构 * ByteDance Seed（字节跳动种子）

AI总结本文提出了一类生成模型——对抗流模型，结合了对抗学习和流模型的优点，支持一步或多步生成，并通过对抗目标进行训练。与传统GAN不同，该模型鼓励生成器学习确定性的噪声到数据映射，从而显著稳定训练过程；与基于一致性的方法相比，它无需学习概率流的中间时间步，直接实现一步或多步生成，避免了误差累积并保留了模型容量。实验表明，该模型在ImageNet-256px数据集上取得了优于现有方法的生成质量。

Comments ICML 2026

2511.17038 2026-05-13 cs.AI eess.IV stat.ML

DAPS++: Rethinking Diffusion Inverse Problems with Decoupled Posterior Annealing

Hao Chen, Renzheng Zhang, Scott S. Howard

发表机构 * Department of Electrical Engineering, University of Notre Dame（诺克斯大学电气工程系）； Department of Aerospace and Mechanical Engineering, University of Notre Dame（诺克斯大学航空航天与机械工程系）

AI总结本文提出了一种名为DAPS++的新型扩散逆问题求解方法，旨在解决传统扩散模型在逆问题中先验引导不足的问题。该方法通过将扩散初始化与似然驱动的优化过程完全解耦，使重建过程更直接地由测量一致性引导，同时保持数值稳定性。实验表明，DAPS++在减少函数评估次数和优化步骤的前提下，实现了高效的计算性能和鲁棒的图像恢复效果。

2511.16520 2026-05-13 cs.LG cs.CV eess.IV eess.SP

Saving Foundation Flow-Matching Priors for Inverse Problems

Yuxiang Wan, Ryan Devera, Wenjie Zhang, Ju Sun

发表机构 * Department of Computer Science and Engineering, University of Minnesota, Minneapolis, Minnesota, USA（计算机科学与工程系，明尼苏达大学，明尼阿波利斯，明尼苏达州，美国）

AI总结本文提出了一种名为FMPlug的插件框架，旨在提升基础流匹配模型在逆问题中的应用效果。该方法结合了实例引导的时序预热策略和尖锐高斯正则化，既增强了问题特异性指导，又保持了高斯结构的稳定性。实验表明，FMPlug在图像修复和样本稀缺的科学逆问题中均表现出色，为在这些场景中实用化基础流匹配模型提供了有效途径。

Comments Accepted by ICML 2026

2511.12034 2026-05-13 cs.CV cs.LG cs.MM

Calibrated Multimodal Representation Learning with Missing Modalities

Xiaohao Liu, Xiaobo Xia, Jiaheng Wei, Shuo Yang, Xiu Su, See-Kiong Ng, Tat-Seng Chua

发表机构 * National University of Singapore（国立新加坡大学）； University of Science and Technology of China（中国科学技术大学）； The Hong Kong University of Science and Technology (Guangzhou)（香港科技大学（广州））； Harbin Institute of Technology (Shenzhen)（哈尔滨工业大学（深圳））； Central South University（中南大学）

AI总结多模态表征学习旨在将不同模态的信息对齐到统一的潜在空间中，但现有方法通常要求所有模态都存在，难以处理数据中缺失模态的情况。本文从锚点偏移的角度出发，揭示了缺失模态导致对齐偏差的理论机制，并提出了一种名为CalMRL的方法，通过利用模态间的先验知识和内在联系，在表征层面进行缺失模态的补全与对齐校准。实验表明，该方法有效缓解了锚点偏移问题，提升了模型在缺失模态数据上的表现。

Comments Accepted by ICML 2026

2510.25609 2026-05-13 cs.LG cs.AI eess.SP

Revisiting GAN with Bayes-Optimal Discrimination

Mohammadreza Tavasoli Naeini, Ali Bereyhi, Morteza Noshad, Ben Liang, Alfred O. Hero

发表机构 * University of Toronto（多伦多大学）； Stanford University（斯坦福大学）； University of Michigan（密歇根大学）

AI总结本文提出了一种改进的标准生成对抗网络（GAN）训练方法，其核心在于将判别器的目标从交叉熵损失转变为直接最小化判别贝叶斯错误率（BER）。为此，作者引入了贝叶斯最优学习阈值（BOLT）损失函数，并通过最大化判别BER的替代量来训练生成器。该方法统一了GAN训练的不同目标，揭示了它们在平滑性与紧致性之间的权衡关系，并在平衡类别先验的条件下，证明了最大化替代BER能够最小化数据分布与生成分布之间的总变分距离，同时与Wasserstein GAN建立了联系。实验表明，该方法在图像生成任务中提升了样本质量和覆盖范围。

AI 大模型

视觉与机器人

科学与医疗

Joint Learning of Hierarchical Neural Options and Abstract World Model

ReasonEdit: Editing Vision-Language Models using Human Reasoning

A Theoretical Analysis of Why Masked Diffusion Models Mitigate the Reversal Curse

Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation

Finite and Corruption-Robust Regret Bounds in Online Inverse Linear Optimization under M-Convex Action Sets

Parabolic Position Encoding: Vision-Centric, Principled, Extrapolatable, General

Probing RLVR training instability through the lens of objective-level hacking

KEPO: Knowledge-Enhanced Preference Optimization for Multimodal Reasoning with Applications to Medical VQA

DP-λCGD: Efficient Noise Correlation for Differentially Private Model Training

Coarse-to-Real: Generative Rendering for Populated Dynamic Scenes

Clarity: The Flexibility-Interpretability Trade-Off in Sparsity-aware Concept Bottleneck Models

Analytical Provisioning for Attention-FFN Disaggregated LLM Serving under Stochastic Workloads

Principled Latent Diffusion for Graphs via Laplacian Autoencoders

AntiPaSTO: Self-Supervised Honesty Steering via Anti-Parallel Representations

CompNO: A Novel Foundation Model approach for solving Partial Differential Equations

AutoMonitor-Bench: Evaluating the Reliability of LLM-Based Misbehavior Monitor

Evaluating the Pre-Consultation Ability of LLMs using Diagnostic Guidelines

RW-Post: Auditable Evidence-Grounded Multimodal Fact-Checking in the Wild

SANet: A Semantic-aware Agentic AI Networking Framework for Cross-layer Optimization in 6G

Floorplan2Guide: LLM-Guided Floorplan Parsing for BLV Indoor Navigation

Audio-Visual Camera Pose Estimation with Passive Scene Sounds and In-the-Wild Video

BOOST: BOttleneck-Optimized Scalable Training Framework for Low-Rank Large Language Models

KeyframeFace: Language-Driven Facial Animation via Semantic Keyframes

Physics-Informed Graph Neural Networks for Frequency-Aware Optical Aberration Correction

SAGAS: Semantic-Aware Graph-Assisted Stitching for Offline Temporal Logic Planning

Adversarial Flow Models

DAPS++: Rethinking Diffusion Inverse Problems with Decoupled Posterior Annealing

Saving Foundation Flow-Matching Priors for Inverse Problems

Calibrated Multimodal Representation Learning with Missing Modalities

Revisiting GAN with Bayes-Optimal Discrimination