arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.11753 2026-05-13 cs.AI

Towards Visually Grounded Multimodal Summarization via Cross-Modal Transformer and Gated Attention

Abid Ali, Diego Molla-Aliod, Usman Naseem

发表机构 * School of Computing, Macquarie University（麦考瑞大学计算机学院）

AI总结该论文研究了多模态摘要生成问题，旨在从文本和图像中生成语义连贯且内容准确的摘要。为了解决现有方法中视觉特征与语言模型表征不匹配的问题，作者提出了一种统一框架SPeCTrA-Sum，通过深度对齐视觉与语言编码器，并引入视觉相关性预测模块来选择具有代表性的图像。实验表明，该方法在生成视觉相关性更强的摘要和选择更具代表性的图像方面表现优异。

Comments Accepted to Findings of ACL 2026

2605.11752 2026-05-13 cs.LG

Federated Client Selection under Partial Visibility: A POMDP Approach with Spatio-Temporal Attention

Qijun Hou, Yuchen Shi, Pingyi Fan, Khaled B. Letaief

发表机构 * Dept. of Electronic Engineering, BNRist, Tsinghua University（电子工程系，北京理工大学，清华大学）； Dept. of Electronic and Computer Engineering, HKUST（电子与计算机工程系，香港科技大学）

AI总结本文研究了在部分可见性场景下的联邦学习客户端选择问题，即服务器在每轮通信中只能观测到部分客户端。为此，作者将该问题建模为部分可观测马尔可夫决策过程（POMDP），并提出了一种基于时空注意力机制的强化学习框架，通过融合历史全局模型和客户端身份嵌入，捕捉训练过程中的时间上下文和客户端的持续特性。实验结果表明，该方法在异构且部分可见的环境下优于现有基线，验证了其在实际联邦学习系统中应对不完全观测挑战的有效性。

2605.11750 2026-05-13 cs.RO cs.AI cs.CL cs.CV

DreamAvoid: Critical-Phase Test-Time Dreaming to Avoid Failures in VLA Policies

Xianzhe Fan, Yuxiang Lu, Shenyuan Gao, Xiaoyang Wu, Ruihua Han, Manling Li, Hengshuang Zhao

发表机构 * HKU（香港大学）； HKUST（香港理工大学）； Northwestern University（西北大学）

AI总结 Vision-Language-Action（VLA）模型在精细操作任务中容易因关键阶段的微小动作错误而引发不可恢复的失败。为解决这一问题，本文提出DreamAvoid，一种在测试阶段通过“梦境”模拟来预判并规避失败的框架。该方法引入梦境触发机制、动作提案和梦境评估器，通过模拟候选动作的短期未来结果，选择最优动作以提升任务成功率。实验表明，DreamAvoid能有效减少失败情况，提高实际操作任务的完成率。

Comments 19 pages, 7 figures

2605.11749 2026-05-13 cs.LG

Learning Feature Encoder with Synthetic Anomalies for Weakly Supervised Graph Anomaly Detection

Yingjie Zhou, Yuqin Xie, Fanxing Liu, Dongjin Song, Ce Zhu, Lingqiao Liu

发表机构 * Sichuan University（四川大学）； University of Connecticut（康涅狄格大学）； University of Electronic Science and Technology of China（电子科技大学）； University of Adelaide（阿德莱德大学）

AI总结本文研究弱监督图异常检测问题，旨在在仅有少量标注异常样本和大量未标注数据的情况下，识别行为显著偏离正常模式的图实例。为解决如何学习对异常敏感且能区分正常类别的图特征表示这一挑战，作者提出了一种基于合成异常的多任务学习方法，通过生成多种方式扰动的合成异常样本，并为每类异常分配专用检测头，从而引导模型学习更具判别性的特征表示。实验表明，该方法在多个公开数据集上优于现有方法。

Comments 14 pages, 7 figures, published by IEEE Transactions on Knowledge and Data Engineering,2026

Journal ref IEEE Transactions on Knowledge and Data Engineering, vol. 38, no. 4, pp. 2326-2339, 2026

详情

DOI: 10.1109/TKDE.2026.3656821

英文摘要

Weakly supervised graph anomaly detection aims to unveil unusual graph instances, e.g., nodes, whose behaviors significantly differ from normal ones, given only a limited number of annotated anomalies and abundant unlabeled samples. A major challenge is to learn a meaningful latent feature representation that reduces intra-class variance among normal data while remaining highly sensitive to anomalies. Although recent works have applied self-supervised feature learning for graph anomaly detection, their strategies are not specifically tailored to its unique requirements, motivating our exploration of a more domain-specific approach. In this paper, we introduce a weakly supervised graph anomaly detection method that leverages a feature learning strategy tailored for graph anomalies. Our approach is built upon a multi-task learning scheme that extracts robust feature representations through synthesized anomalies. We generate synthetic anomalies by perturbing the normal graph in various ways and assign a dedicated detection head to each anomaly type, ensuring that learned features are sensitive to potential deviations from normal patterns. Although synthetic anomalies may not perfectly replicate real-world patterns, they provide valuable auxiliary data for effective feature learnin, much like features learned from ImageNet classification transfer to downstream vision tasks. Additionally, we adopt a two-phase learning strategy: an initial warm-up phase using only synthetic samples, followed by a full-training phase integrating both tasks, to balance the influence of synthetic and real data. Extensive experiments on public datasets demonstrate the superior performance of our method over its competitors. Code is available at https://github.com/yj-zhou/SAWGAD.

URL PDF HTML ☆

赞 0 踩 0

2605.11746 2026-05-13 cs.AI

When Reasoning Traces Become Performative: Step-Level Evidence that Chain-of-Thought Is an Imperfect Oversight Channel

Wenkai Li, Fan Yang, Ananya Hazarika, Shaunak A. Mehta, Koichi Onoue

发表机构 * Carnegie Mellon University（卡内基梅隆大学）； Fujitsu Research of America Inc.（富士通美国研究公司）

AI总结该研究探讨了思维链（Chain-of-thought, CoT）推理过程中，可见的推理轨迹与实际计算过程之间的一致性问题。通过构建Detect-Classify-Compare框架，并结合多种验证方法，发现大多数模型在推理步骤中存在轨迹与答案承诺不一致的现象，尤其是推理轨迹在答案确定后仍继续生成看似深思熟虑但实际无实质影响的文本。研究还表明，CoT在提升模型性能方面仍具价值，但其作为答案形成时间的可靠记录存在显著偏差。

2605.11744 2026-05-13 cs.CL cs.LG

Training-Inference Consistent Segmented Execution for Long-Context LLMs

Xianpeng Shang, Jiang Li, Zehua Duo, Qianyi Cai, Xiangdong Su

发表机构 * College of Computer Science, Inner Mongolia University, Hohhot 010021, China ； National \& Local Joint Engineering Research Center of Intelligent Information Processing Technology for Mongolian, Hohhot 010021, China ； Inner Mongolia Key Laboratory of Multilingual Artificial Intelligence Technology, Hohhot 010021, China ； Thrust of Artificial Intelligence, The Hong Kong University of Science

AI总结本文针对基于Transformer的大语言模型在长上下文生成中面临的计算和内存瓶颈问题，提出了一种训练与推理一致的分段执行框架。该方法在训练过程中模拟推理阶段的分段执行语义，通过限制梯度传播仅作用于前一段的KV状态，从而保证训练与推理的一致性。实验表明，该方法在长上下文任务中性能接近全上下文注意力机制，同时在延迟与内存消耗方面优于现有高效推理方法，显著提升了超长上下文场景下的可扩展性。

Comments Accepted by ICML 2026. 19 pages, 6 figures, 3 tables

2605.11743 2026-05-13 cs.CV cs.LG

WorldComp2D: Spatio-semantic Representations of Object Identity and Location from Local Views

SeongMin Jin, Doo Seok Jeong

发表机构 * Department of Semiconductor Engineering, Hanyang University, Republic of Korea（韩世半导体工程系，翰阳大学，大韩民国）

AI总结本文提出了一种名为 WorldComp2D 的轻量级表征学习框架，旨在从局部视角中学习物体身份和位置的时空语义表示。该方法通过多尺度局部感受野显式构建与物体身份和空间邻近性相关的潜在空间结构，包含一个依赖邻近性的编码器和一个用于定位输入中物体坐标的局部化模块。实验表明，相比现有轻量模型，WorldComp2D 在参数量和计算量上分别减少达 4.0 倍和 2.2 倍，同时在 CPU 上仍能保持实时性能，验证了其在时空语义推理中的高效性和通用性。

Comments Accepted as a regular paper at ICML2026

2605.11742 2026-05-13 cs.LG

Online Continual Learning with Dynamic Label Hierarchies

Xinrui Wang, Shao-Yuan Li, Bartłomiej Twardowski, Alexandra Gomez-Villa, Songcan Chen

发表机构 * College of Computer Science（计算机科学学院）； Technology, Nanjing University of Aeronautics（技术学院，南京航空航天大学）； MIIT Key Laboratory of Pattern Analysis（模式分析 MIIT 实验室）； Computer Vision Center, Spain（西班牙计算机视觉中心）； Computer Sciences Department, Universitat Autonoma de Barcelona, Spain（巴塞罗那自治大学计算机科学系，西班牙）； State Key Laboratory for Novel Software Technology, Nanjing University（新型软件技术国家重点实验室，南京大学）； IDEAS Research Institute, Warsaw, Poland（华沙 IDEAS 研究院，波兰）； Joint Laboratory of Spatial intelligent Perception（空间智能感知联合实验室）

AI总结本文研究了在线持续学习中动态标签层次结构的问题，即在非平稳数据流中学习时，如何应对标签层次结构在细粒度和粗粒度之间的动态演变。现有方法大多假设标签空间是扁平的，忽略了现实世界中概念的层次组织特性。为此，作者提出了一个新的问题设定DHOCL，并设计了HALO方法，通过自适应组合分类头和结构化原型，实现快速适应与知识保持，在多个基准测试中表现出色。

Comments Accepted to ICML2026

2605.11738 2026-05-13 cs.AI

OptArgus: A Multi-Agent System to Detect Hallucinations in LLM-based Optimization Modeling

Zhong Li, Zihan Guo, Xiaohan Lu, Juntao Wang, Jie Song, Chao Shen, Jiageng Wu, Mingyang Sun

发表机构 * Great Bay University（大湾大学）； Peking University（北京大学）； Jilin University（吉林大学）； Zhejiang University（浙江大学）； Shenzhen Loop Area Institute（深圳环城研究院）

AI总结本文提出OptArgus，一个用于检测基于大语言模型（LLM）的优化建模中幻觉问题的多智能体系统。研究聚焦于LLM在将自然语言优化问题转化为数学模型和求解代码时可能产生的结构不一致问题，并构建了一个细粒度的幻觉分类体系，涵盖目标函数、变量、约束和实现等多个方面。OptArgus通过多智能体协作机制，结合引导路由、专家审计和证据整合，显著提升了检测准确性和定位能力，并在包含多种类型数据的基准测试中表现出优于单一智能体方法的性能。

2605.11735 2026-05-13 cs.LG eess.SP

U-STS-LLM A Unified Spatio-Temporal Steered Large Language Model for Traffic Prediction and Imputation

Yichen Zhang, Jun Li

发表机构 * School of Information Science and Engineering, Southeast University（信息科学与工程学院，东南大学）

AI总结本文提出了一种统一的时空引导大语言模型U-STS-LLM，用于交通预测与缺失值填补。该模型通过动态生成时空注意力偏差，显式引导大语言模型关注关键时空结构，并结合低秩适配和门控融合机制，实现了高效稳定的参数优化。实验表明，U-STS-LLM在真实蜂窝网络数据集上取得了优于现有方法的预测和填补性能，展示了其在结构化非语言领域应用大模型的潜力。

Comments 14 pages, 6 figures

2605.11730 2026-05-13 cs.LG cs.CR

Persona-Conditioned Adversarial Prompting: Multi-Identity Red-Teaming for Adversarial Discovery and Mitigation

Cristian Morasso, Anisa Halimi, Muhammad Zaid Hameed, Douglas Leith

发表机构 * IBM Research（IBM研究院）； Trinity College Dublin（都柏林大学）

AI总结该研究提出了一种名为“Persona-Conditioned Adversarial Prompting（PCAP）”的方法，通过引入多样化的攻击者角色和策略集，提升大语言模型的红队测试效果，以更全面地发现和应对潜在威胁。PCAP通过并行搜索不同角色的攻击方式，生成更具现实场景覆盖性的攻击样本，并显著提高了攻击成功率和防御数据的多样性。实验表明，基于PCAP生成的数据进行微调，能有效增强模型的鲁棒性，同时保持较低的误报率，展示了从漏洞发现到自动对齐的实用闭环流程。

2605.11727 2026-05-13 cs.AI cs.CL cs.CV

Allegory of the Cave: Measurement-Grounded Vision-Language Learning

Kepeng Xu, Li Xu, Gang He, Wenxin Yu

发表机构 * Xidian University（西电大学）； Southwest University of Science and Technology（西南科技大学）

AI总结该研究探讨了如何通过更贴近原始相机测量数据的视觉输入来提升视觉-语言模型的感知能力。提出了一种基于原始测量值的视觉-语言学习框架PRISM-VL，结合了RAW图像输入、相机条件化对齐和曝光区间监督聚合等方法，以增强模型对真实环境信息的感知。实验表明，该方法在低光、高动态范围等复杂场景下显著提升了模型的性能，验证了保留测量域信息对多模态推理的重要性。

2605.11722 2026-05-13 cs.CV cs.LG

EPIC: Efficient Predicate-Guided Inference-Time Control for Compositional Text-to-Image Generation

Sunung Mun, Sunghyun Cho, Jungseul Ok

发表机构 * Graduate School of Artificial Intelligence, POSTECH（人工智能研究生院，POSTECH）； Department of Computer Science & Engineering, POSTECH（计算机科学与工程系，POSTECH）

AI总结 EPIC 是一种无需训练的推理时优化框架，用于解决复杂文本到图像生成中多对象、数量、属性和关系等组合性提示的生成难题。该方法通过将提示解析为固定的视觉程序，利用谓词引导搜索进行图像验证与修正，确保所有条件满足后才判定生成成功。实验表明，EPIC 在 GenEval2 数据集上显著提升了生成准确率，并在计算资源消耗上相比现有方法大幅降低。

2605.11716 2026-05-13 cs.AI

SafeSteer: A Decoding-level Defense Mechanism for Multimodal Large Language Models

Xinyi Zeng, Xue Yang, Jingyuan Zhang, Huanqian Yan, Xiang Chen, Kaiwen Wei, Hankun Kang, Yu Tian

发表机构 * Tsinghua University（清华大学）； Shanghai Jiao Tong University（上海交通大学）； Kuaishou Technology（快手科技）； School of Computer Science and Technology, Beihang University（北航计算机科学与技术学院）； Nanjing University of Aeronautics and Astronautics（南京航空航天大学）； Chongqing University（重庆大学）； Wuhan University（武汉大学）

AI总结多模态大语言模型（MLLMs）在面对 Jailbreak 攻击时面临较大安全挑战，现有防御方法依赖昂贵的微调或低效的后处理，难以应对新型攻击且存在性能折衷。本文提出 SafeSteer，一种基于解码阶段的防御机制，通过引入轻量级的 Decoding-Probe 检测并修正有害输出，并结合模态语义对齐向量将文本安全对齐能力迁移至视觉模态。实验表明，SafeSteer 在无需微调的情况下可提升 MLLMs 的安全性达 33.40%，同时保持模型的有效性与实用性。

2605.11714 2026-05-13 cs.RO

Introducing Environmental Constraints to Grasping Strategies for Paper-Like Flexible Materials Using a Soft Gripper

Yi Dong, Yang Li, Jinjun Duan, Zhendong Dai

发表机构 * College of Mechanical and Electrical Engineering, Nanjing University（南京大学机械与电子工程学院）； Jiangsu Key Laboratory of Bionic Materials and Equipment, Nanjing University of Aeronautics and Astronautics（江苏生物材料与设备重点实验室，南京航空航天大学）

AI总结本文研究了使用软夹爪抓取纸张类柔性材料时如何引入环境约束以提升抓取效果。通过分析材料特性和工作条件对抓取的影响，提出了一套基于环境约束的系统抓取策略，并建立了其力学与运动学模型。实验验证了不同策略的适用场景和性能，为家庭服务机器人抓取平面柔性物体提供了可行的解决方案。

Comments Under Review

2605.11712 2026-05-13 cs.AI

Toward Stable Value Alignment: Introducing Independent Modules for Consistent Value Guidance

Wenhao Chen, Sirui Sun, Shengyuan Bai, Guojie Song

发表机构 * School of Electronics Engineering and Computer Science, Peking University（北京大学电子工程与计算机科学学院）； Yuanpei College, Peking University（北京大学元培学院）； State Key Laboratory of General Artificial Intelligence, School of Intelligence Science and Technology, Peking University（北京大学通用人工智能国家重点实验室）

AI总结本文针对大语言模型（LLM）在价值对齐过程中因残差流动态性导致的价值表达不稳定问题，提出了一种名为 Stable Value Guidance Transformer（SVGT）的新架构。该方法通过引入独立的价值模块，将价值表示与主干网络分离，并利用可学习的桥接标记实现稳定的价值引导，从而在保持生成流畅性的同时显著提升模型的安全性。实验表明，SVGT 在多个基准测试中有效降低了有害输出，验证了其在结构化价值建模方面的有效性。

Comments Accepted to ICML 2026 (Spotlight). 32 pages

2605.11711 2026-05-13 cs.LG cs.AI

Debiased Model-based Representations for Sample-efficient Continuous Control

Jiafei Lyu, Zichuan Lin, Scott Fujimoto, Kai Yang, Yangkun Chen, Saiyong Yang, Zongqing Lu, Deheng Ye

发表机构 * Tencent Hunyuan（腾讯文言）； McGill University（麦吉尔大学）； School of Computer Science, Peking University（北京大学计算机学院）

AI总结本文提出了一种去偏的基于模型的表示学习方法DR.Q，用于提高连续控制任务中样本效率。该方法通过最大化当前状态-动作对与其下一状态之间的互信息，并结合衰减优先经验回放策略，有效缓解了传统方法在表示学习中的偏差和过拟合问题。实验表明，DR.Q在多个基准任务上表现优异，能够匹配甚至超越现有先进方法。

Comments ICML 2026

2605.11706 2026-05-13 cs.LG

GRAFT: Graph-Tokenized LLMs for Tool Planning

Xinyi Gao, Xinyu Ren, Junliang Yu, Tong Chen, Quoc Viet Hung Nguyen, Hongzhi Yin

发表机构 * The University of Queensland（昆士兰大学）； Griffith University（格里菲斯大学）

AI总结 GRAFT 是一种用于工具规划的图标记化大语言模型框架，旨在解决复杂任务中工具选择与子任务意图对齐以及满足工具间依赖关系的问题。该方法通过将每个工具节点映射为专用特殊标记，并在表示空间中学习有向工具依赖关系，从而将工具图内部化到模型中。此外，GRAFT 引入了基于策略的工具上下文蒸馏技术，提升模型在复杂工作流中生成合法、准确工具序列的能力，实验表明其在序列匹配和依赖合法性方面达到最优性能。

2605.11705 2026-05-13 cs.CV

CAST: Collapse-Aware multi-Scale Topology Fusion for Multimodal Coreset Selection

Boran Zhao, Hetian Liu, Zhenxian Hu, Yuqing Yuan, Yu Yan, Pengju Ren

发表机构 * School of Software Engineering, the National Key Laboratory of Human-Machine Hybrid Augmented Intelligence, National Engineering Research Center for Visual Information and Applications, and Institute of Artificial Intelligence and Robotics（软件工程学院、人机混合增强智能国家重点实验室、视觉信息与应用国家工程研究中心、人工智能与机器人研究院）； School of Software Engineering（软件工程学院）； XJTU-POLIMI Joint School（西交大-波兰理工联合学院）； Faculty of Electronic and Information Engineering（电子与信息工程学院）； School of Human Settlements and Civil Engineering（人居与土木工程学院）； the National Key Laboratory of Human-Machine Hybrid Augmented Intelligence, National Engineering Research Center for Visual Information and Applications, and Institute of Artificial Intelligence and Robotics（人机混合增强智能国家重点实验室、视觉信息与应用国家工程研究中心、人工智能与机器人研究院）

AI总结本文提出了一种名为CAST的多模态核心集选择框架，旨在解决大规模图像-文本数据集在训练多模态模型时带来的高计算成本问题。CAST通过构建图像和文本模态的拓扑结构，并结合局部坍缩感知的融合策略，实现跨模态信息的均衡表示。同时，CAST引入多尺度扩散小波域分布匹配和局部软关系覆盖机制，有效提升了核心集在语义结构、细粒度细节和冗余抑制方面的表现。实验表明，CAST在多个数据集上优于现有方法，展现出更强的跨架构泛化能力和计算效率。

2605.11704 2026-05-13 cs.CV

ScaleMoGen: Autoregressive Next-Scale Prediction for Human Motion Generation

Inwoo Hwang, Hojun Jang, Bing Zhou, Jian Wang, Young Min Kim, Chuan Guo

发表机构 * Seoul National University（首尔国立大学）； Snap Inc.（Snap公司）； Meta Reality Labs（Meta现实实验室）

AI总结本文提出 ScaleMoGen，一种基于尺度自回归的文本驱动人体运动生成框架。该方法将运动生成视为从粗到细的过程，通过多尺度骨骼-时序离散化标记进行自回归预测，从而生成高质量的运动序列。研究通过位级量化和预测策略，提升了标记词汇量并优化了生成稳定性，实验表明其在多个指标上优于现有方法，并支持无需训练的文本引导运动编辑。

Comments Project page: https://inwoohwang.me/ScaleMoGen

2605.11697 2026-05-13 cs.RO

Rainbow Deep Q-Learning with Kinematics-Aware Design for Cooperative Delta and 3-RRS Parallel Robot Insertion

Hassen Nigatu, Gaokun Shi, Jituo Li, Wang Jin, Lu Guodong

发表机构 * Robotics Research Center of Yuyao（余姚机器人研究中心）； Robotics Institute of Zhejiang University（浙江大学机器人院）； Yuyao Technology Innovation Center（余姚技术创新中心）； Department of Electrical and Computer Engineering, University of New Brunswick（新 Brunswick大学电气与计算机工程系）

AI总结本文提出了一种基于彩虹深度Q网络（Rainbow DQN）的运动学感知深度强化学习框架，用于Delta并联机器人与3-RRS并联机械臂的协作插孔操作。研究通过优化3-RRS机械臂的几何结构，扩大其无奇异工作空间，从而提升强化学习策略的探索安全性。该框架将协作插入任务建模为马尔可夫决策过程，并结合定制奖励函数与两阶段训练课程，最终在高保真仿真环境中实现了稳定策略收敛与可靠插入效果。

Comments 10 pages

2605.11696 2026-05-13 cs.CV cs.AI cs.GR

WildRelight: A Real-World Benchmark and Physics-Guided Adaptation for Single-Image Relighting

Lezhong Wang, Mehmet Onurcan Kaya, Siavash Bigdeli, Jeppe Revall Frisvad

发表机构 * Technical University of Denmark（丹麦技术大学）； Inria（法国国家信息与自动化研究所）

AI总结 WildRelight 是一个专为单图像重光照任务设计的首个真实场景数据集，包含高分辨率户外场景及其配对的高动态范围环境光映射，用于评估现有方法在真实环境中的表现。该数据集揭示了当前基于合成数据训练的先进模型在真实世界中存在严重的领域偏移问题。研究提出了一种基于物理引导的推理框架，结合扩散后验采样与时间感知的测试时自适应方法，实现了合成模型在真实场景中的实时对齐，为解决模拟到现实的挑战提供了新的思路。

Comments Companion paper to the CVPR26 findings paper 'WildRelight', introducing the physics-guided adaptation method evaluated on the dataset. Project Page: https://lez-s.github.io/wildrelight_proj/

2605.11695 2026-05-13 cs.CV cs.AI

Emergent Communication between Heterogeneous Visual Agents through Decentralized Learning

Mikako Ochiai, Masatoshi Nagano, Tadahiro Taniguchi

发表机构 * Graduate School of Informatics, Kyoto University（京都大学信息科学研究生院）

AI总结本文研究了在异构视觉代理之间通过去中心化学习产生的通信机制，探讨了当代理具有不同视觉表征时，哪些视觉信息可以被共享。研究中代理仅交换离散的标记序列，并基于本地感知证据更新自身模型，无需依赖共享的通信目标。实验表明，这种通信方式能够生成具有视觉信息的共享标记序列，在跨代理对齐、视觉特征预测和图像-文本检索任务中优于无通信基线，并揭示了视觉编码器异质性对通信内容和语言对称性的影响。

详情

英文摘要

Symbols are shared, but perception is private. We study emergent communication between heterogeneous visual agents through decentralized learning, asking what visual information can become shareable when agents have different visual representations. Instead of optimizing messages through a shared external communicative objective, our agents exchange only discrete token sequences and update their own models using local perceptual evidence. This setting focuses on an underexplored aspect of emergent communication, examining whether common symbols can arise without shared perceptual access, and how the similarity between private visual spaces constrains the content and symmetry of the resulting language. We instantiate this setting in the Metropolis-Hastings Captioning Game (MHCG), where two agents collaboratively form shared captions by exchanging proposed token sequences that a listener accepts or rejects using an MH-style criterion evaluated against its own visual features. We compare three pairings of frozen visual encoders, with agents starting from randomly initialized text modules. Experiments on MS-COCO show that MHCG produces visually informative shared token sequences that outperform a no-communication baseline in cross-agent alignment, visual-feature prediction, and image-text retrieval; all cross-agent metrics decline as encoder mismatch increases. Moderate encoder heterogeneity reduces the number of shared sequences while preserving per-sequence visual specificity, whereas stronger encoder heterogeneity yields fewer, coarser, and more asymmetric sequences. Ablations show that listener-side MH acceptance is critical for avoiding degenerate token formation. These results suggest that shared symbols can arise from local perceptual evaluation alone, with visual representational similarity across encoders shaping both the content and symmetry of the resulting language.

URL PDF HTML ☆

赞 0 踩 0

2605.11694 2026-05-13 cs.LG

Augmented Lagrangian Method for Last-Iterate Convergence for Constrained MDPs

Michael Lu, Max Qiushi Lin, Mo Chen, Sharan Vaswani

发表机构 * Simon Fraser University（西蒙弗雷泽大学）

AI总结本文研究无限时间折扣约束马尔可夫决策过程（CMDPs）的策略优化问题，关注实际应用中需要部署单一最终策略的场景。为了解决现有理论保证通常针对混合策略而难以直接应用的问题，作者提出采用增强拉格朗日（AL）方法，并结合投影Q上升（PQA）算法，构建了一个具有可证明最终迭代收敛性的通用框架。该方法不仅适用于表格型CMDPs，还可推广到对数线性策略及复杂非线性策略，并在连续控制任务中验证了其有效性。

2605.11693 2026-05-13 cs.AI

Measuring What Matters Beyond Text: Evaluating Multimodal Summaries by Quality, Alignment, and Diversity

Abid Ali, Diego Molla-Aliod, Usman Naseem

发表机构 * School of Computing, Macquarie University（麦考瑞大学计算学院）

AI总结该研究针对多模态摘要生成任务中现有评估方法的不足，提出了一种统一的评估框架MM-Eval，用于综合衡量文本质量、图像-文本对齐性以及视觉多样性。MM-Eval通过结合事实一致性、语义连贯性、图像相关性及视觉多样性等多维度指标，实现了对多模态摘要更全面和准确的评估。实验表明，该框架优于传统启发式方法，为多模态摘要系统的比较评估提供了可解释且弱依赖参考的解决方案。

Comments Accepted to Findings of ACL 2026

2605.11691 2026-05-13 cs.LG

Compositional Neural Operators for Multi-Dimensional Fluid Dynamics

Hamda Hmida, Hsiu-Wen Chang, Youssef Mesri

发表机构 * Mines Paris - PSL University, Centre for Material Forming (CEMEF)（巴黎矿学院-PSL大学，材料成形中心（CEMEF））； Mines Paris - PSL University, Centre for Robotics (CAOR)（巴黎矿学院-PSL大学，机器人中心（CAOR））

AI总结该论文提出了一种用于二维流体动力学的组合神经算子（CompNO）框架，旨在解决偏微分方程的高效求解问题。该方法将复杂的物理方程分解为多个预训练的基础模块，如对流、扩散和泊松求解器等，并通过一个自适应块进行组合，从而实现对非线性相互作用的学习。实验表明，该方法在适应新物理系统时具有更高的灵活性和可解释性，并能有效复用预训练模块。

Comments Published as a conference paper at ICLR 2026

2605.11689 2026-05-13 cs.LG cs.CL

Slicing and Dicing: Configuring Optimal Mixtures of Experts

Margaret Li, Sneha Kudugunta, Danielle Rothermel, Luke Zettlemoyer

发表机构 * Paul G Allen School of Computer Science（保罗·G·艾伦计算机科学学院）； University of Washington（华盛顿大学）； New York University（纽约大学）； Courant School of Data Science（科廷数据科学学院）

AI总结本文系统研究了大规模语言模型中专家混合（MoE）架构的核心设计选择，包括专家数量、粒度、共享专家、负载均衡等，并在超过2000次预训练实验中分析了这些参数对模型性能的影响。研究发现，随着MoE参数规模的增加，模型性能持续提升，且最优专家规模主要取决于活跃参数数量，而非总参数量。此外，专家数量和粒度是影响模型质量的最关键因素，而其他配置如共享专家或负载均衡机制的影响相对较小。

2605.11688 2026-05-13 cs.LG cs.AI cs.MA

Shaping Zero-Shot Coordination via State Blocking

Mingu Kang, Sunwoo Lee, Yonghyeon Jo, Seungyul Han

发表机构 * Graduate School of Artificial Intelligence（人工智能研究生院）； UNIST（全南国立科学技术院）

AI总结本文研究了零样本协调（ZSC）问题，即如何使智能体在未与合作伙伴预先交互的情况下实现协作，这对于现实中的多智能体系统和人机协作至关重要。为解决现有方法在面对未见合作伙伴时泛化能力不足的问题，作者提出了一种名为状态阻断协调（SBC）的框架，通过生成虚拟环境中的多样化交互场景，使智能体在训练过程中接触多种次优合作伙伴策略，从而提升其零样本协调能力。实验表明，SBC在多个基准测试中表现出优越的协调性能，尤其在与人类合作伙伴的协作中具有显著优势。

Comments 9 technical page followed by references and appendix

2605.11687 2026-05-13 cs.AI

Persistent and Conversational Multi-Method Explainability for Trustworthy Financial AI

Georgios Makridis, Georgios Fatouros, John Soldatos, George Katsis, Dimosthenis Kyriazis

发表机构 * University of Piraeus, Greece（希腊比雷埃克斯大学）； ExpertAI-Lux S.à r.l（ExpertAI-Lux公司）

AI总结该研究针对金融领域对可信AI解释的需求，提出了一种持久化、多方法交叉验证且支持对话交互的可解释性AI架构。核心方法包括将多种XAI结果作为可检索的持久化对象进行存储，并通过检索增强生成技术实现多方法解释的对比与融合，同时引入自动化检查机制评估解释的可靠性。该架构在金融情感分析任务中进行了验证，显著提升了解释的准确性和可信度。

Comments 5 pages

2605.11685 2026-05-13 cs.CL

Robust LLM Unlearning Against Relearning Attacks: The Minor Components in Representations Matter

Zeguan Xiao, Xuanzhe Xu, Yun Chen, Yong Wang, Jian Yang, Yanqing Hu, Guanhua Chen

发表机构 * Shanghai University of Finance and Economics（上海金融学院）； Alibaba Group（阿里巴巴集团）； Southern University of Science and Technology（南方科技大学）； Beihang University（北航）

AI总结本文研究了大型语言模型（LLM）在面对“重学习攻击”时的健壮性问题，发现现有遗忘方法主要优化主成分，而次要成分未被有效修改，导致攻击者可通过调整主成分快速恢复被遗忘的知识。基于表示的谱结构分析，作者提出了一种针对次要成分的遗忘方法（MCU），通过在这些更具鲁棒性的方向上进行遗忘操作，显著提升了模型对重学习攻击的抵抗力，并在多个数据集上验证了其有效性。

AI 大模型

视觉与机器人

科学与医疗