arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.14641 2026-05-15 cs.CV cs.AI

How to Evaluate and Refine your CAM

Luca Domeniconi, Alessandra Stramiglio, Michele Lombardi, Samuele Salti

发表机构 * University of Bologna（博洛尼亚大学）

AI总结该研究针对卷积神经网络中类别归因图（CAM）的评估与改进问题，提出了一种合成数据集以生成真实归因标签，从而更严格地比较现有评估指标，并提出了一种新的复合评估指标ARCC，能够更可靠地识别忠实的解释。同时，为解决CAM分辨率低的问题，研究还引入了RefineCAM方法，通过聚合多层网络的CAM生成高分辨率归因图，实验表明该方法在新评估指标下优于现有方法。

Comments Accepted at ICPR 2026

2605.14636 2026-05-15 cs.AI

Teaching Large Language Models When Not to Know: Learning Temporal Critique for Ex-Ante Reasoning

Chenlu Ding, Jiancan Wu, Yanchen Luo, Zheyuan Liu, Yancheng Yuan, Xiang Wang

发表机构 * University of Science and Technology of China（中国科学技术大学）； The Hong Kong Polytechnic University（香港理工大学）； University of Notre Dame（圣母大学）

AI总结该研究探讨了大型语言模型在时间截断条件下进行推理时的失效问题，即模型在回答过去时间点的问题时错误地使用了未来才可获得的信息。研究提出了一种名为TCFT的时序批评微调框架，通过训练模型识别和判断回答中是否存在时间泄露，从而提升其在时间限制下的推理能力。实验表明，TCFT在多个模型上显著优于传统提示和微调方法，有效降低了时间泄露的比例。

2605.14635 2026-05-15 cs.CV cs.AI

MultiEmo-Bench: Multi-label Visual Emotion Analysis for Multi-modal Large Language Models

Tianwei Chen, Takuya Furusawa, Yuki Hirakawa, Ryotaro Shimizu, Mo Fan, Takashi Wada

发表机构 * ZOZO NEXT Inc.（ZOZO NEXT公司）

AI总结本文提出一个多标签视觉情感分析基准数据集MultiEmo-Bench，用于全面评估多模态大语言模型（MLLMs）对图像引发情感的预测能力。现有数据集采用单一标签标注方式，难以反映图像可能引发的多维度、多强度情感，为此本文引入多标注员协同标注机制，生成包含10,344张图像和236,998个有效情感标签的高质量数据集，并基于该数据集评估了多个主流模型在主控情感预测和情感分布预测任务上的表现，揭示了当前MLLMs在情感理解方面的进展与不足。

2605.14632 2026-05-15 cs.LG stat.AP

DRL-STAF: A Deep Reinforcement Learning Framework for State-Aware Forecasting of Complex Multivariate Hidden Markov Processes

Manrui Jiang, Jingru Huang, Yong Chen, Chen Zhang

发表机构 * Department of Industrial Engineering, Tsinghua University, Beijing 100084, China（清华大学工业工程系）； Department of Industrial and Systems Engineering, University of Iowa, Iowa City, IA 52242, USA（爱荷华大学工业与系统工程系）

AI总结该研究提出了一种基于深度强化学习的DRL-STAF框架，用于复杂多变量隐马尔可夫过程的状态感知预测。该方法结合深度神经网络建模非线性观测，并利用强化学习估计离散隐状态，克服了传统隐马尔可夫模型在非线性发射和扩展性方面的不足，同时减少了对预定义状态转移结构的依赖。实验表明，DRL-STAF在预测性能和隐状态估计方面均优于现有方法。

2605.14631 2026-05-15 cs.LG cs.AI cs.CV

Action-Inspired Generative Models

Eshwar R. A., Debnath Pal

发表机构 * Department of Computer Science Engineering（计算机科学与工程系）； PES University (EC Campus), Bengaluru（班加罗尔EC校区的PES大学）； Department of Computational and Data Sciences（计算与数据科学系）； Indian Institute of Science, Bengaluru（班加罗尔印度科学研究院）

AI总结本文提出了一种受动作启发的生成模型（AGMs），旨在改进现有桥接匹配方法中对所有随机转移赋予相同回归权重的问题。该方法引入了一个轻量的可学习标量势函数 $V_ϕ$，用于在线评估桥接样本并调节漂移目标，从而选择性地惩罚非信息性传输路径，提升了生成质量。该模型结构简单，仅增加约1.4%的参数，无需额外计算开销，可直接嵌入任何桥接匹配训练流程中。

Comments 11 pages, 5 figures, and 4 tables

2605.14626 2026-05-15 cs.CV

UniTriGen: Unified Triplet Generation of Aligned Visible-Infrared-Label for Few-Shot RGB-T Semantic Segmentation

Ping Zhou, Haoyu Wang, Mengmeng Zheng, Lei Zhang, Wei Wei, Chen Ding, Fei Zhou

发表机构 * School of Computer Science, Northwestern Polytechnical University（西北工业大学计算机学院）； School of Computer Science & Technology, Xi’an University of Posts & Telecommunications（西安邮电大学计算机科学与技术学院）； MMLab, The Chinese University of Hong Kong（香港中文大学MMLab）

AI总结 RGB-T语义分割需要严格对齐的可见光-红外-标签三元组，但在实际场景中这类数据往往稀缺。为解决这一问题，本文提出UniTriGen，一种统一的三元组生成框架，能够在文本提示引导下直接生成空间对齐、语义一致且模态互补的可见光-红外-标签三元组。该方法通过共享潜在空间中的联合编码和扩散过程建模，确保跨模态一致性，并引入轻量级模态特定适配器以适应不同模态的成像特性，同时采用场景平衡和类别感知的少样本采样策略，提升生成三元组的多样性和质量，从而在多种RGB-T语义分割模型中实现性能提升。

2605.14621 2026-05-15 cs.CV cs.AI cs.CL

Do We Really Need External Tools to Mitigate Hallucinations? SIRA: Shared-Prefix Internal Reconstruction of Attribution

Tian Qin, Junzhe Chen, Yuqing Shi, Tianshu Zhang, Qiang Ju, Lijie Wen

发表机构 * Tsinghua University（清华大学）； The University of Sydney（悉尼大学）； Stanford University（斯坦福大学）； Baichuan AI（百川AI）

AI总结大型视觉语言模型（LVLMs）在语言先验主导弱或模糊视觉证据时容易产生幻觉。现有对比解码方法通过比较原始图像和外部扰动输入的预测来缓解这一问题，但依赖外部参考可能引入偏差并增加计算成本。本文提出SIRA，一种无需训练的内部对比解码框架，通过利用多模态变换器的分阶段信息流，在模型内部构建反事实参考，有效抑制幻觉，同时保持描述覆盖率，并适用于开源权重模型。

2605.14619 2026-05-15 cs.AI

SliceGraph: Mapping Process Isomers in Multi-Run Chain-of-Thought Reasoning

Kang Chen, Junjie Nian, Yixin Cao, Yugang Jiang

发表机构 * Fudan University（复旦大学）； Shanghai Innovation Institute（上海创新研究院）

AI总结该研究提出了SliceGraph方法，用于分析多轮思维链（CoT）推理过程中不同路径之间的共享、分裂与重组结构。通过计算CoT片段间的激活键Jaccard相似度并构建互k近邻图，SliceGraph揭示了不同推理路径在过程结构上的异同，并识别出具有相同答案但推理过程不同的“过程异构体”。实验表明，多数问题-模型组合中存在多个过程家族，它们在策略上具有一致性但结构上有所区分，表明最终答案聚合忽略了推理过程中的多路径结构特征。

2605.14615 2026-05-15 cs.CV

CalibAnyView: Beyond Single-View Camera Calibration in the Wild

Boying Li, Cheng Zhang, Weirong Chen, Daniel Cremers, Ian Reid, Hamid Rezatofighi

发表机构 * Monash University（蒙纳士大学）； Technical University of Munich（慕尼黑技术大学）； Mohamed bin Zayed University of Artificial Intelligence（穆罕默德·本·扎耶德人工智能大学）

AI总结本文提出了一种名为 CalibAnyView 的新型相机标定方法，能够在任意数量的视角下（包括单视角）实现鲁棒的几何一致性标定。该方法通过构建大规模多视角视频数据集，并设计多视角变换网络预测密集透视场，结合几何优化框架联合估计相机内参和重力方向，从而在真实场景中取得优于现有方法的标定效果。该工作为野外环境下的三维重建和机器人感知等任务提供了可靠的基础。

Comments 44 pages, 25 figures

2605.14609 2026-05-15 cs.CV cs.LG

Deep Image Segmentation via Discriminant Feature Learning

Adam Dawid Sztamborski, Raül Pérez-Gonzalo, Antonio Agudo

发表机构 * Institut de Robòtica i Informàtica Industrial, CSIC-UPC（机器人与信息学工业研究所，西班牙加泰罗尼亚科技学院-巴塞罗那高等学院）； Politechnika Łódzka（卢布林理工大学）

AI总结本文研究了图像分割中边界不清晰的问题，提出了一种新的可微且与网络结构无关的损失函数Deep Discriminant Analysis（DDA），通过最大化类间方差并最小化类内方差，提升特征分布的紧致性和可分性。实验表明，DDA在多种架构上均能有效提升分割精度、边界清晰度和模型置信度，为构建更鲁棒的分割模型提供了简单而有效的方法。

Comments Accepted to ICIP 2026

2605.14607 2026-05-15 cs.CV cs.CY

ViMU: Benchmarking Video Metaphorical Understanding

Qi Li, Xinchao Wang

发表机构 * National University of Singapore（新加坡国立大学）

AI总结本文提出ViMU，首个用于评估视频隐喻理解能力的基准，旨在解决现有视频理解模型主要关注字面内容而忽视隐喻、讽刺和社会含义的问题。ViMU通过开放问答和多选题形式，要求模型基于多模态证据推断视频中的隐含意义，且问题设计无提示，确保模型依赖自身理解能力进行推理。该工作为视频理解领域引入了新的评估方向，推动模型在深层次语义理解方面的发展。

2605.14606 2026-05-15 cs.CV

MambaRain: Multi-Scale Mamba-Attention Framework for 0-3 Hour Precipitation Nowcasting

Chunlei Shi, Cui Wu, Xiang Xu, Hao Li, Ni Fan, Xue Han, Yongchao Feng, Yufeng Zhu, Boyu Liu, Zengliang Zang, Hongbin Wang, Yanlan Yang, Dan Niu

发表机构 * School of Automation, Southeast University（东南大学自动化学院）； Nanjing XinDa Institute of Meteorological Science and Technology（南京新达气象科学与技术研究所）； Beijing Leninainfo Technology Co., Ltd.（北京 Leninainfo 技术有限公司）； China CEC Engineering Corporation（中国 CEC 工程公司）； School of Mathematical Sciences, Tongji University（同济大学数学科学学院）； State Key Laboratory of Virtual Reality Technology and Systems, Beihang University（北京航空航天大学虚拟现实技术与系统国家重点实验室）； College of Meteorology and Oceanography, National University of Defense Technology（国防科技大学气象学与海洋学学院）； Key Laboratory of Transportation Meteorology of China Meteorological Administration, Nanjing Innovation Institute for Atmospheric Sciences（中国气象局交通运输气象重点实验室，南京大气科学创新研究院）

AI总结本文提出了一种名为MambaRain的多尺度编码-解码框架，用于0-3小时的降水临近预报。该方法结合了Mamba模型的线性复杂度长期时间建模能力和自注意力机制对空间相关性的显式捕捉，有效解决了现有方法在长时段预测中性能下降的问题。通过引入混合架构和频谱损失函数，MambaRain在保持计算效率的同时提升了预报精度，尤其在2-3小时的困难预测区间表现突出。

Comments 9 pages,7 figures

2605.14604 2026-05-15 cs.AI cs.HC

Sycophancy is an Educational Safety Risk: Why LLM Tutors Need Sycophancy Benchmarks

Enkelejda Kasneci, Gjergji Kasneci

发表机构 * Technical University of Munich, Munich, Germany（慕尼黑技术大学，慕尼黑，德国）； Munich Center for Machine Learning, Munich, Germany（慕尼黑机器学习中心，慕尼黑，德国）

AI总结本文指出，有效的教学需要“纠正性摩擦”，即通过指出并支持性地挑战学生的误解来促进概念转变，但当前偏好对齐的大语言模型（LLMs）可能为了友好而牺牲认知严谨性。为此，作者提出了“推理-谄媚悖论”，即模型虽能抵御上下文切换攻击，却可能在权威或社交压力下退缩。文章引入了EduFrameTrap基准，用于评估LLM在不同学科和压力情境下的教学表现，并发现当前前沿模型在面对权威和社会压力时更容易出现认知退缩，强调了建立衡量“社会-认知勇气”的教学基准的重要性。

2605.14601 2026-05-15 cs.CV

Towards Accurate Single Panoramic 3D Detection: A Semantic Gaussian Centric Approach

Kanglin Ning, Yiran Zhao, Wenrui Li, Shaoru Sun, Xingtao Wang, Xiaopeng Fan

发表机构 * Harbin Institute of Technology（哈尔滨工业大学）； The Suzhou Research Institute of HIT（哈尔滨工业大学苏州研究院）； The PengChengLab（鹏城实验室）

AI总结本文提出了一种基于连续语义高斯表示的单目全景3D目标检测框架PanoGSDet，旨在解决全景图像中2D特征到3D空间映射不准确的问题。该方法通过全景深度估计模块和语义高斯模块，将全景图像中的语义和深度信息提升到3D语义高斯分布，并通过优化和预测模块生成精确的3D目标框。实验表明，该方法在Structured3D数据集上显著优于现有方法。

Comments Current has been accepted by ICME 2026

2605.14600 2026-05-15 cs.CL

SciPaths: Forecasting Pathways to Scientific Discovery

Eric Chamoun, Yizhou Chi, Yulong Chen, Rui Cao, Zifeng Ding, Michalis Korakakis, Andreas Vlachos

发表机构 * University of Cambridge（剑桥大学）； The Alan Turing Institute（艾伦·图灵研究所）； Singapore University of Technology and Design（新加坡科技设计大学）

AI总结本文提出 SciPaths，一个用于科学发现路径预测的新基准，旨在预测实现特定科学成果所需的前置贡献及其在已有文献中的依据。研究通过构建包含专家标注和机器学习生成的路径数据集，评估了前沿语言模型在该任务上的表现，发现模型在严格语义匹配下表现有限，尤其在恢复核心方法依赖方面存在困难。该工作揭示了科学预测中一个被忽视的关键能力：从目标成果逆向推理出其所需的科学基础和文献依赖。

2605.14599 2026-05-15 cs.LG cs.AI stat.ML

Fast Rates for Inverse Reinforcement Learning

Andreas Schlaginhaufen, Maryam Kamgarpour

发表机构 * EPFL（瑞士联邦理工学院）

AI总结本文研究了有限时间马尔可夫决策过程中的熵正则化最小-最大逆强化学习（Min-Max-IRL）问题，针对线性奖励类问题，建立了新的结构和统计性质。作者证明了在总体层面，最大似然估计与Min-Max-IRL等价，在确定性动力学下在经验层面也等价。通过利用Min-Max-IRL损失的伪自共轭性质，作者展示了轨迹级KL散度和参数误差在Hessian范数下的衰减速度为$\mathcal{O}(n^{-1})$，且结果适用于模型误设情况，无需探索假设。此外，还扩展了奖励可识别性的结果到一般的Borel空间，并推导了软最优价值函数关于奖励参数的导数新性质。

2605.14597 2026-05-15 cs.CV cs.CE cs.MM

VMU-Diff: A Coarse-to-fine Multi-source Data Fusion Framework for Precipitation Nowcasting

Chunlei Shi, Hao Li, Yufeng Zhu, Boyu Liu, Yongchao Feng, Zengliang Zang, Hongbin Wang, Yanlan Yang, Dan Niu

发表机构 * Department of Automation, Southeast University（东南大学自动化部门）； State Key Laboratory of Virtual Reality Technology and Systems, Beihang University（北京航空航天大学虚拟现实技术与系统国家重点实验室）； Key Laboratory of Transportation Meteorology, China Meteorological Administration（中国气象局交通运输气象重点实验室）

AI总结降水临近预报是气象应用中的重要时空预测任务，但因降水系统的混沌特性面临诸多挑战。现有方法多依赖单一来源的雷达数据构建确定性或概率性模型进行外推，但存在模糊性或计算效率低等问题。本文提出一种基于粗到细的视觉Mamba Unet与残差扩散模型（VMU-Diff）的多源数据融合框架，通过两阶段过程实现降水临近预报：第一阶段利用雷达与多波段卫星数据融合预测全局运动趋势，第二阶段基于条件扩散模型生成细节预测，实验表明该方法在短期预报中优于现有先进方法。

Comments 5 pages, 2 figures

2605.14594 2026-05-15 cs.CV cs.GR

TOPOS: High-Fidelity and Efficient Industry-Grade 3D Head Generation

Bojun Xiong, Zoubin Bi, Xinghui Peng, Yunmu Wang, Junchen Deng, Jun Liang, Jing Li, Bowen Cai, Huan Fu

发表机构 * HUJING Digital Media & Entertainment Group（华景数字媒体与娱乐集团）

AI总结本文提出TOPOS，一种用于单图像条件生成高保真3D头部模型的框架，旨在满足影视、动画和游戏等行业对统一拓扑结构的需求。TOPOS通过引入一种新型变分自编码器（TOPOS-VAE）和修正流变换器（TOPOS-DiT），在固定工业标准拓扑下联合生成几何和外观，实现跨生成头部的顶点级一致性。此外，TOPOS-Texture模块可从同一肖像图像生成可重新光照的UV纹理贴图，保留高频细节，实验表明TOPOS在3D头部生成任务中达到领先水平。

Comments Technical Report

详情

英文摘要

High-fidelity 3D head generation plays a crucial role in the film, animation and video game industries. In industrial pipelines, studios typically enforce a fixed reference topology across all head assets, as such a clean and uniform topology is a prerequisite for production-level rigging, skinning and animation. In this paper, we present TOPOS, a framework tailored for single image conditioned 3D head generation that jointly recovers geometry and appearance under such an industry-standard topology. In contrast to general 3D generative models which produce triangle meshes with inconsistent topology and numerous vertices, hindering semantic correspondence and asset-level reuse, TOPOS generates head meshes with a fixed, studio-style topology, enabling consistent vertex-level correspondence across all generated heads. To model heads under this unified topology, we proposed a novel variational autoencoder structure, termed TOPOS-VAE. Inspired by multi-model large language models (MLLMs), our TOPOS-VAE leverages the Perceiver Resampler to convert input pointclouds sampled from head meshes of diverse topologies into the target reference topology. Building upon TOPOS-VAE's structured latent space, we train a rectified flow transformer, TOPOS-DiT, to efficiently generate high-fidelity head meshes from a single image. We further present TOPOS-Texture, an end-to-end module that produces relightable UV texture maps from the same portrait image via fine-tuning a multimodal image generative model. The generated textures are spatially aligned with the underlying mesh geometry and faithfully preserve high-frequency appearance details. Extensive experiments demonstrate that TOPOS achieves state-of-the-art performance on 3D head generation, surpassing both classical face reconstruction methods and general 3D object generative models, highlighting its effectiveness for digital human creation.

URL PDF HTML ☆

赞 0 踩 0

2605.14590 2026-05-15 cs.CV

FedStain: Modeling Higher-Order Stain Statistics for Federated Domain Generalization in Computational Pathology

Fengyi Zhang, Junya Zhang, Wenzhuo Sun

发表机构 * School of Electronic Science and Technology, Hainan University, Haikou, China, 570228（海南大学电子科学与技术学院）； School of Computer Science and Technology, Xidian University, Xi'an, China, 710126（西安电子科技大学计算机科学与技术学院）； Xiangjiang College of Elite Engineers, Hunan University, Changsha, China, 410082（湖南大学精英工程师学院）

AI总结在计算病理学中，由于不同机构之间染色异质性显著，鲁棒的全切片图像分析仍面临挑战。现有联邦域泛化方法大多依赖低阶统计量，难以捕捉真实染色过程中存在的非高斯特性。本文提出FedStain，一种联邦域泛化框架，通过引入偏度和峰度等高阶统计量作为紧凑的染色描述子，在保护隐私和通信效率的前提下，有效建模染色变化，实验表明其在多个基准数据集上显著优于现有方法。

2605.14587 2026-05-15 cs.LG cs.AI cs.CR

Angel or Demon: Investigating the Plasticity Interventions' Impact on Backdoor Threats in Deep Reinforcement Learning

Oubo Ma, Ruixiao Lin, Yang Dai, Jiahao Chen, Chunyi Zhou, Linkang Du, Shouling Ji

发表机构 * Zhejiang University（浙江大学）； National University of Defense Technology（国防科技大学）； Xi'an Jiaotong University（西安交通大学）

AI总结本文研究了可塑性干预对深度强化学习（DRL）中后门攻击的影响，发现大多数干预措施能有效缓解后门威胁，而仅有SAM干预会加剧威胁。通过病理分析，揭示了后门梯度放大与激活路径破坏等机制，并提出了SCC概念框架和异常损失景观锐度作为后门检测的新指标，为提升DRL系统安全性提供了理论支持。

Comments To appear in the Forty-Third International Conference on Machine Learning (ICML 2026), July 6-11, 2026, Seoul, South Korea

2605.14581 2026-05-15 cs.CV cs.AI cs.IR

A Picture is Worth a Thousand Words? An Empirical Study of Aggregation Strategies for Visual Financial Document Retrieval

Ho Hung Lim, Yi Yang

发表机构 * The Hong Kong University of Science and Technology（香港理工大学）

AI总结本研究探讨了在视觉金融文档检索中，将文档图像编码为单一向量进行聚合可能带来的信息丢失问题。通过构建一个金融文档诊断基准，实验发现单一向量聚合会导致不同文档的向量几乎相同，从而掩盖了关键语义细节。研究指出，全局纹理主导是导致这一问题的根本原因，并表明该现象在不同模型规模和优化策略下均存在，突显了单一向量方法在金融应用中的潜在风险。

Comments Accepted to Findings of ACL 2026

2605.14579 2026-05-15 cs.CV

Med-DisSeg: Dispersion-Driven Representation Learning for Fine-Grained Medical Image Segmentation

Zhiquan Chen, Haitao Wang, Guowei Zou, Hejun Wu

发表机构 * School of Computer Science and Engineering, Sun Yat-sen University（中山大学计算机科学与工程学院）； Guangdong Key Laboratory of Big Data Analysis and Processing（广东省大数据分析与处理重点实验室）

AI总结医学图像分割是精准医疗的基础，但在面对组织外观差异大、边界模糊和解剖结构多变等挑战时，现有方法仍难以实现稳定而精确的分割。本文提出 Med-DisSeg 框架，通过引入一种轻量级的分散损失（Dispersive Loss）和自适应注意力机制，提升细粒度结构分割的表示学习与解剖边界刻画能力。该方法通过扩大样本间嵌入表示的间隔，增强编码器对结构特征的敏感性，并利用多尺度解码器保留局部纹理与整体形状信息，实验表明其在多个医学影像数据集上均取得领先的分割性能。

2605.14578 2026-05-15 cs.LG

Woodelf++: A Fast and Unified Partial Dependence Plot Algorithm for Decision Tree Ensembles

Ron Wettenstein, Alexander Nadel, Udi Boker

发表机构 * Reichman University（里奇曼大学）； Faculty of Data and Decision Sciences（数据与决策科学学院）

AI总结本文提出了一种名为 Woodelf++ 的高效统一算法，用于计算决策树集成模型的多种可解释性工具，包括部分依赖图（PDP）、联合 PDP 和任意阶特征交互值（Any-Order-PDIVs）。该方法基于伪布尔函数的度量推导，实现了对这些工具的统一计算框架，相比现有方法在计算复杂度上有了显著提升，尤其在 Any-Order-PDIVs 上实现了指数级加速。实验表明，Woodelf++ 在 Python 中实现并支持 GPU 加速，其计算速度远超当前主流工具。

Comments Extended version of the paper to appear at IJCAI 2026

2605.14571 2026-05-15 cs.RO cs.LG

Let Robots Feel Your Touch: Visuo-Tactile Cortical Alignment for Embodied Mirror Resonance

Tianfang Zhu, Ning An, Rui Wang, Jiasi Gao, Qingming Luo, Anan Li, Guyue Zhou

发表机构 * Institute for AI Industry Research, Tsinghua University（清华大学人工智能产业研究院）； Key Laboratory of Biomedical Engineering of Hainan Province, School of Biomedical Engineering, Hainan University（海南省生物医学工程重点实验室，海南大学生物医学工程学院）； School of New Media Art and Design, Beihang University（北航艺术与设计学院）； MoE Key Laboratory for Biomedical Photonics, Wuhan National Laboratory for Optoelectronics, Huazhong University of Science and Technology（教育部生物医学光子学重点实验室，武汉光电研究所，华中科技大学）

AI总结该研究旨在赋予机器人“镜像触觉”能力，使其能够通过观察他人的触觉动作，预测并模拟相应的触觉信号。研究提出了一种名为Mirror Touch Net的模型，通过多层次约束实现视觉与触觉表征在语义、分布和几何上的对齐，从而从RGB图像中预测机械手上的毫米级触觉信号。该方法不仅提升了跨模态感知的准确性，还为机器人实现具有共情能力的触觉交互提供了可解释的神经机制基础。

2605.14570 2026-05-15 cs.CL

Uncertainty Quantification for Large Language Diffusion Models

Artem Vazhentsev, Vladislav Smirnov, David Li, Maxim Panov, Timothy Baldwin, Artem Shelmanov

发表机构 * MBZUAI ； The University of Melbourne（墨尔本大学）

AI总结本文研究了大语言扩散模型（LLDMs）中的不确定性量化（UQ）问题，旨在提高其推理可靠性。针对现有方法与LLDMs的并行化特性不兼容的问题，作者提出了一种轻量、零样本的不确定性信号，基于去噪过程中的中间生成、标记重掩码动态和去噪复杂度。实验表明，该方法在保持高效推理的同时，能够有效检测生成内容中的幻觉，实现了计算开销与性能之间的良好平衡。

2605.14569 2026-05-15 cs.CV

Bridging Brain and Semantics: A Hierarchical Framework for Semantically Enhanced fMRI-to-Video Reconstruction

Yujie Wei, Chenglong Ma, Jianxiong Gao, Chenhui Wang, Shiwei Zhang, Biao Gong, Shuai Tan, Hangjie Yuan, Hongming Shan

发表机构 * Fudan University（复旦大学）； Alibaba Group（阿里巴巴集团）； Ant Group（蚂蚁集团）

AI总结本文提出了一种名为CineNeuron的层次化框架，旨在解决从功能性磁共振成像（fMRI）信号重建动态视频时存在的语义鸿沟问题。该方法受到人类大脑双通路处理机制的启发，通过自底向上的语义增强阶段和自顶向下的记忆整合阶段，分别将fMRI信号映射到丰富的语义空间，并动态融合历史数据中的相关记忆以提升视频重建质量。实验表明，CineNeuron在两个fMRI到视频的基准数据集上均优于现有最先进方法。

Comments Accepted to CVPR 2026

2605.14566 2026-05-15 cs.CV

SpectraFlow: Unifying Structural Pretraining and Frequency Adaptation for Medical Image Segmentation

Zhiquan Chen, Haitao Wang, Guowei Zou, Hejun Wu

发表机构 * School of Computer Science（计算机科学学院）； Engineering, Sun Yat-sen University（工程，中山大学）； Guangdong Key Laboratory of Big Data Analysis（大数据分析与处理重点实验室）

AI总结医学图像分割在数据稀缺的情况下仍面临挑战，传统方法常因标注不足导致泛化能力差和边界模糊。为此，本文提出 SpectraFlow 框架，结合结构感知的预训练与边界导向的解码，提升分割精度。该方法分为两阶段：第一阶段通过混合域均值流预训练，学习与结构相关的表示；第二阶段引入轻量解码器，结合注意力融合与频率方向卷积，增强边界细节与鲁棒性。实验表明，该方法在多个医学数据集上优于现有方法，尤其在低数据场景下表现突出。

2605.14561 2026-05-15 cs.AI

Prompt Segmentation and Annotation Optimisation: Controlling LLM Behaviour via Optimised Segment-Level Annotations

Devika Prasad, Luke Gerschwitz, Tong Li, Henry Xiao, Anjin Liu, Coco Wu, Anna Leontjeva, Luiz Pizzato

发表机构 * Commonwealth Bank of Australia（澳大利亚全国银行）

AI总结本文提出了一种结构化的提示优化框架——提示分割与注释优化（PSAO），旨在提升与大型语言模型交互时的可控性和效率。该方法将提示分解为可解释的片段，并为每个片段添加人类可读的注释，以引导模型在生成响应时合理分配注意力并减少混淆。实验表明，优化后的片段级注释能够提升模型的推理准确性和一致性，同时保留原始提示作为优化候选以避免性能下降。该工作验证了片段级注释优化的可行性与潜力，但如何高效确定最优分割和注释仍是未来研究的方向。

2605.14558 2026-05-15 cs.LG cs.AI cs.CL

Resolving Action Bottleneck: Agentic Reinforcement Learning Informed by Token-Level Energy

Langzhou He, Junyou Zhu, Yue Zhou, Zhengyao Gu, Junhua Liu, Wei-Chieh Huang, Henry Peng Zou, David Wipf, Philip S. Yu, Qitian Wu

发表机构 * University of Illinois Chicago（伊利诺伊大学芝加哥分校）； Potsdam Institute for Climate Impact Research（波茨坦气候影响研究所）； Technical University of Berlin（柏林技术大学）； University of Southern California（南加州大学）； University of Hong Kong（香港大学）； Broad Institute of MIT and Harvard（MIT和哈佛大学Broad研究所）

AI总结本文研究了智能体强化学习中轨迹训练信号分配不均的问题，指出现有方法对轨迹中的每个token一视同仁，导致训练信号分配不合理。作者从能量模型视角出发，发现实际训练信号主要集中在动作token上，而非推理token，这一现象被称为“动作瓶颈”。为此，提出了一种简单有效的token重加权方法ActFocus，通过降低推理token的梯度权重并增强动作token的不确定性加权，显著提升了模型性能。

Comments Preprint

2605.14556 2026-05-15 cs.AI

TeachAnything: A Multimodal Crowdsourcing Platform for Training Embodied AI Agents in Symmetrical Reality

Zidong Liu, Rongkai Liu, Yue Li, Zhenliang Zhang

发表机构 * State Key Laboratory of General Artificial Intelligence（通用人工智能国家重点实验室）； BIGAI

AI总结本文提出了一种名为TeachAnything的多模态众包平台，用于在对称现实（Symmetrical Reality）中训练具身智能体。该平台通过融合多模态示范信号的三阶段示范范式，支持跨场景、任务和具身形态的多样化示范数据采集。通过统一虚拟与物理交互，该系统为构建符合对称现实需求的具身智能体提供了实用的基础。

Comments 5 pages, 3 figures. Accepted as an IEEE VR 2026 Poster

AI 大模型

视觉与机器人

科学与医疗