arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.11684 2026-05-13 cs.LG eess.SP math.PR stat.AP

Partial Model Sharing Improves Byzantine Resilience in Federated Conformal Prediction

Ehsan Lari, Reza Arablouei, Stefan Werner

发表机构 * Department of Electronic Systems, Norwegian University of Science and Technology（挪威科学技术大学电子系统系）； CSIRO’s Data61（澳大利亚数据61机构）； Department of Information and Communications Engineering, Aalto University（艾尔沃斯大学信息与通信工程系）

AI总结本文提出了一种基于部分模型共享的拜占庭鲁棒联邦共形预测方法，通过每次仅交换部分模型参数来提升系统安全性与通信效率。该方法在训练和校准阶段均增强了鲁棒性，训练阶段通过部分共享限制攻击面并减少恶意更新的影响，校准阶段则利用直方图特征向量进行异常检测与共形分位数估计。实验表明，该方法在多种拜占庭攻击场景下能实现更接近名义值的预测覆盖率，并显著缩小预测区间，为联邦不确定性量化提供了更高效且鲁棒的解决方案。

Comments 5 pages, 4 figures, Accepted for presentation at the 34th European Signal Processing Conference (EUSIPCO 2026) in Bruges, Belgium

2605.11683 2026-05-13 cs.CV

DORA: Dynamic Online Reinforcement Agent for Token Merging in Vision Transformers

Kaixuan He, Song Chen, Yi Kang

发表机构 * University of Science and Technology of China（中国科学技术大学）； Institute of Artificial Intelligence, Hefei Comprehensive National Science Center（合肥国家科学中心人工智能研究院）

AI总结视觉 Transformer（ViT）由于自注意力机制的二次复杂度，计算开销较大。为解决这一问题，本文提出 DORA，一种基于强化学习的动态在线推理框架，用于在 ViT 中实现自适应的 token 合并。DORA 将 token 合并过程建模为马尔可夫决策过程，通过轻量级 RL 智能体根据当前特征状态和层间上下文动态决定合并策略，并通过非线性知识蒸馏惩罚函数优化智能体，以平衡计算效率与特征保真度。实验表明，DORA 在多个 ViT 尺度上均优于现有方法，在保持精度损失极小的前提下实现了显著的计算加速。

Comments Preprint. Under review

2605.11680 2026-05-13 cs.CV

ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes

Shivam Kumar

发表机构 * Independent Researcher（独立研究者）

AI总结本文介绍了 ShapeCodeBench，一个用于感知到程序重建的合成基准，旨在从渲染图像生成可执行的绘图程序，并与目标图像进行比较。该基准通过可重复的随机数生成器生成样本，支持创建无偏的测试集，包含不同难度级别的150个样本，并采用多种指标进行评估。实验表明，当前最先进的模型在精确匹配方面仍表现有限，表明该基准仍有较大的提升空间。

Comments 14 pages, 5 figures, 2 tables. Code, data, and artifacts: https://github.com/shivamk3r/shape-code-bench ; archival release: https://doi.org/10.5281/zenodo.20132286

2605.11678 2026-05-13 cs.AI

OOM-Free Alpamayo via CPU-GPU Memory Swapping for Vision-Language-Action Models

Seungwoo Roh, Huiyeong Kim, Jong-Chan Kim

发表机构 * Graduate School of Automobile and Mobility, Kookmin University, Korea（汽车与移动研究生院，韩国高垣大学）

AI总结本文提出了一种名为OOM-Free Alpamayo的框架，通过CPU-GPU内存交换技术，在不修改模型结构的前提下，实现了在显存受限的GPU上高效运行视觉-语言-动作（VLA）模型。该方法通过分层内存管理、流水线参数传输和驻留层决策策略，显著降低了显存占用并提升了推理速度。实验表明，该方法在NVIDIA Alpamayo-R1-10B模型上实现了比现有方法最高3.55倍的加速，同时保持了全BF16精度。

Comments Submitted to IEEE RTCSA on March 26, 2026 (KST); Accepted on May 4, 2026 (KST)

2605.11674 2026-05-13 cs.RO

A Proprioceptive-Only Benchmark for Quadruped State Estimation: ATE, RPE, and Runtime Trade-offs Between Filters and Smoothers

Ylenia Nisticò, João Carlos Virgolino Soares, Joan Solà, Claudio Semini

发表机构 * Dynamic Legged Systems (DLS) Lab, Istituto Italiano di Tecnologia（动态腿部系统实验室，意大利技术研究院）； Institut de Robòtica i Informàtica Industrial - CSIC（机器人与信息技术研究所 - 加拿大国家研究委员会）

AI总结本文对比了三种先进的四足机器人本体感知状态估计器（MUSE、IEKF 和 IS），在 GrandTour 数据集的 CYN-1 序列上评估其长期和短期精度以及计算效率。研究发现，IEKF 和 IS 在长期轨迹误差上优于 MUSE，而短期误差在各方法间差异较小，不同方法在精度与计算延迟之间存在权衡。该研究为四足机器人状态估计器的选择提供了清晰的性能与计算成本参考，并开源了全部评估代码以保证可复现性。

Comments Submitted to IEEE Robotics and Automation Practice

2605.11672 2026-05-13 cs.AI cs.DB

A CAP-like Trilemma for Large Language Models: Correctness, Non-bias, and Utility under Semantic Underdetermination

Vinu Ellampallil Venugopal

发表机构 * International Institute of Information Technology（国际信息研究所）

AI总结本文受分布式系统中CAP定理的启发，提出了一种针对大语言模型（LLM）的类CAP三难困境：在语义不充分的情况下，模型无法同时保证强正确性、严格无偏和高实用性。研究指出，当输入提示缺乏唯一答案时，模型若要生成有用的回答，必须引入某种选择标准，但若该标准未由用户提供或由前提合理推导，则可能导致偏见；反之，若模型避免使用未经支持的偏好，则可能保持正确性和无偏性，但会牺牲实用性。该研究揭示了某些LLM失败的根源可能在于任务本身的语义不充分，而非模型能力的局限。

2605.11666 2026-05-13 cs.LG cs.AI

Evolutionary Task Discovery: Advancing Reasoning Frontiers via Skill Composition and Complexity Scaling

Liqin Ye, Yanbin Yin, Michael Galarnyk, Yuzhao Heng, Sudheer Chava, Chao Zhang

发表机构 * Georgia Institute of Technology（佐治亚理工学院）

AI总结本文提出了一种名为Evolutionary Task Discovery（EvoTD）的框架，旨在通过结构化进化操作提升大语言模型的推理能力。该方法将数据合成视为在算法技能和复杂度属性构成的双轴流形上的定向搜索，引入了交叉操作以增强技能组合的多样性，并通过参数化变异操作调整结构约束以促进鲁棒泛化。实验表明，EvoTD能够有效扩展模型的推理边界，并在不同模型架构和预训练设置下展现出良好的泛化能力。

2605.11665 2026-05-13 cs.RO

Nautilus: From One Prompt to Plug-and-Play Robot Learning

Yufeng Jin, Jianfei Guo, Xiaogang Jia, Yu Deng, Zechu Li, Han Liu, Weiran Liao, Vignesh Prasad, Mathias Franzius, Gerhard Neumann, Georgia Chalvatzaki

发表机构 * TU Darmstadt（图宾根大学）； KIT（卡尔斯鲁厄理工学院）； FZI（弗劳恩霍夫研究所）； Robotics Institute Germany（德国机器人研究所）； Honda Research Institute Europe（本田欧洲研究院）

AI总结当前机器人学习研究分散在不同的策略家族、基准测试和实际机器人系统中，导致各实现之间复杂交织，难以移植和复用。为解决这一问题，本文提出NAUTILUS，一个开源框架，能够将用户输入的单一指令（如“用基准B评估策略A”）自动转化为可执行的复现、评估、微调和部署流程。NAUTILUS通过统一接口、类型化契约和自动化验证机制，实现了对现有和用户自定义策略、仿真器、基准和真实机器人的灵活集成，显著降低了跨体系复现与评估的工程负担。

2605.11663 2026-05-13 cs.CL

Human-Grounded Multimodal Benchmark with 900K-Scale Aggregated Student Response Distributions from Japan's National Assessment of Academic Ability

Kyosuke Takami, Yuka Tateisi, Satoshi Sekine, Yusuke Miyao

发表机构 * Osaka Kyoiku University（大阪教养大学）； University of Tokyo（东京大学）； NII LLMC（日本国家信息与通信技术研究所大语言模型中心）

AI总结该研究基于日本全国学力调查数据，构建了一个包含科学、数学和日语科目的多模态基准数据集，包含真实考试题目、图表及约90万份学生答题分布数据。该数据集保留了真实考试的结构和内容，支持在统一评估框架下对比人类与模型的表现。研究通过实测准确率和字符级F1指标评估了多模态大语言模型的性能，并进一步分析了自动评分的可靠性，为多模态教育推理提供了可复现的基准，支持未来在真实评估场景中的模型评估与可解释性研究。

2605.11659 2026-05-13 cs.CV cs.AI

Reviving In-domain Fine-tuning Methods for Source-Free Cross-domain Few-shot Learning

Yaze Zhao, Yicong Liu, Yixiong Zou, Yuhua Li, Ruixuan Li

发表机构 * School of Computer Science and Technology, Huazhong University of Science and Technology（华中科技大学计算机科学与技术学院）

AI总结本文研究了在源域数据不可用的情况下，如何通过少量样本将大模型（如CLIP）适配到目标领域的问题，即无源域少样本跨域学习（CDFSL）。研究发现，基于适配器的方法（如LoRA）在CDFSL中优于基于提示的方法，其优势源于对视觉CLS token注意力的修正，从而增强模态对齐和类别区分。基于这一发现，作者提出了一个通用的注意力建模框架——语义探针（Semantic Probe），有效提升了适配器和提示方法在CDFSL中的性能，并在多个基准上取得了最先进的结果。

2605.11636 2026-05-13 cs.AI

Seirênes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning

Chi Zhang, Haibo Qiu, Qiming Zhang, Yufei Xu, Xinbo Gao, Jing Zhang

发表机构 * School of Computer Science, Wuhan University（武汉大学计算机学院）； Independent Researchers（独立研究者）； Xidian University（西安电子科技大学）

AI总结本文提出了一种名为 Seirênes 的自对抗自博弈强化学习框架，旨在将大语言模型在复杂上下文中推理失败的问题转化为训练信号，从而提升其鲁棒性。该方法通过单一模型同时生成具有干扰性的上下文和解决任务，迫使模型在噪声中识别核心逻辑，从而增强其深层推理能力。实验表明，Seirênes 在多个数学推理基准上取得了显著提升，并能有效暴露顶级闭源模型的推理盲点。

2605.11634 2026-05-13 cs.CV cs.AI

Unlocking UML Class Diagram Understanding in Vision Language Models

Artem Naboichenko, René Peinl

发表机构 * Hof University of Applied Sciences（霍夫应用科学大学）

AI总结尽管视觉语言模型（VLMs）在各类应用中取得了显著进展，但在理解图表等结构化视觉内容方面仍存在不足，尤其在计算机科学领域的UML类图理解方面研究较少。本文提出了一种基于UML类图的视觉问答基准，兼具挑战性与可行性，并构建了一个包含16,000个图像-问题-答案三元组的大规模训练数据集。实验表明，基于LoRA的微调方法在该任务上表现优于当前主流的Qwen 3.5 27B模型。

2605.11633 2026-05-13 cs.AI

Can LLM Agents Respond to Disasters? Benchmarking Heterogeneous Geospatial Reasoning in Emergency Operations

Junjue Wang, Weihao Xuan, Heli Qi, Pengyu Dai, Kunyi Liu, Hongruixuan Chen, Zhuo Zheng, Junshi Xia, Stefano Ermon, Naoto Yokoya

发表机构 * The University of Tokyo（东京大学）； RIKEN AIP（理化学研究所AIP）； Waseda University（早稻田大学）； Stanford University（斯坦福大学）

AI总结该论文提出了一种名为DORA的基准测试平台，用于评估大型语言模型代理在灾难应急响应中的端到端能力。研究通过515个由专家设计的任务，覆盖45个真实灾难事件，涵盖从灾害感知、空间分析到疏散规划和多模态报告生成等多个维度，全面测试代理在异构地理空间数据上的推理与操作能力。实验揭示了当前LLM代理在灾难响应中的三大挑战，包括领域适应性不足、工具选择与参数理解困难以及长流程推理的脆弱性，为构建更可靠的灾难响应系统提供了重要参考。

Comments DORA stress-tests LLM agents on real-world disaster operations that demand comprehensive orchestration of 108 specialized tools over heterogeneous geospatial data

2605.11629 2026-05-13 cs.CL

OmniThoughtVis: A Scalable Distillation Pipeline for Deployable Multimodal Reasoning Models

Yuanhao Yue, Chengyu Wang, Yuanjie Lyu, Lei Shen, Jun Huang

发表机构 * Alibaba Group（阿里巴巴集团）

AI总结近年来，多模态大语言模型在视觉语言任务中展现出强大的链式推理能力，但由于延迟和资源限制，其在实际系统中的部署受到限制。为了解决这一问题，本文提出OmniThoughtVis，一个可扩展的数据筛选与知识蒸馏框架，用于将大模型的多模态推理能力迁移到更小、更适合部署的模型中。该方法通过生成结构化的推理轨迹并结合多种策略保证数据质量，最终在多个基准测试中显著提升了小模型的推理性能，展示了其在实际应用中的重要价值。

2605.11628 2026-05-13 cs.CV

Single-Shot HDR Recovery via a Video Diffusion Prior

Chinmay Talegaonkar, Jinshi He, Christopher McKenna, Nicholas Antipa

发表机构 * University of California San Diego（加州大学圣地亚哥分校）； Creare LLC（Creare公司）

AI总结本文提出了一种基于视频扩散先验的单次拍摄高动态范围（HDR）图像恢复方法，解决了现有方法在保真度和模型复杂度之间的平衡问题。该方法将HDR重建重新定义为条件视频生成任务，通过生成曝光序列并融合为最终HDR图像，提升了重建结果的准确性和可解释性。实验表明，该方法在多个评估指标上优于现有方法，并在人类评估中获得更高偏好，同时框架还可扩展到其他图像重建任务。

2605.11625 2026-05-13 cs.AI

Nice Fold or Hero Call: Learning Budget-Efficient Thinking for Adaptive Reasoning

Zhaomeng Zhou, Lan Zhang, Junyang Wang, Mu Yuan, Junda Lin

发表机构 * University of Science and Technology of China（中国科学技术大学）； The Chinese University of Hong Kong（香港中文大学）

AI总结这篇论文研究了如何让大型推理模型在有限计算资源下更高效地进行适应性推理。作者提出了一种名为Budget-Efficient Thinking（BET）的两阶段框架，通过结合行为冷启动和投资成本感知奖励机制，使模型能够根据推理的预期收益而非问题难度来分配计算预算。BET使模型学会在简单问题上快速回答、在无解问题上提前放弃、在复杂但可解的问题上保留足够计算资源，从而在多个基准测试中显著减少了推理开销并提升了整体性能。

Comments 24 pages, 6 figures, 11 tables

2605.11622 2026-05-13 cs.CV

RNA-FM: Flow-Matching Generative Model for Genome-wide RNA-Seq Prediction

Yaxuan Song, Jianan Fan, Tianyi Wang, Qiuyue Hu, Hang Chang, Heng Huang, Weidong Cai

发表机构 * School of Computer Science, The University of Sydney, Australia（悉尼大学计算机科学学院）； Engineering Division, Lawrence Berkeley National Lab, USA（伯克利国家实验室工程部）； Berkeley Biomedical Data Science Center, Lawrence Berkeley National Lab, USA（伯克利生物医学数据科学中心）； Department of Computer Science, University of Maryland College Park, USA（马里兰大学学院市计算机科学系）

AI总结本文提出了一种名为RNA-FM的生成模型，用于基于组织病理学全切片图像（WSI）预测全基因组RNA测序（RNA-seq）数据。该方法将转录组预测建模为连续时间条件运输问题，通过学习形态条件下的速度场，从简单先验分布映射到目标基因表达分布，从而更准确地捕捉生物异质性和预测不确定性。RNA-FM结合通路级别的结构信息，实现了可扩展且具有生物学可解释性的全基因组基因表达填补，实验表明其在性能和生物学意义方面均优于现有方法。

Comments 15 pages, 13 tables, 3 figures. Accepted by the Forty-Third International Conference on Machine Learning (ICML2026). Code is available at https://github.com/YXSong000/RNA-FM

2605.11618 2026-05-13 cs.RO

Sampling-Based Follow-the-Leader Motion Planning for Manipulator-Mounted Continuum Robots

Chengnan Shentu, Nicholas Baldassini, Oluwagbotemi D. Iseoluwa, Radian Gondokaryono, Jessica Burgner-Kahrs

发表机构 * University of Toronto（多伦多大学）

AI总结本文研究了用于机械臂搭载的连续体机器人的“跟随领导者”（FTL）运动规划问题，提出了一种基于采样的运动规划方法，能够同时考虑机器人构型和机械臂末端位姿。该方法通过几何构造直接计算末端位姿，避免了在线规划中的迭代优化，提升了效率，并保证了形状搜索的分辨率完备性与末端跟踪的收敛性。实验表明，该方法在多种测试场景中均实现了100%的成功率和较高的轨迹精度。

2605.11616 2026-05-13 cs.CV

Grounding by Remembering: Cross-Scene and In-Scene Memory for 3D Functional Affordances

Qirui Wang, Jingyi He, Yining Pan, Xulei Yang, Shijie Li

发表机构 * TUM（慕尼黑工业大学）； A*STAR（新加坡科技研究局）

AI总结该研究旨在解决三维功能可操作性区域的定位问题，即在视觉语言模型中准确识别出物体上可用于交互的特定区域，如把手或按钮。为此，提出了一种名为AFFORDMEM的框架，通过跨场景和场景内两种记忆机制，无需模型微调或目标场景标注，即可从源场景中构建可复用的记忆库来辅助定位。实验表明，该方法在SceneFun3D数据集上显著提升了定位精度，验证了其在细粒度定位和空间关系理解方面的有效性。

2605.11613 2026-05-13 cs.LG cs.AI

From Generic Correlation to Input-Specific Credit in On-Policy Self Distillation

Guobin Shen, Lei Huang, Xiang Cheng, Chenxiao Zhao, Jindong Li, Dongcheng Zhao, Xing Yu

发表机构 * Xiaohongshu Inc.（小红书公司）； Institute of Automation, Chinese Academy of Sciences（中国科学院自动化研究所）

AI总结本文研究了在策略优化中使用自我蒸馏时，如何从通用相关性转向输入特定的奖励分配问题。作者提出，标准的自我蒸馏奖励本质上是响应与反馈之间的点互信息（pMI），并进一步将其分解为输入相关的部分和通用捷径部分。基于此，他们提出了CREDIT方法，通过对比学习分离输入特定的奖励成分，从而提升模型在多个任务上的表现，且计算开销极小。

2605.11612 2026-05-13 cs.CL cs.AI

When Emotion Becomes Trigger: Emotion-style dynamic Backdoor Attack Parasitising Large Language Models

Ziyu Liu, Tao Li, Tianjie Ni, Xiaolong Lan, Wengang Ma, Tao Yang, Guohua Wang, Junjiang He

发表机构 * School of Cyber Science and Engineering, Sichuan University（四川大学计算机科学与工程学院）； School of Computer Science, China West Normal University（西南大学计算机科学学院）； School of Electronic and Information Engineering, Lanzhou Jiaotong University（兰州交通大学电子信息工程学院）

AI总结该研究提出了一种针对大语言模型的新型后门攻击方法——Paraesthesia，通过将情绪作为动态触发因素，实现对模型的隐蔽性攻击。不同于传统基于固定触发词的后门攻击，Paraesthesia 利用情绪风格在语义空间中形成独立聚类的特性，将情绪作为触发信号嵌入训练数据，使模型在推理阶段遇到特定情绪输入时生成预设的恶意输出。实验表明，该方法在多种任务和不同模型上均能实现高达约99%的攻击成功率，同时保持模型的正常功能。

2605.11609 2026-05-13 cs.LG cs.AI cs.CL

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

Guobin Shen, Xiang Cheng, Chenxiao Zhao, Lei Huang, Jindong Li, Dongcheng Zhao, Xing Yu

发表机构 * Xiaohongshu Inc.（小红书公司）； Institute of Automation, Chinese Academy of Sciences（中国科学院自动化研究所）

AI总结该研究针对基于策略的自蒸馏方法在数学推理任务中效果不佳的问题，提出了一种新的反向自蒸馏方法（AntiSD）。通过点互信息分析，发现特权上下文导致教师模型对已知结构部分过于自信，而忽视了推理过程中的关键思考步骤。AntiSD通过最大化学生与教师之间的分布差异，反转了传统自蒸馏的梯度方向，从而更有效地提升推理能力。实验表明，该方法在多个大规模语言模型上显著减少了训练步骤并提升了推理准确率。

2605.11608 2026-05-13 cs.CL cs.AI cs.LG

PRISM: A Geometric Risk Bound that Decomposes Drift into Scale, Shape, and Head

Chieh-Yen Lin, Shao-Hua Sun

发表机构 * Appier AI Research（Appier人工智能研究院）； National Taiwan University（国立台湾大学）

AI总结 PRISM 是一种用于分析训练后大语言模型变体（如量化、LoRA适配和蒸馏模型）表示漂移的几何风险界方法，能够将漂移分解为尺度、形状和输出头三个独立可测的维度。该方法利用模型的线性输出头和近等距的主干结构，推导出目标模型与变体之间的交叉熵风险上界，从而不仅判断性能退化，还能识别退化的具体原因。实验表明，PRISM 在多个基准测试中表现出优异的变体排序能力，并且其形状正则化项在防止灾难性遗忘方面优于经验回放等传统方法。

2605.11605 2026-05-13 cs.CV cs.AI

Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs

Chaeyoung Jung, Kyeongha Rho, Joon Son Chung

发表机构 * Korea Advanced Institute of Science and Technology（韩国科学技术院）

AI总结多模态大语言模型（Omni-LLMs）在处理多模态输入时面临较高的计算开销，因此需要有效的token减少方法。本文提出了一种名为ContextGuard的推理时token剪枝框架，通过保留广泛的视听上下文并去除跨模态冗余，从而在保证性能的同时减少输入token数量。该方法基于音频预测粗粒度视觉语义，剪枝可由音频恢复的视频token，并保留能提供音频无法表达的局部视觉细节的token，同时合并时间上相似的视频token以进一步压缩。实验表明，ContextGuard在多个基准测试中优于现有方法，且在不需微调下游模型的情况下实现了较高的剪枝比例与性能。

2605.11603 2026-05-13 cs.AI

GAR: Carbon-Aware Routing for LLM Inference via Constrained Optimization

Disha Sheshanarayana, Rajat Subhra Pal, Manjira Sinha, Tirthankar Dasgupta

发表机构 * Manipal University Jaipur（曼海普大学斋普尔）； TCS Research（塔塔咨询服务）

AI总结随着大语言模型（LLM）部署规模的扩大，如何在异构模型池中平衡响应质量与计算成本成为关键问题。本文提出了一种基于约束优化的绿色感知路由（GAR）框架，旨在在保证准确率和延迟约束的前提下，最小化每请求的碳排放。GAR通过自适应约束优化和轻量级估计器实现实时路由决策，并结合在线算法与启发式变体，有效降低碳足迹同时保持模型性能，为可持续的大语言模型推理提供了理论支持与实践方案。

2605.11601 2026-05-13 cs.CL cs.AI

DiffScore: Text Evaluation Beyond Autoregressive Likelihood

Wen Lai, Yingli Shen, Dingnan Jin, Qing Cui, Jun Zhou, Maosong Sun, Alexander Fraser

发表机构 * Ant Group（蚂蚁集团）； Tsinghua University（清华大学）； Technical University of Munich（慕尼黑技术大学）

AI总结本文提出了一种名为 DiffScore 的文本评估方法，旨在克服自回归语言模型在文本评价中因位置偏差导致的局限性。DiffScore 基于掩码大型扩散语言模型，通过全双向上下文对每个词进行评分，从而消除位置偏倚，并建立从局部流畅性到整体连贯性的评估层次。该方法还引入了多时间步质量分析和双向PMI分解等诊断工具，实验表明其在多个基准测试中优于传统自回归模型。

2605.11598 2026-05-13 cs.LG cs.AI cs.DB q-bio.QM

EpiCastBench: Datasets and Benchmarks for Multivariate Epidemic Forecasting

Madhurima Panja, Danny D'Agostino, Huitao Li, Tanujit Chakraborty, Nan Liu

发表机构 * Sorbonne University Abu Dhabi（阿布扎赫尔索邦大学）； Duke-NUS Medical School, Singapore（新加坡杜克-新加坡国立医学学院）

AI总结随着数据驱动方法在公共卫生决策中的广泛应用，传染病预测已成为重要研究领域。为解决现有研究缺乏高质量多变量预测基准的问题，本文提出了EpiCastBench，一个包含40个精心挑选的多变量传染病数据集的大型基准框架，涵盖多种传染病和地理区域，具有不同的时间粒度、序列长度和稀疏性。研究通过统一的评估设置对15种多变量预测模型进行了系统比较，所有数据和代码均已公开，有助于推动传染病预测方法的发展与验证。

2605.11595 2026-05-13 cs.AI

Native Explainability for Bayesian Confidence Propagation Neural Networks: A Framework for Trusted Brain-Like AI

Georgios Makridis, Georgios Fatouros, John Soldatos, George Katsis, Dimosthenis Kyriazis

发表机构 * CC BY-NC-SA 4.0

AI总结本文针对欧盟人工智能法案对高风险AI系统提出的透明性与可信性要求，提出了一种用于贝叶斯置信传播神经网络（BCPNN）的原生可解释性框架。该框架通过建立BCPNN特有的可解释性分类体系和十六个架构级解释原语，实现了对模型决策过程的系统性解释，并引入了五个配置级解释原语以支持预部署阶段的审计。研究为BCPNN在边缘设备上的可信部署提供了理论支持，推动了类脑AI在工业物联网中的应用。

Comments 8 pages

2605.11594 2026-05-13 cs.CV

PointForward: Feedforward Driving Reconstruction through Point-Aligned Representations

Cheng Chi, Xianqi Wang, Hongcheng Luo, Mingfei Tu, Gangwei Xu, Zehan Zhang, Bing Wang, Guang Chen, Hangjun Ye, Sida Peng, Xin Yang, Haiyang Sun

发表机构 * Xiaomi EV（小米电动车）； Huazhong University of Science and Technology（华中科技大学）； Zhejiang University（浙江大学）

AI总结本文提出了一种名为PointForward的前馈驾驶场景重建框架，通过点对齐的表示方法解决现有方法在多视角一致性与动态实例建模方面的不足。该方法在世界坐标系中初始化稀疏的3D查询点，并通过时空融合多视角图像信息，实现单次前馈过程中的显式跨视角一致性。此外，通过引入场景图显式组织动态实例，结合3D边界框实现实例级运动传播，从而获得时序一致的动态重建结果。实验表明，PointForward在大规模驾驶数据集上达到了最先进的性能。

2605.11592 2026-05-13 cs.LG cs.AI cs.CR

SoK: Unlearnability and Unlearning for Model Dememorization

Mengying Zhang, Derui Wang, Ruoxi Sun, Xiaoyu Xia, Shuang Hao, Minhui Xue

发表机构 * RMIT University（皇家墨尔本理工大学）； University of Texas at Dallas（德克萨斯大学达拉斯分校）； CSIRO and Adelaide University（澳大利亚CSIRO与阿德莱德大学）

AI总结本文系统研究了机器学习模型中数据遗忘相关的两种关键技术——不可学习性（unlearnability）和模型遗忘（unlearning），旨在防止敏感数据被滥用。研究揭示了这两种方法在浅层遗忘、相互影响及理论保障方面的共性与缺陷，并首次提出了统一的分类框架、实证分析以及理论保证，为实现更深层次的数据遗忘提供了理论基础和实践指导。

Comments The first two authors contributed equally

AI 大模型

视觉与机器人

科学与医疗