arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.09537 2026-05-12 cs.RO

Drift is a Sampling Error: SNR-Aware Power Distributions for Long-Horizon Robotic Planning

Kewei Chen, Yayu Long, Mingsheng Shang

发表机构 * Chongqing Institute of Green and Intelligent Technology, Chinese Academy of Sciences（中国科学院重庆绿色智能技术研究院）； Chongqing School, University of Chinese Academy of Sciences（中国科学院大学重庆学院）

AI总结尽管视觉-语言-动作（VLA）模型在机器人控制方面取得了快速进展，但在长期任务中仍存在指令漂移的问题。本文将这一现象重新定义为一种系统性的采样误差，并提出了一种无需训练的推理时计算框架——上下文感知功率采样（CAPS），通过功率分布增强全局轨迹概率，结合信噪比（SNR）的元认知控制机制，在检测到漂移风险时触发自适应MCMC搜索，从而在“直觉快速思考”与“理性慢速搜索”之间实现动态切换。实验表明，CAPS在多个长期任务基准上显著优于现有方法，提升了机器人长期任务的鲁棒性。

Comments Accepted at ICML 2026

2605.09536 2026-05-12 cs.CL cs.AI

TAD: Temporal-Aware Trajectory Self-Distillation for Fast and Accurate Diffusion LLM

Haoyang Zhou, Li Kong, Shijie Ren, Xiting Wang, Shuang Liang, Guowei Wang, Zhenxuan Pan

发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China（中国人民大学北京校区人工智能学院）； Ant Group（蚂蚁集团）

AI总结扩散大语言模型（dLLMs）在并行文本生成方面具有潜力，但面临生成速度与准确率之间的权衡问题。为此，本文提出了一种时序感知的轨迹自蒸馏框架TAD，通过教师模型生成解码轨迹并根据解码步数对掩码位置进行划分，分别采用交叉熵损失和KL散度损失进行训练，从而在保证生成质量的同时提升并行效率。实验表明，TAD有效改善了准确率与并行性的平衡，在多个指标上均取得显著提升。

2605.09533 2026-05-12 cs.CL cs.AI

Assessment of RAG and Fine-Tuning for Industrial Question-Answering-Applications

Jakob Sturm, Josef Pichlmeier, Christian Bernhard, Maka Karalashvili, Johannes Klepsch, Georg Groh, Andre Luckow

发表机构 * BMW Group（宝马集团）

AI总结本研究评估了检索增强生成（RAG）和微调（FT）在工业问答场景中的应用效果，重点分析了它们在汽车行业特定数据集上的表现。通过扩展成本-生成框架，综合考量了输出质量与操作成本，研究发现尽管高端模型在默认情况下表现最佳，但结合RAG的开源模型可以达到相近的质量，且RAG在整体上被证明是更高效且成本更低的适配方法。

Comments Accepted at AAAI 2026 Workshop on New Frontiers in Information Retrieval

2605.09528 2026-05-12 cs.AI

Cplus2ASP: Computing Action Language C+ in Answer Set Programming

Joseph Babb, Joohyung Lee

发表机构 * School of Computing, Informatics, and Decision Systems Engineering（计算、信息与决策系统工程学院）

AI总结本文介绍了Cplus2ASP系统的第二版，实现了行动语言C+的确定性片段。该系统通过结合现代答案集求解技术，显著提升了运行效率，并兼容Causal Calculator Version 2的输入语言。系统整合了多个最新理论成果，支持增量执行模式和多种实用功能，同时为其他行动语言提供了可扩展的多模态翻译支持。

Journal ref In Proceedings of the 12th International Conference on Logic Programming and Nonmonotonic Reasoning (LPNMR 2013), 122-134, 2013

2605.09524 2026-05-12 cs.AI

Functional Stable Model Semantics and Answer Set Programming Modulo Theories

Michael Bartholomew, Joohyung Lee

发表机构 * School of Computing, Informatics and Decision Systems Engineering（计算、信息与决策系统工程学院）

AI总结本文研究了在“答案集编程模理论（ASPMT）”框架中引入“内涵函数”的问题，探讨了功能稳定模型语义在其中的重要作用。作者指出，传统答案集编程中函数是预定义的，而内涵函数的值可通过其他函数和谓词描述，这使得ASPMT能够更灵活地处理复杂约束。研究展示了如何将“紧致”ASPMT程序转化为SMT实例，扩展了答案集编程与可满足性模理论之间的联系。

Journal ref In Proceedings of the 23rd International Joint Conference on Artificial Intelligence (IJCAI 2013), pages 718-724, 2013

2605.09519 2026-05-12 cs.AI cs.LO

Weighted Rules under the Stable Model Semantics

Joohyung Lee, Yi Wang

发表机构 * School of Computing, Informatics and Decision Systems Engineering（计算、信息与决策系统工程学院）

AI总结本文提出了一种在稳定模型语义下的加权规则形式，借鉴了马尔可夫逻辑中的对数线性模型，以克服传统稳定模型语义的确定性限制。该方法能够处理答案集程序中的不一致性、对稳定模型进行排序、赋予稳定模型概率以及进行统计推理。文章还对相关形式系统如答案集程序、马尔可夫逻辑、ProbLog和P-log进行了形式上的比较分析。

Journal ref In Proceedings of the 15th International Conference on Principles of Knowledge Representation and Reasoning (KR 2016), pages 145-154, 2016

2605.09518 2026-05-12 cs.LG

LLM-Driven Performance-Space Augmentation for Meta-Learning-Based Algorithm Selection

Darren Zhu, Daren Ler

发表机构 * Department of Statistics and Data Science（统计与数据科学系）； National University of Singapore（新加坡国立大学）； Department of Computer Science（计算机科学系）

AI总结该研究针对元学习算法选择中因真实数据集稀缺导致的元数据集稀疏问题，提出通过大语言模型生成合成回归数据集以扩充元数据集。研究通过引导语言模型生成具有特定性能特征的数据，重点增强算法性能空间中关键区域的覆盖。实验表明，这种基于性能空间的扩充策略显著提升了元学习模型的性能，尤其在统一采样策略下表现更优，为算法选择的元学习提供了新的数据增强方法。

详情

英文摘要

Meta-learning for algorithm selection relies on a meta-dataset in which each row corresponds to a supervised learning dataset described by meta-features and labelled with a target value that is associated with algorithm choice (typically, some function of algorithm performance). A persistent limitation is that the number of curated real-world datasets is small, resulting in sparse meta-datasets that constrain meta-learner generalisation. In this paper, we address this problem by augmenting the meta-dataset with synthetic regression datasets produced via a large language model (LLM), with generation steered toward target regions of a low-dimensionality performance space. In our experiments, we adopt a two-dimensional geometric setting defined by the cross-validated $R^2$ scores of two anchor algorithms, known as landmarkers. We compare two augmentation strategies: (1) uniform sampling, which distributes synthetic datasets across the performance space; and (2) margin-based sampling, which concentrates them near the decision boundary where landmarker preference is most ambiguous. Across 42 real-world UCI regression datasets and 730 synthetic datasets, both strategies substantially improve meta-learner performance over the unaugmented baseline under regression and multi-label evaluation formulations. However, uniform augmentation consistently outperforms margin-based augmentation, achieving a 17.47% relative reduction in Hamming loss, a 100.41% relative improvement in subset accuracy, and a +6.09% relative gain in pooled out-of-fold $R^2$. These results lead us to postulate a central thesis: the performance of algorithms resides on a low-dimensional performance manifold, whose reconstruction bias may be minimised by user-guided LLMs that seek to maximise uniform $ε$-cover, and consequently, lead to improved meta-learning for algorithm selection.

URL PDF HTML ☆

赞 0 踩 0

2605.09516 2026-05-12 cs.LG cs.AI

Mixture of Layers with Hybrid Attention

Ivan Ternovtsii, Yurii Bilak

发表机构 * Department of Software Systems, Uzhhorod National University（软件系统系，乌日霍罗德国立大学）

AI总结本文提出了一种新的混合注意力机制的分层混合模型（MoL），用于改进传统混合专家（MoE）变压器的结构。该方法通过在每一层中使用多个低维子块，并结合路由机制选择激活的块，从而提升模型的效率和表达能力。为了解决稀疏路由导致的注意力覆盖不足问题，作者引入了混合注意力机制，结合全局软注意力和线性注意力，以兼顾全局上下文和局部细节信息。

2605.09515 2026-05-12 cs.AI

A Game Theoretic Free Energy Analysis of Higher Order Synergy in Attention Heads of Large Language Models

Djamel Bouchaffra

发表机构 * DAVID Lab, University of Paris-Saclay, UVSQ Campus, 78035 Versailles, France（巴黎萨克雷大学DAVID实验室，UVSQ校区，法国Versailles）

AI总结本文研究了大型语言模型中多头注意力机制中头之间的高阶协同关系，提出了基于博弈论自由能原理（GTFEP）的分析框架，将注意力头视为理性代理，并通过变分自由能最小化解释其集体行为。研究发现，注意力头之间的三阶协同信息普遍为负，揭示了模型中的高阶冗余，据此提出的剪枝方法可在保持性能基本不变的情况下显著降低计算成本。

Comments this manuscript has been submitted to Neural Networks

2605.09514 2026-05-12 cs.LG

Doubly Robust Proxy Causal Learning with Neural Mean Embeddings

Bariscan Bozkurt, Alexandre Galashov, Dimitri Meunier, Zikai Shen, Arthur Gretton, Houssam Zenati

发表机构 * University College London（伦敦大学学院）

AI总结该论文研究了在存在未观测混杂因素的情况下，如何通过代理因果学习方法识别因果响应函数的问题。提出了一种基于神经均值嵌入的双重稳健代理因果学习框架，结合治疗桥和结果桥的神经网络估计器，并通过最终回归阶段实现双重稳健修正。该方法适用于连续和结构化处理变量，能够估计群体、异质性和条件剂量-响应函数，相比现有方法在合成和图像数据集上表现出更优的性能。

2605.09513 2026-05-12 cs.CV cs.RO

QueST: Persistent Queries as Semantic Monitors for Drift Suppression in Long-Horizon Tracking

Mayank Anand, Mohammad Saqlain, Kyan Mahajan, Priya Shukla, Gora Chand Nandi, Andrew Melnik

发表机构 * Center for Intelligent Robotics（智能机器人中心）； Indian Institute of Information Technology Allahabad（阿拔斯理工大学）； University of Bremen（不莱梅大学）

AI总结本文提出QueST，一种用于长期轨迹跟踪的语义监控框架，旨在解决传统逐帧匹配方法在复杂场景下累积误差导致的语义漂移问题。QueST将与交互相关的实体视为持久的语义查询，而非瞬时的点轨迹，并在每个时间步全局关注时空视频特征，提供稳定的语义锚点。通过引入轻量的三维物理约束，QueST在遮挡等情况下有效抑制漂移，实验表明其在长期关节运动序列上的跟踪精度显著优于现有方法。

2605.09511 2026-05-12 cs.AI

WindINR: Latent-State INR for Fast Local Wind Query and Correction in Complex Terrain

Yi Xiao, Qilong Jia, Hang Fan, Pascal Fua, Robert Jenssen, Xiaosong Ma, Wei Xue

发表机构 * Tsinghua University（清华大学）； MBZUAI ； Columbia University（哥伦比亚大学）； EPFL（苏黎世联邦理工学院）； The Arctic University of Norway（挪威北极大学）

AI总结在复杂地形中，许多下游决策需要对特定位置和高度的风速进行快速估计，而非传统的固定网格高密度预报场。为此，研究提出了WindINR，一种基于潜在状态的隐式神经表示框架，能够实现高分辨率局部风速的快速查询与稀疏观测修正。该方法通过一个受潜在状态条件约束的解码器，将静态地形描述、低分辨率背景场和连续查询坐标映射为高分辨率风场状态，并通过分离可复用的表示学习与样本特异性潜在状态修正，实现了高效的推理时修正。实验表明，WindINR在保证查询连续性的同时，相比全网络微调方法，在修正速度上提升了约2.6倍，为复杂地形中背景场、稀疏观测与风场查询之间的实际应用提供了有效接口。

2605.09507 2026-05-12 cs.CV

Uncertainty-Aware and Decoder-Aligned Learning for Video Summarization

Omer Tariq, Syed Muhammad Raza, Jeongbae Son

发表机构 * Perception AI Neubility Inc.（感知AI Neubility公司）

AI总结该论文提出了一种用于视频摘要的不确定性感知与解码器对齐的学习框架VASTSum，旨在解决视频摘要任务中因主观标注和离散解码过程带来的挑战。该方法通过变分形式预测帧级的概率重要性分数，显式建模多标注者监督下的不确定性，并引入解码器对齐正则化以提升摘要选择的稳定性。实验表明，该方法在多个数据集上表现出更强的鲁棒性和高效性，优于传统确定性和扩散模型方法。

Comments Accepted for presentation at the 2026 International Joint Conference on Neural Networks (IJCNN 2026)

详情

英文摘要

Video summarization aims to produce a compact representation of a long video by selecting a subset of temporally important segments that best reflect human preferences. This task is inherently difficult due to strong annotation subjectivity and the reliance on discrete decoding procedures, such as temporal segmentation and knapsack-based selection, during evaluation. Most existing approaches either learn deterministic importance scores that overlook these characteristics or adopt complex generative models that increase training and inference cost. In this paper, we propose VASTSum, an uncertainty-aware and decoder-aligned learning framework for video summarization that addresses both challenges within a single-pass model. The proposed method predicts probabilistic frame-level importance scores using a variational formulation, enabling explicit modeling of uncertainty arising from multi-annotator supervision. To account for subjectivity, particularly under binary annotations, we employ a supervision strategy that encourages alignment with plausible human annotation modes rather than enforcing a single consensus target. Furthermore, we introduce a decoder-aligned regularization that promotes stability of knapsack-based summary selection, reducing sensitivity to small perturbations in predicted scores. We evaluate the proposed framework on the SumMe and TVSum benchmarks using standard rank-based metrics. Experimental results show consistent and competitive Kendall and Spearman correlations across multiple data splits, demonstrating improved robustness under annotation disagreement while maintaining efficient single-forward inference. These results indicate that explicitly modeling uncertainty and aligning learning objectives with the decoding stage provide a principled alternative to both deterministic and diffusion-based video summarization methods.

URL PDF HTML ☆

赞 0 踩 0

2605.09502 2026-05-12 cs.CL cs.AI cs.LG

Hidden Error Awareness in Chain-of-Thought Reasoning: The Signal Is Diagnostic, Not Causal

Aojie Yuan, Zhiyuan Julian Su, Haiyue Zhang, Yi Nian, Yue Zhao

发表机构 * University of Southern California, Los Angeles, CA, USA（南加州大学，洛杉矶，加利福尼亚州，美国）

AI总结该研究揭示了链式推理（CoT）中模型内部与外部表现之间的不一致性：尽管模型在生成过程中表现出高度自信，但其隐藏状态中却能准确检测出推理错误。通过线性探针分析，模型在第一步即可预测推理正确性，而生成的文本表面分类器却无法达到同样效果。研究进一步表明，尽管模型具备错误识别能力，但这种信号仅用于诊断推理质量，而非纠正错误，多种干预方法均未能成功利用该信号改善推理结果。这一发现明确了机械可解释性的边界，指出推理错误的表示与事实知识的表示存在本质差异。

Comments 10 pages, 5 figures, 10 tables.Mechanistic Interpretability @ ICML 2026

2605.09498 2026-05-12 cs.LG cs.AI

Spectral Transformer Neural Processes

Xianhe Chen, Hao Chen, Yingzhen Li

发表机构 * University of Cambridge（剑桥大学）； Tencent（腾讯）； Imperial College London（伦敦帝国理工学院）

AI总结本文提出了一种名为Spectral Transformer Neural Processes（STNPs）的新方法，用于处理具有强周期性和准周期性的时间序列、空间数据和图像。该方法在Transformer Neural Processes（TNPs）的基础上引入了频域感知机制，通过频谱聚合器估计上下文频谱并生成任务自适应的频域特征，从而增强模型对周期性结构的建模能力。实验表明，STNPs在多个合成和真实数据集上均优于现有方法，显著提升了预测性能，拓展了神经过程模型在周期性建模中的应用范围。

Comments 37 pages, 10 figures, 18 tables

2605.09497 2026-05-12 cs.AI cs.CR

Don't Click That: Teaching Web Agents to Resist Deceptive Interfaces

Yilin Zhang, Yingkai Hua, Chunyu Wei, Xin Wang, Yueguo Chen

发表机构 * Renmin University of China（中国人民大学）； Ant Digital Technologies, Ant Group（蚂蚁集团数字技术部）

AI总结本文研究了基于视觉-语言模型的网络代理在面对欺骗性界面时的脆弱性问题，提出了一种名为DUDE的两阶段防御框架，结合混合奖励学习与非对称惩罚机制，有效提升了代理对欺骗性界面的识别与抵御能力。同时，研究还构建了一个名为RUC的基准测试集，用于评估和推动该领域的发展。实验表明，DUDE在降低欺骗性界面影响的同时，仍能保持任务执行性能，为构建更安全的网络代理系统提供了有效基础。

Comments Accepted to ACL 2026 Main Conference. 23 pages, 8 figures, 19 tables

2605.09496 2026-05-12 cs.CL cs.LG

Beyond Language: Format-Agnostic Reasoning Subspaces in Large Language Models

Aojie Yuan, Zhiyuan Su

发表机构 * University of Southern California（南加州大学）； Duke University（杜克大学）

AI总结该研究探讨了大型语言模型在不同符号系统（如英文、代码、数学符号）中是否共享一个统一的推理表征。通过引入TriForm基准测试，研究发现模型中间层存在一个与形式无关的推理子空间（FARS），该子空间能有效提取概念结构并抑制形式信息。实验表明，仅替换这一子空间的10个维度即可保留90%-96%的模型输出，验证了其在跨形式推理中的关键作用，并支持了“柏拉图式表征假设”。此外，研究还揭示了陈述性与过程性表征之间的不对称性，指出形式差异的关键不在于语言与形式，而在于陈述性与过程性之间的区别。

Comments Preprint. 13 pages, 13 figures, 12 tables

2605.09494 2026-05-12 cs.RO cs.AI

LASSA Architecture-Based Autonomous Fault-Tolerant Control of Unmanned Underwater Vehicles

Hong Chen, Zixiang Tang, Yuanbao Chen, Yu Liu

发表机构 * Wuhan Second Ship Design and Research Institute（武汉第二船舶设计研究所）； School of Aeronautic Science and Engineering, Beihang University（北航航空科学与工程学院）

AI总结本文提出了一种基于LASSA架构的自主容错控制方法，用于无人水下航行器（UUV）在通信受限环境下的高可靠性运行。该方法结合大型语言模型（LLM）与智能代理，实现未知故障的自主识别与任务重规划，同时通过求解器验证物理约束，抑制模型幻觉并确保决策可解释性。实验表明，该框架在舵故障等异常情况下能够有效调整航迹参数，满足约束条件并完成任务，展示了其在容错控制与实时控制之间的良好平衡。

2605.09490 2026-05-12 cs.CL cs.AR cs.LG

Not All Thoughts Need HBM: Semantics-Aware Memory Hierarchy for LLM Reasoning

Aojie Yuan, Tianqi Shen, Dajun Zhang

发表机构 * University of Southern California（南加州大学）； University of Wisconsin–Madison（威斯康星大学麦迪逊分校）

AI总结大型语言模型在推理过程中生成大量中间思考步骤，这些步骤需要占用有限的GPU高带宽内存（HBM），导致性能瓶颈。本文提出一种语义感知的内存分层机制，将不同重要性的思考步骤分配到不同层级的存储中，如HBM、DDR内存、压缩存储和丢弃，从而减少对HBM的依赖。该方法通过累积注意力评分实现零近似误差的计算卸载，实验表明在保持较高推理精度的同时，可显著降低HBM占用并提升计算效率。

Comments Preprint. 14 pages + appendix. Under review at AdaptFM Workshop @ ICML 2026

2605.09487 2026-05-12 cs.LG

Kintsugi: Learning Policies by Repairing Executable Knowledge Bases

Teng Cao, Yu Deng, Hikaru Shindo, Quentin Delfosse, Lanxi Wen, Suli Wang, Jannis Blüml, Christopher Tauchmann, Kristian Kersting

发表机构 * Artificial Intelligence and Machine Learning Lab, Technical University of Darmstadt, Germany（德累斯顿技术大学人工智能与机器学习实验室）； Hessian Center for Artificial Intelligence (hessian.AI), Germany（黑森人工智能中心）； Department of Computer Science, Technical University of Darmstadt, Germany（德累斯顿技术大学计算机科学系）； Department of Computer Science, Technical University of Munich (TUM), Germany（慕尼黑技术大学计算机科学系）； German Research Center for Artificial Intelligence (DFKI), Germany（德国人工智能研究中心）； Centre for Cognitive Science, Technical University of Darmstadt, Germany（德累斯顿技术大学认知科学中心）

AI总结本文提出了一种名为 Kintsugi 的白盒策略学习框架，旨在解决现代具身智能体任务知识难以检验、重组和复用的问题。该方法将策略改进视为由验证器引导的可执行知识库的构建过程，通过局部类型编辑而非依赖语言模型推理来提升策略知识。Kintsugi 在推理时无需调用大语言模型，通过确定性符号执行器直接执行知识库，实现了在长期文本代理和物体中心操作任务中的高性能，同时保持了知识的可检查性和可编辑性。

2605.09486 2026-05-12 cs.LG cs.AI quant-ph

CTQWformer: A CTQW-based Transformer for Graph Classification

Zhan Li, Wuqing Yu, Yusen Wu, Chuan Wang

发表机构 * school of Artificial Intelligence, Beijing Normal University（人工智能学院，北京师范大学）

AI总结本文提出了一种基于连续时间量子行走（CTQW）的图分类模型CTQWformer，旨在解决图神经网络和Transformer架构在捕捉全局结构依赖和动态信息传播方面的不足。该模型通过可训练的哈密顿量融合图结构和节点特征，物理地建模量子行走动态，提取丰富的图结构信息，并将其嵌入到图Transformer模块和图循环模块中，分别用于增强自注意力机制的结构偏差和建模时间演化模式。实验表明，CTQWformer在多个基准图分类数据集上优于传统图核和图神经网络方法，是首个将量子动力学与可训练深度学习框架结合的混合型图Transformer。

2605.09485 2026-05-12 cs.LG stat.ML

SEMASIA: A Large-Scale Dataset of Semantically Structured Latent Representations

Mario Edoardo Pandolfo, Enrico Grimaldi, Lorenzo Marinucci, Leonardo Di Nino, Simone Fiorellino, Sergio Barbarossa, Paolo Di Lorenzo

发表机构 * Dept. Computer, Control and Management Engineering（计算机、控制与管理工程系）； Sapienza University of Rome（罗马大学西皮恩扎分校）； National Inter-University Consortium for Telecommunications (CNIT)（电信全国大学联合体（CNIT））； Dept. of Statistical Sciences（统计科学系）； Dept. of Information Engineering, Electronics, and Telecommunications（信息工程、电子与电信系）

AI总结本文介绍了SEMASIA，一个大规模的语义结构潜在表示数据集，包含从约1700个预训练视觉模型中提取的潜在表示，覆盖八个标准图像分类基准。该数据集配以描述模型架构、训练方式、预训练来源等结构化元数据，旨在解决不同模型潜在空间几何结构不兼容的问题。研究通过分析潜在空间的概念组织、对齐映射性能以及预训练数据与模型特性对表示的影响，展示了SEMASIA在可解释性、迁移学习等任务中的应用价值。

2605.09483 2026-05-12 cs.CL cs.AI cs.LG

A Cognitively Grounded Bayesian Framework for Misinformation Susceptibility

Pranava Madhyastha

发表机构 * Dept. of Computer Science, City, University of London（伦敦城市大学计算机科学系）； The Alan Turing Institute（艾伦·图灵研究所）

AI总结本文提出了一种基于认知理论的贝叶斯框架——有界实用听众模型（BPL），用于建模人们对错误信息的易感性。该框架结合了有限理性理论，引入了工作记忆限制、信息瓶颈和重要性采样等三个认知约束，从而更真实地模拟人类在信息处理中的决策过程。研究通过在LIAR和MultiFC数据集上的实验，验证了BPL在虚假信息分类任务中的有效性，并支持了深度错配悖论等理论预测。

Comments work in progress

2605.09477 2026-05-12 cs.CV cs.AI

Outlier-Robust Diffusion Solvers for Inverse Problems

Yang Zheng, Jiahua Liu, Tongyao Pang, Wen Li, Zhaoqiang Liu

发表机构 * School of Computer Science and Engineering, University of Electronic Science and Technology of China（电子科技大学计算机科学与工程学院）； Yau Mathematical Sciences Center, Tsinghua University（清华大学尤太数学科学中心）

AI总结本文研究了在存在异常值的情况下，如何利用扩散模型解决逆问题。为提高鲁棒性，作者首先通过显式噪声估计优化测量数据，并基于Huber损失函数构建迭代加权最小二乘目标函数，进而提出一种基于梯度下降的优化方法，并结合共轭梯度法以避免学习率调优问题。实验表明，该方法在多种图像数据集上表现出对异常值的强鲁棒性，优于现有的扩散模型方法。

Comments Accepted by CVPR 2026

2605.09476 2026-05-12 cs.CL cs.AI

Align and Shine: Building High-Quality Sentence-Aligned Corpora for Multilingual Text Simplification

Kenji Hilasaca, Nouran Khallaf, Serge Sharoff

发表机构 * Centre for Translation, Localisation and Interpreting Studies（翻译、本地化与诠释研究中心）； School of Languages, Cultures and Societies（语言、文化和社会学院）； University of Leeds, UK（利兹大学）

AI总结本文研究了多语言文本简化任务中高质量句子对齐语料库的构建问题，针对除英语外其他语言缺乏大规模高质量数据集的现状，提出了一种从可比语料中收集和处理众包简化数据的方法。通过文档级数据实现句子级对齐，构建了一个适用于多语言（包括加泰罗尼亚语、英语、法语、意大利语和西班牙语）文本简化系统训练与测试的公开数据集。

Comments Accepted at BUCC 2026 workshop at LREC 2026

2605.09472 2026-05-12 cs.LG cs.DS

Positional LSH: Binary Block Matrix Approximation for Attention with Linear Biases

Daniel Wolfson, Tal Wagner

发表机构 * Blavatnik School of Computer Science and AI（Blavatnik计算机科学与人工智能学院）

AI总结该论文研究了在Transformer模型中引入位置偏置的注意力机制，并通过局部敏感哈希（LSH）的视角提出了位置LSH方法。核心方法是将ALiBi位置偏置矩阵视为由位置LSH生成的块对角二值掩码的期望，并证明在采样掩码的均值下，可以以高概率实现谱范数和最大范数的近似保证。该方法将长上下文的ALiBi注意力转化为多个短上下文的随机无偏注意力操作，从而显著提升计算效率，实验验证了理论分析的有效性。

2605.09469 2026-05-12 cs.CL

FinMoji: A Framework for Emoji-driven Sentiment Analysis in Financial Social Media

Ahmed Mahrous, Roberto Di Pietro

发表机构 * King Abdullah University of Science and Technology (KAUST)（卡斯特科学与技术大学）； Hamad Bin Khalifa University（哈马德·本·卡伊夫大学）

AI总结本文研究了在金融社交平台StockTwits中利用表情符号进行情感分析的问题，探讨表情符号作为投资者情感指标的可靠性及其与传统文本分析的对比。研究采用逻辑回归和Transformer模型进行实验，发现仅使用表情符号的模型在F1分数上约为0.75，而结合文本与表情符号的模型可达约0.88，且计算成本更低，适用于高频交易等时间敏感场景。此外，部分表情符号及其组合对市场趋势具有超过90%的预测准确率，凸显了表情符号在金融情感分析中的独特价值。

2605.09465 2026-05-12 cs.RO

High Precision Hydraulic Excavator Control for Heavy-Duty Grading

Lennart Werner, Pol Eyschen, Sean Costello, Andrei Cramariuc, Marco Hutter

发表机构 * ETH Zürich, Robotic Systems Lab（苏黎世联邦理工学院机器人系统实验室）

AI总结本文研究了如何实现重型土方工程中高精度的液压挖掘机自动平整控制。针对不同液压架构对操作指令和土壤作用力的响应差异，作者提出了一种分层控制方法，包含液压感知的底层控制环和路径跟踪层，通过校准过程适用于负载感应和负流量控制两类设备。实验表明，该方法在精度上比现有商业方案提升2.6倍，并能更高效地利用机器压力性能。

Comments 12 pages 19 figures, RSS 2026

2605.09463 2026-05-12 cs.CL

Beyond Position Bias: Shifting Context Compression from Position-Driven to Semantic-Driven

Jiwei Tang, Zhijing Huang, Xinyu Zhang, Chen Jason Zhang, Jianxing Yu, Libin Zheng, Rui Meng, Jian Yin

发表机构 * Sun Yat-sen University（中山大学）； Hong Kong Polytechnic University（香港理工大学）； Beijing Normal–Hong Kong Baptist University（北京师范大学-香港 Baptist大学）

AI总结大型语言模型在多种任务中表现出色，但在处理长上下文时面临计算开销大和信息冗余的问题。现有软提示压缩方法受限于位置偏差，导致性能不稳定和语义碎片化。本文提出了一种语义一致的上下文压缩方法SeCo，通过在语义空间中动态选择与查询相关的语义中心，并进行一致性加权合并，摆脱了对物理位置的依赖，有效提升了压缩效果。实验表明，SeCo在多个基准测试中表现出优越的性能、推理速度和领域外鲁棒性。

Comments 20 pages, 6 figures

2605.09460 2026-05-12 cs.CV cs.AI

When Few Steps Are Enough: Training-Free Acceleration of Identity-Preserved Generation

Dongqi Zheng

发表机构 * FLUX Diffusion Transformer（FLUX扩散变换器）； InfuseNet

AI总结本文研究了在保持身份特征的前提下，如何通过简化生成步骤来加速图像生成过程。作者提出了一种无需重新训练的方法，通过替换预训练的扩散模型主干网络，并禁用分类器引导，显著提升了生成效率，同时保持了较高的身份相似度。实验表明，在早期生成步骤中已能获得较高质量的身份特征，后续步骤主要优化细节，从而为身份保留生成提供了高效且实用的优化策略。

AI 大模型

视觉与机器人

科学与医疗