arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.10984 2026-05-13 cs.CV

Principle-Guided Supervision for Interpretable Uncertainty in Medical Image Segmentation

An Sui, Yuzhu Li, Gunter Schumann, Fuping Wu, Xiahai Zhuang

发表机构 * School of Data Science, Fudan University（复旦大学数据科学学院）； Institute of Science and Technology for Brain-Inspired Intelligence, Fudan University（复旦大学脑启发智能科学研究院）； National Heart and Lung Institute, Imperial College London（伦敦帝国理工学院国家心脏和肺研究所）

AI总结本文研究了医学图像分割中可解释的不确定性量化问题，旨在使模型的不确定性估计更符合人类对不确定性的理解。为此，作者提出了三个与感知对齐的原则，要求不确定性在空间分布上反映图像结构对比度、图像损坏程度和解剖结构几何复杂性。基于这些原则，研究设计了一种原理引导的不确定性监督框架（PriUS），通过证据学习方法在训练过程中显式约束不确定性分布，并引入量化指标评估不确定性与图像模糊源的一致性。实验表明，PriUS在多个医学数据集上实现了更具一致性的不确定性估计，同时保持了良好的分割性能。

Comments 14 pages, 8 figures

2605.10981 2026-05-13 cs.LG cs.AI

$ξ$-DPO: Direct Preference Optimization via Ratio Reward Margin

Zhengyuan Fan, Zhonghua Wu, Yuxuan Du, Qun Chen

发表机构 * School of Computer Science, Northwestern Polytechnical University（西北工业大学计算机学院）

AI总结本文提出了一种名为 $ξ$-DPO 的直接偏好优化方法，旨在解决现有 SimPO 方法中超参数调优困难的问题。通过重新定义奖励目标为最小化奖励差距与最优边距之间的距离，并引入基于选择与拒绝响应比值的奖励形式，$ξ$-DPO 有效消除了对超参数 $β$ 的依赖，并获得了更具解释性和稳定性的边距 $ξ$。该方法无需反复调参，能够更直观地控制偏好响应之间的相对分离程度，提升了直接偏好优化的效率与可解释性。

2605.10980 2026-05-13 cs.LG cs.AI

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Haohui Zhang, Zhiye Wang, Xiaoying Gan, Xinbing Wang, Bo Jiang

发表机构 * Shanghai Jiao Tong University（上海交通大学）

AI总结本文提出了一种名为LEAP的方法，旨在通过检测早期收敛的标记来提升扩散语言模型（dLLM）的并行解码能力。传统方法依赖高置信度阈值来保证准确性，但这一要求限制了并行性。LEAP通过未来上下文过滤和多序列叠加技术，在无需训练的情况下识别出早期已收敛且正确的标记，从而实现更早的解码，显著降低了推理延迟和解码步骤。实验表明，LEAP在多个领域均有效提升了解码效率，同时保持了模型精度。

2605.10975 2026-05-13 cs.LG cs.AI

Hierarchical Multi-Scale Graph Neural Networks: Scalable Heterophilous Learning with Oversmoothing and Oversquashing Mitigation

Md Sazzad Hossen, Avimanyu Sahoo

发表机构 * University of Alabama in Huntsville（阿拉巴马大学亨茨维尔分校）

AI总结该论文研究了异质图（相邻节点标签不同）分类中的可扩展学习问题，针对现有图神经网络在处理异质性数据时存在的聚合偏差和过平滑、过压缩问题，提出了一种分层多尺度图神经网络框架HMH。该方法通过学习特征与结构感知的符号亲和力，构建软图层次结构，并在每一层使用稀疏正交的Haar基进行频域滤波，结合跳跃连接解池化层，有效缓解了中心节点主导和长距离信号压缩问题。实验表明，HMH在节点和图分类任务上均优于现有方法，且具有近线性的时间复杂度。

2605.10974 2026-05-13 cs.LG cs.AI

Vertex-Softmax: Tight Transformer Verification via Exact Softmax Optimization

Navid Rezazadeh, Arash Gholami Davoodi

发表机构 * University of California, Irvine（加州大学尔湾分校）； Carnegie Mellon University（卡内基梅隆大学）

AI总结本文提出了一种名为Vertex-Softmax的新方法，用于提升Transformer注意力机制的认证验证精度。该方法通过精确优化softmax函数在预softmax分数区间约束下的最优解，证明了最优解必定出现在约束盒的顶点，并基于此建立了具有线性复杂度的Vertex-Softmax原语。实验表明，该方法在多个数据集上显著提升了认证准确率并紧缩了下界，同时在计算成本上优于现有方法。

2605.10973 2026-05-13 cs.LG cs.AI

Rotation-Preserving Supervised Fine-Tuning

Hangzhan Jin, Tianwei Ni, Lu Li, Pierre-Luc Bacon, Mohammad Hamdaqa, Doina Precup

发表机构 * Mila - Quebec AI Institute（魁北克AI研究所）； Polytechnique Montréal（蒙特利尔理工学院）； Université de Montréal（蒙特利尔大学）； McGill University（麦吉尔大学）； CIFAR AI Chair（CIFAR人工智能主席）； Google DeepMind（谷歌DeepMind）

AI总结监督微调（SFT）虽能提升模型在特定领域内的性能，但可能损害其在领域外的泛化能力。本文提出了一种名为旋转保持监督微调（RPSFT）的方法，通过在预训练权重矩阵的奇异子空间中保持投影旋转，高效地近似Fisher敏感方向，从而限制不必要的权重旋转，保留任务适应性。实验表明，RPSFT在数学推理数据上训练的多种模型中，有效改善了领域内与领域外性能的平衡，更好地保留了预训练表示，并为后续强化学习微调提供了更优的初始化。

Comments 31 pages, 13 figures

2605.10971 2026-05-13 cs.LG cs.AI cs.CL

Steering Without Breaking: Mechanistically Informed Interventions for Discrete Diffusion Language Models

Hanhan Zhou, Shamik Roy, Rashmi Gangadharaiah

发表机构 * AWS AI Labs（AWS人工智能实验室）

AI总结离散扩散语言模型（DLMs）通过并行去噪生成文本，提供了不同于自回归模型的生成方式。本文指出，从自回归模型迁移而来的控制生成方法在每一步去噪中采用统一干预策略，会导致生成质量下降，尤其在多属性联合控制时问题更为严重。研究通过训练稀疏自编码器分析发现，不同属性在去噪过程中以不同的时间、强度和节奏固化，因此提出了一种自适应调度方法，将干预集中在属性形成的关键步骤，从而在保持生成质量的同时显著提升了控制精度，尤其在多属性联合控制任务中表现出色。

Comments preprint, 47 pages

2605.10959 2026-05-13 cs.LG cs.AI

QuIDE: Mastering the Quantized Intelligence Trade-off via Active Optimization

Xiantao Jiang

发表机构 * College of Information Engineering, Shanghai Maritime University（上海海洋大学信息工程学院）

AI总结当前缺乏统一的指标来评估量化神经网络的效率。本文提出QuIDE，通过引入智能指数I = (C × P)/log₂(T+1)，将压缩率、精度与延迟的权衡统一为单一评分。实验表明，不同任务存在任务相关的帕累托拐点，4位量化在MNIST和大语言模型中表现最佳，而8位量化更适合复杂CNN任务。QuIDE还提供了一个可复现的评估协议和适用于混合精度搜索的适应性函数。

Comments 16 pages, 9 figures

2605.10865 2026-05-13 cs.AI cs.CV cs.SE

BenchCAD: A Comprehensive, Industry-Standard Benchmark for Programmatic CAD

Haozhe Zhang, Kaichen Liu, Miaomiao Chen, Lei Li, Shaojie Yang, Cheng Peng, Hanjie Chen

发表机构 * University of Virginia（弗吉尼亚大学）； University of California, San Diego（加州大学圣地亚哥分校）； Rice University（莱斯大学）

AI总结 BenchCAD 是一个面向工业CAD编程的综合性基准测试平台，旨在评估模型从视觉或文本输入生成可执行参数化CAD程序的能力。该基准包含17,900个经过验证的CadQuery程序，涵盖106类工业零件，通过视觉问答、代码问答、图像到代码生成等多种任务全面评估模型在感知、参数抽象和程序合成方面的能力。实验表明，当前主流模型虽能恢复零件的粗略外形，但在精确生成参数化CAD程序方面仍存在显著不足，如忽略细粒度3D结构、误读工程参数等，突显了工业CAD自动化领域亟需改进的方向。

Comments 9 page 7 figures

2605.10815 2026-05-13 cs.AI eess.AS

Probing Cross-modal Information Hubs in Audio-Visual LLMs

Jihoo Jung, Chaeyoung Jung, Ji-Hoon Kim, Joon Son Chung

发表机构 * Department of Electrical Engineering, Korea Advanced Institute of Science ； The Graduate School of Advanced Imaging Science, Multimedia \& Film, Chung-Ang University, Seoul, Republic of Korea

AI总结本文研究了音频-视觉大语言模型（AVLLMs）中跨模态信息的流动机制，重点分析了音频和视觉模态之间的信息编码方式。通过实证分析，发现AVLLMs主要在所谓的“sink tokens”中整合跨模态信息，其中一部分特定的sink tokens专门用于存储跨模态信息，称为“跨模态sink tokens”。基于这一发现，作者提出了一种无需训练的幻觉缓解方法，通过增强对跨模态sink tokens中整合信息的依赖来提升模型表现。

Comments Accepted by ICML 2026

2605.10780 2026-05-13 cs.CV cs.AI

Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization

Xuanyu Zhu, Yan Bai, Yang Shi, Yihang Lou, Yuanxing Zhang, Jing Jin, Yuan Zhou

发表机构 * Peking University（北京大学）； Meituan Inc（美团公司）； Tsinghua University（清华大学）； IGDL

AI总结该研究提出了一种名为DRoRAE的多层表示融合方法，旨在改进视觉编码器的特征提取过程。不同于现有方法仅使用最后一层特征，DRoRAE通过能量约束路由和增量校正机制，融合所有中间层的特征，从而恢复因多层语义抽象而丢失的细节信息。实验表明，该方法在图像重建和生成任务中显著提升了性能，并揭示了表示丰富性与重建质量之间的可预测关系，为视觉分词器的设计提供了新的理论依据。

2605.10201 2026-05-13 cs.RO cs.AI

HeteroGenManip: Generalizable Manipulation For Heterogeneous Object Interactions

Zhenhao Shen, Zeming Yang, Yue Chen, Yuran Wang, Shengqiang Xu, Mingleyang Li, Hao Dong, Ruihai Wu

发表机构 * Peking University（北京大学）； Tianjin University（天津大学）

AI总结该研究旨在解决机器人在异类物体交互中实现通用操作的难题，重点解决“在哪里操作”和“如何操作”这两个核心问题。提出了一种两阶段框架HeteroGenManip，通过解耦初始抓取与复杂交互过程，结合结构先验和多基础模型扩散策略，显著提升了操作的鲁棒性和泛化能力。实验表明，该方法在多种仿真和真实任务中均取得显著性能提升。

2605.10125 2026-05-13 cs.AI cs.HC

Useful for Exploration, Risky for Precision: Evaluating AI Tools in Academic Research

Anthea Dathe, Kiran Hoffmann, Aline Mangold

发表机构 * Dresden University of Technology（德累斯顿技术大学）

AI总结该研究评估了人工智能工具在学术研究中的应用，重点关注问答和文献综述工具的实用性与局限性。研究提出了一种结合人机中心指标的评估框架，发现问答工具虽能提供有用概述，但在精确信息提取上可靠性不足，而文献综述工具虽有助于探索性搜索，却缺乏可重复性和透明度。研究强调了提升AI工具可解释性的重要性，并指出在研究工作流中合理整合AI仍需依赖人工验证。

详情

英文摘要

Artificial intelligence (AI) tools are being incorporated into scientific research workflows with the potential to enhance efficiency in tasks such as document analysis, question answering (Q&A), and literature search. However, system outputs are often difficult to verify, lack transparency in their generation and remain prone to errors. Suitable benchmarks are needed to document and evaluate arising issues. Nevertheless, existing benchmarking approaches are not adequately capturing human-centered criteria such as usability, interpretability, and integration into research workflows. To address this gap, the present work proposes and applies a benchmarking framework combining human-centered and computer-centered metrics to evaluate AI-based Q&A and literature review tools for research use. The findings suggest that Q&A tools can offer valuable overviews and generally accurate summaries; however, they are not always reliable for precise information extraction. Explainable AI (xAI) accuracy was particularly low, meaning highlighted source passages frequently failed to correspond to generated answers. This shifted the burden of validation back onto the researcher. Literature review tools supported exploratory searches but showed low reproducibility, limited transparency regarding chosen sources and databases, and inconsistent source quality, making them unsuitable for systematic reviews. A comparison of these tool groups reveals a similar pattern: while AI tools can enhance efficiency in the early stages of the research workflow and shallow tasks, their outputs still require human verification. The findings underscore the importance of explainability features to enhance transparency, verification efficiency and careful integration of AI tools into researchers' workflows. Further, human-centered evaluation remains an important concern to ensure practical applicability.

URL PDF HTML ☆

赞 0 踩 0

2605.10119 2026-05-13 cs.LG

Refresh-Scaling the Memory of Balanced Adam

Alberto Fernández-Hernández, Cristian Pérez-Corral, Jose I. Mestre, Manuel F. Dolz, Enrique S. Quintana-Ortí

发表机构 * Universitat Politècnica de València（瓦伦西亚理工大学）； Universitat Jaume I（Jaime I 大学）

AI总结本文研究了平衡Adam优化器中单一剩余超参数β的设置问题，提出应将其视为统计记忆范围的控制变量，而非固定常数。通过引入有效训练周期和刷新次数的概念，作者发现将β调整使得刷新次数约为1000时，能在不同规模的视觉和语言任务中提升模型的鲁棒性。实验表明，该方法相比固定β值的最优基线，在最坏情况下的验证损失差距减少了33.4%，并显著提升了模型性能的一致性。

2605.10082 2026-05-13 cs.CL cs.LG

FERA: Uncertainty-Aware Federated Reasoning for Large Language Models

Ruhan Wang, Chengkai Huang, Zhiyong Wang, Junda Wu, Rui Wang, Tong Yu, Julian McAuley, Lina Yao, Dongruo Zhou

发表机构 * Indiana University（印第安纳大学）； The University of New South Wales（新南威尔士大学）； The Chinese University of Hong Kong（香港中文大学）； University of California San Diego（加州大学圣地亚哥分校）； Adobe Research（Adobe研究院）

AI总结在联邦推理任务中，如何在不集中训练和不共享原始数据的前提下，利用多方持有的私有高质量示例提升大语言模型的多步推理能力是一个关键挑战。本文提出了一种无需训练的不确定性感知联邦推理框架FERA，通过迭代的服务器-客户端协同优化，使客户端生成带有轻量不确定性估计的推理轨迹，服务器则基于这些轨迹合成更优的推理结果并反馈给客户端，从而逐步提升整体推理性能。该方法引入了不确定性感知的自批判聚合机制，有效解决异构客户端之间的冲突，并通过理论分析证明了其收敛性与效率优势，实验表明FERA在多个推理基准上均优于现有方法。

Comments 44 pages, 8 figures

2605.10032 2026-05-13 cs.CL

PlantMarkerBench: A Multi-Species Benchmark for Evidence-Grounded Plant Marker Reasoning

Sajib Acharjee Dip, Song Li, Liqing Zhang

发表机构 * Department of Computer Science, Virginia Tech（弗吉尼亚理工学院计算机科学系）； School of Plant and Environmental Sciences, Virginia Tech（弗吉尼亚理工学院植物与环境科学学院）； Fralin Biomedical Research Institute, Virginia Tech（弗吉尼亚理工学院弗拉林生物医学研究学院）； FBRI Cancer Research Center, Washington, DC（华盛顿特区FBRI癌症研究中心）

AI总结 PlantMarkerBench 是一个面向多物种植物的基准数据集，用于评估基于文献的植物标记基因推理能力。该基准通过模块化流程构建，涵盖拟南芥、玉米、水稻和番茄四种植物，包含5,550个标注了标记证据有效性、类型和支持强度的句子级实例。研究定义了两个任务：判断句子是否为基因-细胞类型对的有效标记证据，并对证据类型进行分类，旨在推动基于文献的生物证据解析和可信科学信息提取的研究。

2605.09964 2026-05-13 cs.AI q-bio.QM

Learning the Interaction Prior for Protein-Protein Interaction Prediction: A Model-Agnostic Approach

Ziqi Gao, Chenyi Zi, Zijing Liu, Ziqiao Meng, Yu Li, Jia Li

发表机构 * Tsinghua University（清华大学）； The Hong Kong University of Science and Technology (Guangzhou)（香港科学与技术大学（广州））； National University of Singapore（新加坡国立大学）； IDEA Research（IDEA研究院）

AI总结蛋白质-蛋白质相互作用（PPIs）在细胞功能和疾病机制中起着关键作用。当前基于学习的PPI预测方法主要关注学习蛋白质的表示，却忽略了设计专门的分类头，通常依赖于缺乏生物学依据的通用聚合方法。本文提出了一种基于生物“L3规则”的模型无关PPI分类器L3-PPI，通过引入L3路径正则化的图提示学习方法，将蛋白质嵌入对的分类任务转化为图级别的分类任务，有效提升了预测性能。

Comments Accepted at ICML 2026

2605.09904 2026-05-13 cs.CV

TOC-Bench: A Temporal Object Consistency Benchmark for Video Large Language Models

Junzhe Chen, Siyuan Meng, Yuxi Chen, Man Zhao, Wenyao Gui, Xiaojie Guo

发表机构 * Tianjin University（天津大学）

AI总结 TOC-Bench 是一个用于评估视频大语言模型（Video-LLMs）时间对象一致性能力的诊断基准。该基准通过对象轨迹和结构化时间事件时间线进行构建，强调模型在遮挡、消失、重现、状态变化和跨对象交互等场景下保持同一对象身份、状态和连续性的能力。研究发现，尽管现有模型在一般视频理解任务上表现良好，但在事件计数、事件排序、身份敏感推理和幻觉检测等方面仍存在显著不足，表明时间对象一致性是当前视频大语言模型的一个关键瓶颈。

2605.09598 2026-05-13 cs.CV

SoccerLens: Grounded Soccer Video Understanding Beyond Accuracy

Ismael Elsharkawi, Ahmed Sait, Silvio Giancola, Bernard Ghanem, Hossam Sharara, Abdelrahman Eldesokey

发表机构 * Department of Computer Science and Engineering, The American University in Cairo（美国亚历山大大学计算机科学与工程系）； Image And Visual Understanding Lab (IVUL), KAUST（卡塔尔大学图像与视觉理解实验室）

AI总结本文提出 SoccerLens，一个用于评估足球视频理解中视觉 grounding 能力的新基准，旨在解决现有模型可能依赖虚假关联而非真实视觉证据的问题。该基准包含标注的13类常见足球事件视频片段，并通过三级语义相关性结构组织视觉线索。研究进一步扩展了注意力归因方法，引入了衡量模型注意力是否与标注线索对齐的评估指标，结果表明当前最先进的足球视觉语言模型在 grounding 性能上表现有限，揭示了预测准确率与真实视觉理解之间的显著差距。

Comments Preprint

2605.09523 2026-05-13 cs.LG cs.CE cs.NA math.NA physics.comp-ph stat.ML

HS-FNO: History-Space Fourier Neural Operator for Non-Markovian Partial Differential Equations

Lennon J. Shikhman

发表机构 * College of Computing, Georgia Institute of Technology（计算学院，佐治亚理工学院）

AI总结本文提出了一种名为HS-FNO的历史空间傅里叶神经算子，用于求解非马尔可夫型偏微分方程。该方法通过引入扩展状态$u_t(θ,x)$，将历史信息纳入模型，从而更准确地捕捉系统动态。HS-FNO通过将历史状态更新分解为预测新时间片和精确移动已知部分，减少了学习维度并提升了预测精度。实验表明，HS-FNO在多个基准问题上优于现有方法，尤其在自回归预测中表现出显著的误差降低。

Comments 15 pages, 4 figures, 1 table. Code at https://github.com/lennonshikhman/hs-fno/

2605.09461 2026-05-13 cs.AI

VulTriage: Triple-Path Context Augmentation for LLM-Based Vulnerability Detection

Wenxin Tang, Xiang Zhang, Junliang Liu, Jingyu Xiao, Xi Xiao, Jinlong Yang, Yuehe Ma, Zhenyu Liu, Zhengheng Li, Zicheng Wang, Wang Luo, Qing Li, Lei Wang, Peng Xiangli

发表机构 * Tsinghua University（清华大学）； Henan University（河南大学）； Dalian Maritime University（大连海事大学）； The Chinese University of Hong Kong（香港中文大学）； Northwestern Polytechnical University（西北工业大学）； BNU-HKBU United International College（北京理工大学-香港大学联合国际学院）； Southeast University（东南大学）； Jilin University（吉林大学）； Sun Yat-sen University（中山大学）； Peng Cheng Laboratory（鹏城实验室）； Guangzhou Intelligence Communications Technology Co., Ltd.（广州智能通信技术有限公司）； The Fifth Electronic Research Institute of MIIT（信息产业部第五电子研究所）

AI总结本文提出了一种名为VulTriage的三路径上下文增强框架，用于基于大语言模型（LLM）的漏洞检测。该方法通过控制路径提取并描述程序结构信息，知识路径检索相关的漏洞模式与示例，语义路径总结代码功能行为，从而增强LLM的输入上下文，提升其对细微语义差异导致的漏洞的检测能力。实验表明，VulTriage在多个基准数据集上取得了优于现有深度学习和LLM基线方法的性能，尤其在资源有限和类别不平衡场景下表现出良好的泛化能力。

2605.09430 2026-05-13 cs.CV

FlashAR: Efficient Post-Training Acceleration for Autoregressive Image Generation

Junkang Zhou, Yefei He, Feng Chen, Weijie Wang, Bohan Zhuang

发表机构 * Zhejiang University（浙江大学）； University of Adelaide（阿德莱德大学）

AI总结本文提出了一种名为FlashAR的轻量级后训练加速框架，旨在高效提升自回归图像生成模型的推理速度。该方法通过引入一个垂直预测头与原有的水平预测头协同工作，基于双向下一个token预测实现高度并行的生成过程，同时尽量保持原模型的训练目标不变。实验表明，FlashAR仅需少量训练数据即可实现对预训练模型的高效适配，在512x512图像生成任务中达到最高22.9倍的加速效果。

Comments Post-training acceleration for autoregressive image generation, code is available at https://lxazjk.github.io/FlashAR/

详情

英文摘要

Large-scale autoregressive models have demonstrated remarkable capabilities in image generation. However, their sequential raster-scan decoding relies on strictly next-token prediction, making inference prohibitively expensive. Existing acceleration methods typically either introduce entirely new generation paradigms that necessitate costly pre-training from scratch, or enable parallel generation at the expense of a training-inference gap or altered prediction objectives. In this paper, we introduce FlashAR, a lightweight post-training adaptation framework that efficiently adapts a pre-trained raster-scan autoregressive model into a highly parallel generator based on two-way next-token prediction. Our key insight is that effective adaptation should minimize modifications to the pre-trained model's original training objective to preserve its learned prior. Accordingly, we retain the original AR head as a horizontal head for row-wise prediction and introduce a complementary, lightweight vertical head for column-wise prediction. To facilitate efficient adaptation, we branch the vertical head from an intermediate layer rather than the final layer, bypassing the inherent horizontal head bias. Moreover, since horizontal and vertical predictions capture complementary dependencies whose relative importance varies across target positions, we employ a learnable fusion gate to dynamically combine the two predictions at each position. To further reduce adaptation cost, we propose a two-stage adaptation pipeline: the vertical head is first initialized through adaptation from the pre-trained autoregressive model before jointly fine-tuned with backbone to adapt to the new decoding paradigm. Extensive experiments on LlamaGen and Emu3.5 show that FlashAR achieves up to a 22.9x speedup for 512x512 image generation through a lightweight post-training with merely 0.05% of the original training data.

URL PDF HTML ☆

赞 0 踩 0

2605.09287 2026-05-13 cs.AI

PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning

Dongyi Liu, Yifan Niu, Qinwen Wang, Han Xiao, Jia Li

发表机构 * The Hong Kong University of Science and Technology (Guangzhou)（香港科学与技术大学（广州））； The Hong Kong University of Science and Technology（香港科学与技术大学）

AI总结本文提出了一种基于关键步骤的信用分配方法PiCA，用于改进基于大语言模型的搜索智能体在强化学习中的训练效果。针对长期任务中奖励稀疏、信用孤立和分布偏移等关键问题，PiCA通过引入潜在基于奖励塑形机制，将搜索过程重构为累积进展的序列，并利用历史轨迹中的关键步骤作为信息峰值，为每一步提供与最终目标紧密关联的密集奖励。实验表明，PiCA在多个知识密集型问答任务中显著提升了模型性能，显示出其良好的通用性和有效性。

Comments 21 pages, 7 figures

2605.09277 2026-05-13 cs.LG

Worst-Case Regret Bounds for Combinatorial Thompson Sampling in Sleeping Semi-Bandits

Zhiming Huang, Bingshan Hu, Jianping Pan

发表机构 * Paul G. Allen School of Computer Science & Engineering, University of Washington（保罗·G·艾伦计算机科学与工程学院，华盛顿大学）； Department of Computer Science, University of British Columbia（不列颠哥伦比亚大学计算机科学系）； Department of Computer Science, University of Victoria（维多利亚大学计算机科学系）

AI总结本文研究了具有睡眠臂的半带问题中的组合汤普森采样（CTS）算法，针对其长期存在的理论保障不足和实际性能不佳的问题，提出了首个最坏情况下的遗憾界分析，并设计了一种改进算法CL-SG。该算法通过共享高斯种子协调探索，显著提升了理论性能，实验表明其在真实数据集上优于现有方法。

Comments Accepted by INFOCOM 26 on Dec 2025

2605.09171 2026-05-13 cs.RO

SHIELD: Scalable Optimal Control with Certification using Duality and Convexity

Hansung Kim, Siddharth H. Nair, Francesco Borrelli

发表机构 * Model Predictive Control Laboratory, UC Berkeley（模型预测控制实验室，加州大学伯克利分校）； Nextracker Inc（Nextracker公司）

AI总结本文提出了一种名为SHIELD的分层算法，通过利用强凸性和拉格朗日对偶性，有效降低$\ell_1$-正则化凸规划中的决策变量维度和约束集规模，同时保证被移除的约束和变量仍满足安全要求。为加速算法运行，作者引入了基于Transformer的深度神经网络辅助对偶证书的推导，并在复杂多模态交通场景中的随机模型预测控制（SMPC）中验证了该方法，实验表明其在保持可行性与闭环安全性的前提下，计算效率提升了数量级。

2605.09043 2026-05-13 cs.CL cs.AI

Phase Transitions in Affective Meaning Divergence: The Hidden Drift Before the Break

Napassorn Litchiowong

发表机构 * School of Computing, National University of Singapore（新加坡国立大学计算机学院）

AI总结本文研究了对话中情感意义分歧（AMD）的相变现象，即对话双方对同一词语的情感理解逐渐偏离，最终导致沟通失效。作者基于言语行为理论和熵正则化博弈论，构建了AMD的数学模型，并发现当参数 $βα> 4$ 时，AMD的增加会导致协调修复能力的突变式崩溃。在多个数据集上的实验证明，AMD在对话失控前表现出显著的临界减慢特征，且其时间动态模式优于传统毒性或情感指标，为理解对话破裂提供了新的理论依据。

Comments Accepted to the ACL 2026 Student Research Workshop

2605.09003 2026-05-13 cs.CV

FlashClear: Ultra-Fast Image Content Removal via Efficient Step Distillation and Feature Caching

Yixin Tang, Jiawei Guo, Junxian Li, Zhiteng Li, Jixin Zhao, Bingya Zhang, Chenbo Wang, Yulun Zhang, Shangchen Zhou

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Nanyang Technological University（南洋理工大学）； Honor Device Co., Ltd（荣耀设备有限公司）

AI总结本文提出了一种名为FlashClear的高效图像内容移除方法，旨在解决基于扩散模型的对象移除方法在计算效率上的不足。该方法通过引入区域感知的对抗蒸馏（RAD）和前景优先的非对称注意力与缓存（FPAC）策略，实现了仅需少数步骤即可完成高质量内容移除的模型，显著提升了推理速度。实验表明，FlashClear在保持视觉质量的同时，相比现有方法在速度上分别提升了8.26倍和122倍。

Comments Code: https://github.com/GuoCalix/FlashClear

2605.08978 2026-05-13 cs.AI

Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization

Xingyuan Hua, Sheng Yue, Ju Ren

发表机构 * Department of Computer Science and Technology, Tsinghua University, Beijing, China（清华大学计算机科学与技术系）； School of Cyber Science and Technology, Sun Yat-sen University Shenzhen Campus, Shenzhen, China（中山大学深圳校区信息科学与技术学院）； State Key Laboratory of Internet Architecture, Tsinghua University, Beijing, China（清华大学互联网体系结构国家重点实验室）

AI总结本文提出了一种基于探索感知的强化学习框架，旨在解决智能体在执行任务时探索策略不加区分的问题。该方法通过变分推断引入细粒度奖励函数，能够评估探索行为对未来决策的潜在提升，并结合探索感知的分组机制，在优化过程中区分探索动作与任务完成动作。实验表明，该方法在多种文本和图形界面基准任务中均取得了显著提升。

2605.08828 2026-05-13 cs.AI

When Agents Overtrust Environmental Evidence: An Extensible Agentic Framework for Benchmarking Evidence-Grounding Defects in LLM Agents

Strick Sheng, Ziyue Wang, Liyi Zhou

发表机构 * The University of Sydney（悉尼大学）； Nanjing University（南京大学）

AI总结该研究提出了一种名为EnvTrustBench的可扩展智能体框架，用于评估大型语言模型代理在面对过时、错误或恶意环境信息时的可靠性问题。研究定义了“证据锚定缺陷”（EGD），即代理在未核实当前证据的情况下，仅凭环境提供的信息做出决策，从而导致任务错误。通过构建任务场景、生成工作空间与验证机制，EnvTrustBench系统评估了多种代理在不同情境下的表现，揭示了环境信息可靠性对代理行为的广泛影响，突显了环境锚定在智能体系统中的核心地位。

2605.08806 2026-05-13 cs.CV

L2A: Learning to Accumulate Pose History for Accurate 3D Human Pose Estimation

Zehua Wang, Changwang Mei, Huaijiang Sun, Pengqi Hu, Zhaoyang Yin

发表机构 * Nanjing University of Science and Technology（南京理工大学）； Lenovo（联想）

AI总结该论文提出了一种名为L2A的框架，旨在通过有效利用历史姿态信息来提升三维人体姿态估计的准确性。研究发现，现有方法在跨层特征复用方面存在不足，为此，作者设计了空间-时间并行的Transformer骨干网络以保持一致的表示空间，并引入了历史姿态积累（HPA）机制和层姿态历史聚合（LPA）模块，以自适应地整合多层特征，减少冗余并提升稳定性。实验表明，该方法在多个基准数据集上取得了最先进的性能。

Comments 15page

AI 大模型

视觉与机器人

科学与医疗