arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.14110 2026-05-15 cs.CV cs.RO

SToRe3D: Sparse Token Relevance in ViTs for Efficient Multi-View 3D Object Detection

Sandro Papais, Lezhou Feng, Charles Cossette, Lingting Ge

发表机构 * University of Toronto（多伦多大学）； Zoox Inc（Zoox公司）

AI总结本文提出SToRe3D，一种用于高效多视角3D目标检测的稀疏性框架，旨在解决视觉Transformer（ViT）在处理多视角和大范围3D区域时计算量大、推理延迟高的问题。该方法通过联合选择2D图像token和3D目标查询，并结合特征存储与重新激活机制，实现对关键信息的计算分配。实验表明，SToRe3D在保持检测精度的同时，显著提升了推理速度，为实时大规模3D检测提供了可行方案。

Comments Accepted to CVPR 2026

2605.14108 2026-05-15 cs.CV cs.AI cs.LG

Bridging the Rural Healthcare Gap: A Cascaded Edge-Cloud Architecture for Automated Retinal Screening

Nishi Doshi, Shrey Shah

发表机构 * University of Southern California（南加州大学）

AI总结该研究针对农村地区糖尿病视网膜病变（DR）筛查资源不足的问题，提出了一种边缘-云端级联架构，以提高筛查效率并降低云端计算负担。该架构分为两层：第一层使用轻量级的MobileNetV3-small模型在本地设备上进行二分类分诊，判断是否需要转诊；第二层在云端使用RETFoundDINOv2模型对需转诊的图像进行细粒度严重程度分级。实验表明，该方法在APTOS数据集上显著减少了云端调用次数，同时保持了较高的筛查准确性。

2605.14106 2026-05-15 cs.RO

Behavior Cloning for Active Perception with Low-Resolution Egocentric Vision

Anthony Bilic, Chen Chen, Ladislau Bölöni

发表机构 * Department of Computer Science, University of Central Florida（中央佛罗里达大学计算机科学系）

AI总结本文研究了行为克隆在结构化物体寻找任务中是否能够实现主动感知。通过一个配备手腕安装的低分辨率RGB摄像头的低成本机械臂，模型直接从低分辨率图像中预测关节命令，在闭环控制下实现对部分可见植物的定位与抓取。实验表明，低分辨率的自中心视觉足以完成任务，且相对关节变化的预测优于绝对位置预测，展示了基于视觉的行为克隆可以有效实现可复现的主动感知。

2605.14104 2026-05-15 cs.CV

DUET: Dual-Paradigm Adaptive Expert Triage with Single-cell Inductive Prior for Spatial Transcriptomics Prediction

Junchao Zhu, Ruining Deng, Junlin Guo, Tianyuan Yao, Chongyu Qu, Juming Xiong, Zhengyi Lu, Yanfan Zhu, Marilyn Lionts, Yuechen Yang, Yu Wang, Shilin Zhao, Haichun Yang, Yuankai Huo

发表机构 * Vanderbilt University, Tennessee, USA（范德比尔特大学，田纳西州，美国）； Weill Cornell Medicine, New York, USA（韦尔医学院，纽约，美国）； Vanderbilt University Medical Center, Tennessee, USA（范德比尔特大学医学中心，田纳西州，美国）

AI总结该研究提出了一种名为DUET的新型双范式框架，用于从组织切片图像中预测空间转录组数据。DUET结合了参数化预测与基于记忆的检索方法，在细胞归纳先验的指导下实现更准确的基因表达推断。通过引入大规模单细胞数据作为分子约束，并设计轻量适配器动态调整不同空间区域的模型偏好，DUET在多个公开数据集上取得了当前最优的预测性能。

2605.14089 2026-05-15 cs.AI

SkillFlow: Flow-Driven Recursive Skill Evolution for Agentic Orchestration

Mingda Zhang, Tiesunlong Shen, Haoran Luo, Wenjin Liu, Zikai Xiao, Erik Cambria, Xiaoying Tang

发表机构 * The Chinese University of Hong Kong, Shenzhen（香港中文大学（深圳））； National University of Singapore（新加坡国立大学）； Nanyang Technological University（南洋理工大学）； Zhejiang University（浙江大学）

AI总结 SkillFlow 是一种基于流模型的框架，旨在解决智能体编排中的关键挑战，如策略崩溃、信用分配不透明和技能演化缺乏指导。该方法通过可训练的监督器与结构化环境进行多轮交互，结合温差轨迹平衡损失实现多样化的策略保持与透明的信用分配，并引入递归技能演化机制以自主决定技能的生成、剪枝与改进。实验表明，SkillFlow 在多个任务上显著优于现有方法。

Comments 49 pages, 5 figures, 6 tables

2605.14075 2026-05-15 cs.LG cs.CL

Rethinking Layer Relevance in Large Language Models Beyond Cosine Similarity

Cristian Hinostroza, Rodrigo Toro Icarte, Christ Devia, Andres Carvallo De Ferari, Eugenio Herrera-Berg, Denis Parra, Jorge F Silva

发表机构 * Pontificia Universidad Católica de Chile（天主教智利大学）； National Center for Artificial Intelligence (CENIA)（人工智能国家中心）； Universidad de Chile（智利大学）

AI总结本文探讨了在大语言模型中，层相关性评估应超越传统的余弦相似度方法。研究指出，余弦相似度无法准确反映移除某层对模型性能的实际影响，理论分析表明即使某层余弦相似度极低，也可能对模型性能至关重要。为此，作者提出以移除某层后模型准确率的实际下降作为更可靠的评估指标，尽管计算成本较高，但能更准确地指导模型剪枝与轻量化设计，对构建可解释的大语言模型具有重要意义。

Comments Published at ICLR 2026

Journal ref Proceedings of the International Conference on Learning Representations (ICLR), 2026

2605.14074 2026-05-15 cs.LG

Fair and Calibrated Toxicity Detection with Robust Training and Abstention

Mokshit Surana

发表机构 * University of Illinois Chicago（伊利诺伊大学芝加哥分校）

AI总结该研究探讨了毒性检测中的公平性问题，关注排序、校准和弃权三个维度，并比较了多种训练方法与后处理机制在这些维度上的表现。研究发现，传统方法如经验风险最小化（ERM）虽然整体校准良好，但在不同身份子群中存在显著的校准偏差；而训练干预措施虽能改善排序性能，却可能加剧校准公平性差距。此外，后处理方法如温度缩放和置信度弃权也继承了训练阶段的问题，甚至可能引入新的不公平性。论文强调，实现真正的公平性需要多维度的综合考量，单一维度的优化不足以确保实际应用中的公平表现。

2605.14073 2026-05-15 cs.LG cs.AI

AttnGen: Attention-Guided Saliency Learning for Interpretable Genomic Sequence Classification

Rayhaneh Shabani Nia, Ali Karkehabadi

发表机构 * University of California, Davis（加州大学戴维斯分校）

AI总结本文提出了一种名为 AttnGen 的注意力引导训练框架，旨在提升基因组序列分类模型的可解释性。该方法通过注意力机制计算核苷酸层面的重要性评分，并在训练过程中逐步抑制低贡献位置，使模型更关注具有信息量的区域，减少对噪声序列元素的依赖。实验表明，AttnGen 在标准基准数据集上取得了优于传统卷积神经网络的分类性能，并通过扰动分析验证了其重要性评分的有效性，展示了模型对一小部分关键位置的高度依赖。

Comments Accepted at IEEE CCGE 2026

2605.14071 2026-05-15 cs.CL

Distribution Corrected Offline Data Distillation for Large Language Models

Yumeng Zhang, Zhengbang Yang, Yevin Nikhel Goonatilake, Zhuangdi Zhu

发表机构 * George Mason University（乔治·马歇尔大学）

AI总结本文研究了如何从大型语言模型中有效地蒸馏推理能力到小型模型中，特别是在资源受限的场景下。为了解决现有方法在离线蒸馏中面临的分布偏移问题，作者提出了一种基于分布校正的离线数据蒸馏框架，通过自适应地强调与学生模型推理分布更一致的教师模型指导，从而在保持离线数据高效性和监督质量的同时，减少推理过程中的误差累积。实验表明，该方法在多个数学推理基准测试中显著提升了推理准确性和稳定性。

2605.14069 2026-05-15 cs.LG

SurF: A Generative Model for Multivariate Irregular Time Series Forecasting

Mohammad R. Rezaei, Tejas Balaji, Rahul G. Krishnan

发表机构 * Department of Computer Science（计算机科学系）； University of Toronto（多伦多大学）； Vector Institute（向量研究所）

AI总结本文提出了一种名为 SurF 的生成模型，用于处理多变量不规则时间序列的预测问题。该模型基于时间尺度变换定理，将事件序列与独立同分布的单位速率指数噪声之间建立可学习的双射关系，从而实现对异构事件流数据的统一建模。研究还引入了三种高效的累积强度参数化方法以及基于 Transformer 的编码器用于多数据集预训练。实验表明，SurF 在多个现实数据集上取得了优于现有方法的预测性能，为异步事件流的基础模型研究奠定了初步基础。

2605.14067 2026-05-15 cs.LG

Comparative Evaluation of Machine Learning Approaches for Minority-Class Financial Distress Prediction Under Class Imbalance Constraints

Karan Sehgal, Khawar Naveed Bhatti

发表机构 * Kent Business School（肯特商学院）； University of Kent（肯特大学）

AI总结本文研究了在类别不平衡条件下，如何有效预测少数类财务困境企业的问题，比较了经典统计方法、集成学习和神经网络模型的性能。通过结构化预处理和SMOTE过采样技术，实验发现梯度提升方法在严重不平衡情况下对少数类具有更高的敏感性。研究强调了可复现性、可解释性和治理导向的机器学习评估，为金融风险分析提供了实用的工程化解决方案。

Comments 16 pages, 4 figures, preprint under review. Applied machine learning evaluation involving imbalance-aware financial distress prediction, ensemble learning, SMOTE, and SHAP explainability analysis

2605.14062 2026-05-15 cs.AI cs.CL

Know When To Fold 'Em: Token-Efficient LLM Synthetic Data Generation via Multi-Stage In-Flight Rejection

Anjir Ahmed Chowdhury, Syed Zawad, Feng Yan

发表机构 * Department of Computer Science University of Houston（计算机科学系休斯顿大学）； IBM Research（IBM研究院）

AI总结本文提出了一种名为MSIFR的轻量级框架，用于在生成过程中及时检测并终止低质量的生成轨迹，从而减少大语言模型合成数据生成中的冗余计算。该方法通过分阶段生成和快速规则验证，在生成早期识别算术错误、幻觉和格式问题，实现对无效样本的提前拒绝。实验表明，MSIFR在不增加训练或架构改动的前提下，显著降低了生成过程中的token消耗，同时保持或提升了生成数据的质量。

Comments 17 pages, 4 figures, 7 tables

2605.14061 2026-05-15 cs.AI cs.LG

MathAtlas: A Benchmark for Autoformalization in the Wild

Nilay Patel, Noah Arias, Davit Babayan, Victoria Cochran, Timothy Libman, Hafsah Mahmood, Liam McCarty, Soli Munoz, Laurel Willey, Jeffrey Flanigan

发表机构 * University of California, Santa Cruz（加州大学圣克ruz分校）

AI总结当前自动形式化基准主要聚焦于竞赛或本科数学内容，而研究生及研究级数学领域仍缺乏相关资源。本文提出 MathAtlas，首个大规模研究生级别数学自动形式化基准，包含从103本教材中提取的约52,000条定理、定义、练习、示例及证明，并构建了包含约178,000个关系的数学依赖图。实验表明该基准质量高但极具挑战性，现有先进模型在定理和定义形式化任务上的表现均较低，且随着依赖深度增加，模型性能显著下降。

Comments In submission at NeurIPS 2026

2605.14055 2026-05-15 cs.CL cs.AI

PEML: Parameter-efficient Multi-Task Learning with Optimized Continuous Prompts

Anjir Ahmed Chowdhury, Syed Zawad, Xiaolong Ma, Xu Dong, Feng Yan

发表机构 * IBM Research（IBM研究院）； Argonne National Laboratory（阿贡国家实验室）

AI总结本文提出了一种参数高效的多任务学习方法PEML，旨在通过优化连续提示和模型权重的联合调整，提升大语言模型在多任务场景下的微调效率。与现有方法如LoRA和Prefix Tuning相比，PEML结合了神经架构工程优化提示结构，并采用低秩适配调整模型参数，从而更全面地适应多任务需求。实验表明，PEML在多个基准数据集上实现了显著的性能提升，平均准确率提高达6.67%，部分任务提升甚至超过10.75%。

Comments 26 pages, 8 figures, 18 Tables

2605.14053 2026-05-15 cs.CL cs.AI

Derivation Prompting: A Logic-Based Method for Improving Retrieval-Augmented Generation

Ignacio Sastre, Guillermo Moncecchi, Aiala Rosá

发表机构 * Instituto de Computación, Facultad de Ingeniería, Universidad de la República（计算研究所，工程学院，乌拉圭共和国大学）

AI总结该研究针对大语言模型在问答任务中出现的幻觉和错误推理问题，提出了一种基于逻辑推导的新型提示方法——推导提示（Derivation Prompting），用于改进检索增强生成（RAG）框架中的生成步骤。该方法通过预定义规则系统性地从初始假设推导结论，构建可解释的推导树，从而增强生成过程的可控性。实验表明，该方法在特定案例中显著减少了不可接受的回答，优于传统RAG和长上下文方法。

Journal ref Advances in Artificial Intelligence IBERAMIA 2024, LNCS 15277, pp. 412 423, Springer (2025)

2605.14051 2026-05-15 cs.AI

SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

Yusuke Ozaki, Dhaval Patel

发表机构 * University at Albany（阿尔巴马大学）； IBM（国际商业机器公司）； Kwansei Gakuin University（关西大学）

AI总结该论文提出了一种名为SPIN的规划包装器，旨在解决工业任务中大型语言模型（LLM）规划阶段常出现的结构无效或冗余的问题。SPIN结合了验证的有向无环图（DAG）规划与基于前缀的执行控制，通过严格的DAG合同和修复提示生成可执行的计划，并在执行前逐步评估DAG前缀以提前终止任务。实验表明，SPIN在多个基准测试中有效减少了执行任务数量和工具调用次数，同时提升了任务完成率和相关性能指标。

Comments 31 pages, 10 figures

2605.14049 2026-05-15 cs.AI cs.CL cs.CY

Bridging Legal Interpretation and Formal Logic: Faithfulness, Assumption, and the Future of AI Legal Reasoning

Olivia Peiyu Wang, Leilani H. Gilpin

发表机构 * University of California, Santa Cruz（加州大学圣克鲁兹分校）

AI总结随着大型语言模型在法律实践中的应用日益广泛，其带来的潜力与风险并存。本文探讨了当前AI在法律推理中存在系统性假设性推理的问题，即模型常基于文本内容之外的假设得出结论，缺乏逻辑严谨性。为此，研究提出了一种结合大型语言模型表达能力和形式化验证严谨性的神经符号方法，旨在提升AI辅助法律推理的可靠性与可信度，从而在降低人工验证负担的同时满足法律实践对责任性的要求。

Comments 2 pages abstract accepted by Bloomberg LSLLAI 2026 Symposium

2605.14047 2026-05-15 cs.CV cs.AR

Evolving Layer-Specific Scalar Functions for Hardware-Aware Transformer Adaptation

Kieran Carrigg, Sigur de Vries, Amirhossein Sadough, Marcel van Gerven

发表机构 * Department of Machine Learning and Neural Computing（机器学习与神经计算系）； Donders Institute for Brain, Cognition, and Behaviour（大脑、认知与行为多纳尔斯研究所）

AI总结本文研究了如何在边缘设备上高效部署视觉Transformer（ViT），针对其因层归一化操作导致的计算复杂度和全局归约瓶颈问题，提出了一种基于遗传编程的硬件感知框架。该方法通过进化生成每层特定的标量函数，替代传统的归一化层，无需从头训练模型即可实现高性能适配。实验表明，该方法在保持图像分类精度的同时，显著降低了计算和内存开销，为ViT在边缘加速器上的部署提供了有效解决方案。

Comments 18 pages, 7 figures

2605.14045 2026-05-15 cs.CV

PVRF: All-in-one Adverse Weather Removal via Prior-modulated and Velocity-constrained Rectified Flow

Wei Dong, Han Zhou, Terry Ji, Guanhua Zhao, Shahab Asoodeh, Yulun Zhang, Guangtao Zhai, Jun Chen, Xiaohong Liu

发表机构 * McMaster University（麦斯特大学）； Shanghai Jiao Tong University（上海交通大学）

AI总结该论文提出了一种名为PVRF的统一框架，用于解决真实场景中复杂多变的恶劣天气去除问题。该方法结合了基于冻结视觉-语言模型的软天气感知模块和速度约束的修正流优化，通过属性调制归一化和天气加权适配器生成初始修复估计，并利用终端一致的残差修正流提升修复质量与稳定性。实验表明，PVRF在修复保真度和感知质量方面优于现有方法，且具有良好的跨数据集泛化能力。

Comments 10 pages, 9 figures, and 4 tables

2605.14040 2026-05-15 cs.CL

Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning

Shan Yang

发表机构 * Independent Researcher（独立研究者）

AI总结该研究审视了多模态物理推理评估流程中的潜在问题，揭示了训练-评估污染、翻译偏差和选择题饱和等三个未被察觉的问题，并提出了改进方案。研究构建了经过严格审计的多模态数据集和评估体系，显著提升了模型在物理推理任务中的表现。通过发布四个新数据集和一个基于Qwen3-VL的参考方法，该工作为视觉物理推理提供了更可靠的研究基准和训练资源。

Comments 10 pages, 3 tables. Project page: https://shanyang.me/physics-r1-page/

2605.14037 2026-05-15 cs.LG cs.CL

Self-Pruned Key-Value Attention: Learning When to Write by Predicting Future Utility

Gergely Szilvasy, Manuel Faysse, Maria Lomeli, Matthijs Douze, Pierre-Emmanuel Mazaré, Loïc Cabannes, Wen-tau Yih, Hervé Jégou

发表机构 * Meta FAIR

AI总结在现代语言模型处理长序列文本的背景下，键值缓存（KV cache）的内存占用和带宽限制成为高效生成的瓶颈。本文提出了一种自剪枝键值注意力机制（SP-KV），通过预测键值对的未来效用，动态地决定哪些键值对需要保留在全局缓存中，从而有效减少缓存大小。该方法在不显著影响模型性能的前提下，显著提升了内存使用效率和解码速度，并揭示了层和头级别的稀疏性模式，为设计混合局部-全局注意力架构提供了新思路。

Comments 28 pages, 8 figures, 8 tables

2605.14036 2026-05-15 cs.AI cs.CC cs.CL cs.LG

Enhanced and Efficient Reasoning in Large Learning Models

Leslie G. Valiant

发表机构 * John A. Paulson School of Engineering and Applied Sciences（约翰·A·保罗森工程与应用科学学院）

AI总结本文提出了一种高效且原理明确的推理方法，旨在提升大型语言模型在生成内容可信度方面的表现。该方法通过预处理阶段将数据编码为更明确描述对象关系的“Unary Relational Integracode”，随后结合标准的机器学习流程进行训练，从而在保留现有软硬件基础的同时实现更可靠的推理能力。该方法不仅适用于自然语言处理，还可拓展至视觉与动作等领域，并基于“鲁棒逻辑”理论，使得模型在单次或多次调用中都能进行更稳固的逻辑推理。

详情

英文摘要

In current Large Language Models we can trust the production of smoothly flowing prose on the basis of the principles of machine learning. However, there is no comparably principled basis to justify trust in the content of the text produced. It appears to be conventional wisdom that addressing this issue by adding more principled reasoning is not computationally affordable. Here we propose a principled method of reasoning that is efficient enough to be practical for large language models. Further, the method allows the retention of much of the currently used software and hardware base. Our method for improving the functioning of large language models consists of a first stage of preprocessing that recodes the data to a Unary Relational Integracode that is more explicit about the relationships among the objects described in the text, followed as a second stage by a standard but possibly streamlined machine learning process that then also learns to predict these relationships. The method may be viewed as realizing a world model and applying beyond natural language, to vision and actions, for example, where the multiple properties of an object referred to in an input are brought together explicitly, rather than remaining distributed in the various references to it in the input. We articulate its advantages in terms of Robust Logic, a system for performing principled chaining on learned, and hence uncertain, information. We show that this recoding has the surprising and fortuitous property that, while succinct, it makes the task of learning a core subset of relational rules that hold in the world described in the training data polynomial time learnable in a defined sense, the polynomial depending on the complexity of the rule. This gives support for sound reasoning within each single call of the learned classifier as well as between multiple calls.

URL PDF HTML ☆

赞 0 踩 0

2605.14034 2026-05-15 cs.AI cs.CL cs.CY

From Descriptive to Prescriptive: Uncover the Social Value Alignment of LLM-based Agents

Jinxian Qu, Qingqing Gu, Teng Chen, Luo Ji

发表机构 * Geely AI Lab（Geely人工智能实验室）

AI总结本文研究了基于大语言模型的智能体如何更好地与人类社会价值观对齐的问题，提出了一个基于价值的新型框架，利用GraphRAG将伦理原则转化为价值导向的指令，从而引导智能体在具体对话情境中做出符合预期的行为。通过引入马斯洛需求层次理论和普鲁奇克情绪轮来定义期望行为，实验表明该方法在DAILYDILEMMAS基准上显著优于基于提示的基线方法，为AI系统中自我情感的生成提供了理论基础。

Comments Accepted by CogSci 2026

2605.14033 2026-05-15 cs.AI cs.LG

Sheaf-Theoretic Transport and Obstruction for Detecting Scientific Theory Shift in AI Agents

David N. Olivieri, Roque J. Hernández

发表机构 * Universidade de Vigo, Department of Computer Science (LSI), Spain（维戈大学计算机科学系（LSI），西班牙）

AI总结本文研究了人工智能代理在科学理论转变时如何检测现有表征框架是否适用于新情境，或是否需要扩展。作者提出了一种基于有限sheaf理论的框架，通过运输与阻塞机制识别理论转变的候选情况，衡量不一致性的指标包括残差拟合、重叠不兼容性、约束违反等。该方法在控制实验中验证有效，能够区分理论变形与扩展，并为AI代理提供一种有限的诊断工具，以判断表征迁移失败时是否需要进行扩展。

2605.14031 2026-05-15 cs.SD cs.CV cs.LG

Masked Autoencoders with Limited Data: Does It Work? A Fine-Grained Bioacoustics Case Study

Wuao Liu, Mustafa Chasmai, Subhransu Maji, Grant Van Horn

发表机构 * University of Massachusetts Amherst（马萨诸塞大学阿姆赫斯特分校）

AI总结本文研究了在有限数据条件下，掩码自编码器（MAE）在生物声学细粒度物种分类任务中的有效性。通过在iNatSounds数据集上的系统实验，分析了预训练数据规模、领域特异性、数据筛选和迁移策略等因素的影响。研究发现，使用多样化通用音频数据预训练的模型在生物声学任务中表现最佳，而针对特定领域的额外预训练和数据筛选在小规模数据下效果有限，甚至可能降低性能。结果表明，在中等规模的细粒度生物声学场景中，预训练数据的规模比目标函数设计对模型性能影响更大。

Comments Workshop on Fine-Grained Visual Categorization (FGVC) at CVPR 2026. 8 pages, 6 figures

2605.14026 2026-05-15 cs.LG cs.AI

R2R2: Robust Representation for Intensive Experience Reuse via Redundancy Reduction in Self-Predictive Learning

Sanghyeob Song, Donghyeok Lee, Jinsik Kim, Sungroh Yoon

发表机构 * Interdisciplinary Program in Artificial Intelligence, Seoul National University（人工智能交叉学科项目，首尔国立大学）； Department of Electrical and Computer Engineering, Seoul National University（电子与计算机工程系，首尔国立大学）

AI总结在数据稀缺的现实机器人等强化学习场景中，密集的数据复用虽能提升效率，但易导致过拟合。为解决自预测学习（SPL）在高更新与数据比（UTD）条件下表示层不稳定的问题，本文提出了一种通过冗余减少实现鲁棒表示的方法R2R2。该方法通过理论分析指出标准零中心化与SPL的谱特性存在冲突，并设计了非中心化的正则化目标，实验表明R2R2有效缓解了过拟合问题，在多个连续控制任务中显著提升了算法性能。

Comments Accepted at the Forty-Third International Conference on Machine Learning (ICML 2026). This is the camera-ready version

2605.14004 2026-05-15 cs.AI

Conditional Attribute Estimation with Autoregressive Sequence Models

Erica Stutz, Giacomo Marino, Daniella Meeker, Qiao Liu, Andrew J. Loza

发表机构 * Department of Biomedical Informatics and Data Science（生物医学信息学与数据科学系）； Yale University（耶鲁大学）； Department of Biostatistics（生物统计学系）； Department of Pediatrics（儿科系）

AI总结本文提出了一种名为“条件属性变换器”的新方法，用于在生成模型中联合估计下一个词的概率以及在每个潜在下一个词选择下的属性值。该方法能够在单次前向计算中实现三个关键功能：逐词归因、反事实分析和可控生成，无需修改输入序列。该方法在稀疏奖励任务中表现出色，提升了大模型的下一个词预测能力，并显著加快了属性概率的估计速度，适用于多种语言任务的生成引导。

2605.14002 2026-05-15 cs.AI

PolitNuggets: Benchmarking Agentic Discovery of Long-Tail Political Facts

Yifei Zhu

发表机构 * The University of Hong Kong（香港大学）

AI总结本文提出 PolitNuggets，一个多语言基准，用于评估智能体在开放环境中发现和综合长尾政治事实的能力。该基准通过构建400位全球政要的生平，涵盖超过10000个政治事实，引入优化的多智能体系统和FactNet协议，从发现性、准确性与效率三个维度进行标准化评估。研究发现当前模型在细节处理和效率上存在较大差异，并揭示了智能体性能与模型基础能力之间的关系，突显了短上下文提取、多语言鲁棒性与工具使用可靠性的重要性。

Comments 24 pages, 7 figues, accpeted in The 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026)

2605.13999 2026-05-15 cs.LG

Support Before Frequency in Discrete Diffusion

Adrian Müller, Antoine Gonon, Zebang Shen, Ya-Ping Hsieh, Niao He

发表机构 * ETH Zürich（苏黎世联邦理工学院）； EPFL（苏黎世联邦理工学院）； Academia Sinica（台湾“中央研究院”）

AI总结本文研究了离散扩散模型在语言建模中的学习机制，发现其去噪目标在学习过程中存在一个从粗粒度支持信息到细粒度频率信息的层次结构。通过理论分析与实验验证，作者证明在小噪声条件下，单个标记的逆向编辑可分为主导尺度（决定是否接近数据支持，如语法正确的句子）和更细粒度的系数（决定同一尺度内的概率分布）。研究指出，模型首先学习数据支持结构，随后才学习数据频率分布，这一分离现象在均匀扩散和吸收扩散中表现出不同的特性。

2605.13997 2026-05-15 cs.LG cs.AI cs.CL

HodgeCover: Higher-Order Topological Coverage Drives Compression of Sparse Mixture-of-Experts

Tao Zhong, Dongzhe Zheng, Christine Allen-Blanchette

发表机构 * Princeton University（普林斯顿大学）

AI总结本文研究了稀疏专家混合（MoE）层的无学习压缩问题，指出现有方法在处理专家合并时存在结构性盲点，即三个两两兼容的专家可能形成无法合并的循环结构。为此，作者引入了基于单纯复形拉普拉斯算子的调和核概念，提出HodgeCover方法，通过覆盖关键边和三角形结构实现专家选择，并结合权重剪枝进一步提升压缩效果。实验表明，HodgeCover在专家大幅减少的情况下表现优异，优于现有无学习方法，并在压缩效率与质量之间实现了良好平衡。

Comments 34 pages, 8 figures

AI 大模型

视觉与机器人

科学与医疗