arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2604.15664 2026-05-13 cs.LG cs.AI

Stargazer: A Scalable Model-Fitting Benchmark Environment for AI Agents under Astrophysical Constraints

Xinge Liu, Terry Jingchen Zhang, Bernhard Schölkopf, Zhijing Jin, Kristen Menou

发表机构 * University of Toronto（多伦多大学）； Vector Institute（向量研究所）； Max Planck Institute for Intelligent Systems（智能系统马克斯·普朗克研究所）； ELLIS Institute Tübingen（图宾根ELLIS研究所）

AI总结本文介绍了 Stargazer，一个用于评估人工智能代理在天体物理约束下进行动态模型拟合任务的可扩展基准环境。该环境基于径向速度时间序列数据，包含120个任务，涵盖从高信噪比单行星系统到复杂低信噪比多行星系统的多种场景，并包含20个真实档案案例。研究发现，尽管现有前沿代理在统计拟合上表现良好，但在物理参数恢复方面仍存在显著不足，且增加计算资源带来的提升有限。Stargazer 为训练和评估人工智能代理在实际科研相关模型拟合问题上的能力提供了重要平台。

2604.14717 2026-05-13 cs.AI cs.CR cs.CY cs.LG

Layered Mutability: Continuity and Governance in Persistent Self-Modifying Agents

Krti Tallam

发表机构 * Kamiwaza AI

AI总结本文提出“分层可变性”框架，用于分析持续自我修改语言模型代理在预训练、对齐、自我叙述、记忆和权重适应五个层面中的行为演化过程。研究指出，当内部变化迅速、耦合性强、不可逆且难以观测时，治理难度显著增加，导致行为影响层与人类可观察层之间出现系统性不匹配。通过引入漂移、治理负载和滞后等量化指标，并结合实验验证，论文揭示了这类代理的主要失效模式并非突变失准，而是由局部合理更新累积引起的“组合漂移”问题。

Comments 17 pages, 2 figures, 3 tables. self-modifying agents; AI governance; identity drift; persistent memory; runtime adaptation; model editing Primary: cs.AI Cross-list: cs.LG, cs.CY

2604.12928 2026-05-13 cs.CL eess.AS

MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models

Chung-Ming Chien, Manu Orsini, Eugene Kharitonov, Neil Zeghidour, Karen Livescu, Alexandre Défossez

发表机构 * Toyota Technological Institute at Chicago（丰田技术研究所（芝加哥））

AI总结本文提出了一种名为MoshiRAG的异步知识检索方法，用于提升全双工语音语言模型的事实准确性。该方法通过结合紧凑的全双工接口与选择性检索机制，使模型能够在保持实时交互性的同时，访问更强大的知识源。实验表明，MoshiRAG在事实性方面达到非全双工模型的水平，并且支持灵活的检索模块替换，表现出良好的跨领域推理能力。

Comments Accepted to ICML 2026

2604.12923 2026-05-13 cs.CV

Pi-HOC: Pairwise 3D Human-Object Contact Estimation

Sravan Chittupalli, Ayush Jain, Dong Huang

发表机构 * Carnegie Mellon University, Robotics Institute（卡内基梅隆大学机器人研究所）； National Robotics Engineering Center（国家机器人工程中心）

AI总结本文提出了一种名为Pi-HOC的单次推理、实例感知的框架，用于预测图像中所有人类-物体对的密集3D语义接触。该方法通过检测实例并为每对人-物生成专用的标记，结合InteractionFormer进行优化，再利用基于SAM的解码器在SMPL人体网格上预测密集接触点。实验表明，Pi-HOC在多个数据集上显著提升了接触估计的准确性和定位能力，并且推理效率提高了20倍，同时还能通过测试时优化算法提升3D图像到网格的重建效果，并支持基于语言查询的参考接触预测。

2604.11048 2026-05-13 cs.CL cs.AI

A Systematic Analysis of the Impact of Persona Steering on LLM Capabilities

Jiaqi Chen, Ming Wang, Tingna Xie, Shi Feng, Yongkang Liu

发表机构 * School of Computer Science and Engineering, Northeastern University, Shenyang 110819, China（东北大学计算机科学与工程学院，沈阳 110819，中国）； School of Computing and Information Systems, Singapore Management University, Singapore 178902, Singapore（新加坡管理大学计算机与信息系统学院，新加坡 178902，新加坡）； School of Computer and Communication Engineering, Northeastern University, Qinhuangdao 066004, China（东北大学计算机与通信工程学院，秦皇岛 066004，中国）

AI总结本文系统分析了在大型语言模型中引入特定人格特质对其认知能力的影响。研究采用基于神经元的人格特质诱导框架（NPTI），在六个认知基准任务中评估五大人格特质对模型性能的影响，发现人格诱导不仅改变了交互风格，还导致认知任务表现的稳定变化，并且这种影响因任务类型和人格特质不同而有所差异。研究还提出了一种轻量级的动态人格路由策略（DPR），能够在无需额外训练的情况下优于固定人格设置。

2604.06779 2026-05-13 cs.AI

VASR: Variance-Aware Systematic Resampling for Reward-Guided Diffusion

Shivanshu Shekhar, Sagnik Mukherjee, Jia Yi Zhang, Tong Zhang

发表机构 * Siebel School of Computing and Data Science（计算与数据科学学院）； Department of Statistics（统计学系）； University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）

AI总结该论文提出了一种名为VASR的方差感知系统重采样方法，用于解决奖励引导扩散模型中的系统采样（SMC）粒子系谱快速崩溃问题。通过将延续方差与残差方差分离，研究揭示了传统多项式重采样导致的高后代数量方差是崩溃的主要原因，并提出基于方差最优质量分配和系统重采样的改进方法。VASR及其变体VASR-Max在多个任务中表现出更优的样本质量和更高的计算效率，且无需训练、可并行处理。

2604.06485 2026-05-13 cs.LG cs.AI

Inference-Time Code Selection via Symbolic Equivalence Partitioning

David Cho, Yifan Wang, Fanping Sui, Ananth Grama

发表机构 * Texas Instruments（德州仪器）

AI总结该论文研究了如何在推理阶段从大型语言模型生成的多个候选程序中有效选择正确解的问题。作者提出了一种基于符号等价划分（SEP）的方法，利用问题提供的公共示例作为有效性信号，并通过符号执行将候选程序划分为功能等价类，从而选择最可能正确的解。实验表明，该方法在多个基准上显著提升了代码选择的准确性，无需额外测试生成或学习验证器。

2604.04894 2026-05-13 cs.CL cs.AI cs.LG

Asymmetric Advantage Modulation Calibrates Entropy Dynamics in RLVR

Hengrui Gu, Xiaotian Han, Yujing Bian, Feiyi Wang, Kaixiong Zhou

发表机构 * North Carolina State University（北卡罗来纳州立大学）； Case Western Reserve University（凯斯西储大学）； Oak Ridge National Laboratory（橡树岭国家实验室）

AI总结在可验证奖励强化学习（RLVR）中，大型语言模型（LLMs）的推理能力虽有所提升，但常因探索受限而难以获得多样化解。本文提出一种新的熵动态调节方法——AsymGRPO，通过将优势估计器分解为正负通道，分别调控有益熵和噪声熵，从而更精细地引导模型学习。该方法在多个数学推理任务中表现出色，显著优于现有RLVR基线方法。

2604.03701 2026-05-13 cs.CV

VidNum-1.4K: A Comprehensive Benchmark for Video-based Numerical Reasoning

Shaoyang Cui, Lingbei Meng

发表机构 * Department of Psychological and Cognitive Sciences, Tsinghua University（清华大学心理与认知科学系）； Shenzhen Loop Area Institute（深圳环园研究院）

AI总结 VidNum-1.4K 是一个用于评估视频中数值推理能力的综合性基准数据集，包含1,379个人工标注的视频问答对，覆盖多种复杂场景，旨在测试视觉语言模型对时间事件、物体持续性和组合逻辑的理解。该基准采用三级结构，从直接视觉感知逐步过渡到多步骤数值推理，要求模型进行算术运算、比较和逻辑推断。实验表明，当前最先进的模型在该任务上仍存在较大性能差距，凸显出视频数值推理任务的挑战性与现有模型的不足。

Comments 7 pages, 5 figures, under review at ACMMM 2026 Dataset Track

2603.28561 2026-05-13 cs.RO cs.AI

Fine-Tuning Large Language Models for Cooperative Tactical Deconfliction of Small Unmanned Aerial Systems

Iman Sharifi, Alex Zongo, Peng Wei

发表机构 * George Washington University（乔治华盛顿大学）

AI总结随着小型无人机系统在低空空域的广泛应用，如何在安全约束下实现可靠的战术避撞成为亟需解决的问题。本文研究了通过微调大语言模型（LLM）来实现多智能体协同避撞的方法，提出了一种基于BlueSky模拟器的仿真到语言数据生成流程，生成符合航空安全规则的避撞数据集，并采用低秩适配（LoRA）和基于偏好的微调策略对预训练模型进行优化。实验表明，该方法显著提升了避撞决策的准确性、一致性及避撞性能，有效减少了近距空中冲突的发生。

Comments 15 pages, 6 figures, to be published in CVPR 2026 Workshop Proceedings

2603.28488 2026-05-13 cs.CL cs.AI cs.MA

Courtroom-Style Multi-Agent Debate with Progressive RAG and Role-Switching for Controversial Claim Verification

Masnun Nuha Chowdhury, Nusrat Jahan Beg, Umme Hunny Khan, Syed Rifat Raiyan, Md Kamrul Hasan, Hasan Mahmud

发表机构 * Systems and Software Lab (SSL), Department of Computer Science and Engineering（系统与软件实验室（SSL），计算机科学与工程系）

AI总结该研究针对大语言模型在高风险声明验证中的不可靠问题，提出了一种基于法庭辩论风格的多智能体框架PROClaim，通过引入角色分工和渐进式检索增强生成（P-RAG）方法，提升证据检索与推理的深度与准确性。该方法通过结构化辩论流程、证据协商及多法官异构聚合，有效增强了系统校准能力与鲁棒性，在零样本测试中表现出优于传统多智能体辩论10个百分点的性能，验证了其在争议性声明验证中的有效性。

Comments Under review, 7 figures, 12 tables

2603.27358 2026-05-13 cs.CL

Not Worth Mentioning? A Pilot Study on Salient Proposition Annotation

Amir Zeldes, Katherine Conhaim, Lauren Levine

发表机构 * Department of Linguistics Georgetown University（语言学系圾顿大学）

AI总结本文探讨了如何在自然文本中对命题的显著性进行分级标注的问题。研究借鉴了基于摘要的显著性度量方法，并将其应用于命题层面，定义了相应的标注任务。通过在一个多体裁小规模数据集上的实验，验证了该方法的可行性，并初步探讨了其与话语结构理论中核心话语单元之间的关系。

2603.24652 2026-05-13 cs.CL cs.LG

Demystifying When Pruning Works via Representation Hierarchies

Shwai He, Guoheng Sun, Haichao Zhang, Yun Fu, Ang Li

发表机构 * University of Maryland, College Park, USA（美国马里兰大学学院公园分校）； Northeastern University, USA（美国东北大学）

AI总结该研究探讨了网络剪枝在不同语言任务中的效果差异，发现剪枝对非生成任务（如检索和多选）效果较好，但在生成任务中常导致性能下降。通过分析语言模型的表示层次结构，研究将模型内部计算分解为嵌入、logit和概率三个空间，发现嵌入和logit空间对剪枝具有较强鲁棒性，但logit到概率的非线性变换会放大剪枝带来的偏差，进而影响生成质量。该分析揭示了剪枝效果任务差异的内在机制，并为实际应用提供了指导。

Comments ICML 2026. 24 pages, 21 figures, and 3 tables. Includes an appendix with supplementary experiments and derivations

2603.24033 2026-05-13 cs.LG

SRG: Score-based Relaxation-guided Generation for Mixed Integer Linear Programming

Ruobing Wang, Xin Li, Yujie Fang, Mingzhong Wang

发表机构 * Beijing Institute of Technology, Beijing, China（北京理工大学）； University of the Sunshine Coast（阳光海岸大学）

AI总结本文提出了一种基于分数松弛引导的生成框架SRG，用于解决混合整数线性规划问题。该方法通过近似松弛引导的随机微分方程，结合基于Transformer的分数网络，将可行性和最优性信号融入生成模型中，从而在解空间中生成高质量的可行解。SRG在推理时无需额外引导模块即可直接采样多样解，并用于构建紧凑的信任区域子问题，实验表明其在多个基准测试中表现优异，尤其在生成候选解的困难场景中具有明显优势，并展现出良好的跨尺度和跨问题的零样本迁移能力。

2603.23878 2026-05-13 cs.LG cs.AI cs.LO

The Luna Bound Propagator for Formal Analysis of Neural Networks

Henry LeCates, Haoze Wu

发表机构 * Amherst College（阿默斯特学院）

AI总结本文提出了一种基于抽象解释的边界传播方法Luna，用于神经网络的形式化分析。Luna采用C++实现，支持区间边界传播、DeepPoly/CROWN分析以及alpha-CROWN分析，适用于一般的计算图结构。实验表明，Luna在VNN-COMP 2025基准测试中，在边界精度和计算效率方面均优于现有的alpha-CROWN实现。

Comments 32 pages, 29 Figures

2603.11383 2026-05-13 cs.RO cs.AI

Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics

Hendrik Chiche, Antoine Jamme, Trevor Rigoberto Martinez, Gabriel Gomes

发表机构 * OMGrab Inc.（OMGrab公司）； University of California, Berkeley（加州大学伯克利分校）； Fung Institute for Engineering Leadership（工程领导力基金会）

AI总结该研究提出了一种基于视觉的手部阴影逆运动学（IK）重定向方法，用于低成本机械臂的远程操作。通过单目RGB-D相机捕捉手部动作，结合深度感知和坐标变换，生成机械臂关节指令，并通过阻尼最小二乘法求解逆运动学问题，实现了对SO-ARM101机械臂的控制。实验表明，该方法在结构化环境中取得了较高的成功率，并在真实场景中通过引入替代手部检测器提升了鲁棒性，揭示了无标记手部重定向方法的潜力与当前局限。

Comments v2: accepted at IEEE Access (2026); minor revisions per peer review, added WiLoR occlusion-mitigation experiment, error analysis, EMA ablation, and author photos

2603.10281 2026-05-13 cs.LG cs.AI cs.CV

Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework

Rajesh Shrestha, Xiao Fu

发表机构 * School of EECS（电子工程与科学学院）

AI总结本文研究了如何将基于分数的去噪器有效集成到ADMM优化算法中，以解决逆问题。针对训练数据流形与ADMM迭代几何不匹配以及收敛性缺乏保证的两个核心挑战，提出了一种新的ADMM-PnP框架，引入包含自动校正、方向校正和分数去噪三阶段的AC-DC去噪器。理论分析表明该框架在适当参数下具有弱非扩张性，保证了固定点球收敛，并在更宽松条件下支持自适应步长的收敛性。实验表明该方法在多种逆问题中优于现有基线。

2603.09678 2026-05-13 cs.AI cs.LG cs.SE

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Aman Sharma, Paras Chopra

发表机构 * Lossfunk

AI总结本文提出EsoLang-Bench，一个用于评估大语言模型在陌生编程语言中真实推理能力的基准测试，采用五种小众编程语言（如Brainfuck、Befunge-98等）作为测试语言。这些语言虽然图灵完备，但与主流语言（如Python、JavaScript）相比，在预训练语料中出现频率极低，且缺乏实际应用价值，因此能有效检验模型的分布外泛化能力。实验表明，当前最先进的模型在主流语言任务中表现优异，但在小众语言任务中准确率大幅下降，揭示了模型在跨语言泛化方面仍存在显著差距。

Comments 45 pages, 8 figures, preprint

2603.07388 2026-05-13 cs.LG cs.AI

Sparsity and Out-of-Distribution Generalization

Scott Aaronson, Lin Lin Lee, Jiawei Li

发表机构 * UT Austin（德克萨斯大学奥斯汀分校）

AI总结本文探讨了模型在分布外（OOD）场景下的泛化能力，提出了一种基于稀疏性的理论解释。研究认为，世界通过区分特征呈现，而稀疏假设（即依赖尽可能少的特征）更符合奥卡姆剃刀原则，并能在训练分布与测试分布足够重叠的特征上实现泛化。文章给出了一个形式化定理，扩展了经典样本复杂度界，并将稀疏分类器推广到子空间合取函数，为理解AI对齐中的泛化问题提供了新视角。

2603.04352 2026-05-13 cs.RO cond-mat.mtrl-sci

A Soft Robotic Demonstration in the Stratosphere

Codrin Tugui, Tirth Thakar, Anatol Gogoj, Alexander White, Ang Leo Li, Alexander Yin, Edward Pomianek, Mihai Duduta

发表机构 * University of Connecticut, School of Mechanical, Aerospace, and Manufacturing Engineering（康奈尔大学机械、航空航天与制造工程学院）； Institute of Macromolecular Chemistry Petru Poni（彼得·波尼宏观分子化学研究所）； University of Toronto, Department of Mechanical and Industrial Engineering（多伦多大学机械与工业工程系）

AI总结该研究针对在极端环境如平流层中运行的软体机器人所面临的耐压、耐温及适应性挑战，提出了一种新型硅橡胶交联方法。通过紫外光引发的铂催化反应，实现了硅橡胶的快速固化与优异电致动性能，显著提升了介电弹性体致动器在极端温度和真空条件下的可靠性。研究通过高空气球实验验证了该材料在类太空环境中的有效性，为未来软体机器人在空间探索等领域的应用提供了新材料解决方案。

2602.22586 2026-05-13 cs.LG cs.AI cs.CL

TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion

Donghong Cai, Jiarui Feng, Yanbo Wang, Da Zheng, Yixin Chen, Muhan Zhang

发表机构 * Washington University in St. Louis（华盛顿大学圣路易斯分校）； Peking University（北京大学）； Ant Group（蚂蚁集团）

AI总结本文提出了一种名为 TabDLM 的统一框架，用于生成包含自由形式文本和结构化数值、类别属性的异构表格数据。该方法结合了掩码扩散语言模型与连续扩散过程，通过双向注意力机制实现文本与数值特征的跨模态交互，有效克服了传统扩散模型和大语言模型在处理异构数据时的局限性。实验表明，TabDLM 在多个基准数据集上表现优异，优于现有的扩散模型和基于大语言模型的生成方法。

Comments Preprint

2602.22507 2026-05-13 cs.LG cs.CV

Space Syntax-guided Post-training for Residential Floor Plan Generation

Zhuoyang Jiang, Dongqing Zhang

发表机构 * College of Architecture and Urban Planning, Tongji University（同济大学建筑与城市规划学院）； Information Hub, The Hong Kong University of Science and Technology (Guangzhou)（香港科学与技术大学（广州）信息中心）

AI总结本文研究了住宅平面图生成中空间配置逻辑的优化问题，提出了一种基于空间句法的后训练框架SSPT，通过引入空间句法集成预言机（SSIO）对生成的平面图进行配置质量评估，并将其作为反馈信号指导模型优化。该方法包括两种策略：基于迭代训练的SSPT-Iter和基于强化学习的SSPT-PPO，并构建了新的评估基准SSPT-Bench。实验表明，该方法有效提升了生成平面图的公共空间主导性和功能层级一致性，尤其SSPT-PPO在提升效果和效率方面表现更优。

2602.19770 2026-05-13 cs.LG cs.AI

The Confusion is Real: GRAPHIC -- A Network Science Approach to Confusion Matrices in Deep Learning

Johanna S. Fröhlich, Bastian Heinlein, Jan U. Claar, Hans Rosenberger, Vasileios Belagiannis, Ralf R. Müller

发表机构 * Friedrich-Alexander-Universität Erlangen-Nürnberg（弗里德里希-亚历山大-埃朗根-纽伦堡大学）； Technical University of Darmstadt（达姆施塔特技术大学）

AI总结本文提出了一种名为GRAPHIC的方法，用于分析深度学习模型中类别之间的混淆情况。该方法基于网络科学，将中间层的混淆矩阵解释为有向图的邻接矩阵，从而可视化和量化训练过程中的学习动态。GRAPHIC能够揭示类别可分性、数据集问题及网络结构行为，为理解神经网络的学习过程提供了新的视角。

Comments Transactions on Machine Learning Research, 2026

2602.13267 2026-05-13 cs.CV cs.RO eess.IV

SOAR: Regression-based LiDAR Relocalization for UAVs

Hengyu Mu, Jianshi Wu, Yuxin Guo, XianLian Lin, Qingyong Hu, Sheng Ao, Chenglu Wen, Cheng Wang

发表机构 * Fujian Key Laboratory of Sensing and Computing for Smart Cities, Xiamen University（厦门大学智慧城市感知与计算重点实验室）； Key Laboratory of Multimedia Trusted Perception and Efficient Computing, Ministry of Education of China, Xiamen University（中国教育部多媒体可信感知与高效计算重点实验室）； Department of Computer Science at the University of Oxford（牛津大学计算机科学系）

AI总结本文提出SOAR，一种基于回归的无人机激光雷达重定位框架，旨在解决在无GNSS环境下无人机高精度定位的问题。为应对无人机场景中姿态变化大、飞行路径不规则等挑战，SOAR引入了局部保持的滑动窗口注意力模块和局部不变的位置编码，以增强对视角变化的鲁棒性，并设计了坐标无关的特征初始化模块以减少对全局变换的敏感性。此外，作者构建了一个包含4个场景和13条不规则路径的大规模无人机激光雷达定位数据集，显著提升了无人机重定位研究的现实基准。实验表明，SOAR在定位成功率和误差指标上均达到先进水平。

Comments 24 pages, 14 figures

2602.13004 2026-05-13 cs.LG stat.ML

Towards Uncertainty-Aware Federated Granger Causal Learning

Ayush Mohanty, Nazal Mohamed, Nagi Gebraeel

发表机构 * Georgia Institute of Technology（佐治亚理工学院）

AI总结该研究旨在解决联邦格兰杰因果学习中缺乏不确定性感知的问题，提出了一种能够量化跨客户端因果关系不确定性的方法。通过分析联邦学习框架中不确定性传播的机制，作者推导了客户端与服务器之间协方差的闭式递推公式，并建立了基于谱半径的收敛条件，从而获得了稳态方差的解析表达式。实验表明，该方法能有效区分真实的跨客户端因果关系与虚假连接，优于现有联邦因果结构学习方法。

Comments Manuscript under review

2602.07892 2026-05-13 cs.LG cs.CL

Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection

Guanglong Sun, Siyuan Zhang, Liyuan Wang, Jun Zhu, Hang Su, Yi Zhong

发表机构 * School of Life Sciences, IDG/McGovern Institute for Brain Research（生命科学学院，IDG/麦戈文脑科学研究所）； Dept. of Comp. Sci. and Tech., Institute for AI, Tsinghua-Bosch Joint ML Center, THBI Lab, BNRist Center（计算机科学与技术系，人工智能研究所，清华大学-博世联合机器学习中心，THBI实验室，BNRist中心）； Tsinghua University, Beijing, China（清华大学，北京，中国）

AI总结该研究将安全对齐问题视为持续学习过程，旨在缓解大型语言模型在安全微调过程中可能产生的“对齐税”问题，即安全性能提升带来的通用能力下降。研究提出了一种名为OGPSA的方法，通过正交梯度投影技术，从通用能力数据中估计低秩参考子空间，并从安全梯度中去除该子空间的成分，从而在保证安全目标优化的同时减少对通用能力的负面影响。实验表明，OGPSA在多种微调设置下有效提升了安全与实用性的平衡，且兼容主流微调流程。

2602.07668 2026-05-13 cs.CV cs.AI cs.LG cs.RO

Looking and Listening Inside and Outside: Multimodal Artificial Intelligence Systems for Driver Safety Assessment and Intelligent Vehicle Decision-Making

Ross Greer, Laura Fleig, Maitrayee Keskar, Erika Maquiling, Giovanni Tapia Lopez, Angel Martinez-Sanchez, Parthib Roy, Jake Rattigan, Mira Sur, Alejandra Vidrio, Thomas Marcotte, Mohan Trivedi

发表机构 * Machine Intelligence, Interaction, and Imagination (Mi3) Laboratory（机器智能、交互与想象实验室）； Laboratory for Intelligent and Safe Automobiles (LISA)（智能与安全汽车实验室）； Johns Hopkins University（约翰霍普金斯大学）； Center for Medicinal Cannabis Research (CMCR)（医药大麻研究中心）

AI总结该研究提出了一种融合视觉与音频信息的多模态框架L-LIO，用于提升智能车辆中的驾驶员状态评估与环境理解能力。通过引入音频信号，增强对驾驶员、乘客及车外人员状态的感知，从而在安全气囊部署、自动驾驶接管时间预测等场景中提供更全面的信息支持。实验表明，音频在复杂或语境丰富的场景中能提供关键的安全相关信息，为智能车辆决策系统提供了新的干预路径。

详情

英文摘要

The looking-in-looking-out (LILO) framework has enabled intelligent vehicle applications that understand both the outside scene and the driver state to improve safety outcomes, with examples in smart airbag deployment, takeover time prediction in autonomous control transitions, and driver attention monitoring. In this research, we propose an augmentation to this framework, making a case for the audio modality as an additional source of information to understand the driver, and in the evolving autonomy landscape, also the passengers and those outside the vehicle. We expand LILO by incorporating audio signals, forming the looking-and-listening inside-and-outside (L-LIO) framework to enhance driver state assessment and environment understanding through multimodal sensor fusion. We evaluate three example cases where audio enhances vehicle safety: supervised learning on driver speech audio to classify potential impairment states (e.g., intoxication), collection and analysis of passenger natural language instructions (e.g., "turn after that red building") to motivate how spoken language can interface with planning systems through audio-aligned instruction data, and limitations of vision-only systems where audio may disambiguate the guidance and gestures of external agents. Datasets include custom-collected in-vehicle and external audio samples in real-world environments. Pilot findings show that audio yields safety-relevant insights, particularly in nuanced or context-rich scenarios where sound is critical to safe decision-making or visual signals alone are insufficient. Challenges include ambient noise interference, privacy considerations, and robustness across human subjects, motivating further work on reliability in dynamic real-world contexts. L-LIO augments driver and scene understanding through multimodal fusion of audio and visual sensing, offering new paths for safety intervention.

URL PDF HTML ☆

赞 0 踩 0

2602.06412 2026-05-13 cs.CL cs.LG

Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding

Daisuke Oba, Danushka Bollegala, Masahiro Kaneko, Naoaki Okazaki

发表机构 * Institute of Science Tokyo（东京科学研究所）； University of Liverpool（利物浦大学）； Amazon（亚马逊）； MBZUAI

AI总结该研究针对掩码扩散语言模型（Masked Diffusion-LM）在生成过程中重复计算已稳定位置的问题，提出了一种名为SureLock的优化方法。通过在后验分布稳定时锁定该位置，跳过其后续的计算步骤并缓存其注意力键值，从而显著降低计算复杂度。实验表明，该方法在保持生成质量的同时，可减少30%到50%的算法浮点运算量。

Comments Accepted to ICLR 2026

2602.06339 2026-05-13 cs.RO cs.AI

Action Hallucination in Generative Vision-Language-Action Models

Harold Soh, Eugene Lim

发表机构 * Department of Computer Science, School of Computing（计算机科学系，计算系）； Smart Systems Institute（智能系统研究所）

AI总结该论文研究了生成式视觉-语言-动作模型在机器人领域中可能出现的动作幻觉问题，即模型生成违反物理约束的动作，进而导致计划层面的失败。研究分析了这类幻觉的成因，指出其源于可行机器人行为与常见模型结构之间的结构性不匹配，并探讨了拓扑、精度和时间跨度三个关键障碍所带来的不可避免的权衡。该工作为生成式机器人策略的失效提供了机制性解释，并为提升其可靠性与可信度指明了理论方向。

Comments 24 pages; updated setup with minor changes to proofs. changed template

2602.04042 2026-05-13 cs.LG stat.ME stat.ML

Partition Tree: Conditional Density Estimation over General Outcome Spaces

Felipe Angelim, Alessandro Leite

发表机构 * Independent Researcher（独立研究者）； INSA Rouen Normandy（里昂大学鲁昂分校）； Normandy University（诺曼底大学）； LITIS Rouen（鲁昂LITIS实验室）

AI总结本文提出了一种名为 Partition Tree 的新型树状框架，用于在一般结果空间上进行条件密度估计，能够统一处理连续和分类变量。该方法通过数据自适应划分将条件分布建模为分段常数密度，并直接最小化条件负对数似然来学习树结构，提供了一种无需参数假设的可扩展非参数替代方案。此外，文章还引入了 Partition Forest，通过平均条件密度实现对 Partition Tree 的袋外扩展，并在实验中展示了其在概率预测方面的优越性和与最新方法的竞争力。

Comments Code available at https://github.com/felipeangelimvieira/partition_tree

AI 大模型

视觉与机器人

科学与医疗