arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.11520 2026-05-13 cs.CV cs.AI

PointGS: Semantic-Consistent Unsupervised 3D Point Cloud Segmentation with 3D Gaussian Splatting

Yixiao Song, Qingyong Li, Wen Wang, Zhicheng Yan

发表机构 * Key Laboratory of Big Data & Artificial Intelligence in Transportation (Beijing Jiaotong University), Ministry of Education（大数据与人工智能在交通运输中的关键实验室（北京交通大学），教育部）； Frontiers Science Center for Smart High-speed Railway System, Beijing Jiaotong University（智能高速铁路系统前沿科学中心，北京交通大学）

AI总结本文提出了一种名为PointGS的无监督3D点云分割方法，旨在解决传统监督方法依赖密集标注带来的高昂成本问题。该方法通过3D高斯溅射技术构建统一的中间表示，弥合了离散点云与连续图像之间的域差距，并利用多视角重建与语义蒸馏策略，实现了跨视角语义的一致性分配。实验表明，PointGS在多个基准数据集上优于现有无监督方法，显著提升了分割性能。

Comments Accepted by Computer Vision and Pattern Recognition (CVPR) 2026

2605.11519 2026-05-13 cs.AI cs.CL cs.LG

Controllable User Simulation

Guy Tennenholtz, Ofer Meshi, Amir Globerson, Uri Shalit, Jihwan Jeong, Craig Boutilier

发表机构 * Google Research（谷歌研究）； Tel Aviv University（特拉维夫大学）

AI总结本文研究如何构建可控的用户模拟器，以更准确地评估对话代理的行为。作者将可控模拟问题形式化为因果推断问题，指出传统基于监督微调的方法会引入结构偏差，导致评估指标方差急剧上升，即“可控性崩溃”。为此，作者提出了基于因果一致性的理论条件和一系列实用训练方法，实验表明其方法能有效消除前瞻偏差，保持对话多样性，并具备对未知代理行为的鲁棒泛化能力。

2605.11513 2026-05-13 cs.CL cs.AI

A Study on Hidden Layer Distillation for Large Language Model Pre-Training

Maxime Guigon, Lucas Dixon, Michaël E. Sander

发表机构 * Google DeepMind（谷歌深Mind）

AI总结本文研究了隐藏层蒸馏（HLD）在大规模语言模型预训练中的应用，指出当前知识蒸馏主要依赖输出logits，而忽视了教师模型中间层的语义信息。通过对比实验，作者发现HLD在下游任务上的表现并不一致优于传统基于logits的蒸馏方法，但在所有共享超参数配置下，HLD在困惑度上均有所提升，表明其可能蕴含潜在价值，但尚未成为预训练中的主流方法。

2605.11509 2026-05-13 cs.AI cs.LG cs.MA cs.SY eess.SY

Hierarchical LLM-Driven Control for HAPS-Assisted UAV Networks: Joint Optimization of Flight and Connectivity

Zijiang Yan, Hao Zhou, Wael Jaafar, Jianhua Pei, Ping Wang, Halim Yanikomeroglu, Hina Tabassum

发表机构 * Department of Electrical Engineering and Computer Science, York University（约克大学电气工程与计算机科学系）； Samsung Research America（三星美国研究院）； Department of Software and IT Engineering, École de technologie supérieure (ÉTS), University of Quebec（魁北克大学软件与信息技术工程系，École de technologie supérieure）； Non-Terrestrial Networks (Carleton-NTN) Lab and the Department of Systems and Computer Engineering, Carleton University（非地面网络（Carleton-NTN）实验室和系统与计算机工程系，卡尔顿大学）

AI总结本文研究了在融合地面与非地面网络（ITNTN）环境下，无人机（UAV）的飞行控制与通信连接的联合优化问题。为解决动态且部分可观测条件下的多无人机协同问题，作者提出了一种基于大语言模型（LLM）的分层多速率控制框架，将全局负载均衡与切换决策与局部无人机运动控制相结合。实验表明，该方法在运输效率、通信吞吐量和碰撞率等方面均优于现有方法，展现出良好的动态场景适应能力。

Comments Submission for possible publication

2605.11508 2026-05-13 cs.CV

LiBrA-Net: Lie-Algebraic Bilateral Affine Fields for Real-Time 4K Video Dehazing

Yongcong Wang, Chengchao Shen, Guangwei Gao, Wei Wang, Pengwen Dai, Dianjie Lu, Guijuan Zhang, Zhuoran Zheng

发表机构 * Central South University（中南大学）； Nanjing University of Science and Technology（南京理工大学）； Sun Yat-sen University（中山大学）； Shandong Normal University（山东师范大学）； Qilu University of Technology（齐鲁工业大学）

AI总结当前超高分辨率视频去雾领域缺乏评估基准，且现有方法难以在消费级GPU上实时处理4K视频。本文提出LiBrA-Net，通过将去雾问题转化为由低频深度场驱动的逐像素仿射变换，并利用双侧网格进行高效编码，实现了在单个GPU上以25 FPS处理4K视频的实时去雾。此外，本文还发布了首个包含深度、透射率和光流注释的4K视频去雾基准UHV-4K，并在多个数据集上取得了最先进的性能。

Comments 10 pages, 5 figures

2605.11506 2026-05-13 cs.CV

Principled Design of Diffusion-based Optimizers for Inverse Problems

Julio Oscanoa, Irmak Sivgin, Cagan Alkan, Daniel Ennis, John Pauly, Mert Pilanci, Shreyas Vasanawala

发表机构 * Department of Bioengineering（生物工程系）； Department of Radiology, Stanford University, USA（斯坦福大学放射学系，美国）

AI总结本文研究了基于扩散模型的优化器在逆问题中的设计，旨在解决其推理时间长和超参数调优繁琐的问题。作者提出了一种原理性的重参数化方法，使超参数能够在不同任务间复用，无需重新调整。同时，基于RED-diff框架，他们进一步开发了OptDiff流程，将后验采样转化为优化问题，从而加速推理并提升图像质量。实验表明，该方法在图像重建、去模糊和超分辨率任务中均取得了显著的加速效果和图像质量提升。

Comments 22 pages, 8 figures, 6 tables

2605.11504 2026-05-13 cs.LG cs.CR

CTFusion: A CTF-based Benchmark for LLM Agent Evaluation

Dongjun Lee, Ga-eun Bae, Insu Yun

发表机构 * School of Electrical Engineering, KAIST（韩国科学技术院电子工程学院）

AI总结随着大型语言模型（LLM）在复杂任务中的应用日益广泛，网络安全成为其重要应用场景之一。然而，现有基于夺旗（CTF）的评估基准存在数据污染和作弊风险，影响评估可靠性。为此，本文提出CTFusion，一个基于实时CTF赛事的流式评估框架，通过单账号多代理独立运行和仅提交首个正确flag等方式降低竞争干扰，并在CTFd平台上实现为模型上下文协议（MCP）服务器，有效提升对网络安全代理的评估准确性。实验表明，CTFusion相较于现有基准更具鲁棒性，已作为开源工具释放以促进相关研究。

Comments 14 pages, 8 figures

2605.11497 2026-05-13 cs.CV

PoseBridge: Bridging the Skeletonization Gap for Zero-Shot Skeleton-Based Action Recognition

Sanghyeon Lee, Jinwoo Kim, Jong Taek Lee

发表机构 * School of Computer Science and Engineering（计算机科学与工程学院）

AI总结本文研究了零样本骨架动作识别（ZSSAR）中的语义对齐问题，指出当前方法在对齐阶段已丢失了人体与物体交互及姿态相关视觉线索等关键语义信息。为此，提出了一种名为PoseBridge的框架，通过利用姿态估计过程中的中间表示，提取姿态锚定的语义线索，并通过骨架条件桥接和语义原型适配将其传递至文本对齐模块，从而提升零样本识别性能。实验表明，PoseBridge在多个数据集上均取得显著提升，尤其在Kinetics-200/400 PURLS基准上表现突出。

2605.11496 2026-05-13 cs.AI cs.CY cs.HC cs.LG

The Evaluation Differential: When Frontier AI Models Recognise They Are Being Tested

Varad Vishwarupe, Nigel Shadbolt, Marina Jirotka, Ivan Flechais

发表机构 * Anthropic ； OpenAI ； UK AI Security Institute（英国人工智能安全研究所）

AI总结本文探讨了前沿人工智能模型在识别评估环境时表现出的行为差异问题，指出这些模型在测试环境下可能与实际部署时表现不同，从而影响安全评估的可靠性。研究提出了“评估差异”（Evaluation Differential）的概念，定义了标准化效应大小（nED）以进行跨属性比较，并开发了TRACE评估框架，用于更严谨地分析和限制从评估中得出的安全声明。该研究对AI系统评估和治理具有重要启示。

2605.11494 2026-05-13 cs.CV

STRIDE: Training-Free Diversity Guidance via PCA-Directed Feature Perturbation in Single-Step Diffusion Models

Ankit Yadav, Arpit Garg, Ta Duc Huy, Lingqiao Liu

发表机构 * Australian Institute for Machine Learning, Adelaide University, Australia（澳大利亚机器学习研究所，阿德莱德大学，澳大利亚）

AI总结 STRIDE 是一种无需训练和优化的单步扩散模型多样性增强方法，通过在中间特征上注入与模型激活主成分对齐的噪声，实现可控的多样性提升。该方法基于模型自身特征结构进行扰动，确保生成样本在保持高质量的同时提高多样性。实验表明，STRIDE 在多个数据集上有效提升了生成图像的多样性，同时保持了良好的文本对齐性能，优于现有无训练基线方法。

Comments 11 Pages 3 figures 4 tables

2605.11491 2026-05-13 cs.LG cs.AI

Understanding and Preventing Entropy Collapse in RLVR with On-Policy Entropy Flow Optimization

Huimin Xu, Shuai Zhao, Xiaobao Wu, Anh Tuan Luu

发表机构 * Nanyang Technological University（南洋理工大学）； Shanghai Jiao Tong University（上海交通大学）； VinUniversity（文大学）

AI总结本文研究了可验证奖励强化学习（RLVR）中普遍存在的熵崩溃问题，分析发现该问题源于令牌层面的熵流不平衡，即熵减少的令牌远多于熵增加的令牌。为此，作者提出了一种基于策略的熵流优化方法（OPEFO），通过动态调整熵增和熵减更新的比重，实现熵流的自适应平衡。实验表明，该方法有效提升了模型在数学推理任务中的训练稳定性和最终性能。

2605.11483 2026-05-13 cs.CL

StoicLLM: Preference Optimization for Philosophical Alignment in Small Language Models

Ishmam Khan, Sindhuja Thogarrati, Shuo Zhang

发表机构 * Tufts University（塔夫茨大学）； Bose Corporation（博世公司）

AI总结本文研究了小型语言模型在哲学对齐方面的优化问题，特别是斯多葛哲学的内向型美德与外向型宇宙公民责任的对齐。作者采用偏好优化方法（如ORPO、AlphaPO），在微小数据集上对小型语言模型进行专项训练，结果表明仅需300个高质量样本即可实现较强的内向型美德对齐，效果接近少样本提示方法。然而，所有模型在处理斯多葛哲学的外向型责任时均表现不佳，揭示了小型模型在该方面的表征局限，单靠微数据集优化无法解决这一问题。

2605.11479 2026-05-13 cs.RO cs.AI

Offline Policy Evaluation for Manipulation Policies via Discounted Liveness Formulation

Hao Wang, Joshua Bowden, Colton Crosby, Somil Bansal

发表机构 * University of Southern California（南加州大学）； Stanford University（斯坦福大学）

AI总结本文研究了在稀疏奖励环境下对机械臂操作策略进行离线策略评估的问题，针对策略评估中任务进展非单调、评估轨迹长度有限导致的截断偏差等问题，提出了一种基于生存性（liveness）的贝尔曼算子框架。该方法将策略评估视为任务完成问题，得到的值函数对有限时间截断具有鲁棒性，并在理论分析中证明了其收缩性等性质。实验表明，该方法在多个模拟和实际任务中能更准确反映任务进展并有效减少截断偏差，优于传统方法如TD(0)和蒙特卡洛策略评估。

Comments Published at RSS 2026

2605.11478 2026-05-13 cs.AI cs.IT math.IT stat.ML

FibQuant: Universal Vector Quantization for Random-Access KV-Cache Compression

Namyoon Lee, Yongjune Kim

发表机构 * POSTECH（POSTECH大学）

AI总结本文提出了一种名为FibQuant的通用固定率向量量化方法，用于随机访问的键值缓存压缩，以解决长上下文推理中的内存和流量瓶颈问题。该方法在保持归一化-旋转-存储接口的同时，将传统的标量编码表替换为与标准化源匹配的共享径向-角向码本，从而保留归一化步骤所创建的几何信息并提升压缩效率。实验表明，FibQuant在保持高注意力相似度的同时实现了更高的压缩比，并在多个模型上表现出优于现有标量量化方法的性能。

Comments 15 pages

2605.11477 2026-05-13 cs.CV

LDDR: Linear-DPP-Based Dynamic-Resolution Frame Sampling for Video MLLMs

Jingfeng Chen, Jiawen Qian, Wendi Deng, Yinuo Guo, Jiaqi Yu, Sicong Leng, Raghuveer Thirukovalluru, Bhuwan Dhingra

发表机构 * Carnegie Mellon University（卡内基梅隆大学）； Individual Researcher（个人研究员）； National University Singapore（新加坡国立大学）； Nanyang Technological University（南洋理工大学）； Duke University（杜克大学）

AI总结在多模态大语言模型中，视频理解需要在有限的视觉token预算下从冗长的视频中选取信息量大的帧。为此，本文提出LDDR，一种基于线性行列式点过程（DPP）的动态分辨率帧采样框架，能够在任务条件特征空间中进行查询感知的帧选择，实现比标准DPP方法快3倍的运行效率。LDDR通过引入组DPP重要性度量，指导帧的保留与动态分辨率分配，显著提升了视频理解性能，在多个视频基准测试中均优于现有方法。

Comments 21 pages, 4 figures

2605.11475 2026-05-13 cs.CV

Deep Probabilistic Unfolding for Quantized Compressive Sensing

Gang Qu, Ping Wang, Siming Zheng, Xin Yuan

发表机构 * Westlake University, School of Engineering, Hangzhou, Zhejiang, China（西湖大学工程学院，杭州，浙江，中国）； Vivo Mobile Communication Co., Ltd., Hangzhou, Zhejiang, China（Vivo移动通信有限公司，杭州，浙江，中国）

AI总结本文提出了一种深度概率展开模型，用于解决量化压缩感知问题，通过展开框架提升重建的精度和效率。不同于以往方法采用L2投影，本文推导出一种闭式且数值稳定的似然梯度投影，使模型能够遵循真实的量化物理特性，将硬量化约束转化为软概率引导。此外，设计了一个高效的双域Mamba模块，用于动态捕捉和融合多尺度的局部与全局特征，增强远距离相关区域的交互能力。实验表明，该方法在多个任务上达到当前最优性能，有助于推动量化压缩感知在实际中的应用。

2605.11473 2026-05-13 cs.AI cs.LG cs.RO stat.ML

TOPPO: Rethinking PPO for Multi-Task Reinforcement Learning with Critic Balancing

Yuanpeng Li, Gefei Lin, Annie Qu, Rui Miao

发表机构 * UC Irvine（加州大学尔湾分校）； George Washington University（乔治·华盛顿大学）； UC Santa Barbara（加州大学圣芭芭拉分校）； UT Dallas（德克萨斯大学达拉斯分校）

AI总结本文研究了多任务强化学习中基于策略梯度的PPO方法的优化问题，指出其在多任务环境下存在价值函数梯度条件不佳的问题，导致部分任务学习停滞。为此，作者提出TOPPO方法，通过引入批评者平衡模块改善梯度条件，提升任务间的学习均衡性。实验表明，TOPPO在参数和环境步数更少的情况下，优于现有的SAC和ARS方法，在多任务基准测试中表现出更强的平均和尾部任务性能，证明了基于策略的方法在适当优化下可以媲美甚至超越基于价值的方法。

2605.11471 2026-05-13 cs.LG

On the Approximation Complexity of Matrix Product Operator Born Machines

Chao Li, Zerui Tao, Yuchen Cong, Jian Xu, Qibin Zhao

发表机构 * RIKEN-AIP（日本理化学研究所高级研究所）

AI总结本文研究了矩阵乘积算子玻姆机（MPO-BM）在概率建模中的近似复杂性。作者从正反两方面分析了MPO-BM的近似能力边界，证明在连续情况下，使用KL散度进行近似是NP难的，表明最坏情况下无法实现通用高效的近似。同时，在满足局部性和谱隙条件的前提下，作者展示了对于结构化目标（如路径图马尔可夫随机场），MPO-BM可以以多项式规模的键维度实现具有可证明KL保证的近似，并且只需多项式数量的得分查询即可估计诱导哈密顿量，从而获得相应的保证。这些结果为MPO-BM在何时难以近似、何时可高效学习提供了理论依据。

2605.11467 2026-05-13 cs.LG cs.AI

Drop the Act: Probe-Filtered RL for Faithful Chain-of-Thought Reasoning

Swapnil Parekh

发表机构 * Intuit

AI总结该研究提出了一种名为ProFIL的新方法，旨在减少大型语言模型在链式推理过程中产生的“推理剧场”现象，即模型在已得出结论后仍生成看似思考但实际上对正确性无贡献的推理步骤。ProFIL通过在冻结的基模型上训练一个多头注意力探针，检测并抑制这些冗余步骤，并结合强化学习框架GRPO进行优化，从而提升推理链的可信度、缩短推理长度，同时保持或提升任务准确性。实验表明，该方法在多个推理任务和模型架构上均取得显著效果。

2605.11463 2026-05-13 cs.CV

Encore: Conditioning Trajectory Forecasting via Biased Ego Rehearsals

Conghao Wong, Ziqian Zou, Xinge You

发表机构 * Huazhong University of Science and Technology（华中科技大学）

AI总结本文研究了如何在轨迹预测任务中学习和表示智能体的主观性，这一问题具有挑战性但至关重要。作者提出了一种名为Encore的方法，通过引入偏向性的自我排练机制，使模型能够从短期观测中生成针对场景中所有参与者的偏置排练轨迹，并利用这些轨迹作为条件来引导最终预测，从而更准确地模拟不同智能体的主观行为。实验表明，该方法在多个数据集上均取得了性能提升，并为理解轨迹中的主观性提供了清晰的解释。

2605.11462 2026-05-13 cs.CV cs.AI

SpatialForge: Bootstrapping 3D-Aware Spatial Reasoning from Open-World 2D Images

Zishan Liu, Ruoxi Zang, Yanglin Zhang, Wei Liu, Yin Zhang, Jian Yao, Jiayin Zheng, Zhengzhe Liu

发表机构 * Lingnan University（岭南大学）； XPENG Robotics（小鹏机器人）

AI总结该研究提出了一种名为 SpatialForge 的可扩展数据合成方法，旨在从开放世界的二维图像中生成用于三维空间推理的监督信号，以解决当前大型视觉-语言模型在空间推理方面的不足。通过将空间推理分解为感知与关系两个部分，并构建包含深度、布局和视角依赖推理的结构化监督信号，该方法能够自动生成高质量的空间问答数据。基于此，研究构建了一个包含1000万对空间问答的大型数据集 SpatialForge-10M，并在多个空间推理基准上验证了其有效性，显著提升了视觉-语言模型的空间推理能力。

2605.11460 2026-05-13 cs.LG cs.SY eess.SY

Beyond Prediction: Interval Neural Networks for Uncertainty-Aware System Identification

Mehmet Ali Ferah, Tufan Kumbasar

发表机构 * Artificial Intelligence and Intelligent Systems Laboratory, Istanbul Technical University, Istanbul, Türkiye（人工智能与智能系统实验室，伊斯坦布尔技术大学，伊斯坦布尔，土耳其）

AI总结本文提出了一种用于不确定性感知系统辨识的区间神经网络（INN）框架，旨在解决传统方法在建模非线性动态系统时无法有效捕捉不确定性的局限性。通过将传统神经网络扩展为区间形式，研究开发了能够传播不确定性的区间LSTM和NODE模型，并提出了两种训练策略——级联INN（C-INN）和联合INN（J-INN），分别在不同阶段优化预测精度与区间精度。实验表明，该框架在多个系统辨识数据集上表现优异，且引入了通道弹性概念以分析不确定性在模型参数中的分布特征。

Comments Under review

2605.11448 2026-05-13 cs.LG cs.AI

Deep Minds and Shallow Probes

Su Hyeong Lee, Risi Kondor

发表机构 * Department of Statistics, University of Chicago（芝加哥大学统计系）； Department of Statistics and Department of Computer Science, University of Chicago（芝加哥大学统计系和计算机科学系）

AI总结本文研究神经表示中隐藏坐标在不同实现下的对称性问题，提出应使用对称性稳定的浅层探针来揭示表示中的结构，而非依赖特定基底。通过分析最终输出层的精确模型，作者确定了一种唯一的浅层探针分层结构，其中线性探针为其一级成员。研究还表明，跨模型探针迁移应基于表示中探针可见的商空间，而非完整的隐藏状态，实验验证了该方法在合成与实际任务中的有效性。

2605.11438 2026-05-13 cs.CV

Beyond Masks: The Case for Medical Image Parsing

Siddharth Gupta, Alan L. Yuille, Zongwei Zhou

发表机构 * Johns Hopkins University（约翰霍普金斯大学）； Northwestern University（西北大学）； Johns Hopkins Medicine（约翰霍普金斯医学）

AI总结本文提出医疗图像解析（Medical Image Parsing）作为医学影像研究的核心输出，强调应超越传统的像素级分割掩码，生成包含实体、属性及关系的结构化表示，以更全面地描述医学影像内容。研究指出，当前系统在实体识别方面表现较好，但在属性描述、实体间关系及语义闭包等方面仍严重不足。作者主张通过改进输出形式和训练信号，推动模型从测量转向解释，以更贴近临床实际需求。

2605.11436 2026-05-13 cs.CL cs.AI

Agent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty

Joykirat Singh, Zaid Khan, Archiki Prasad, Justin Chih-Yao Chen, Akshay Nambi, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal

发表机构 * UNC Chapel Hill（北卡罗来纳大学教堂山分校）； The University of Texas at Austin（德克萨斯大学奥斯汀分校）； Microsoft Research（微软研究院）

AI总结本文提出了一种名为Agent-BRACE的方法，旨在解决大型语言模型在长时序、部分可观测环境中执行任务时面临的不确定性管理和上下文膨胀问题。该方法通过将信念状态与策略解耦，利用自然语言标注的置信度标签构建结构化的信念表示，从而帮助模型在决策时更有效地处理不确定性。实验表明，Agent-BRACE在多个长时序任务中显著提升了性能，同时保持了对上下文长度的鲁棒性。

Comments Code: https://github.com/joykirat18/Agent-BRACE

2605.11435 2026-05-13 cs.CV

ZeroIDIR: Zero-Reference Illumination Degradation Image Restoration with Perturbed Consistency Diffusion Models

Hai Jiang, Zhen Liu, Yinjie Lei, Songchen Han, Bing Zeng, Shuaicheng Liu

发表机构 * School of Aeronautics and Astronautics, Sichuan University（四川大学航空航天学院）； University of Electronic Science and Technology of China（电子科技大学）； College of Electronics and Information Engineering, Sichuan University（四川大学电子信息工程学院）

AI总结本文提出了一种基于扩散模型的零参考图像修复框架ZeroIDIR，用于解决光照退化图像的恢复问题。该方法仅依赖低质量退化图像进行训练，通过解耦光照校正与扩散重建过程，引入自适应伽马校正模块和直方图引导的光照校正损失，提升光照一致性并作为后续扩散过程的可靠输入。此外，提出了一种扰动一致性扩散损失，以增强恢复图像的细节还原能力和稳定性，实验表明该方法在多个公开数据集上优于现有无监督方法，并具有良好的场景泛化能力。

Comments Accepted by CVPR 2026

2605.11430 2026-05-13 cs.CV cs.AI cs.LG

Diabetic Retinopathy Classification using Downscaling Algorithms and Deep Learning

Nishi Doshi, Urvi Oza, Pankaj Kumar

发表机构 * Dhirubhai Ambani Institute of Information and Communication Technology（迪鲁巴希·阿姆巴尼信息与通信技术研究所）

AI总结该研究针对糖尿病视网膜病变（DR）分类中的图像尺寸不一问题，提出在输入深度学习网络前使用多种下采样算法对视网膜图像进行预处理。研究结合了Kaggle和印度糖尿病视网膜病变图像数据集，基于改进的多通道Inception V3网络架构进行分类实验，结果在准确率、特异性和灵敏度方面优于现有方法，为DR的自动分级提供了更有效的解决方案。

Journal ref 2020 7th International Conference on Signal Processing and Integrated Networks (SPIN)

2605.11428 2026-05-13 cs.LG

FastUMAP: Scalable Dimensionality Reduction via Bipartite Landmark Sampling

Hongmin Li

发表机构 * School of Life Science and Technology, Institute of Science Tokyo（生命科学与技术学院，科学东京研究所）； Department of Computational Biology and Medical Sciences, Graduate School of Frontier Sciences（计算生物学与医学科学系，前沿科学研究生院）

AI总结本文提出了一种名为 FastUMAP 的可扩展降维方法，旨在解决在重复使用场景下非线性降维方法计算效率低的问题。该方法基于双分图的地标采样，通过构建稀疏的点-地标模糊图，并结合 Nystrom 方法进行谱初始化，再在双分图上进行 UMAP 风格的目标优化，从而在保证一定精度的同时显著提升计算速度。实验表明，FastUMAP 在多个数据集上相比传统方法具有更快的运行时间，适合用于需要频繁进行降维探索的场景。

Comments 17 pages, 5 figures

2605.11427 2026-05-13 cs.CV

PD-4DGS:Progressive Decomposition of 4D Gaussian Splatting for Bandwidth-Adaptive Dynamic Scene Streaming

Jiachen Li, Guangzhi Han, Jin Wan, Delong Han, Yuan Gao, Min Li, Mingle Zhou, Gang Li

发表机构 * Qilu University of Technology（青岛理工大学）

AI总结 PD-4DGS 是一种面向动态场景流媒体的渐进式 4D 高斯溅射压缩框架，旨在解决现有 4DGS 模型在带宽受限设备上渲染延迟高、无法适配自适应码率传输的问题。该方法通过层次化形变分解（HDD）将 4DGS 的运动结构分解为三个可独立传输的层次，使流媒体前缀即可渲染，实现可扩展的流式传输。实验表明，PD-4DGS 在保持渲染质量的同时显著降低了传输带宽和首帧延迟，为 4DGS 在移动设备上的实时流媒体应用提供了可行方案。

2605.11426 2026-05-13 cs.AI

A Mechanistic Investigation of Supervised Fine Tuning

Ruhaan Chopra

发表机构 * Independent Researcher（独立研究者）

AI总结本研究探讨了监督微调（SFT）对大语言模型激活状态的影响，发现尽管微调前后隐藏层激活的余弦相似度很高，但通过预训练稀疏自编码器（SAE）投影后，稀疏潜在表示存在显著差异。研究提出了一种基于SAE的分析方法，揭示了微调过程中任务和层特异性语义特征的变化，并发现了与安全对齐相关的分层更新模式。该方法为理解SFT的机制提供了高分辨率的诊断工具。

AI 大模型

视觉与机器人

科学与医疗