arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.09906 2026-05-12 cs.AI cs.SD

Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought

Xuanchen Li, Yuheng Lu, Chenrui Cui, Tianrui Wang, Zikang Huang, Yu Jiang, Long Zhou, Longbiao Wang, Jianwu Dang

发表机构 * Tianjin Key Laboratory of Cognitive Computing（天津认知计算实验室）； Tianjin University（天津大学）； Huiyan Technology Company, Ltd.（慧颜科技有限公司）； Chinese Academy of Sciences（中国科学院）； Tencent（腾讯）

AI总结该研究针对音频-视觉大语言模型在推理过程中存在的跨模态干扰问题，提出了一种名为“先分离后融合”（SFFL）的新型推理框架。该方法通过强制进行模态特定的推理过程，分别生成音频和视觉的推理轨迹，并在后续阶段整合信息进行回答，从而减少模态间的信息干扰。实验表明，该方法在多个基准测试中显著提升了模型的准确性和鲁棒性。

2605.09905 2026-05-12 cs.LG cs.AI

Rethinking Random Transformers as Adaptive Sequence Smoothers for Sleep Staging

Guisong Liu, Xin Gao, Martin Dresler, Jiansong Zhang, Pengfei Wei

发表机构 * School of Biological Science and Medical Engineering（生物科学与医学工程学院）； Southeast University（东南大学）； University of Bath（巴斯大学）； Donders Institute for Brain, Cognition and Behaviour（脑、认知与行为研究所）； Radboud University Medical Center（拉德堡德大学医学中心）； School of Computer Science & Software Engineering（计算机科学与软件工程学院）

AI总结本文重新审视了随机初始化的Transformer在睡眠分期任务中的作用，指出睡眠信号具有强局部时间连续性这一被忽视的特性。研究发现，未经训练的随机Transformer即可显著提升睡眠分期性能，并优于传统平滑方法。通过引入随机注意力先验核（RAPK），论文揭示了随机自注意力机制在保持阶段转换的同时，实现了全局平均与内容相似性的自适应平衡，表明性能提升主要源于模型结构的归纳偏置，而非参数学习。这一发现为构建高效、适用于边缘设备的睡眠监测系统提供了新思路。

2605.09902 2026-05-12 cs.CV

Adversarial Attacks Against MLLMs via Progressive Resolution Processing and Adaptive Feature Alignment

Haobo Wang, Xiaorong Ma, Weiqi Luo, Xiaojun Jia, Jiwu Huang

发表机构 * Sun Yat-sen University（中山大学）； Nanyang Technological University（南洋理工大学）； Shenzhen MSU-BIT University（深圳MSU-BIT大学）

AI总结该研究针对多模态大语言模型（MLLM）的安全性问题，提出了一种新型的定向迁移攻击方法PRAF-Attack，旨在通过对抗样本误导模型对图像内容的判断。该方法引入了渐进式分辨率处理和自适应特征对齐策略，利用中间层特征增强攻击的迁移性和鲁棒性，并通过梯度一致性选择可迁移的层次特征，显著提升了攻击效果。实验表明，PRAF-Attack在多种黑盒MLLM上均表现出优于现有方法的迁移能力。

详情

英文摘要

Adversarial perturbations can mislead Multimodal Large Language Models (MLLMs) recognize a benign image as a specific target object, posing serious risks in safety-critical scenarios such as autonomous driving and medical diagnosis. This makes transfer-based targeted attacks crucial for understanding and improving black-box MLLM robustness. Existing transfer-based targeted attack methods typically rely on the final global features of the surrogate encoder and anchor optimization to original-resolution target crops, leading to their limited transferability and robustness. To address these challenges, we propose Progressive Resolution Processing and Adaptive Feature Alignment (PRAF-Attack), a targeted transfer-based attack framework that integrates multi-scale global semantic guidance with robust intermediate-layer local alignment. Unlike prior methods that align only the surrogate encoder's final layer, we design an adaptive feature alignment strategy that leverages intermediate representations to enhance transferability. Specifically, we introduce an adaptive intermediate layer selection mechanism to identify transferable hierarchical features across surrogate ensembles via gradient consistency, along with an adaptive patch-level optimization strategy that preserves highly correlated local regions through efficient patch filtering. To overcome the reliance on fixed original-resolution target crops, we propose a progressive resolution processing strategy that gradually refines optimization from coarse to fine, enabling the attack to better exploit target information at multiple scales and achieve stronger transferability. We evaluate PRAF-Attack on a diverse suite of black-box MLLMs, including six open-source models and six closed-source commercial APIs. Compared with seven state-of-the-art targeted attack baselines, the proposed PRAF-Attack consistently achieves superior transferability.

URL PDF HTML ☆

赞 0 踩 0

2605.09900 2026-05-12 cs.AI cs.CL cs.CV

The Gordian Knot for VLMs: Diagrammatic Knot Reasoning as a Hard Benchmark

Hao Liu, Jicheng Liu

发表机构 * Department of Psychology（心理学系）； New York University（纽约大学）； Department of Computer Science（计算机科学系）； University of Southern California（南加州大学）

AI总结该论文提出了一种名为KnotBench的新型基准，用于评估视觉-语言模型在处理绳结图示任务中的能力。研究通过大量绳结图像和对应的规范签名，设计了包括等价判断、操作预测、识别和跨模态对齐在内的14项任务，揭示了当前模型在感知与操作之间的能力差距。实验表明，即使是最先进的模型如Claude Opus 4.7和GPT-5，在无思考模式下表现接近随机水平，而思考模式虽有提升，但整体仍难以准确模拟绳结操作。

Comments 41 pages, 18 figures

2605.09899 2026-05-12 cs.CV cs.AI

Hyperbolic Distillation: Geometry-Guided Cross-Modal Transfer for Robust 3D Object Detection

Kanglin Ning, Wenrui Li, Houde Quan, Qifan Li, Xingtao Wang, Xiaopeng Fan

发表机构 * Faculty of Computing, Harbin Institute of Technology（哈尔滨工业大学计算机学院）； Suzhou Research Institute of HIT（哈尔滨工业大学苏州研究院）； PengChengLab（鹏城实验室）

AI总结本文提出了一种基于双曲几何约束的跨模态知识蒸馏方法HGC-Det，用于提升多模态3D目标检测的性能。该方法通过图像分支和点云分支分别提取语义特征，并引入语义引导的体素优化、双曲几何约束的跨模态特征迁移以及特征聚合的几何优化三个核心组件，有效缓解了模态异质性、空间错位和表示危机等问题。实验表明，该方法在室内和室外数据集上均取得了检测精度与计算成本之间的良好平衡。

Comments Current version has been subbmitted to IEEE Transactions on Multimedia. Now, this manuscript's status is Under Review

2605.09893 2026-05-12 cs.CL cs.AI

Pseudo-Deliberation in Language Models: When Reasoning Fails to Align Values and Actions

Sushrita Rakshit, Hanwen Zhang, Hua Shen

发表机构 * New York University（纽约大学）

AI总结本研究探讨了大型语言模型中“价值-行为鸿沟”问题，即模型所宣称的价值与其实际行为之间存在不一致的现象。研究提出了一种新的失败模式——“伪推理”，即模型表现出看似合理的推理过程，但行为并未与价值对齐。为此，研究者构建了VALDI框架，用于系统评估模型在对话生成中对价值的遵循程度，并发现无论是专有模型还是开源模型，都存在显著的价值与行为不一致现象。此外，研究还提出VIVALDI多智能体审计系统，用于在生成过程中干预以改善对齐效果。

Comments 9 pages

2605.09887 2026-05-12 cs.LG cs.AI math.DG

The Geometric Wall: Manifold Structure Predicts Layerwise Sparse Autoencoder Scaling Laws

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen, Fred Roosta

发表机构 * ARC Training Centre for Information Resilience (CIRES)（信息韧性ARC培训中心（CIRES））； School of Mathematics and Physics, University of Queensland（昆士兰大学数学与物理学院）； Institute for Molecular Bioscience, University of Queensland（昆士兰大学分子生物科学研究所）； Profenso（Profenso公司）； QIMR Berghofer Medical Research Institute（QIMR伯格霍尔医学研究中心）

AI总结该研究探讨了稀疏自编码器（SAEs）在不同网络层中重建误差变化的几何原因，指出激活空间的曲率和内在维度差异导致了现有单层缩放定律无法解释的现象。研究通过分析多个模型层的几何特征，发现SAEs的宽度-稀疏性缩放规律依赖于每层的流形结构，并提出了一个可跨模型迁移的几何缩放定律。实验表明，流形的几何特性决定了每层的宽度指数，且高曲率和高内在维度对应更高的重建误差下限，揭示了SAEs面临的是由流形结构决定的“几何墙”而非资源限制的天花板。

2605.09886 2026-05-12 cs.RO

Network-Efficient World Model Token Streaming

Shatadal Mishra, Ahmadreza Moradipari, Nejib Ammar

发表机构 * InfoTech Labs, Toyota Motor North America R\&D, Mountain View, CA, USA

AI总结该研究探讨了在分布式计算和车联网环境下，如何高效地传输和同步离散世界模型的状态表示。提出了一种基于VQ-U-Net编码器的网络高效流式传输方法，并设计了一种无标签、全在线的算法，通过余弦距离优先传输状态变化部分，并自适应触发关键帧以应对网络带宽限制和数据包丢失。实验表明，该方法在保持相同比特率的前提下，显著降低了状态嵌入的失真，并提升了下游任务的预测性能，验证了其在车载网络环境中的实用价值。

Comments Accepted at IEEE VNC 2026

2605.09879 2026-05-12 cs.AI

M2A: Synergizing Mathematical and Agentic Reasoning in Large Language Models

Junjian Wang, Xin Zhou, Qiran Xu, Kun Zhan

发表机构 * Institute of Automation, Chinese Academy of Sciences（中国科学院自动化研究所）； Li Auto Inc.（Li Auto公司）

AI总结该研究提出了M2A方法，旨在将数学推理与智能体推理在大语言模型中有效结合，解决两者在多任务学习中难以协同的问题。M2A通过在参数空间中合并模型，仅沿不影响智能体行为的子空间注入数学推理能力，从而在不干扰原有行为的前提下增强推理深度。实验表明，M2A在真实编程智能体任务中显著提升了推理效果，例如在Qwen3-8B模型上将SWE-Bench Verified的解决率从44.0%提升至51.2%。

2605.09875 2026-05-12 cs.AI

Cross-Family Universality of Behavioral Axes via Anchor-Projected Representations

Su-Hyeon Kim, Yo-Sub Han

发表机构 * Department of Artificial Intelligence（人工智能系）； Yonsei University（延世大学）； Department of Computer Science（计算机科学系）

AI总结不同家族的大语言模型由于使用不同的隐藏维度、分词器和训练过程，使得行为方向难以在模型间进行比较或迁移。本文提出了一种锚点投影框架，将各模型的隐藏表示映射到共享的锚坐标空间（ACS），从而提取并对齐跨模型的行为方向。实验表明，该方法在多个模型家族和行为轴上具有良好的对齐效果，并在下游任务中表现出稳定的迁移能力，为跨家族模型的可解释性研究提供了新的视角。

2605.09874 2026-05-12 cs.CV cs.AI cs.CL

EgoMemReason: A Memory-Driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding

Ziyang Wang, Yue Zhang, Shoubin Yu, Ce Zhang, Zengqi Zhao, Jaehong Yoon, Hyunji Lee, Gedas Bertasius, Mohit Bansal

发表机构 * UNC Chapel Hill（北卡罗来纳大学教堂山分校）； NTU Singapore（新加坡国立大学）

AI总结 EgoMemReason 是一个面向长期第一人称视频理解的记忆驱动推理基准，旨在评估模型在连续多天视觉信息中积累、回忆和推理的能力。该基准引入了三种互补的记忆类型，包括实体记忆、事件记忆和行为记忆，用于评估模型对物体状态变化、活动顺序以及长期行为模式的识别能力。实验表明，当前最先进的模型在该基准上的整体准确率仅为39.6%，揭示了长期记忆推理仍面临重大挑战。

Comments The first two authors contributed equally. Project website: https://egomemreason.github.io/

2605.09870 2026-05-12 cs.LG cs.AI

Intervention-Based Time Series Causal Discovery via Simulator-Generated Interventional Distributions

Tsuyoshi Okita

发表机构 * Kyushu Institute of Technology（九州工业大学）

AI总结该论文提出了一种基于干预的时序因果发现框架SVAR-FM，通过将物理模拟器视为对 Pearl 的 do 操作符的实现，利用模拟器生成干预数据，从而学习非线性因果关系。研究证明了在满足一定条件时结构VAR模型的可识别性，并通过实验验证了该方法在多个科学领域中优于传统观测方法，尤其在模拟器精度不足时能正确预测因果效应符号反转现象。

Comments 54 pages, 6 figures

2605.09867 2026-05-12 cs.LG cs.AI

Continuous Latent Contexts Enable Efficient Online Learning in Transformers

Emile Anand, Abdullah Ateyeh, Xinyuan Cao, Max Dabagia

发表机构 * Georgia Institute of Technology（佐治亚理工学院）； University of California, Berkeley（加州大学伯克利分校）； Columbia University（哥伦比亚大学）

AI总结该研究探讨了如何使Transformer模型更有效地实现在线学习，提出通过引入连续潜在上下文标记来增强模型的适应能力。研究构建了深度恒定的Transformer结构，能够以线性组合的形式存储算法状态，从而实现加权多数算法和Q学习等基础在线决策过程。实验表明，使用潜在上下文的轻量级Transformer在长序列在线预测任务中表现优于更大更复杂的语言模型，展示了其作为实现在线学习算法的有效状态表示的潜力。

Comments 37 pages, 15 figures, 3 tables

2605.09864 2026-05-12 cs.CV cs.LG

DA-SegFormer: Damage-Aware Semantic Segmentation for Fine-Grained Disaster Assessment

Kevin Zhu, William Tang, Raphael Hay Tene, Zesheng Liu, Nhut Le, Maryam Rahnemoonfar

发表机构 * Bina Labs, Lehigh University（Bina实验室，莱斯大学）

AI总结本文提出了一种名为DA-SegFormer的细粒度灾害评估语义分割方法，旨在解决无人机影像中因纹理退化和类别不平衡导致的细微损伤识别难题。该方法基于SegFormer架构，引入了类别感知采样策略和在线难例挖掘结合Dice损失函数，以增强对罕见损伤特征的学习，并采用分辨率保持的推理协议以保留原始纹理细节。实验表明，DA-SegFormer在RescueNet数据集上取得了74.61%的mIoU，显著优于基线模型，并在关键损伤类别上实现了显著提升。

Comments Accepted for 2026 IEEE International Geoscience and Remote Sensing Symposium (IGARSS 2026)

2605.09862 2026-05-12 cs.LG cs.AI

UFO: A Unified Flow-Oriented Framework for Robust Continual Graph Learning

Danhui Zhang, Zhe Wang, Qing Qing, Jiarui Liu, Wentao Gao, Ziqi Xu, Mingliang Hou, Xikun Zhang, Renqiang Luo

发表机构 * Jilin University（吉林大学）； Adelaide University（阿德莱德大学）； RMIT University（皇家墨尔本理工学院）； Jinan University（济南大学）

AI总结本文研究了鲁棒持续图学习问题，即在图数据不断演变且新加入部分常含噪声的场景下，如何同时应对灾难性遗忘和噪声监督的挑战。为此，作者提出了一个统一的流导向框架UFO，通过基于流模型的条件特征分布建模生成回放表示以缓解遗忘，并利用实例级可靠性评分区分噪声节点，从而减少噪声监督的影响。实验表明，UFO在多个基准图数据集上均优于现有方法，具有更高的准确性和更优的遗忘控制能力。

2605.09861 2026-05-12 cs.LG cs.AI

Flag Varieties: A Geometric Framework for Deep Network Alignment

Jingchuan Xiao, Xinyi Sui, Cihan Ruan

发表机构 * Department of Mathematics and Computer Studies, Mary Immaculate College, Ireland（爱尔兰玛丽伊曼纽尔学院数学与计算机研究系）； Department of Computer Science and Engineering, Santa Clara University, USA（美国圣克拉拉大学计算机科学与工程系）

AI总结该论文研究深度神经网络中相邻权重矩阵的对齐现象，揭示其背后的几何结构。通过几何不变理论，作者证明对齐几何具有由标志流形（flag variety）定义的规范结构，并指出子空间交集维度是唯一的重参数化不变可观测量，从而将子空间度量从经验惯例提升为数学必然。研究还揭示了正则化与非线性激活对对齐过程的影响，并提供了无需前向传播即可分析网络内部对齐结构的新方法。

2605.09859 2026-05-12 cs.CV

Learning to Align Generative Appearance Priors for Fine-grained Image Retrieval

Shijie Wang, Yadan Luo, Zijian Wang, Xin Yu, Zi Huang

发表机构 * The University of Queensland, Australia（昆士兰大学，澳大利亚）； The University of Adelaide, Australia（阿德莱德大学，澳大利亚）

AI总结本文研究了细粒度图像检索中如何提升对未见类别的检索性能问题，提出了一种基于生成外观先验对齐的新型方法GAPan。该方法通过可逆密度模型重构学习目标，从类别预测转向外观建模，利用归一化流将特征映射到潜在密度空间，并通过类别条件高斯先验进行优化，从而保留更丰富的外观细节。通过反向采样生成外观感知的锚点，引导检索嵌入与类别特定的外观分布对齐，显著提升了模型在未见类别上的泛化能力。

2605.09858 2026-05-12 cs.CV

Clip-level Uncertainty and Temporal-aware Active Learning for End-to-End Multi-Object Tracking

Riku Inoue, Shogo Sato, Kazuhiko Murasaki, Tomoyasu Shimada, Toshihiko Nishimura, Ryuichi Tanida

发表机构 * NTT, Inc.（NTT公司）

AI总结本文研究了动态环境下端到端多目标跟踪（MOT）中如何通过主动学习（AL）提升标注效率的问题。针对现有基于帧的AL方法与现代基于Transformer的端到端跟踪器在时间粒度上不匹配的问题，提出了一种基于片段（clip）的主动学习方法CUTAL，该方法通过多帧预测的不确定性度量评估每个片段的不确定性，并引入时间多样性约束以选择信息量大且冗余度低的片段。实验表明，CUTAL在相同标注预算下优于现有方法，并且在仅使用50%标注数据时即可达到接近全监督的跟踪性能。

Comments Accepted to 2026 IEEE International Conference on Image Processing (ICIP). Copyright 2026 IEEE. Published in 2026 IEEE International Conference on Image Processing (ICIP), scheduled for 13-17 September 2026 in Tampere, Finland

2605.09856 2026-05-12 cs.CV cs.AI

MoPO: Incorporating Motion Prior for Occluded Human Mesh Recovery

Tao Tang, Hong Liu, Xinshun Wang, Wanruo Zhang

发表机构 * State Key Laboratory of General Artificial Intelligence, Peking University, Shenzhen Graduate School, China（一般人工智能国家重点实验室，北京大学，深圳研究生院，中国）

AI总结尽管近期在人体网格恢复方面取得了显著进展，但在面对遮挡时仍表现出鲁棒性不足，常导致姿态估计不准确和运动抖动。本文提出MoPO方法，通过引入运动先验来提升遮挡人体网格恢复的效果。MoPO包含运动去遮挡模块和运动感知融合与优化模块，前者利用历史姿态预测遮挡关节位置，后者结合图像特征与预测姿态进行人体形状和姿态估计，并通过逆运动学进一步优化最终姿态，显著提升了遮挡场景下人体网格恢复的精度和时序一致性。

Comments 35 pages

2605.09853 2026-05-12 cs.LG

Exploration-Driven Optimization for Test-Time Large Language Model Reasoning

Changhao Li, Yuchen Zhuang, Chenxiao Gao, Haotian Sun, Rushi Qiang, Chao Zhang, Bo Dai

发表机构 * Georgia Institute of Technology（佐治亚理工学院）

AI总结该研究针对大语言模型在推理阶段的推理能力和多样性之间的矛盾，提出了一种探索驱动优化（EDO）方法，通过将奖励偏差探索目标引入迭代后训练过程，提升模型在推理时的解题多样性与推理能力。实验表明，EDO有效增强了iDPO和GRPO等方法的性能，在多个基准任务中取得了显著的准确率提升，并有助于保持模型熵值和训练稳定性，为测试时推理优化提供了实用框架。

Comments Accepted by TMLR 2026

2605.09852 2026-05-12 cs.AI cs.CE cs.CY cs.LG

Fairness of Explanations in Artificial Intelligence (AI): A Unifying Framework, Axioms, and Future Direction toward Responsible AI

Gideon Popoola, John Sheppard

发表机构 * Montana State University（蒙大拿州立大学）

AI总结该论文探讨了人工智能中解释的公平性问题，指出当前算法公平性与可解释AI（XAI）研究虽各自独立，却忽略了模型在输出满足公平性标准的同时，其推理过程可能存在深层次的不公平现象，即“过程偏差”。为此，作者提出了条件不变性框架，将解释公平性形式化为对保护属性的条件独立性要求，并构建了七维分类体系及六步评估流程，为负责任AI的发展提供了理论基础与实践指导。

Comments 53 pages, 1 figure

2605.09850 2026-05-12 cs.CV cs.AI

Probing Routing-Conditional Calibration in Attention-Residual Transformers

Wenhao Liang, Lin Yue, Wei Emma Zhang, Miao Xu, Mingyu Guo, Olaf Maennel, Weitong Chen

发表机构 * Adelaide University（阿德莱德大学）； Australian Institute for Machine Learning (AIML), Adelaide University（澳大利亚机器学习研究所（AIML），阿德莱德大学）； The University of Queensland（昆士兰大学）

AI总结本文研究了在注意力残差变换器（Attention-Residual Transformers）中，路由信息对模型校准的影响。通过设计匹配置信度的诊断实验，作者发现路由摘要无法提供稳定的路由条件下的校准证据，且基于路由深度的校准方法在多个评估指标上表现并不优于仅基于置信度的模型。实验表明，所谓的路由感知校准提升可能是由其他因素引起的，需在控制匹配置信度、带宽、模型容量和排列等因素后，才能确认是否为内部状态校准的真正提升。

Comments Under reviewing

2605.09848 2026-05-12 cs.LG

Efficient Neural Architectures for Real-Time ECG Interpretation on Limited Hardware

Ashery Mbilinyi, Callum O'Riley, Julia Handra, Ashley Moller-Hansen, Jason Andrade, Marc Deyell, Cameron Hague, Nathaniel Hawkins, Kendall Ho, Jonathan Leipsic, Roger Tam

发表机构 * Department of Computer Science（计算机科学系）； University of Victoria（维多利亚大学）； Department of Electrical and Computer Engineering（电气与计算机工程系）； University of British Columbia（不列颠哥伦比亚大学）； Faculty of Medicine（医学院）； School of Biomedical Engineering（生物医学工程学院）； Division of Cardiology（心内科）； Department of Radiology（放射科）； Department of Emergency Medicine（急诊医学科）

AI总结本文研究了在有限硬件上实现实时心电图（ECG）解读的高效神经网络架构。通过对比现有模型，作者提出了三种轻量级CNN模型，旨在平衡诊断准确率与计算效率。实验表明，这些模型在多个公开ECG数据集上表现优异，并引入统一效率评分体系，为心血管领域AI系统的部署提供了可扩展的解决方案。

Comments 9 pages, 6 figures, 3 tables. Published in: 2025 IEEE International Conference on Big Data (BigData), pp. 3275-3284. DOI: 10.1109/BIGDATA66926.2025.11402097

Journal ref 2025 IEEE International Conference on Big Data (BigData), pp. 3275-3284

详情

DOI: 10.1109/BIGDATA66926.2025.11402097

英文摘要

Electrocardiogram (ECG) interpretation is essential for diagnosing a wide range of cardiac abnormalities. While deep learning has shown strong potential for automating ECG classification, many existing models rely on large, computationally intensive architectures that hinder practical deployment. In this paper, we present an empirical study of convolutional neural network (CNN) architectures, exploring tradeoffs between diagnostic accuracy and computational efficiency. We benchmark two established baselines: AttiaNet, a compact model composed of sequential temporal and spatial blocks, and DeepResidualCNN, the winning architecture of the 2021 PhysioNet/Computing in Cardiology Challenge. Building on these, we propose three lightweight models: (i) ParallelCNN, which employs dual temporal and spatial branches for parallel pattern extraction; (ii) ParallelCNNew, a variant with symmetric weight initialization for balanced feature learning; and (iii) SimpleNet, a streamlined architecture that jointly processes temporal and spatial dimensions. Our experiments span three publicly available 12-lead ECG datasets from Germany, China, and the United States, covering binary, multiclass, and multilabel classification tasks across diverse patient populations. We further evaluate the impact of integrating low-cost demographic metadata (age and sex) to improve performance with minimal overhead. To ensure fair comparison, we introduce a unified Efficiency Score that integrates model size, inference speed, memory usage, and AUC performance. By balancing diagnostic performance and efficiency, our models offer a scalable and viable foundation for next-generation AI systems in cardiovascular care.

URL PDF HTML ☆

赞 0 踩 0

2605.09846 2026-05-12 cs.SD cs.AI

ChladniSonify: A Visual-Acoustic Mapping Method for Chladni Patterns in New Media Art Creation

Yakun Liu, Hai Luan, Dong Liu, Zhiyu Jin

发表机构 * Department of Composition（作曲系）； Education Information Center（教育信息中心）； Department of Musicology（音乐学系）

AI总结在新媒体艺术创作中，视觉与听觉的映射往往具有主观性。本文提出了一种实时的视觉-听觉映射方法 ChladniSonify，用于生成克拉尼图案（Chladni patterns）的声学映射。该方法基于Kirchhoff-Love板理论构建数据集，并采用轻量级CNN结合CBAM模块实现高精度、低延迟的图案分类，最终在Python和Max/MSP中搭建了端到端系统，将识别出的图案映射到对应的正弦波频率，实现了零偏差的理论频率匹配与实时交互。

Comments 9 pages, 5 figures, IEEE conference format

2605.09845 2026-05-12 cs.LG

Sub-Footprint Effect Correction in FW-LiDAR Point Clouds via Intra-Footprint Target Unmixing

Zhen Xiao, Yanfeng Gu, Xian Li

发表机构 * School of Electronics and Information Engineering, Harbin Institute of Technology（哈尔滨工业大学电子与信息工程学院）

AI总结本文研究了全波形激光雷达（FW-LiDAR）点云中子光斑目标混合导致的强度不确定性问题，提出了一种基于物理的框架，通过显式建模光斑内部多目标的混合过程，实现子光斑级别的强度校正。该方法结合波形参数和地表几何信息，将混合过程转化为逆向解混问题，从而分离出每个光斑内不同子目标的贡献，并恢复出更准确的强度信息。实验表明，该方法有效提升了异质目标的语义可分性和同质目标的强度一致性。

Comments 11 pages,7 figures

2605.09844 2026-05-12 cs.AI cs.CL cs.LG

The Metacognitive Probe: Five Behavioural Calibration Diagnostics for LLMs

Rafael C. T. Oliveira

发表机构 * Independent Researcher（独立研究者）

AI总结该研究提出了一种名为“元认知探针”的诊断工具，用于评估大型语言模型（LLM）在自信行为上的表现，将其分解为五个行为维度，包括置信度校准、知识边界识别等。该工具在多个前沿模型和人类被试上进行了验证，揭示了模型在不同任务中的自信与正确性对齐情况，发现了模型在整体表现良好时仍可能存在局部过度自信的问题。研究在Gemini 2.5 Flash模型中观察到了显著的内部行为差异，突显了模型在不同任务间自信判断能力的不一致性。

Comments 27 pages, 13 tables. Code, data, prompts, and rubrics released with the paper. OSF deposit pending; DOI in v2

2605.09842 2026-05-12 cs.AI

Yield Curve Forecasting using Machine Learning and Econometrics: A Comparative Analysis

Aman Singh, Tokunbo Ogunfunmi, Sanjiv Das

发表机构 * Department of Electrical and Computer Engineering, Santa Clara University, USA（电子工程系，圣克拉拉大学，美国）； School of Business, Santa Clara University, USA（商学院，圣克拉拉大学，美国）

AI总结本文比较了计量经济学、经典机器学习和深度学习方法在预测美国国债收益率曲线方面的性能，使用了长达47年的每日数据。研究发现，传统计量经济模型如ARIMA在大多数情况下表现最佳，而时间序列深度学习模型如TimeGPT、LGBM和RNN也表现出色。此外，论文还探讨了平稳或非平稳数据作为深度学习模型输入的适用性问题。

Comments 18 pages, 12 figures, comparative study of econometric, machine learning, and deep learning methods for U.S. Treasury yield curve forecasting

Journal ref Journal of Investment Management, vol. 23, no. 4, Fourth Quarter 2025

2605.09839 2026-05-12 cs.LG cs.AI

Free Energy Manifold: Score-Based Inference for Hybrid Bayesian Networks

Cheol Young Park, Shou Matsumoto

发表机构 * ATOS Co., Ltd.（ATOS公司）； C5I Center, George Mason University（乔治·马歇尔大学C5I中心）

AI总结本文提出了一种名为自由能流形（Free Energy Manifold, FEM）的条件能量模型，专门用于含有离散和连续变量的混合贝叶斯网络中的推理任务。FEM 通过学习离散父节点的嵌入和连续观测值的能量景观，实现了对后验分布的评估、生成采样以及多连续叶节点的组合推理。研究还发现传统条件能量模型在类内模式之间可能产生低能量脊，导致对非数据点的过自信后验，并提出山谷正则化方法以修正这一问题，实验表明 FEM 在多模态和组合推理任务中优于经典方法和普通条件能量模型。

2605.09838 2026-05-12 cs.CL cs.LG

The Association of Transformer-based Sentiment Analysis with Symptom Distress and Deterioration in Routine Psychotherapy Care

Douglas K. Faust, Peter Awad, Alexandre Vaz, Tony Rousmaniere

发表机构 * Sentio University（Sentio大学）； Western Washington University（西雅图华盛顿大学）

AI总结该研究探讨了基于Transformer架构的情感分析模型在心理治疗常规护理中对患者症状困扰和恶化程度的关联性。研究通过分析大量心理治疗会话数据，提取了话语级和会话级的情感特征，并发现这些特征与OQ-45心理测量工具的多个维度，尤其是情绪价值相关指标存在显著相关性。此外，研究还表明，被标记为有恶化或退出风险的患者在情感分布上存在统计学上的显著差异，表明所提出的情感特征可作为评估患者心理状态的辅助指标。

Comments 20 pages, 4 figures

Journal ref (2026) Front. Digit. Health 8:1792536

2605.09832 2026-05-12 cs.LG

Modeling Atomic Conformational Ensembles of Proteins via Test-Time Supervision of Boltz-2 on Cryo-EM Density Maps

Jay Shenoy, Miro Astore, Axel Levy, Frédéric Poitevin, Sonya M. Hanson, Gordon Wetzstein

发表机构 * Flatiron Institute（Flatiron研究所）； SLAC National Lab（斯坦福直线加速器实验室）； Center for Computational Biology & Center for Computational Mathematics（计算生物学中心与计算数学中心）

AI总结该研究旨在解决蛋白质原子构象集合预测中的数据稀缺问题，提出了一种无需传统两阶段训练流程的方法，直接在原始冷冻电镜（cryo-EM）密度图上微调预训练的静态结构预测模型Boltz-2，从而生成高精度的原子构象。该方法命名为CryoSampler，不仅在模型构建准确性上优于现有方法，还展示了在相同蛋白家族中对未见序列的跨样本泛化能力，为基于原始cryo-EM数据训练下一代构象预测模型提供了新思路。

Comments Project page: https://jayshenoy.com/cryosampler

AI 大模型

视觉与机器人

科学与医疗