arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.09310 2026-05-12 cs.AI q-fin.PM

Beyond ESG Scores: Learning Dynamic Constraints for Sequential Portfolio Optimization

Xin Li, Yan Ke, Longbing Cao

发表机构 * Macquarie University（麦考瑞大学）； The University of Queensland（昆士兰大学）

AI总结本文研究了在可持续投资中如何更有效地将环境、社会和治理（ESG）因素纳入投资组合优化过程。不同于传统方法将ESG视为静态评分，作者提出了一种动态约束学习方法，通过多模态行动条件约束场（MACF）从实时多源数据中学习特定机制的ESG成本，并引入MACF-X适配器将这些约束转化为优化器可识别的接口。该方法在保持良好财务表现的同时，有效降低了ESG预算压力，实验表明其优势依赖于动态证据输入和三头分解结构。

2605.09308 2026-05-12 cs.LG cs.AI

Hierarchical Attention-based Graph Neural Network with Relevance-driven Pruning

Seungwoo Kum

发表机构 * Korea Electronics Technology Institute (KETI)（韩国电子技术研究所）

AI总结本文提出了一种基于分层注意力机制的异构图神经网络（HA-HeteroGNN），旨在解决图神经网络在处理异构节点类型时解释性不足以及大规模噪声图中计算开销大的问题。该方法通过统一的可解释性到剪枝的流程，利用双层注意力机制区分传感器级和上下文级的计算，生成节点相关性评分，并以此作为剪枝依据，有效减少了图边数量同时提升了分类准确率。实验表明，该方法在保持高分类性能的同时显著降低了训练时间和推理延迟，验证了其在实际应用中的有效性。

2605.09303 2026-05-12 cs.LG

Path-Dependent Denoising: A Non-Conservative Field Perspective on Order Collapse in Diffusion Language Models

Jeonseong Kim

发表机构 * GitHub

AI总结扩散语言模型（DLMs）提供了一种不同于自回归生成的结构化生成方式，允许在任意顺序或并行更新标记。然而，实际应用中其解码过程仍高度依赖于顺序，常表现出类似自回归的行为。本文从非保守场视角出发，提出路径依赖去噪的概念，揭示了局部去噪条件与全局顺序之间的兼容性问题，并构建了用于诊断DLM解码是否真正实现无序生成的推理阶段分析框架。

2605.09302 2026-05-12 cs.LG cs.CV

Discrete Langevin-Inspired Posterior Sampling

Chaitanya Amballa, Sattwik Basu, Jorge Vančo Sampedro, Romit Roy Choudhury

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）

AI总结本文研究了在离散状态空间中使用离散扩散模型作为生成先验的逆问题后验采样方法。现有方法多依赖于连续松弛、吉布斯更新或特定退化过程的机制，限制了其可扩展性和通用性。为此，作者提出了一种基于离散朗之万动力学的后验采样器ΔLPS，能够在不离开离散状态空间的前提下，利用梯度信息高效地进行采样，支持所有维度的并行更新，并适用于不同训练方式的离散扩散模型。实验表明，该方法在图像恢复和空间映射等任务中优于现有离散扩散后验采样器，并能与连续扩散方法竞争。

2605.09301 2026-05-12 cs.LG cs.AI

Neural Cluster First, Route Second: One-Shot Capacitated Vehicle Routing via Differentiable Optimal Transport

Samuel J. K. Chin, Maximilian Schiffer

发表机构 * MIT（麻省理工学院）； TUM（塔尔博特大学）

AI总结本文提出了一种基于神经网络的“聚类优先、路径其次”（Neural CFRS）方法，用于解决带容量约束的车辆路径问题（CVRP）。该方法突破了传统自回归解码的限制，采用可微分最优传输层，端到端地处理全局车队容量约束，实现了高效的一次性解码。相比现有方法，Neural CFRS 在保持高参数效率的同时，展现出对大规模和分布外实例的鲁棒性，并在标准基准测试中取得了具有竞争力的优化结果。

Comments 30 pages, 9 figures

2605.09296 2026-05-12 cs.CV cs.AI cs.LG

Micro-Defects Expose Macro-Fakes: Detecting AI-Generated Images via Local Distributional Shifts

Boxuan Zhang, Jianing Zhu, Qifan Wang, Jiang Liu, Ruixiang Tang

发表机构 * Rutgers University（罗格斯大学）； The University of Texas at Austin（德克萨斯大学奥斯汀分校）； Meta AI ； Advanced Micro Devices（先进微器件公司）

AI总结近年来生成模型能够生成高度逼真的图像，使得区分真实图像与AI生成图像变得愈发困难。现有基于预训练特征提取器的检测方法往往过于依赖全局语义信息，忽略了关键的微小缺陷。本文提出了一种基于局部分布差异的检测框架MDMF，通过放大图像中微小的统计不规则性，揭示AI生成图像的宏观分布差异，显著提升了检测性能。实验表明，MDMF在多个基准测试中均优于现有方法，验证了其有效性。

Comments 41 pages, 10 figures

2605.09295 2026-05-12 cs.CL

LEAF-SQL: Level-wise Exploration with Adaptive Fine-graining for Text-to-SQL Skeleton Prediction

Zhao Tan, Xiping Liu, Qing Shu, Qizhi Wan, Dexi Liu, Changxuan Wan

发表机构 * School of Computing（计算学院）； Artificial Intelligence（人工智能）； Jiangxi University of Finance（江西财经大学）

AI总结 LEAF-SQL 是一种用于文本到 SQL 骨架预测的新框架，旨在解决复杂查询生成中的结构探索难题。该方法将骨架预测重构为从粗粒度到细粒度的树搜索过程，通过三级骨架层次结构、骨架生成代理和评估代理的协同工作，实现结构多样化与粒度自适应的搜索。实验表明，LEAF-SQL 显著提升了多种大语言模型在复杂查询任务中的表现，尤其在 BIRD 基准测试中取得了优于现有方法的执行准确率。

2605.09294 2026-05-12 cs.LG cs.AI

Towards Effective Theory of LLMs: A Representation Learning Approach

Muhammed Ustaomeroglu, Guannan Qu

发表机构 * Carnegie Mellon University（卡内基梅隆大学）

AI总结本文提出了一种名为“表示有效理论”（RET）的框架，用于从大语言模型的隐藏状态轨迹中学习宏观状态，从而以高层次结构描述其计算过程。该方法采用类似BYOL/JEPA的自监督目标，将激活值粗粒化为保留预测与解释相关信息的宏观变量。实验表明，这些宏观变量能够揭示模型推理过程中的“心智状态”轨迹，捕捉高层语义结构，并支持对行为结果的早期预测与可控干预，为理解与引导大语言模型提供了有效的描述方式。

Comments Project webpage: https://ustaomeroglu.github.io/RET/

2605.09292 2026-05-12 cs.AI cs.CY

Beyond Accuracy: Evaluating Strategy Diversity in LLM Mathematical Reasoning

Xia Yang, Xuanyi Zhang, Hao Hu, Feng Ji

发表机构 * University of Toronto（多伦多大学）； Upper Canada College（上加拿大学院）； East China Normal University（华东师范大学）

AI总结该研究探讨了大语言模型在数学推理任务中除答案准确率之外的策略多样性问题。研究提出了一种基于策略层面的评估框架，利用80道AMC 10/12和AIME题目以及217种AoPS参考策略，分析模型生成策略的多样性与有效性。实验发现，尽管模型在单一解法提示下具有高准确率，但在多策略提示下其策略覆盖范围远低于人类参考水平，且不同模型在几何和数论等领域的策略生成能力存在显著差异。研究还表明，模型虽能生成部分新颖策略，但整体上仍无法全面覆盖人类策略，揭示了当前模型在数学推理灵活性方面的局限性。

2605.09291 2026-05-12 cs.LG stat.AP

dFlowGRPO: Rate-Aware Policy Optimization for Discrete Flow Models

Zhengyan Wan, Yidong Ouyang, Panwen Hu, Qiang Sun

发表机构 * Mohamed bin Zayed University of Artificial Intelligence（穆罕默德·本·扎耶德人工智能大学）； East China Normal University（东华大学）； University of California, Los Angeles（加州大学洛杉矶分校）； University of Toronto（多伦多大学）

AI总结本文提出了一种名为dFlowGRPO的强化学习框架，用于离散流模型，支持更广泛的概率路径和非掩码源分布。该方法通过推导离散流模型的完整轨迹概率，将去噪过程建模为马尔可夫决策过程，从而在强化学习中结合条件转移率和后验模型的信息。实验表明，dFlowGRPO在文本到图像生成任务中优于现有的GRPO方法，并在理解任务中展现出强大的能力。

2605.09290 2026-05-12 cs.LG

From Regression to Inference: Meta-Learning Predictors for Neural Architecture Search

Liping Deng, MingQing Xiao

发表机构 * Department of Mathematics（数学系）； School of Mathematical and Statistical Sciences（数学与统计科学学院）； University of California, Riverside（加州大学河滨分校）； Southern Illinois University Carbondale（南伊利诺伊大学卡罗尔梅尔分校）

AI总结本文研究了基于预测的神经架构搜索（NAS）中性能预测器的泛化问题，提出了一种基于元学习的卷积神经过程（ConvNP）方法，将性能预测建模为条件函数推断问题。与传统回归方法不同，该方法通过元学习从少量样本中学习泛化能力，提升了对未见架构的预测准确性。实验表明，该方法在多个NAS基准数据集上显著提升了架构选择的性能，达到了当前最优水平。

2605.09288 2026-05-12 cs.LG cs.AI cs.CE cs.CV cs.NA math.NA

MC$^2$: Monte Carlo Correction for Fast Elliptic PDE Solving

Ethan Hsu, Hong Meng Yam, Ivan Ge

发表机构 * Stanford University（斯坦福大学）

AI总结该论文提出了一种名为 MC² 的混合求解方法，结合蒙特卡洛方法（Walk-on-Spheres）与神经网络，用于高效求解椭圆型偏微分方程（PDE）。该方法通过将低计算量的蒙特卡洛解作为结构化估计器，训练神经网络进行单次前向传播修正，从而获得高精度解，显著提升了求解速度。此外，论文还发布了 PDEZoo，一个包含两百万个椭圆型 PDE 的标准化基准数据集，为有限计算资源下的 PDE 求解研究提供了重要支持。

2605.09285 2026-05-12 cs.CL

BetaEdit: Null-Space Constrained Sequential Model Editing

Bingqing Liu, Wei Liu, Yuhua Li

发表机构 * Huazhong University of Science and Technology（华中科技大学）

AI总结本文提出了一种名为 BetaEdit 的模型编辑方法，旨在解决基于零空间的模型编辑方法在连续编辑过程中出现的知识泄露和性能下降问题。通过深入分析历史感知更新机制的作用，作者提出了一个结合历史信息的零空间编辑框架，有效控制了知识泄露并提升了编辑效果。实验表明，BetaEdit 在大规模连续编辑任务中优于现有方法，具有更好的编辑性能和通用能力。

2605.09284 2026-05-12 cs.LG cs.AI cs.CE physics.app-ph physics.comp-ph

Semi-Supervised Neural Super-Resolution for Mesh-Based Simulations

Jiyeon Kim, Youngjoon Hong, Won-Yong Shin

发表机构 * School of Mathematics and Computing (Computational Science and Engineering), Yonsei University（延世大学数学与计算学院（计算科学与工程））； Department of Mathematical Sciences, Seoul National University（首尔国立大学数学科学系）

AI总结本文提出了一种名为SuperMeshNet的半监督神经网络超分辨率框架，用于提高基于网格的仿真计算效率。该方法通过结合少量配对的低分辨率-高分辨率数据与大量未配对的低分辨率数据，利用消息传递神经网络（MPNN）实现高效的高分辨率解重建，有效减少了对高分辨率监督数据的依赖。实验表明，SuperMeshNet在使用更少高分辨率数据的情况下，能够取得比全监督方法更低的均方根误差，显著提升了计算效率。

Comments International Conference on Machine Learning (ICML 2026) (to appear) (Please cite our conference version.)

2605.09283 2026-05-12 cs.AI cs.CL

A Prompt-Aware Structuring Framework for Reliable Reuse of AI-Generated Content in the Agentic Web

Shusaku Egami, Masahiro Hamasaki

发表机构 * National Institute of Advanced Industrial Sciencen

AI总结随着大型语言模型和基于其构建的AI代理的发展，网络正从以人类为中心向由AI代理驱动的“智能体网络”转变。然而，当前缺乏对AI生成内容（AIGC）在生成过程中可靠性、可复现性和合规性的验证机制，这可能导致内容误用和合规风险。本文提出了一种提示感知的结构化框架，在生成时自动为AIGC附加结构化元数据，包括模块化提示、上下文、模型信息、超参数和置信度，并结合可验证凭证，从而支持AIGC的可靠评估与安全复用。

Comments 5 pages, 2 figures, Accepted at FAAW@WWW2026

2605.09281 2026-05-12 cs.LG

TileQ: Efficient Low-Rank Quantization of Mixture-of-Experts with 2D Tiling

Hongyaoxing Gu, Xinzhe Chen, Lijuan Hu, Fangfang Liu

发表机构 * Institute of Software Chinese Academy of Sciences（中国科学院软件研究所）； University of Chinese Academy of Sciences（中国科学院大学）

AI总结本文提出了一种名为 TileQ 的高效低秩量化方法，用于压缩混合专家（MoE）模型。该方法通过在输入和输出维度上共享低秩因子，采用二维分块结构化低秩量化，在无需微调的情况下实现模型压缩。实验表明，TileQ 显著降低了额外内存占用并减少了推理延迟，同时保持了模型的先进精度。

2605.09278 2026-05-12 cs.AI

EquiMem: Calibrating Shared Memory in Multi-Agent Debate via Game-Theoretic Equilibrium

Yuqiao Meng, Sakshi Sunil Narvekar, Luoxi Tang, Rupali Rajendra Vaje, Yingxue Zhang, Muchao Ye, Zhaohan Xi

发表机构 * Binghamton University, State University of New York（宾夕法尼亚州立大学布林茅尔分校）； University of Iowa（爱荷华大学）

AI总结多智能体辩论（MAD）系统依赖共享内存进行长期推理，但这也带来了内存污染的风险，现有方法依赖启发式或大模型判断，难以有效过滤错误。本文将内存更新建模为零信任博弈，提出EquiMem机制，在推理时通过智能体的检索查询和遍历路径量化评估内存更新的可信度，无需依赖大模型判断。该方法适用于嵌入式和图结构内存，在多种基准和架构下表现出更优的防护效果和鲁棒性。

2605.09276 2026-05-12 cs.LG cs.CV

Uncertainty-Aware Token Importance Estimation in Spiking Transformers

Wenxuan Liu, Zecheng Hao, Tong Bu, Yuran Wang, Zhaofei Yu

发表机构 * School of Computer Science, Peking University（北京大学计算机科学学院）； School of Computer Science, Peking University. Institute for Artificial Intelligence, Peking University（北京大学计算机科学学院。人工智能研究所）； Peking University（北京大学）

AI总结本文研究了在脉冲变压器中如何更准确地估计令牌的重要性，以减少冗余计算并提高推理效率。现有方法主要依赖于响应特征，如激活幅度或发放统计，但未能反映令牌在时间演化中的不确定性变化。作者提出了一种无需训练、可插拔的Uncert框架，通过建模令牌的类别证据并分析其时间不确定性模式，为令牌重要性评估提供了新的依据。实验表明，该方法在静态和神经形态基准上均取得了良好的精度与效率平衡，尤其在令牌剪枝任务中表现突出。

2605.09275 2026-05-12 cs.LG

DiffATS: Diffusion in Aligned Tensor Space

Jinhua Lyu, Tianmin Yu, Brian Kim, Lizhuo Zhou, Chanwook Park, Naichen Shi

发表机构 * Northwestern University（西北大学）

AI总结本文提出了一种名为 DiffATS 的生成模型，用于高效建模高分辨率时空场。该方法通过构造数据自适应的张量原语，避免了预训练压缩自编码器的依赖，解决了张量分解中因子非唯一性的问题。通过正交Procrustes对齐技术，模型实现了紧凑且可直接解码的生成表示，并在图像、视频和偏微分方程解等任务中取得了优异的生成效果，同时实现了高达210倍的数据压缩。

2605.09272 2026-05-12 cs.AI cs.CL cs.CV

Towards Conversational Medical AI with Eyes, Ears and a Voice

Meet Shah, Jason Gusdorf, Anil Palepu, Chunjong Park, Jack W. O'Sullivan, Vishnu Ravi, Tim Strother, Pavel Dubov, Aliya Rysbek, Toshiyuki Fukuzawa, Yana Lunts, Jan Freyberg, Michael B. Chang, Aniruddh Raghu, David Stutz, Devora Berlowitz, Eliseo Papa, Taylan Cemgil, JD Velasquez, Jack Chen, Arthur Chen, Doug Fritz, Charlie Taylor, Katya Tregubova, Jing Rong Lim, Richard Green, Sara Mahdavi, Mahvish Nagda, Jihyeon Lee, Craig Schiff, Liviu Panait, Sukhdeep Singh, Valentin Liévin, David G. T. Barrett, Hannah Gladman, Anna Cupani, Francesca Pietra, Uchechi Okereke, Katherine Tong, Clemens Meyer, Erwan Rolland, Mili Sanwalka, Michael D. Howell, Shixiang Shane Gu, Bibo Xu, Euan A. Ashley, S. M. Ali Eslami, Gregory Wayne, Pushmeet Kohli, Vivek Natarajan, Adam Rodman, Alan Karthikesalingam, Ryutaro Tanno

发表机构 * Google DeepMind（谷歌深Mind）； Google Research（谷歌研究）； Beth Israel Deaconess Medical Center, Harvard Medical School（贝塞斯达医院, 哈佛医学院）； Stanford University（斯坦福大学）

AI总结该研究提出了一种名为AI co-clinician的新型会话式医疗AI系统，能够实时处理来自医患对话的视听数据，辅助临床决策。该系统基于Gemini的低延迟音视频处理能力，采用双代理架构，兼顾深度临床推理与自然对话所需的低延迟响应。实验表明，AI co-clinician在多个关键评估维度上接近初级保健医生，且在通用评估标准上显著优于GPT-Realtime，但仍在体格检查和疾病特异性推理方面存在不足，突显了视听信息在医疗咨询中的重要性。

Comments Video examples are available on Youtube: https://youtu.be/y5Vaa_SN1t0, https://youtu.be/dC4icb75vLQ, and https://youtu.be/E7iEvWo-E6c

详情

英文摘要

The practice of medicine relies not only upon skillful dialogue but also on the nuanced exchange and interpretation of rich auditory and visual cues between doctors and patients. Building on the low-latency voice and video processing capabilities of Gemini, we introduce AI co-clinician, a first-of-its-kind conversational AI system utilizing continuous streams of audio-visual data from live patient conversations to inform real-time clinical decisions. Its dual-agent architecture balances deep clinical reasoning with the low latency required for natural dialogue. To assess this system, we implemented a video-based interface emulating telemedicine consultations. We crafted 20 standardized outpatient scenarios requiring proactive real-time auditory and visual reasoning and designed "TelePACES" evaluation criteria alongside case-specific rubrics. In a randomized, interface-blinded, crossover simulation study (n = 120 encounters) with 10 internal medicine residents as patient actors, we compared AI co-clinician with primary care physicians (PCPs), GPT-Realtime, and a baseline agent. AI co-clinician approached PCPs in key TelePACES dimensions, including management plans and differential diagnosis, while significantly outperforming GPT-Realtime across all general criteria. While our agent demonstrated parity with PCPs in case-specific triage measures, physicians maintained superior overall performance in case-specific assessments. Although AI co-clinician marks a significant advance in real-time telemedical AI, gaps remain in physical examination and disease-specific reasoning. Our work shows that text-only approaches fail to capture the true challenges of medical consultation and suggests that high-stakes real-time diagnostic AI is most safely advanced in collaborative, triadic models where AI can be a supportive co-clinician for doctors and patients.

URL PDF HTML ☆

赞 0 踩 0

2605.09269 2026-05-12 cs.CL cs.CV

DeltaRubric: Generative Multimodal Reward Modeling via Joint Planning and Verification

Rui Liu, Dian Yu, Zhenwen Liang, Yucheng Shi, Tong Zheng, Runpeng Dai, Haitao Mi, Pratap Tokekar, Leoweiliang

发表机构 * Tencent Hunyuan（腾讯文元）； University of Maryland, College Park（马里兰大学 College Park 分校）； University of North Carolina, Chapel Hill（北卡罗来纳大学 Chapel Hill 分校）

AI总结 DeltaRubric 是一种用于多模态大语言模型奖励建模的生成式方法，旨在解决现有评估方式在视觉细节判断上的偏差问题。该方法通过将评估过程分解为“规划”和“验证”两个步骤，动态生成针对具体实例的检查清单，并基于图像和问题进行验证，从而提高评估的准确性和可靠性。实验表明，DeltaRubric 在多个基准测试中显著提升了模型的奖励建模效果，验证了其在多模态任务中的有效性。

2605.09268 2026-05-12 cs.CL cs.AI

Beyond Continuity: Challenges of Context Switching in Multi-Turn Dialogue with LLMs

Aditya Sinha, Harald Steck, Vito Ostuni, Matteo Rinaldi

发表机构 * Netflix Inc.（Netflix公司）

AI总结本文研究了大型语言模型（LLMs）在多轮对话中处理上下文切换时面临的挑战，特别是模型难以识别用户请求的转变或主题切换，并容易携带不相关的先前上下文。为此，作者构建了基于真实数据集的合成基准，测试了十种不同类型的LLMs在零样本情况下的表现，发现只有部分具备推理能力或明确指令引导的模型能够准确检测到上下文切换，而大多数模型存在位置偏差和对过时上下文的依赖问题。研究结果为提升LLMs在多轮对话中的长期鲁棒性提供了重要启示。

Comments Accepted to the ICBINB Workshop @ ICLR 2026

2605.09262 2026-05-12 cs.CV cs.CL

Reinforcing Multimodal Reasoning Against Visual Degradation

Rui Liu, Dian Yu, Haolin Liu, Yucheng Shi, Tong Zheng, Runpeng Dai, Haitao Mi, Pratap Tokekar, Leoweiliang

发表机构 * Tencent Hunyuan（腾讯文言）； University of Maryland, College Park（马里兰大学 College Park 分校）； University of Virginia（弗吉尼亚大学）； University of North Carolina, Chapel Hill（北卡罗来纳大学 Chapel Hill 分校）

AI总结该研究针对多模态大语言模型在面对现实视觉退化（如模糊、压缩伪影等）时推理能力下降的问题，提出了一种基于强化学习的微调框架ROMA。该方法通过双前向传播策略、分布一致性约束和正确性条件正则化等技术，在不损害干净输入性能的前提下提升模型对视觉退化的鲁棒性。实验表明，ROMA在多个多模态推理基准上显著优于现有方法，提升了可见和未见退化场景下的推理准确性。

2605.09258 2026-05-12 cs.CV cs.AI

Monocular Biomechanical Tracking of Fingers with Inverse Kinematics to Foundation Models

R. James Cotton, Pouyan Firouzabadi, Wendy Murray

发表机构 * Shirley Ryan AbilityLab Department of PM\&R Northwestern University ； Shirley Ryan AbilityLab Department of Biomedical Engineering Northwestern University

AI总结该研究旨在解决单目视频中精确追踪手指生物力学运动的问题，提出了一种结合SAM 3D Body基础模型与逆运动学优化的方法，从单视角视频中提取解剖学约束的手指关节角度。通过将模型迁移至JAX并集成至MuJoCo-MJX，实现了高效的GPU加速优化，并建立了Momentum Human Rig输出与生物力学模型标记之间的新映射关系。实验表明，该方法在多种手部动作和物体操作任务中，能够达到约10度的关节角度误差和6毫米的手部位置误差，具有良好的视角一致性和鲁棒性，为基于视频的定量手部运动分析提供了新途径。

Comments Accepted to EMBC 2026

2605.09256 2026-05-12 cs.LG cs.AI stat.ML

Improving Generalization by Permutation Routing Across Model Copies

Shuhei Kashiwamura, Timothee Leleu

发表机构 * NTT Research, CA, USA（NTT研究所）； Stanford University, CA, USA（斯坦福大学）

AI总结本文提出了一种利用 $M$-cover 变换来提升机器学习模型泛化能力的方法。该方法通过复制模型 $M$ 次，并利用结构化的混合核 $Q$ 对模型参数进行排列路由，从而在不同副本之间传递局部学习信息，而非传统的参数平均或显式吸引力机制。这种方法通过结构化的消息共享机制，有效改善了模型的泛化性能，适用于从感知机到多层感知机等多种模型结构。

2605.07922 2026-05-12 cs.LG

Tree SAE: Learning Hierarchical Feature Structures in Sparse Autoencoders

Tue M. Cao, Hoang X. Nhat, Raed Alharbi, Phi Le Nguyen, My T. Thai

发表机构 * Hanoi University of Science（河内科学大学）； University of Florida, Florida, USA（佛罗里达大学）； Computer Science Department, Saudi Electronic University（沙特电子大学计算机科学系）

AI总结本文提出了一种名为Tree SAE的新方法，用于在稀疏自编码器中学习层次化特征结构。该方法通过引入一种新的重构条件，结合激活和重构约束，克服了现有方法中因语义无关概念误判而导致的虚假正例问题。实验表明，Tree SAE在学习层次化特征对方面显著优于现有方法，并在多个基准测试中保持了与最先进方法相当的性能，同时还能用于分析大型语言模型中复杂的层次化概念结构。

Comments 21 pages

2605.07910 2026-05-12 cs.CV

One World, Dual Timeline: Decoupled Spatio-Temporal Gaussian Scene Graph for 4D Cooperative Driving Reconstruction

Yulong Chen, Xiaoyun Dong, Haoyu Zhang, Zongxian Yang, Lewei Xie, Xinke Li, Yifan Zhang, Kai Wang, Jianping Wang

发表机构 * City University of Hong Kong (Dongguan)（香港城市大学（东莞））； City University of Hong Kong（香港城市大学）； SLAI

AI总结本文研究了从车路协同自动驾驶（VICAD）数据中重建动态场景的问题，指出现有高斯场景图方法因假设观测同步而无法处理车辆与基础设施摄像头之间的时序不同步问题，导致动态目标出现严重鬼影现象。为此，作者提出了一种解耦时空高斯场景图（DUST），通过为每个代理维护独立的位姿轨迹并共享统一的外观表示，有效消除了跨源干扰，并在V2X-Seq数据集上取得了显著的性能提升。

2605.07649 2026-05-12 cs.CV cs.AI cs.RO

Operating Within the Operational Design Domain: Zero-Shot Perception with Vision-Language Models

Berkehan Ünal, Hauke Dierend, Dren Fazlija, Christopher Plachetka

发表机构 * Volkswagen Aktiengesellschaft（大众汽车股份有限公司）； L3S Research Center（莱比锡大学汉诺威研究中心）； Faculty of Information Technology（信息科技学院）； MOIA GmbH（MOIA公司）； Motor AI GmbH（Motor AI公司）

AI总结本文研究了如何利用视觉-语言模型（VLM）实现对操作设计域（ODD）的零样本感知，以支持自动驾驶系统等安全关键应用。通过在自定义数据集和Mapillary Vistas上的实验，作者评估了四种VLM在零样本分类与检测任务中的表现，并分析了不同优化策略的效果。研究提出了一种基于定义锚定的思维链提示方法，结合角色分解，显著提升了感知性能，为构建透明、高效的ODD感知系统提供了可行方案。

Comments 8 pages, 4 figures

2605.07579 2026-05-12 cs.LG cs.AI cs.CL

Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States

Yunho Choi, Jongwon Lim, Woojin Ahn, Minjae Oh, Jeonghoon Shim, Yohan Jo

发表机构 * Graduate School of Data Science（数据科学研究生院）； Seoul National University（首尔国立大学）； Computer Science and Engineering（计算机科学与工程）

AI总结该论文提出了一种名为POISE的新方法，用于在大型推理模型中进行可验证奖励的强化学习。其核心思想是利用策略模型在前向传播过程中已生成的内部状态信号来估计基线，从而显著降低计算成本。通过一个轻量级探针从隐藏状态和生成轨迹中预测可验证奖励，并在训练过程中与策略一同优化。实验表明，POISE在数学推理任务上表现优异，计算效率优于现有方法，并且其价值估计器性能接近独立的大型价值模型。

Comments Under Review; Project Page: https://elijah0430.github.io/poise/

2605.07399 2026-05-12 cs.CV

GPO-V: Jailbreak Diffusion Vision Language Model by Global Probability Optimization

Yu Pan, Andi Zhang, Yi Wang, Sibei Yang, Wenjie Wang

发表机构 * ShanghaiTech University（上海科技大学）； University of Warwick（沃里克大学）； SUN YAT-SEN UNIVERSITY（中山大学）

AI总结该论文研究了扩散视觉语言模型（dVLMs）在面对越狱攻击时的安全性问题，揭示了其在应对传统固定前缀优化（FPO）攻击时表现出的假象性鲁棒性。作者提出了一种基于全局概率优化（GPO）的新型越狱方法，通过操纵扩散模型的去噪轨迹，绕过模型的防护机制，并进一步开发了首个针对dVLMs的视觉模态越狱框架GPO-V。实验表明，GPO-V能够生成隐蔽且具有跨模型迁移能力的扰动，暴露了非序列生成架构中的关键安全漏洞，突显了对dVLMs进行安全对齐的紧迫性。

AI 大模型

视觉与机器人

科学与医疗