arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.11330 2026-05-13 cs.AI

Rethinking Evaluation for LLM Hallucination Detection: A Desiderata, A New RAG-based Benchmark, New Insights

Wenbo Chen, Veena Padmanabhan, Tootiya Giyahchi, Elaine Wong, Leman Akoglu

发表机构 * Amazon（亚马逊公司）； Carnegie Mellon University（卡内基梅隆大学）

AI总结本文针对大语言模型（LLM）幻觉检测的评估方法进行了重新思考，提出了一个用于构建有效幻觉检测基准（HDB）的期望属性列表，并指出现有基准在长上下文的RAG（检索增强生成）基准和真实标签噪声支持方面存在明显不足。为此，作者构建并开源了一个新的RAG-based幻觉检测基准T RIVIA+，该基准包含当前最长的上下文样本，并引入了多种噪声标签以模拟真实场景。实验表明，现有检测方法在RAG任务上仍有较大提升空间，且标签噪声对检测性能有显著影响。

Comments ACL 2026 main conference

2605.11328 2026-05-13 cs.LG cs.AI

Epistemic Uncertainty for Test-Time Discovery

Kainat Riaz, Muhammad Ahmed Mohsin, Ahsan Bilal, Muhammad Umer, Ayesha Mohsin, Aqib Riaz, Ali Subhan, John M. Cioffi

发表机构 * Stanford University（斯坦福大学）； National University of Sciences and Technology（国家安全科学与技术大学）； University of Oklahoma（俄克拉荷马大学）

AI总结该研究探讨了如何利用大语言模型在测试阶段进行科学发现的问题，指出传统强化学习方法因惩罚高方差变异而倾向于熟悉模式，导致奖励难以持续提升。为此，研究提出了一种基于知识不确定性度量的探索策略，通过维护一个小型适配器集成，在冻结的基模型上识别出因训练覆盖不足而非问题本质困难的区域，从而引导策略向潜在发现区域探索。实验表明，该方法在多个科学发现任务中提升了最大奖励并保持了更高的解的多样性。

2605.11327 2026-05-13 cs.LG

Neural Statistical Functions

Daniel Xu, Yuxin Xie, Minghao Guo, Haixu Wu, Wojciech Matusik

发表机构 * Columbia University（哥伦比亚大学）； MIT CSAIL（麻省理工学院计算机科学与人工智能实验室）

AI总结本文提出了一种新型神经统计函数模型，用于直接估计连续操作条件范围内的统计量，避免了传统方法中重复推理带来的高延迟问题。该方法基于预训练的单样本预测器和散点数据，通过引入前缀统计的概念，将积分、分位数和极值等不同统计函数统一到一个区间条件框架中，并以前缀统计与个体回归之间的原理性一致性作为学习目标。实验表明，该模型在动力系统能量累积、气动响应分位数和碰撞过程最大应力等复杂物理过程的统计估计中表现出色，模型评估次数最多可减少100倍。

2605.11324 2026-05-13 cs.LG stat.ML

$\varepsilon$-Good Action Identification in Fixed-Budget Monte Carlo Tree Search

Yinan Li, Tuan Nguyen, Kwang-Sung Jun

发表机构 * Department of Computer Science（计算机科学系）； University of Arizona（亚利桑那大学）； CSE/GSAI POSTECH（POSTECH CSE/GSAI）

AI总结本文研究了在固定预算下深度为2的max-min树中识别ε-优质动作的问题，这是蒙特卡洛树搜索的一个重要特例。作者提出了一种无需输入ε值的算法，能够针对每个有意义的ε值实现实例相关的误差界，其误识别概率以指数形式衰减。此外，作者还分析了该问题与标准K臂老虎机在难度结构上的差异，并提供了相应的下界结果，这是首个针对max-min动作识别的固定预算算法保证。

2605.11317 2026-05-13 cs.CL cs.AI

SOMA: Efficient Multi-turn LLM Serving via Small Language Model

Xueqi Cheng, Qiong Wu, Zhengyi Zhou, Xugui Zhou, Tyler Derr, Yushun Dong

发表机构 * Florida State University（佛罗里达州立大学）； AT&T Chief Data Office（AT&T首席数据办公室）； Louisiana State University（路易斯安那州立大学）； Vanderbilt University（范德比大学）

AI总结在多轮对话场景中，大型语言模型（LLMs）的部署面临延迟、内存和API成本高昂的问题。为此，本文提出SOMA框架，通过利用会话早期的对话内容估计局部响应流形，并使用一个小的语言模型作为代理模型处理后续对话，从而在保证响应质量的同时提升服务效率。该方法结合软提示学习、反退化控制和局部LoRA微调，实现了代理模型在推理阶段无需提示的高效运行，并提供了理论分析与实验验证，证明了其有效性。

2605.11316 2026-05-13 cs.LG math.OC

Error whitening: Why Gauss-Newton outperforms Newton

Maricela Best McKay, Nathan P. Lawrence, Brian Wetton, R. Bhushan Gopaluni

发表机构 * University of British Columbia（不列颠哥伦比亚大学）； University of California, Berkeley（加州大学伯克利分校）

AI总结本文从函数空间视角分析了为何高斯-牛顿法在实践中优于牛顿法，揭示了高斯-牛顿矩阵通过将损失梯度投影到模型切空间，消除了参数化带来的误差扭曲，这一过程被称为“误差白化”。研究指出，这种特性使得高斯-牛顿法在优化过程中更贴近损失函数本身的结构，从而在多种学习任务中表现出更优的性能。

Comments Neurips preprint

2605.11312 2026-05-13 cs.AI

Constraint-Data-Value-Maximization: Utilizing Data Attribution for Effective Data Pruning in Low-Data Environments

Danilo Brajovic, David A. Kreplin, Marco F. Huber

发表机构 * Fraunhofer IPA（弗劳恩霍夫研究所）； Institute of Industrial Manufacturing and Engineering IFF（工业制造与工程研究所）； University of Stuttgart（斯图加特大学）； Hochschule Heilbronn（海德堡应用技术大学）

AI总结本文研究了在数据量有限的情况下如何有效进行数据剪枝的问题，提出了一种基于数据归属的约束数据价值最大化（CDVM）方法。该方法通过将剪枝过程建模为一个受约束的优化问题，在最大化整体数据影响的同时限制单个测试样本的贡献，从而在保留少量数据时仍能保持模型性能。实验表明，CDVM在OpenDataVal基准上表现出色，具有良好的性能和竞争力的运行时间。

Comments Accepted for publication at IJCAI 2026

2605.11311 2026-05-13 cs.LG cs.CV stat.CO stat.ML

Couple to Control: Joint Initial Noise Design in Diffusion Models

Jing Jia, Liyue Shen, Guanyang Wang

发表机构 * Department of Computer Science（计算机科学系）； Rutgers University（罗格斯大学）； Department of EECS（电子工程与计算机科学系）； University of Michigan（密歇根大学）； Department of Statistics（统计学系）

AI总结该论文研究了扩散模型中初始噪声设计的问题，指出传统方法中假设初始噪声相互独立可能限制了生成效果。作者提出通过设计噪声之间的依赖结构，保持单个噪声仍为标准高斯分布，从而在不改变模型输入分布的前提下，提升多样本生成的多样性与质量。实验表明，该方法在多个主流扩散模型中有效提升了生成多样性，同时保持了图像质量和提示对齐，并在部分指标上优于现有优化方法。

Comments 26 pages

2605.11307 2026-05-13 cs.CV cs.LG

Vision2Code: A Multi-Domain Benchmark for Evaluating Image-to-Code Generation

Ajay Vikram Periasami, Junlin Wang, Bhuwan Dhingra

发表机构 * Duke University（杜克大学）

AI总结 Vision2Code 是一个用于评估多领域图像到代码生成能力的基准测试框架，旨在检验视觉语言模型能否将图像结构转化为可执行代码。该基准包含来自15个数据集的2,169个测试样例，涵盖图表、几何图形、科学图像等多种领域，并采用基于视觉语言模型的评分机制进行评估，有效区分代码执行错误与重建质量问题。实验表明，模型在不同领域的表现存在显著差异，且通过筛选模型输出作为训练数据可有效提升生成性能。

Comments Project page: https://image2code.github.io/vision2code/

2605.11304 2026-05-13 cs.CV

CheXTemporal: A Dataset for Temporally-Grounded Reasoning in Chest Radiography

Eva Prakash, Yunhe Gao, Chong Wang, Justin Xu, Neal Prakash, Arne Michalson, Seena Dehkharghani, Eun Kyoung Hong, Julie Bauml, Roger Boodoo, Jean-Benoit Delbrouck, Sophie Ostmeier, Curtis Langlotz

发表机构 * Stanford University（斯坦福大学）； University of Oxford（牛津大学）； University of California, Berkeley（加州大学伯克利分校）； HOPPR ； University Hospital Zurich（苏黎世大学医院）

AI总结 CheXTemporal 是一个用于胸部X光影像时序推理的数据集，旨在解决当前模型在处理胸部影像纵向变化时的不足。该数据集包含配对的前后胸部X光片，并提供了细粒度的时序和空间标注，支持五类疾病进展分类。研究还构建了一个包含28万对影像的弱监督数据集，用于评估模型在时序推理和疾病进展分类任务中的表现，结果表明现有模型在时序推理和空间定位方面仍存在明显局限。

2605.11303 2026-05-13 cs.CL

Predicting Psychological Well-Being from Spontaneous Speech using LLMs

Erfan Loweimi, Sofia de la Fuente Garcia, Saturnino Luz

发表机构 * University of Edinburgh（爱丁堡大学）； Centre for Medical Informatics (CMI) Usher Institute University of Edinburgh（医学信息学中心（CMI）乌舍研究所爱丁堡大学）

AI总结该研究探讨了利用大语言模型（LLMs）从自发性语音中零样本预测 Ryff 心理幸福感（PWB）评分的可行性。研究使用了 PsyVoiD 数据库中 111 名参与者的语音录音，评估了包括 Llama-3、Mistral、Gemma、Phi-4 等在内的 12 个指令微调大模型，并与临床心理学和语言学专家合作设计了领域相关的提示词。实验结果显示，LLMs 能够从语音中提取语义信息，实现高达 0.8 的斯皮尔曼相关系数，同时通过统计分析和关键词云分析增强了预测结果的可解释性。

2605.11301 2026-05-13 cs.AI cs.CL cs.CV

LatentRouter: Can We Choose the Right Multimodal Model Before Seeing Its Answer?

Xueqi Cheng, Yushun Dong

发表机构 * Department of Computer Science（计算机科学系）

AI总结本文提出了一种名为 LatentRouter 的多模态模型路由方法，旨在根据图像-问题输入的特性，选择最适合的多模态大语言模型。该方法通过构建多模态路由胶囊和模型能力标记，利用潜在状态间的通信来预测各候选模型的性能表现，并结合分布输出头和边界胶囊校正机制提升预测准确性。实验表明，LatentRouter 在多个基准测试中优于现有方法，尤其在需要视觉、布局或推理能力的任务中表现突出。

2605.11300 2026-05-13 cs.CV

Can Graphs Help Vision SSMs See Better?

Dhruv Parikh, Anvitha Ramachandran, Haoyang Fan, Mustafa Munir, Rajgopal Kannan, Viktor Prasanna

发表机构 * USC（美国南加州大学）； UT Austin（德克萨斯大学奥斯汀分校）； DEVCOM ARL Army Research Office, USA（美国陆军战争学院研发办公室）

AI总结本文研究了如何通过图结构改进视觉状态空间模型（Vision SSMs）的性能，提出了一种基于图的动态扫描操作符GraphScan。该方法为每个视觉标记构建局部图结构，学习基于特征的亲和关系，并通过语义邻域的一次消息传递生成输出标记，从而在全局状态空间混合前实现局部语义对齐。实验表明，集成GraphScan的GraphScan-Mamba在多个视觉任务中取得了最先进的性能，且计算开销较小，为未来视觉状态空间模型的扫描机制提供了新的语义导向视角。

Comments Technical Report

详情

英文摘要

Vision state space models inherit the efficiency and long-range modeling ability of Mamba-style selective scans. However, their performance depends critically on the representation of two-dimensional visual features as one-dimensional token sequences. Existing scan operators range from predefined geometric traversals to dynamic coordinate-based samplers that reroute tokens through predicted offsets and interpolation. While effective, these mechanisms primarily adapt paths or sampling locations, rather than explicitly modeling which local patches should exchange information before global state-space mixing. This motivates a simple question: \emph{can graphs help vision state space models see better?} We introduce \textbf{GraphScan}, a graph-induced dynamic scanning operator for Vision SSMs. For each token, GraphScan constructs a spatially bounded local graph, learns feature-conditioned affinities with relative positional bias, and produces the output token by one-step message passing over its semantic neighborhood. The resulting tokens are locally grounded before being processed by the selective SSM for global aggregation. GraphScan preserves token count and linear scaling in image size, while replacing coordinate-conditioned interpolation with feature-conditioned semantic routing. Integrated into a hierarchical backbone, \textbf{GraphScan-Mamba} achieves state-of-the-art performance among Vision SSMs across image classification, object detection, instance segmentation, and semantic segmentation, with modest computational overhead. Our analysis further shows that GraphScan induces interpretable displacement fields over the token lattice, providing a semantic and spatially grounded view of dynamic scanning. These results suggest that future Vision SSMs should treat scanning not merely as geometric serialization, but as learned local semantic routing before global state-space modeling.

URL PDF HTML ☆

赞 0 踩 0

2605.11296 2026-05-13 cs.RO cs.SY eess.SY

Computational Design of a Low-Visibility UAV Using a Human-Aligned Perceptual Metric

Jingxian Wang, Chen Yu, David Matthews, Emma Alexander, Sam Kriegman, Michael Rubenstein

发表机构 * Northwestern University（西北大学）

AI总结本文提出了一种名为 Phantom Twist 的单旋翼无人机设计，通过高速旋转和运动模糊实现低可见性。研究构建了一个两阶段自动化设计流程，优化功能组件的布局，同时满足飞行稳定性要求，并以人类感知对齐的视觉度量（LPIPS）作为优化目标。实验验证表明，该方法生成的无人机具有良好的稳定性和可控性，且相比传统四旋翼无人机，其视觉可察觉性显著降低。

Comments Accepted by RSS 2026

2605.11291 2026-05-13 cs.LG

Optimal Representations for Generalized Contrastive Learning with Imbalanced Datasets

Thuan Nguyen, Shuchin Aeron, D. Richard Brown, Prakash Ishwar

发表机构 * Department of Engineering, Engineering Technology（工程系，工程技术部）； Department of Electrical and Computer Engineering（电气与计算机工程系）

AI总结本文研究了在类别不平衡数据集下对比学习（CL）中最优表示的几何特性。作者证明，当类别不平衡时，同一类别的所有样本的最优表示会坍缩到类均值，并呈现出由类别比例决定的角对称结构。此外，当类别不平衡达到一定阈值时，会出现“少数类坍缩”现象，即少数类样本全部坍缩为一个向量。研究还提出了一个凸优化问题来确定最优表示的几何结构，并通过数值实验验证了理论结果。

Comments 28 pages, 2 figures

2605.11290 2026-05-13 cs.CL cs.AI

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

Xueqi Cheng, Xugui Zhou, Tyler Derr, Yushun Dong

发表机构 * Florida State University（佛罗里达州立大学）； Louisiana State University（路易斯安那州立大学）； Vanderbilt University（范德比大学）

AI总结本文提出了一种名为 ReAD 的强化引导能力蒸馏框架，旨在在固定 token 预算下更有效地压缩大语言模型，同时保留对下游任务至关重要的能力。该方法通过识别任务关键能力、动态生成针对性监督信号，并利用不确定性感知的上下文老虎机算法优化预算分配，从而在提升任务表现的同时减少能力间的负面干扰和资源浪费。实验表明，ReAD 在相同预算下优于现有方法，具有更高的实用性和效率。

2605.11289 2026-05-13 cs.LG math.OC

Quotient-Categorical Representations for Bellman-Compatible Average-Reward Distributional Reinforcement Learning

Ege C. Kaya, Aliasghar Pourghani, Vijay Gupta, Abolfazl Hashemi

发表机构 * Elmore Family School of Electrical and Computer Engineering（埃尔莫尔电气与计算机工程学院）

AI总结本文研究平均奖励强化学习中的分布强化学习问题，针对传统方法在实数线上难以直接定义分布形式的挑战，提出了一种基于商空间和分类参数化的表示方法，以处理状态索引偏差律的平移不变性。该方法定义了投影平均奖励分布算子，并证明其具有良好定义性、非扩张性及不动点性质，同时分析了采样递归的收敛性，并在未知增益情况下引入在线估计器，保证了算法的稳定性与收敛性。

Comments 29 pages, 4 figures

2605.11276 2026-05-13 cs.CV cs.AI

Generative AI for Visualizing Highway Construction Hazards Through Synthetic Images and Temporal Sequences

Trevor Neece, Mason Smetana, Lev Khazanovich

发表机构 * University of Pittsburgh（匹兹堡大学）

AI总结该研究提出了一种基于生成式人工智能的方法，用于从OSHA严重伤害报告中生成高速公路施工危险场景的合成图像和时间序列，以辅助安全培训。研究开发了两种生成模式：单图生成和四阶段时间序列生成，并通过CLIP语义检索和专家评估对生成图像的教育价值、真实感和对齐度进行了多维评价。该方法在无需拍摄真实事故场景的情况下，为安全培训提供了可视化素材，同时为跨领域合成图像生成提供了新的评估框架。

2605.11272 2026-05-13 cs.LG cs.AI cs.IR

Localization Boosting for Growth Markets: Mitigating Cross-Locale Behavioral Bias in Learning-to-Rank

Suryaa Veerabathiran Seran, Ashwin Naresh Kumar, Tracy Holloway King, Jing Zheng

发表机构 * Adobe

AI总结本文研究了在国际扩张阶段，如何缓解学习排序（LTR）模型在不同地区之间的行为偏差问题。作者指出，仅依赖点击数据训练的模型会忽视语义层面的本地化特征，导致非美国地区的内容曝光不均。为此，他们提出了一种结合行为反馈、视觉语言模型相关性信号和地域感知增强的多目标框架，有效提升了模型在多个地区的相关性和本地内容可见性。

2605.11267 2026-05-13 cs.CV

Real-Scale Island Area and Coastline Estimation using Only its Place Name or Coordinates

Quanyun Wu, Kyle Gao, Wentao Sun, Hongjie He, Yuhao Chen, David A. Clausi, Jonathan Li

发表机构 * East China Normal University（东华大学）

AI总结本文提出了一种基于单目视觉的几何一致、真实尺度海岛面积与海岸线测量框架，仅需输入目标区域的地理坐标或名称即可自动获取低空环绕图像序列，并通过轻量轨迹对齐算法恢复全局物理尺度，最终实现高精度的二维平面面积和周长提取。该方法无需依赖传统GIS数据，大幅降低了测绘成本，实验表明其测量误差稳定在10%左右，具有较高的精度、鲁棒性和推理效率，为大规模海洋与海岸线监测提供了实用新范式。

Comments Accepted for publication at IEEE OCEANS (Sanya) 2026

2605.11266 2026-05-13 cs.CV cs.GR cs.LG

PG-3DGS: Optimizing 3D Gaussian Splatting to Satisfy Physics Objectives

Zachary Lee, Maxwell Jacobson, Yexiang Xue

发表机构 * Department of Computer Science, Purdue University（普渡大学计算机科学系）

AI总结该研究提出了一种名为PG-3DGS的物理引导三维高斯点绘方法，旨在生成不仅视觉逼真而且具备物理功能的三维结构。通过将可微分物理模拟与三维高斯表示相结合，该方法能够在优化形状时同时考虑视觉损失和物理目标，从而生成如能倒水的茶壶和能产生升力的飞机等具有实际功能的物体。实验表明，PG-3DGS在保持视觉质量的同时显著提升了物理功能，并在实际风洞测试中验证了其生成结构的物理性能优势。

Comments Submitted to Artificial Intelligence. 52 pages

2605.11265 2026-05-13 cs.CV cs.AI cs.LG

DenseTRF: Texture-Aware Unsupervised Representation Adaptation for Surgical Scene Dense Prediction

Guiqiu Liao, Matjaž Jogan, Daniel A. Hashimoto

发表机构 * GRASP Laboratory, University of Pennsylvania（宾夕法尼亚大学GRASP实验室）； PCASO Laboratory, Department of Surgery, University of Pennsylvania（宾夕法尼亚大学外科PCASO实验室）； Department of Computer and Information Science, University of Pennsylvania（宾夕法尼亚大学计算机与信息科学系）

AI总结本文提出了一种名为DenseTRF的自监督表征适应框架，用于解决手术场景中密集预测任务（如分割和手术区域识别）在跨域部署时因分布偏移导致的性能下降问题。该方法基于纹理感知的注意力机制，通过学习具有不变视觉结构的表征，并在无监督条件下将其适配到目标分布，从而显著提升了模型对领域变化的鲁棒性。实验表明，DenseTRF在多种手术场景中均优于当前最先进的分割模型和跨域适应方法。

Comments Accepted to 29th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2026)

2605.11260 2026-05-13 cs.LG cs.AI

Curriculum Learning-Guided Progressive Distillation in Large Language Models

Jincheng Cao, Fanzhi Zeng, Leqi Liu, Aryan Mokhtari

发表机构 * The University of Texas at Austin（德克萨斯大学奥斯汀分校）； Google Research（谷歌研究）

AI总结知识蒸馏是将大语言模型能力转移到小型学生模型的重要技术，但现有方法常忽略训练数据的学习顺序和师生模型容量不匹配的问题。本文提出了一种由课程学习引导的渐进式蒸馏框架（CLPD），通过将数据难度与教师模型能力对齐，同时构建显式和隐式的课程学习机制，有效提升了蒸馏效果。实验表明，CLPD在多个推理基准测试中优于传统蒸馏方法及其他单一优化策略，突显了联合考虑数据顺序与教师容量的重要性。

2605.11259 2026-05-13 cs.AI

Template-as-Ontology: Configurable Synthetic Data Infrastructure for Cross-Domain Manufacturing AI Validation

Grama Chethan

发表机构 * Siemens Digital Industries Software（西门子数字工业软件）

AI总结本文提出了一种名为“Template-as-Ontology”的可配置合成数据基础设施，用于跨领域制造环境中AI系统的验证。该方法通过一个统一的Python配置模块，同时定义制造仿真器的结构和AI分析工具的运行时数据模式，从而确保数据结构的一致性。实验表明，该框架能够生成符合MES标准的高质量合成数据，并有效减少AI工具在参数生成时的错误率，为离散制造AI的验证提供了可复用的数据基础。

Comments 18 pages, 1 fugure

2605.11258 2026-05-13 cs.AI cs.CL q-bio.QM

Unlocking LLM Creativity in Science through Analogical Reasoning

Andrew Shen, Shaul Druckmann, James Zou

发表机构 * Stanford University（斯坦福大学）

AI总结本文研究如何通过类比推理（Analogical Reasoning, AR）提升大型语言模型（LLM）在科学问题中的创造力，特别是在生物医学等复杂领域。作者发现现有LLM在开放性问题求解中容易陷入模式崩溃，生成多样性不足的解，为此提出AR方法，通过跨领域问题的类比结构生成新颖解决方案。实验表明，AR显著提升了生成解的多样性和新颖性，并在多个生物医学任务中取得了优于现有方法的性能，验证了其在实际应用中的有效性。

2605.11255 2026-05-13 cs.CL

HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model

Noam Kayzer, Dan Revital, Ori Bar Joseph, Smadar Arvatz, Or Levi, Tal Geva, Shaltiel Shmidman, Amir DN Cohen, Noam Ordan, Omer Baruch, Kate Zinkovskaia, Zevi Apini, Sarel Weinberger

发表机构 * PwC（普华永道）

AI总结本文介绍了Hebatron，一个基于NVIDIA Nemotron-3稀疏专家混合架构的希伯来语专用开源大语言模型。该模型通过三阶段由易到难的训练课程和持续抗遗忘锚定策略进行训练，并在200万对希伯来语-英语样本上进行监督微调，显著提升了模型性能。Hebatron在希伯来语推理任务中达到73.8%的平均准确率，优于多个现有模型，同时在保持高推理吞吐量和长上下文支持方面表现出色。这是首个针对希伯来语的Nemotron-3架构适配模型，也是首个支持原生长上下文的开源希伯来语专家混合模型。

2605.11247 2026-05-13 cs.LG

A Proof-of-Concept Simulation-Driven Digital Twin Framework for Decision-Aware Diabetes Modeling

Zarrin Monirzadeh

发表机构 * Software & Data Engineer | ML & AI Systems（软件与数据工程师 | 机器学习与人工智能系统）

AI总结本文提出了一种基于仿真驱动的数字孪生框架，用于支持决策感知的糖尿病建模，利用基准临床数据、合成时间增强和连续血糖监测分析进行验证。该框架不同于传统预测模型，重点生成可解释的仿真轨迹而非临床验证结果，并通过公共数据集与受控合成场景评估其性能，展示了预测与反事实仿真的结合在决策分析中的可行性。该工作为未来医疗领域仿真驱动的数字孪生系统研究提供了基础。

Comments Preprint. 9 figures. DOI: 10.5281/zenodo.20127363

2605.11242 2026-05-13 cs.CL cs.AI

RETUYT-INCO at BEA 2026 Shared Task 2: Meta-prompting in Rubric-based Scoring for German

Ignacio Sastre, Ignacio Remersaro, Facundo Díaz, Nicolás De Horta, Luis Chiruzzo, Aiala Rosá, Santiago Góngora

发表机构 * Instituto de Computación, Facultad de Ingeniería, Universidad de la República（计算研究所，工程学院，乌拉圭共和国大学）

AI总结本文介绍了 RETUYT-INCO 团队在 BEA 2026 共享任务“基于评分标准的德语短答案评分”中的参与情况，团队在多个子任务中采用了一种名为 Meta-prompting 的方法，通过从训练集示例中生成定制提示来对学生的答案进行评分。除了该方法，团队还尝试了传统机器学习、开源大模型微调及其他提示技术。最终在多个子任务中取得了中等偏上的排名，展示了方法的有效性与多样性。

Comments To be presented at the BEA 2026 workshop, co-located with ACL 2026

2605.11239 2026-05-13 cs.LG stat.ML

Extending Kernel Trick to Influence Functions

Zhenhuan Sun, Shahrokh Valaee

发表机构 * University of Toronto（多伦多大学）

AI总结本文提出了一种影响函数的对偶表示方法，其计算复杂度随数据集规模增长而非模型规模，为大规模模型的影响分析提供了更高效的替代方案。该方法适用于可线性化的模型，通过构造一个与模型输出维度和数据集规模乘积相关的矩阵实现，能够在参数空间难以计算原始影响函数时有效估计参数、模型输出和损失的变化。这一成果在模型规模远大于数据集规模时具有显著优势。

2605.11237 2026-05-13 cs.LG

DeconDTN-Toolkit: A Library for Evaluation and Enhancement of Robustness to Provenance Shift

Yongsen Tan, Zhecheng Sheng, Xiruo Ding, Serguei V. S. Pakhomov, Trevor Cohen

发表机构 * University of Washington（华盛顿大学）； University of Minnesota（明尼苏达大学）

AI总结本文研究了在部署阶段数据来源与标签关系发生变化的“来源偏移”问题，提出了一个基于反事实不变性与不变学习的鲁棒性学习目标。为此，作者开发了DeconDTN-Toolkit工具包，用于模拟不同程度的来源偏移并评估现有算法的鲁棒性，揭示了经验风险最小化在来源偏移下的脆弱性，并提出了新的分布外性能指标，为来源混淆问题的分析与缓解提供了理论支持与实用工具。

Comments Accepted to CHIL 2026

AI 大模型

视觉与机器人

科学与医疗