arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.11276 2026-05-13 cs.CV cs.AI

Generative AI for Visualizing Highway Construction Hazards Through Synthetic Images and Temporal Sequences

Trevor Neece, Mason Smetana, Lev Khazanovich

AI总结该研究提出了一种基于生成式人工智能的方法，用于从OSHA严重伤害报告中生成高速公路施工危险场景的合成图像和时间序列，以辅助安全培训。研究开发了两种生成模式：单图生成和四阶段时间序列生成，并通过CLIP语义检索和专家评估对生成图像的教育价值、真实感和对齐度进行了多维评价。该方法在无需拍摄真实事故场景的情况下，为安全培训提供了可视化素材，同时为跨领域合成图像生成提供了新的评估框架。

2605.11272 2026-05-13 cs.LG cs.AI cs.IR

Localization Boosting for Growth Markets: Mitigating Cross-Locale Behavioral Bias in Learning-to-Rank

Suryaa Veerabathiran Seran, Ashwin Naresh Kumar, Tracy Holloway King, Jing Zheng

AI总结本文研究了在国际扩张阶段，如何缓解学习排序（LTR）模型在不同地区之间的行为偏差问题。作者指出，仅依赖点击数据训练的模型会忽视语义层面的本地化特征，导致非美国地区的内容曝光不均。为此，他们提出了一种结合行为反馈、视觉语言模型相关性信号和地域感知增强的多目标框架，有效提升了模型在多个地区的相关性和本地内容可见性。

2605.11267 2026-05-13 cs.CV

Real-Scale Island Area and Coastline Estimation using Only its Place Name or Coordinates

Quanyun Wu, Kyle Gao, Wentao Sun, Hongjie He, Yuhao Chen, David A. Clausi, Jonathan Li

AI总结本文提出了一种基于单目视觉的几何一致、真实尺度海岛面积与海岸线测量框架，仅需输入目标区域的地理坐标或名称即可自动获取低空环绕图像序列，并通过轻量轨迹对齐算法恢复全局物理尺度，最终实现高精度的二维平面面积和周长提取。该方法无需依赖传统GIS数据，大幅降低了测绘成本，实验表明其测量误差稳定在10%左右，具有较高的精度、鲁棒性和推理效率，为大规模海洋与海岸线监测提供了实用新范式。

Comments Accepted for publication at IEEE OCEANS (Sanya) 2026

2605.11266 2026-05-13 cs.CV cs.GR cs.LG

PG-3DGS: Optimizing 3D Gaussian Splatting to Satisfy Physics Objectives

Zachary Lee, Maxwell Jacobson, Yexiang Xue

AI总结该研究提出了一种名为PG-3DGS的物理引导三维高斯点绘方法，旨在生成不仅视觉逼真而且具备物理功能的三维结构。通过将可微分物理模拟与三维高斯表示相结合，该方法能够在优化形状时同时考虑视觉损失和物理目标，从而生成如能倒水的茶壶和能产生升力的飞机等具有实际功能的物体。实验表明，PG-3DGS在保持视觉质量的同时显著提升了物理功能，并在实际风洞测试中验证了其生成结构的物理性能优势。

Comments Submitted to Artificial Intelligence. 52 pages

2605.11265 2026-05-13 cs.CV cs.AI cs.LG

DenseTRF: Texture-Aware Unsupervised Representation Adaptation for Surgical Scene Dense Prediction

Guiqiu Liao, Matjaž Jogan, Daniel A. Hashimoto

AI总结本文提出了一种名为DenseTRF的自监督表征适应框架，用于解决手术场景中密集预测任务（如分割和手术区域识别）在跨域部署时因分布偏移导致的性能下降问题。该方法基于纹理感知的注意力机制，通过学习具有不变视觉结构的表征，并在无监督条件下将其适配到目标分布，从而显著提升了模型对领域变化的鲁棒性。实验表明，DenseTRF在多种手术场景中均优于当前最先进的分割模型和跨域适应方法。

Comments Accepted to 29th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2026)

2605.11260 2026-05-13 cs.LG cs.AI

Curriculum Learning-Guided Progressive Distillation in Large Language Models

Jincheng Cao, Fanzhi Zeng, Leqi Liu, Aryan Mokhtari

AI总结知识蒸馏是将大语言模型能力转移到小型学生模型的重要技术，但现有方法常忽略训练数据的学习顺序和师生模型容量不匹配的问题。本文提出了一种由课程学习引导的渐进式蒸馏框架（CLPD），通过将数据难度与教师模型能力对齐，同时构建显式和隐式的课程学习机制，有效提升了蒸馏效果。实验表明，CLPD在多个推理基准测试中优于传统蒸馏方法及其他单一优化策略，突显了联合考虑数据顺序与教师容量的重要性。

2605.11259 2026-05-13 cs.AI

Template-as-Ontology: Configurable Synthetic Data Infrastructure for Cross-Domain Manufacturing AI Validation

Grama Chethan

AI总结本文提出了一种名为“Template-as-Ontology”的可配置合成数据基础设施，用于跨领域制造环境中AI系统的验证。该方法通过一个统一的Python配置模块，同时定义制造仿真器的结构和AI分析工具的运行时数据模式，从而确保数据结构的一致性。实验表明，该框架能够生成符合MES标准的高质量合成数据，并有效减少AI工具在参数生成时的错误率，为离散制造AI的验证提供了可复用的数据基础。

Comments 18 pages, 1 fugure

2605.11258 2026-05-13 cs.AI cs.CL q-bio.QM

Unlocking LLM Creativity in Science through Analogical Reasoning

Andrew Shen, Shaul Druckmann, James Zou

AI总结本文研究如何通过类比推理（Analogical Reasoning, AR）提升大型语言模型（LLM）在科学问题中的创造力，特别是在生物医学等复杂领域。作者发现现有LLM在开放性问题求解中容易陷入模式崩溃，生成多样性不足的解，为此提出AR方法，通过跨领域问题的类比结构生成新颖解决方案。实验表明，AR显著提升了生成解的多样性和新颖性，并在多个生物医学任务中取得了优于现有方法的性能，验证了其在实际应用中的有效性。

2605.11255 2026-05-13 cs.CL

HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model

Noam Kayzer, Dan Revital, Ori Bar Joseph, Smadar Arvatz, Or Levi, Tal Geva, Shaltiel Shmidman, Amir DN Cohen, Noam Ordan, Omer Baruch, Kate Zinkovskaia, Zevi Apini, Sarel Weinberger

AI总结本文介绍了Hebatron，一个基于NVIDIA Nemotron-3稀疏专家混合架构的希伯来语专用开源大语言模型。该模型通过三阶段由易到难的训练课程和持续抗遗忘锚定策略进行训练，并在200万对希伯来语-英语样本上进行监督微调，显著提升了模型性能。Hebatron在希伯来语推理任务中达到73.8%的平均准确率，优于多个现有模型，同时在保持高推理吞吐量和长上下文支持方面表现出色。这是首个针对希伯来语的Nemotron-3架构适配模型，也是首个支持原生长上下文的开源希伯来语专家混合模型。

2605.11247 2026-05-13 cs.LG

A Proof-of-Concept Simulation-Driven Digital Twin Framework for Decision-Aware Diabetes Modeling

Zarrin Monirzadeh

AI总结本文提出了一种基于仿真驱动的数字孪生框架，用于支持决策感知的糖尿病建模，利用基准临床数据、合成时间增强和连续血糖监测分析进行验证。该框架不同于传统预测模型，重点生成可解释的仿真轨迹而非临床验证结果，并通过公共数据集与受控合成场景评估其性能，展示了预测与反事实仿真的结合在决策分析中的可行性。该工作为未来医疗领域仿真驱动的数字孪生系统研究提供了基础。

Comments Preprint. 9 figures. DOI: 10.5281/zenodo.20127363

2605.11242 2026-05-13 cs.CL cs.AI

RETUYT-INCO at BEA 2026 Shared Task 2: Meta-prompting in Rubric-based Scoring for German

Ignacio Sastre, Ignacio Remersaro, Facundo Díaz, Nicolás De Horta, Luis Chiruzzo, Aiala Rosá, Santiago Góngora

AI总结本文介绍了 RETUYT-INCO 团队在 BEA 2026 共享任务“基于评分标准的德语短答案评分”中的参与情况，团队在多个子任务中采用了一种名为 Meta-prompting 的方法，通过从训练集示例中生成定制提示来对学生的答案进行评分。除了该方法，团队还尝试了传统机器学习、开源大模型微调及其他提示技术。最终在多个子任务中取得了中等偏上的排名，展示了方法的有效性与多样性。

Comments To be presented at the BEA 2026 workshop, co-located with ACL 2026

2605.11239 2026-05-13 cs.LG stat.ML

Extending Kernel Trick to Influence Functions

Zhenhuan Sun, Shahrokh Valaee

AI总结本文提出了一种影响函数的对偶表示方法，其计算复杂度随数据集规模增长而非模型规模，为大规模模型的影响分析提供了更高效的替代方案。该方法适用于可线性化的模型，通过构造一个与模型输出维度和数据集规模乘积相关的矩阵实现，能够在参数空间难以计算原始影响函数时有效估计参数、模型输出和损失的变化。这一成果在模型规模远大于数据集规模时具有显著优势。

2605.11237 2026-05-13 cs.LG

DeconDTN-Toolkit: A Library for Evaluation and Enhancement of Robustness to Provenance Shift

Yongsen Tan, Zhecheng Sheng, Xiruo Ding, Serguei V. S. Pakhomov, Trevor Cohen

AI总结本文研究了在部署阶段数据来源与标签关系发生变化的“来源偏移”问题，提出了一个基于反事实不变性与不变学习的鲁棒性学习目标。为此，作者开发了DeconDTN-Toolkit工具包，用于模拟不同程度的来源偏移并评估现有算法的鲁棒性，揭示了经验风险最小化在来源偏移下的脆弱性，并提出了新的分布外性能指标，为来源混淆问题的分析与缓解提供了理论支持与实用工具。

Comments Accepted to CHIL 2026

2605.11235 2026-05-13 cs.LG cs.AI

Internalizing Curriculum Judgment for LLM Reinforcement Fine-Tuning

Han Zheng, Yining Ma, Karthick Gunasekaran, Bharathan Balaji, Zheng Du, Shiv Vitaladevuni, Cathy Wu

AI总结在大语言模型的强化微调中，课程学习有助于提升训练效率与性能，但现有方法依赖人工设计的启发式规则或辅助模型进行课程判断，可能与策略的训练动态不一致。本文提出METIS框架，将课程判断内化为模型的原生能力，通过分析提示内部奖励的方差来衡量提示的信息量，并基于近期训练结果进行轻量化的上下文学习预测，从而动态调整训练分配。METIS通过联合优化标准奖励与自我判断奖励，实现策略的元认知学习，在多个基准任务中展现出更高的性能与更快的收敛速度。

2605.11234 2026-05-13 cs.AI

The Semantic Training Gap: Ontology-Grounded Tool Architectures for Industrial AI Agent Systems

Grama Chethan

AI总结本文提出并解决了工业AI代理系统中的“语义训练差距”问题，即大语言模型虽能掌握领域术语，却缺乏对制造操作语义结构的深入理解。为弥补这一差距，研究设计了一种基于制造本体的工具架构，将领域知识直接嵌入AI工具层，通过运行时语义约束替代传统训练方式，有效减少了领域标识符的错误生成。实验表明，该方法在不修改应用代码的情况下，实现了跨领域配置和工具调用零幻觉的性能提升。

Comments 29 pages, 2 figures

2605.11233 2026-05-13 cs.LG

A Comparative Study of Model Selection Criteria for Symbolic Regression

Ali Soltani, Gabriel Kronberger, Fabricio Olivetti de Franca, Mattia Billa, Alessandro Lucantonio

AI总结本文对比研究了符号回归中常用的模型选择准则，旨在从生成的候选数学表达式中选择出在准确性与复杂性之间取得平衡且具有良好泛化能力的模型。研究通过在七个含高斯噪声的合成数据集上系统评估了AIC、AICc、BIC、MDL以及Efron引导法等准则的表现，发现MDL在多数数据集上能最有效地识别出测试误差最小且表达式最简的模型，BIC也有较高概率选择出真实函数表达式。

2605.11232 2026-05-13 cs.AI cs.LG

Rethinking LLMOps for Fraud and AML: Building a Compliance-Grade LLM Serving Stack

Prathamesh Vasudeo Naik, Naresh Dintakurthi, Yue Wang

AI总结本文研究了如何为欺诈检测和反洗钱（AML）等合规性场景构建高效的大语言模型（LLM）服务架构。针对这类任务中常见的前缀密集、结构约束强和证据丰富的输入特点，作者提出了一套面向工作负载的LLMOps系统，结合了运行时调优、前缀缓存、多适配器服务、批处理优化等多种技术，显著提升了服务吞吐量和响应速度。实验表明，该方法在公共合成数据集上实现了性能的大幅提升，展示了合规性LLM服务需从工作负载设计、服务优化和质量控制多方面综合提升。

详情

英文摘要

Fraud detection and anti-money-laundering (AML) compliance are high-value domains for large language models (LLMs), but their serving requirements differ sharply from generic chat workloads. Compliance prompts are often prefix-heavy, schema-constrained, and evidence-rich, combining reusable policy instructions, risk taxonomies, transaction or document context, and short structured outputs such as JSON labels or risk factors. These properties make prefix reuse, KV-cache efficiency, runtime tuning, model orchestration, and output validation first-order systems concerns. This paper introduces a workload-aware LLMOps stack for fraud and AML workloads using self-hosted open-weight models such as Meta Llama and Alibaba Qwen. The stack combines vLLM-style runtime tuning, PagedAttention, Automatic Prefix Caching, multi-adapter serving, adapter and prompt-length-aware batching, sleep/wake lifecycle management, speculative decoding, and optional prefill/decode disaggregation. To avoid exposing institution-specific data, the reproducibility track converts public synthetic AML datasets, including IBM AML and SAML-D, into prefix-heavy compliance prompts with reusable policy text, transaction evidence, typology definitions, and schema-constrained outputs. We also incorporate an LLM-as-judge quality gate using deterministic compliance checks, reference metrics, expert-adjudicated calibration data where available, and multi-judge rubric scoring. Across public-synthetic AML workloads and controlled serving benchmarks, workload-aware tuning improved throughput from 612-650 to 3,600 requests/hour, reduced P99 latency from 31-38 seconds to 6.4-8.7 seconds, and increased GPU utilization from 12% to 78%. These results show that regulated LLM performance is a workload-design, serving-optimization, and quality-gating problem, not only a model-selection problem.

URL PDF HTML ☆

赞 0 踩 0

2605.11225 2026-05-13 cs.AI cs.LG cs.MA

PIVOT: Bridging Planning and Execution in LLM Agents via Trajectory Refinement

Tuo Zhang, Alin-Ionut Popa, Yan Xu, Rui Song, Dimitrios Dimitriadis

AI总结 PIVOT 是一种通过轨迹优化弥合大型语言模型（LLM）代理计划与执行之间差距的方法，其核心在于通过自监督框架迭代改进生成的轨迹。该方法包含计划、检查、进化和验证四个阶段，通过执行轨迹并计算结构化损失来识别计划与执行之间的差异，并据此优化轨迹，最终提升任务约束满足度。实验表明，PIVOT 在有无人类反馈的情况下均表现出色，显著优于现有方法，同时保持较高的计算效率。

2605.11224 2026-05-13 cs.CV cs.AI

ABRA: Agent Benchmark for Radiology Applications

Bulat Maksudov, Vladislav Kurenkov, Kathleen M. Curran, Alessandra Mileo

AI总结 ABRA 是一个面向放射学应用的智能体基准，旨在评估医疗智能体在实际影像处理任务中的能力。该基准通过21个功能调用工具，使智能体能够操作医学影像查看器和DICOM服务器，完成包括切片导航、窗口调节、标注和结构化报告等任务。ABRA 包含655个自动生成的任务，涵盖多个难度等级和任务类型，并通过自动评分系统评估智能体在规划、执行和结果方面的表现，揭示了当前模型在感知层面存在较大瓶颈。

2605.11222 2026-05-13 cs.LG

ADMM-Q: An Improved Hessian-based Weight Quantizer for Post-Training Quantization of Large Language Models

Ryan Lucas, Mehdi Makni, Xiang Meng, Adam Deng, Rahul Mazumder

AI总结本文提出了一种改进的基于海森矩阵的权重量化方法ADMM-Q，用于大语言模型的后训练量化。该方法基于改进的交替方向乘子法（ADMM），通过分层优化策略逐步最小化层间重构误差并满足量化约束，同时引入惩罚调度、预处理和局部搜索等增强技术以提升效率。实验表明，ADMM-Q在多个量化设置下显著降低了模型的困惑度，优于现有主流量化方法如GPTQ。

2605.11218 2026-05-13 cs.AI

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

M. Shalankin

AI总结该研究揭示了视觉-语言模型（VLMs）在评估图像质量时受到嵌入数字锚点的系统性偏差影响，并发现这种偏差在不同模型架构中普遍存在。通过逐层分析，研究发现模型中用于分类的浅层特征与质量预测性能存在解耦现象，而深层特征则更有利于质量判断。研究还揭示了不同模型对锚点信息的融合方式存在差异，为理解视觉锚定偏差的成因及其与模型表征动态的关系提供了因果解释。

2605.11217 2026-05-13 cs.LG cs.AI cs.CR

Leveraging RAG for Training-Free Alignment of LLMs

John T. Halloran

AI总结该论文提出了一种基于检索增强生成（RAG）的对齐方法RAG-Pref，用于在无需额外训练的情况下提升大语言模型（LLM）对代理攻击的拒绝能力。该方法通过在推理过程中利用偏好和非偏好样本的对比信息，实现在线对齐，计算开销低且兼容现有工具。实验表明，RAG-Pref在五种主流LLM上显著提升了拒绝攻击的性能，同时在通用人类偏好对齐任务中也表现出色，且不显著增加计算资源需求。

Comments 19 pages, 4 figures, and 6 tables

2605.11214 2026-05-13 cs.LG

Enforcing Constraints in Generative Sampling via Adaptive Correction Scheduling

Noah Trupin, Yexiang Xue

AI总结本文研究了在生成采样过程中如何有效施加硬约束的问题，指出传统方法在采样末尾或每一步进行投影的方式忽略了投影对状态分布的影响，可能导致采样结果虽满足约束但与原始动态不一致。为此，作者将约束施加形式化为生成过程中的修正调度问题，提出了一种基于状态的自适应修正调度策略，根据每一步的约束偏差动态分配投影资源，从而在减少修正次数的同时提升采样精度。实验表明，该方法在多种生成模型中均能显著优化约束采样的效率与质量。

2605.11210 2026-05-13 cs.RO

Distributed Pose Graph Optimization via Continuous Riemannian Dynamics

Jaeho Shin, Maani Ghaffari, Yulun Tian

AI总结本文提出了一种基于李群上二阶连续时间动力系统的分布式姿态图优化（PGO）框架，通过将姿态变量建模为受阻尼作用的粒子，使所得黎曼动力学的平衡点与原PGO问题的一阶临界点一致。该方法利用阻尼欧拉-泊アン方程和半隐式几何积分器设计出一种优化算法，可推广现有黎曼梯度下降和高斯-牛顿方法，并在多机器人场景中实现了基于块对角质量与阻尼矩阵的全分布式并行求解，具有通信开销小、收敛性好的特点。实验表明，该求解器在同步与异步环境下均优于现有分布式方法。

2605.11209 2026-05-13 cs.LG

Measuring Five-Nines Reliability: Sample-Efficient LLM Evaluation in Saturated Benchmarks

Eungyeup Kim, Chenchen Gu, Vashisth Tiwari, J. Zico Kolter

AI总结现有基准测试显示大型语言模型在多项任务上表现接近完美，但这掩盖了对其可靠性进行严格评估的必要性。本文提出了一种高效评估方法，通过识别模型失败的系统性模式，利用交叉熵方法学习聚焦于易失败输入的采样分布，从而大幅减少所需推理量。实验表明，该方法在多个模型和任务上实现了高达156倍的效率提升，揭示了即使在基准测试中表现相近的模型，其可靠性也可能存在显著差异，强调了可靠性作为模型质量独立且可衡量维度的重要性。

Comments Project page: https://five-nines-reliability.notion.site/Measuring-Five-Nines-Reliability-Sample-Efficient-LLM-Evaluation-in-Saturated-Benchmarks-312b998d4f39802d88c0e9886db1b9cd

2605.11205 2026-05-13 cs.LG cs.AI

The Scaling Law of Evaluation Failure: Why Simple Averaging Collapses Under Data Sparsity and Item Difficulty Gaps, and How Item Response Theory Recovers Ground Truth Across Domains

Jung Min Kang

AI总结本文研究了在数据稀疏和项目难度差异较大的情况下，简单平均法在评估排名中的失效问题，并提出利用项目反应理论（IRT）可以更准确地恢复真实排名。通过在多个领域（如自然语言处理、临床试验等）的实验，作者发现当数据覆盖率下降时，简单平均的排名相关性显著降低，而基于IRT的模型则能保持高精度。研究揭示了评估失效的规模规律，并为物理AI等领域的基准测试提供了更可靠的评估方法。

Comments 15 pages, 4 tables, 1 figure. Code at https://github.com/testofschool/evaluation-failure-scaling-law

2605.11203 2026-05-13 cs.LG cs.CV

FeatMap: Understanding image manipulation in the feature space and its implications for feature space geometry

Elias B. Krey, Nils Neukirch, Nils Strodthoff

AI总结本文研究了深度神经网络中间特征表示的几何结构，通过在输入空间应用多种图像变换，评估了在特征空间中学习从原始特征到变换后特征映射的可能性。研究设计了多种映射方式，包括线性与非线性、局部与全局映射，并分析了其重建质量和语义内容。结果表明，即使对于复杂的语义变换，使用单一特征向量的共享线性模型也能实现较好的重建效果，暗示特征空间可能在一定程度上具有线性结构。该研究为理解特征空间的组织方式提供了新视角，并展示了生成式图像编辑模型在这一领域的潜力。

Comments 27 pages, 24 figures, 3 tables, Code is available at https://github.com/AI4HealthUOL/FeatMap

2605.11196 2026-05-13 cs.LG

Variational Linear Attention: Stable Associative Memory for Long-Context Transformers

Vishal Pandey, Gopal Singh

AI总结该论文提出了一种名为变分线性注意力（VLA）的新方法，旨在解决传统线性注意力在处理长上下文时出现的记忆干扰问题。VLA通过将记忆更新建模为带有自适应惩罚矩阵的在线正则最小二乘问题，有效控制了状态范数的增长，并保证了系统稳定性。实验表明，VLA在保持高检索性能的同时大幅降低了内存状态的范数，且在大规模序列处理中表现出优于现有方法的效率和准确性。

Comments 20 pages

2605.11195 2026-05-13 cs.CL

How Does Differential Privacy Affect Social Bias in LLMs? A Systematic Evaluation

Eduardo Tenorio, Karuna Bhaila, Xintao Wu

AI总结本文系统评估了差分隐私（DP）对大型语言模型（LLMs）中社会偏见的影响，通过在四个互补任务范式中比较DP训练模型与非DP基线模型的表现。研究发现，DP在句子评分任务中能有效降低偏见，但在其他任务中效果不一，揭示了logit层偏见与输出层偏见之间的差异。结果表明，减少记忆并不必然减少不公平性，强调了在评估LLMs公平性时进行多范式分析的重要性。

Comments 14 pages, 1 figure

2605.11192 2026-05-13 cs.SD cs.AI cs.LG

Exploring Token-Space Manipulation in Latent Audio Tokenizers

Francesco Paissan, Luca Della Libera, Mirco Ravanelli, Cem Subakan

AI总结本文研究了在潜空间音频编码器中对 token 空间进行操作的可能性，提出了一种名为 LATTE 的新型音频 tokenizer，通过引入可学习的潜空间 token 来实现对全局语音特征的编辑。该方法在保持高质量语音重建的同时，使得通过替换 token 来修改说话人身份或背景噪声等全局属性成为可能，并在语音转换和去噪任务中验证了其有效性，为无监督的可控音频编辑提供了新思路。