arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.07725 2026-05-11 cs.CL cs.AI

SOD: Step-wise On-policy Distillation for Small Language Model Agents

Qiyong Zhong, Mao Zheng, Mingyang Song, Xin Lin, Jie Sun, Houcheng Jiang, Xiang Wang, Junfeng Fang

AI总结本文研究了如何将工具集成推理（TIR）有效扩展到小型语言模型中，提出了一种名为SOD的逐步策略蒸馏框架。该方法针对现有方法在长期工具交互中易出现错误累积的问题，通过在每一步动态调整蒸馏强度，有效缓解了教师模型指导信号的误导性，从而提升学生模型的推理能力。实验表明，SOD在多个数学、科学和编程基准测试中表现出色，显著优于现有方法，并展示了在轻量级模型上实现高效代理推理的潜力。

2605.07719 2026-05-11 cs.LG cs.AI cs.PF

An Efficient Hybrid Sparse Attention with CPU-GPU Parallelism for Long-Context Inference

Feiyu Yao, Zhixiong Niu, Xiaqing Li, Yongqiang Xiong, Juan Fang, Qian Wang

AI总结随着长上下文推理任务对CPU驻留的KV缓存需求增加，现有稀疏注意力方法在端到端效率上仍存在不足。本文提出Fluxion，通过输出感知的KV预算分配、头特异性与粒度感知的稀疏配置，以及跨设备协调执行机制，实现了CPU-GPU混合稀疏注意力的高效优化。实验表明，Fluxion在保持模型质量的同时，相比固定稀疏基线实现了1.5到3.7倍的加速。

2605.07706 2026-05-11 cs.LG

Bayesian Fine-tuning in Projected Subspaces

Viktar Dubovik, Patryk Marszałek, Jacek Tabor, Tomasz Kuśmierczyk

AI总结本文提出了一种参数高效的贝叶斯微调框架，在低维子空间中实现有效的不确定性量化。该方法通过将权重空间投影到低维空间，能够在保持计算效率的同时提升模型的校准性和泛化能力。实验表明，在低维空间中可以有效建模权重不确定性，且权重协方差具有低秩特性。

2605.07703 2026-05-11 cs.AI cs.RO

Finite-Time Analysis of MCTS in Continuous POMDP Planning

Da Kong, Vadim Indelman

AI总结本文对部分可观测马尔可夫决策过程（POMDP）中蒙特卡洛树搜索（MCTS）进行了有限时间分析，适用于离散和连续观测空间，并提供了概率集中界。针对MCTS在非平稳性和启发式动作选择带来的依赖性问题，研究提出了扩展的多项式探索奖励机制，并引入了一种抽象划分框架以处理连续观测空间。基于此，作者设计了Voro-POMCPOW算法，该算法利用Voronoi单元对连续观测空间进行自适应划分，在保持有限分支因子的同时提供理论保证，实验表明其性能具有竞争力。

Comments 9 pages, 1 figure

2605.07701 2026-05-11 cs.CL

Guidance Is Not a Hyperparameter: Learning Dynamic Control in Diffusion Language Models

Fan Zhou, Tim Van de Cruys

AI总结本文研究了在扩散语言模型中如何动态调整分类器无关引导（CFG）的引导尺度，以提升生成过程中的可控性与生成质量的平衡。作者将CFG尺度的选择建模为一个序列决策问题，并通过强化学习学习动态的引导轨迹。实验表明，与固定引导尺度的方法相比，该方法在多个受控自然语言生成任务中取得了更优的性能，并揭示了不同任务下具有可解释性的引导轨迹。

Comments ReALM-GEN@ICLR2026

2605.07699 2026-05-11 cs.CL cs.AI

DRIP-R: A Benchmark for Decision-Making and Reasoning Under Real-World Policy Ambiguity in the Retail Domain

Hsuvas Borkakoty, Sebastian Pohl, Cheng Wang, Bei Chen, Yufang Hou

AI总结 DRIP-R 是一个面向零售领域的基准，旨在评估大型语言模型在现实政策模糊性下的决策与推理能力。该基准通过真实零售场景中的政策歧义构建任务，测试模型在缺乏唯一正确答案的情况下进行合理判断的能力。DRIP-R 包含多角色对话模拟、工具调用功能及多评委评估体系，实验表明当前前沿模型在处理相同模糊政策时存在显著分歧，突显了政策模糊性对模型决策的系统性挑战。

Comments 10 pages

2605.07698 2026-05-11 cs.LG cs.IT math.IT

Future Validity is the Missing Statistic: From Impossibility to $Φ$-Estimation for Grammar-Faithful Speculative Decoding

Wenhua Nie, Zijie Meng, Kun Zou, Zheng Lin, Ziwei Li, Haoran Zheng, Jyh-Shing Roger Jang, Hao Zhang

AI总结该论文研究了在语法约束生成中，如何使推测解码更符合用户期望的语法条件分布。作者指出，现有方法实际上采样的是局部投影分布，而非目标语法条件分布，并提出了未来有效性函数 $Φ$ 作为缺失的修正统计量。通过引入基于 $Φ$ 的估计方法，论文实现了对目标分布的更精确采样，并在多种语法结构上验证了其有效性，显著提升了生成质量。

2605.07695 2026-05-11 cs.CV

OphEdit: Training-Free Text-Guided Editing of Ophthalmic Surgical Videos

Ritul Jangir, Arkya Jyoti Bagchi, Aiman Farooq, Mangalton Okram, Saurabh Seetaram Korgaonkar, Deepak Mishra

AI总结 OphEdit 是一种无需训练的文本引导眼科手术视频编辑框架，能够根据文本指令对手术视频进行精确修改，如更换手术器械或调整手术阶段。该方法通过确定性二阶ODE逆过程提取原始视频中的注意力值张量，并在去噪过程中将其注入条件分类器自由引导分支，从而在保持眼部解剖结构完整性的同时实现语义编辑。实验表明，OphEdit 在结构保真度和时间一致性方面优于现有视频编辑工具，为生成多样化标注医疗数据提供了高效且无需微调模型的解决方案。

2605.07693 2026-05-11 cs.LG

Toward Better Geometric Representations for Molecule Generative Models

Shaoheng Yan, Zian Li, Cai Zhou, Qiaojing Huang, Kai Liu, Muhan Zhang

AI总结本文研究了如何改进基于几何表示的分子生成模型，以提升生成效率和质量。作者提出了一种名为LENSes的框架，通过引入多级表示提取、语义感知损失和节点级表示对齐机制，有效提升了预训练分子编码器在生成过程中的表现。实验表明，该方法在GEOM-DRUG数据集上实现了更高的生成有效性和稳定性，并验证了其生成表示更加平滑且信息丰富。

详情

英文摘要

Geometric representation-conditioned molecule generation provides an effective paradigm that decouples molecule representation modeling from structure generation. By decoupling molecule generation into two stages-first generating a meaningful molecule representation, and then generating a 3D molecule conditioned on this representation-the efficiency and quality of the generation process can be significantly enhanced. However, its effectiveness is fundamentally limited by the quality of the representation space: pretrained molecular encoders, such as UniMol, produce representations that are non-smooth and not fully exploited during the generative training process. In this work, we propose LENSEs, a framework that better exploits the potential of molecule representations in representation-conditioned generation methods. In particular, LENSEs introduces three complementary mechanisms: (1) a representation head, simultaneously trained during generative tasks, that extracts multi-level representations from the pretrained encoder; (2) a molecule perceptual loss that optimizes the generator in a semantic-informative representation space; and (3) a node-level representation alignment (REPA) loss that explicitly aligns the generator's hidden states with encoder representations, reducing the semantic gap between pretraining and generation. We demonstrate the effectiveness of these improvements through extensive molecule generation tasks. Specifically, on the challenging molecule generation dataset GEOM-DRUG, LENSEs achieves 97.28% validity and 98.51% molecule stability, surpassing existing advanced methods. Further analyses through Lipschitz constant reduction (4.6x) and QM9 probing tasks also demonstrate the smoother, more informative refined representations, establishing generative training with alignment objectives as a potential pretraining paradigm for molecular encoders.

URL PDF HTML ☆

赞 0 踩 0

2605.07692 2026-05-11 cs.AI

GASim: A Graph-Accelerated Hybrid Framework for Social Simulation

Xuan Zhou, Yanhui Sun, Hantao Yao, Allen He, Yongdong Zhang, Wu Liu

AI总结 GASim 是一种用于大规模社会模拟的图加速混合框架，旨在解决传统混合方法中因大量记忆检索和顺序执行带来的高延迟问题。该框架通过引入图优化记忆（GOM）和图消息传递（GMP）机制，分别优化大型语言模型驱动的核心代理和普通代理的运行效率，并结合熵驱动分组（EDG）动态识别关键代理，从而实现高效并行计算。实验表明，GASim 在保持与现实舆论趋势高度一致的同时，相比传统方法实现了近10倍的加速，并显著降低了计算成本。

2605.07690 2026-05-11 cs.LG

Fortifying Time Series: DTW-Certified Robust Anomaly Detection

Shijie Liu, Tansu Alpcan, Christopher Leckie, Sarah Erfani

AI总结该论文研究了时间序列异常检测中的鲁棒性问题，针对现有方法在对抗攻击下易受干扰的缺陷，提出了一种基于动态时间规整（DTW）的可认证鲁棒防御方法。通过将$\ell_p$-范数与DTW距离进行转换，建立了首个在DTW度量下的鲁棒性保证框架。实验表明，该方法在多个数据集和模型上均表现出优异的防御性能，显著提升了对抗攻击下的检测准确率。

Journal ref 39th Conference on Neural Information Processing Systems (NeurIPS 2025)

2605.07689 2026-05-11 cs.LG

Gradient Starvation in Binary-Reward GRPO: Why Group-Mean Centering Fails and Why the Simplest Fix Works

Wenhua Nie, Jianan Wu, Junlin Liu, Ziwei Li, Zheng Lin, Zhang Zijian, Yilong Fan, Haoran Zheng, Jyh-Shing Roger Jang

AI总结本文研究了二元奖励环境下组相对策略优化（GRPO）算法中出现的梯度消失问题，即当组内所有响应都正确或都错误时，中心化优势值为零，导致策略无法学习。作者证明了真实退化率高于独立同分布伯努利预测，并在实际数据中观察到显著的退化现象。通过引入简单的固定参考信号优势函数 $A=2r-1$，有效提升了学习信号，实验表明该方法在GSM8K测试集上显著优于传统方法，主要收益来自于搜索压缩而非模型容量扩张。

2605.07687 2026-05-11 cs.RO

PhySPRING: Structure-Preserving Reduction of Physics-Informed Twins via GNN

Yixiong Jing, Xingyuan Chen, Guangming Wang, Olaf Wysocki, Haibing Wu, Brian Sheil

AI总结 PhySPRING 是一种基于图神经网络（GNN）的可微分方法，旨在对物理驱动的数字孪生系统（如弹簧-质量系统）进行结构保持的简化。该方法通过从观测数据中联合学习分层的简化图结构和对应的机械参数，有效减少了模型复杂度，同时保持物理和视觉保真度。实验表明，PhySPRING 在预测精度和计算效率方面优于现有方法，并在机器人策略评估任务中展现出良好的实用性和鲁棒性。

Comments 16 pages and 6 pages, conference paper

2605.07686 2026-05-11 cs.LG

The Coupling Tax: How Shared Token Budgets Undermine Visible Chain-of-Thought Under Fixed Output Limits

Wenhua Nie, Junlin Liu, Jianan Wu, Zijie Meng, Yilong Fan, Zhang Zijian, Haoran Zheng, Jyh-Shing Roger Jang

AI总结本文研究了在固定输出长度限制下，共享token预算对语言模型推理链（chain-of-thought）性能的影响，提出了一种“耦合税”现象：推理过程和最终答案共享预算时，过长的推理链可能挤占答案空间，从而降低整体表现。通过实验证明，在多个任务中，不使用推理模式的表现往往优于或等于使用推理模式，并提出了预算分配策略以解耦推理与答案生成，显著提升了模型在数学等复杂任务上的准确率。

Comments 40 pages, 6 figures

2605.07676 2026-05-11 cs.LG

Structured Coupling for Flow Matching

Xavier Sumba, Carles Balsells-Rodas, Yingzhen Li

AI总结本文提出了一种名为Structured Coupling for Flow Matching (SCFM) 的新框架，旨在解决流匹配模型在学习可解释潜在结构时的不足。该方法通过引入结构化潜在变量和外生噪声，将流匹配与潜在变量建模相结合，同时学习结构化的先验分布和连续的传输映射。实验表明，SCFM在保持生成质量的同时，能够有效学习有意义的潜在结构，并在聚类、解耦等任务中表现出优越的性能。

2605.07675 2026-05-11 cs.AI cs.LG

FactoryBench: Evaluating Industrial Machine Understanding

Yanis Merzouki, Coral Izquierdo, Matei Ignuta-Ciuncanu, Marcos Gomez-Bracamonte, Riccardo Maggioni, Alessandro Lombardi, Camilla Mazzoleni, Federico Martelli, Balazs Gunther, Jonas Petersen, Philipp Petersen

AI总结本文介绍了 FactoryBench，一个用于评估时间序列模型和大语言模型在工业机器人遥测数据理解能力的基准。该基准围绕因果推理的四个层级构建问答对，并采用结构化评分与LLM作为评委的评分机制。研究提出了一个可扩展的问答生成框架，并基于多个工业数据集构建了包含7万余个问答对的大型基准，揭示了当前模型在工业场景下的理解能力仍存在较大提升空间。

Comments 9 pages, 4 figures, 14 tables; appendix with 24 pages

2605.07662 2026-05-11 cs.LG cs.NA math.NA

Direction-Preserving Number Representations

Bardia Zadeh, George A. Constantinides

AI总结本文研究了在低精度数值格式下，如何通过有限字典选择标量元素来精确表示向量方向的问题。作者提出了一种几何分析框架，量化了乘积结构编码与球面编码在方向覆盖上的差距，并证明了常用的二进制补码、定点和浮点格式在方向表示上存在优化空间。实验表明，NVIDIA 的 E2M1 格式在四比特情况下接近最优方向字典，为低精度机器学习中的高性能提供了几何解释。

Comments 9 pages excluding appendices and references, 18 in total. 5 figures

2605.07661 2026-05-11 cs.LG cs.CV

Stochastic Transition-Map Distillation for Fast Probabilistic Inference

George Rapakoulias, Peter Garud, Lingjiong Zhu, Panagiotis Tsiotras

AI总结本文提出了一种名为STMD的无教师框架，用于加速扩散模型的推理过程，同时保持概率样本生成的能力。不同于基于分数的扩散模型仅建模后验分布的均值，STMD通过条件均值流模型学习与采样随机微分方程相关的完整转移映射，从而实现一步或多步的随机采样器。该方法无需预训练教师模型或复杂的优化过程，具有高效且可扩展的训练优势，并在多个图像生成任务上验证了其有效性。

2605.07660 2026-05-11 cs.CL

Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning

Gengyang Li, Zheng-Fan Wu, Siqi Bao, Yunfang Wu

AI总结本研究探讨了基于强化学习的大型语言模型后训练中，不同token的学习信号异质性问题，提出通过注意力熵来衡量每个响应token的上下文支持集中程度。研究发现，低注意力熵的token（称为锚点）具有稳定梯度，适合作为优化的骨干，但难以应对复杂任务；而高注意力熵的token（称为探索者）则能捕捉更复杂的上下文信息，但梯度波动较大。研究进一步表明，基于注意力熵的动态重加权方法可有效提升模型推理性能，揭示了token级强化学习信号中隐藏的优化结构。

2605.07655 2026-05-11 cs.CV cs.AI

Towards Billion-scale Multi-modal Biometric Search

Arka Koner, Chetan S. Naik, Lokesh Kurre, Vivek Raghavan, Barada P. Sabut, Tanusree Deb Barma, Anoop M. Namboodiri, Anil K. Jain

AI总结本文研究了面向国家级身份系统的百亿级多模态生物特征搜索系统，重点解决大规模数据下的高效处理、准确匹配及防伪检测等问题。提出了一种基于开源架构的多模态生物特征系统Bharat ABIS，涵盖指纹、人脸和虹膜等多种生物特征的预处理、质量评估、攻击检测与特征嵌入生成，并生成每人13.5KB的融合模板。实验表明，该系统在2.2亿身份样本上实现了0.3%的漏检率和0.5%的误报率，且在单服务器上可达到每秒100次搜索的高效性能。

2605.07650 2026-05-11 cs.CV eess.IV

Breaking Spatial Uniformity: Prior-Guided Mamba with Radial Serialization for Lens Flare Removal

Zijia Fu, Yuanfei Huang, Lizhi Wang, Hua Huang

AI总结该论文研究了如何去除图像中的镜头光晕问题，针对现有方法在空间均匀处理上的不足，提出了一种基于先验引导的Mamba框架DeflareMambav2。该方法引入了光晕先验网络估计光晕区域，并结合径向序列化策略实现非均匀处理，从而更有效地保留光源区域、去除光晕伪影并恢复背景细节。实验表明，该方法在保持图像质量的同时具有更少的参数量，取得了当前最优的性能。

2605.07648 2026-05-11 cs.LG

Learning Large-Scale Modular Addition with an Auxiliary Modulus

Hanato Kikuchi, Ryosuke Masuya, Kazuhiko Kawamoto, Hiroshi Kera

AI总结本文研究了大规模模数加法的学习问题，该任务因对输入高度敏感而具有挑战性。为了解决训练与测试分布不一致导致的协变量偏移问题，作者引入了一个辅助模数 $Kq$，在保持输入分布一致的同时降低问题难度。实验表明，该方法在大规模输入长度、大模数和小样本情况下均表现出优越的可扩展性和样本效率，显著优于现有稀疏方法。

Comments 10+11 pages, 5 figures

2605.07646 2026-05-11 cs.CL cs.AI cs.LG

MAVEN: Multi-Agent Verification-Elaboration Network with In-Step Epistemic Auditing

Yinsheng Yao, Jiehao Tang, Zhaozhen Yang, Dawei Cheng

AI总结 MAVEN 是一种多智能体验证-阐述网络，通过引入“怀疑者-研究者-评判者”三方协作机制，实现对大语言模型推理过程的显式分解与验证。该框架通过分步的信念审计机制，提升了推理的透明度和可信度，特别适用于高风险场景。实验表明，MAVEN 在多个基准测试中表现出优越的推理能力，且适用于不同模型架构，具有良好的通用性和迁移性。

Comments 24 pages, 2 figures

2605.07642 2026-05-11 cs.CV

EggHand: A Multimodal Foundation Model for Egocentric Hand Pose Forecasting

Jaeyoung Choi, Hyeondong Kim, Yujin Kim, Daehee Park

AI总结本文提出EggHand，一种基于基础模型的框架，用于预测第一人称视角下的手部三维姿态序列。该方法结合了视觉-语言-动作模型中的动作解码器与第一人称视频-文本编码器，实现了对复杂手部运动和上下文信息的联合建模，无需依赖身体姿态或外部追踪。实验表明，EggHand在EgoExo4D数据集上取得了最先进的预测精度，并在剧烈视角变化下仍保持鲁棒性，同时支持通过语言指令进行可控预测。

Comments CVPR Findings 2026

2605.07640 2026-05-11 cs.CV cs.AI

LithoBench: Benchmarking Large Multimodal Models for Remote-Sensing Lithology Interpretation

Jun Wang, Fengpeng Li, Hang Dong, Tianjin Huang, Wei Han

AI总结本文提出LithoBench，一个用于评估遥感岩石类型解释能力的多层级基准数据集，旨在推动大型多模态模型在地质学领域的应用。该基准包含12类岩石的10,000个专家标注样本，涵盖从识别描述到综合推理的五个认知层次，并采用专家参与的半自动化构建流程以提升地质合理性与评估可靠性。实验表明，现有大型视觉语言模型在高阶地质解释与推理任务中仍存在显著局限。

2605.07639 2026-05-11 cs.AI

Tacit Knowledge Extraction via Logic Augmented Generation and Active Inference

Lorenzo Lamazzi, Aldo Gangemi, Alessio Giberti, Andrea Giovanni Nuzzolese, Vittorio Andrea Rocca, Mattia Torta, Francesco Poggi

AI总结本文研究如何从隐性知识中提取可被机器理解和复用的显性知识，特别是在依赖过程和经验的领域。为此，作者提出了一种结合逻辑增强生成与主动推理的神经符号框架，用于构建基于本体的知识图谱。该方法在制造领域的知识迁移案例中得到验证，显著提升了知识表示的完整性和语义质量，为工业领域的神经符号知识工程提供了新的解决方案。

2605.07635 2026-05-11 cs.CL

Multi-Dimensional Evaluation of LLMs for Grammatical Error Correction

Adnan Labib, Qiao Wang, Yixuan Huang, Zheng Yuan

AI总结本研究针对语法错误纠正（GEC）领域中大型语言模型（LLMs）评估不足的问题，从编辑精度、流畅性保持和语义保留三个维度对最新LLMs进行了全面评估，发现微调后的GPT-4o在各项指标上均达到最先进水平。研究还发现，不同LLMs在错误纠正模式上高度相似，并揭示了基于参考的评估指标可能低估了GEC系统的真实性能，约73.76%的GPT-4o修正结果在有效性上与标准答案相当或更优。这些发现为教育者选择有助于学生语言发展的GEC工具提供了重要参考。

Comments 9 Pages

2605.07631 2026-05-11 cs.AI

Inference Time Causal Probing in LLMs

Sadegh Khorasani, Saber Salehkaleybar, Negar Kiyavash, Matthias Grossglauser

AI总结本文研究了如何在大型语言模型中进行推理时的因果探针，以分析和控制模型内部表示对其行为的影响。作者提出了一种无需辅助分类器的梯度驱动方法——隐藏状态驱动边距干预（HDMI），通过直接利用模型的输出调整隐藏状态，从而改变特定属性的生成概率。实验表明，HDMI在多个基准数据集和模型上均表现出比现有方法更高的可靠性和效果。

Comments 16 pages, 4 tables, 3 figures

2605.07630 2026-05-11 cs.CL cs.AI cs.LG

Safe, or Simply Incapable? Rethinking Safety Evaluation for Phone-Use Agents

Zhengyang Tang, Yi Zhang, Chenxin Li, Xin Lai, Pengyuan Lyu, Yiduo Guo, Weinong Wang, Junyi Li, Yang Ding, Huawen Shen, Zhengyao Fang, Xingran Zhou, Liang Wu, Fei Tang, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu

AI总结本文探讨了手机使用代理在避免危害时，究竟是表现出安全性还是仅仅缺乏行动能力的问题。为了解决现有评估方法无法区分这两类情况的缺陷，研究者构建了PhoneSafety基准，包含700个来自130多款应用的真实安全关键时刻。通过分析八个代表性代理的表现，研究发现更强的通用能力并不一定意味着更高的安全性，且无法采取有效行动的情况更多反映的是能力不足而非安全问题，这对手机使用代理的安全评估提出了新的思考方向。

Comments work in progress

2605.07622 2026-05-11 cs.CL

Is She Even Relevant? When BERT Ignores Explicit Gender Cues

Jonas Klein, Chiara Manna, Eva Vanmassenhove

AI总结本研究探讨了在荷兰语中，BERT模型如何以及在什么情况下会捕捉到性别信息，特别是针对具有显性形态性别标记和通用形式的语言。通过分析训练过程中的上下文嵌入，研究构建了动态的性别子空间，发现尽管性别信息在训练约20轮后变得线性可分，但模型在面对明确性别线索的短句模板时，仍难以更新其内部性别表征，表现出对男性默认的持续倾向。这一结果挑战了现有假设，表明模型在性别方向上的表征动态性不足，难以有效反映反刻板印象的性别线索。

详情

英文摘要

Gender bias in large language models has primarily been investigated for English, while languages with grammatical or morphological gender remain comparatively understudied. This paper investigates how and when gender information emerges in a Dutch BERT model trained from scratch, offering one of the first checkpoint-level analyses of bias formation in a Transformer architecture for a language combining overt morphological gender marking and generic forms. By extracting contextual embeddings throughout training, we construct dynamic gender subspaces using linear SVMs to trace when gender becomes linearly encoded and how this encoding evolves over time. Contextual embeddings are often assumed to integrate contextual cues robustly, allowing models to adjust the representation of a word depending on its more local usage. We therefore test whether explicit gender cues in controlled sentence templates (e.g., Zij is een loodgieter ('She is a plumber')) can override learned statistical associations (plumber -> male). Our findings challenge this assumption: although gender becomes clearly linearly separable around epoch 20 and is distributed across multiple embedding dimensions, the model struggles to update its internal gender representation in light of explicit contextual cues in short sentence templates. Stereotypical gender-profession pairings are predicted far more accurately than anti-stereotypical ones, and generic forms in Dutch systematically default to a male interpretation, even when the context explicitly denotes a female referent. Together, our results seem to indicate that contextualization in the representations learned by our Dutch BERT model is not sufficiently dynamic along the probed gender direction: explicit gender cues in anti-stereotypical contexts are not reliably reflected in the resulting representations, resulting in persistent male-default behaviour.

URL PDF HTML ☆

赞 0 踩 0