arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.13333 2026-05-14 cs.CV cs.AI cs.GR cs.LG

Stylized Text-to-Motion Generation via Hypernetwork-Driven Low-Rank Adaptation

Junhyuk Jeon, Seokhyeon Hong, Junyong Noh

发表机构 * Visual Media Lab, KAIST（韩国庆熙大学视觉媒体实验室）

AI总结该研究针对文本驱动的运动扩散模型在生成精细风格化动作时的不足，提出了一种轻量级的风格条件生成框架。通过超网络生成低秩适配参数，动态调节预训练扩散模型，从而在去噪过程中实现对风格的精细控制。该方法利用监督对比损失结构风格潜在空间，提升了对未见风格的泛化能力，并在多个数据集上取得了领先的风格化生成效果。

Comments Accepted to SIGGRAPH 2026. Project page: https://junhyukjeon.github.io/projects/style-salad/

2605.13332 2026-05-14 cs.AI cs.CC

Diversity of Extensions in Abstract Argumentation

Johannes K. Fichte, Markus Hecher, Yasir Mahmood, Zhengjun Wang

发表机构 * Department of Computer and Information Science (IDA), Linköping University, Sweden（链接öping大学计算机与信息科学系（IDA））； University of Potsdam, Germany & University of Artois, CNRS, UMR8188 (CRIL), France（波茨坦大学 & 阿尔托伊斯大学、法国CNRS UMR8188（CRIL））； Data Science Group, Heinz Nixdorf Institute, Paderborn University, Germany（帕德博恩大学数据科学小组、海因茨·尼克斯多夫研究所）

AI总结本文研究抽象论证框架中扩展集的多样性问题，提出了一种基于对称差的定量多样性度量方法，用于衡量不同扩展集之间的差异程度。作者系统分析了相关推理问题的计算复杂性，并探讨了框架是否允许具有特定多样性的扩展集，以及如何计算最大可能的多样性值。研究还提供了计算多样性水平的原型系统和实验评估。

Comments Technical Report to the paper accepted at IJCAI 2026

2605.13330 2026-05-14 cs.CL

FIND: Toward Multimodal Financial Reasoning and Question Answering for Indic Languages

Sarmistha Das, Vaibhav Vishal, Syed Ibrahim Ahmad, Manish Gupta, Sriparna Saha

发表机构 * Indian Institute of Technology Patna（印度理工学院帕纳分校）； Microsoft（微软）

AI总结该研究针对多语言金融场景下的数值推理与问答任务，提出了一种面向印地语系语言的新型基准数据集FinVQA，涵盖英语、印地语、孟加拉语等六种语言，包含18,900个样本，覆盖14个金融领域。为应对多模态和多语言带来的挑战，研究还提出FIND框架，结合监督微调与约束感知解码，提升模型在数值推理、多模态理解和结构化决策方面的能力，为高风险多语言金融推理任务提供了评估与建模的新范式。

2605.13329 2026-05-14 cs.CL cs.AI

Tracing Persona Vectors Through LLM Pretraining

Viktor Moskvoretskii, Dominik Glandorf, Jorge Medina Moreira, Tanja Käser, Robert West

发表机构 * EPFL（苏黎世联邦理工学院）

AI总结本文研究了大语言模型在预训练过程中如何形成用于表示高层行为的“人格向量”，并追踪了这些向量在OLMo-3-7B模型预训练阶段的演变过程。研究发现，人格向量在预训练初期就已形成，并在后续训练中持续优化。实验还表明，不同的人格提取方法能够揭示模型中不同方面的行为特征，且这一现象在其他模型如Apertus-8B中也得到验证，说明人格向量是预训练早期形成的稳定特征，为理解模型行为的可解释性提供了新方向。

Comments Preprint

2605.13328 2026-05-14 cs.RO cs.AI cs.CL cs.CV

What Limits Vision-and-Language Navigation ?

Yunheng Wang, Yuetong Fang, Taowen Wang, Lusong Li, Kun Liu, Junzhe Xu, Zizhao Yuan, Yixiao Feng, Jiaxi Zhang, Wei Lu, Zecui Zeng, Renjing Xu

发表机构 * HKUST(GZ)（香港科技大学（广州））； JD Explore Academy（京东探索研究院）

AI总结视觉与语言导航（VLN）是具身智能的重要研究方向，但在从仿真环境迁移到真实世界时，现有方法常因感知不稳定和指令模糊而表现下降。本文提出StereoNav，一种融合视觉、语言和动作的鲁棒框架，通过引入目标位置先验和双目视觉技术，增强跨域导航的稳定性与准确性。实验表明，StereoNav在多个基准测试中取得先进性能，并在真实机器人部署中显著提升了复杂环境下的导航可靠性。

2605.13321 2026-05-14 cs.RO

HCSG: Human-Centric Semantic-Geometric Reasoning for Vision-Language Navigation

Haoxuan Xu, Tianfu Li, Wenbo Chen, Yi Liu, Jin Wu, Huashuo Lei, Yunfan Lou, Lujia Wang, Hesheng Wang, Haoang Li

发表机构 * The Hong Kong University of Science and Technology (Guangzhou)（香港科技大学（广州））； Tsinghua University（清华大学）； University of Science and Technology Beijing（北京科技大学）； National University of Singapore（新加坡国立大学）； Shanghai Jiao Tong University（上海交通大学）

AI总结视觉语言导航（VLN）在数据和模型规模扩展的推动下取得了显著进展，但在真实室内场景中，机器人常需应对动态行人，现有方法多将行人视为被动障碍物，缺乏对人类意图和社交规范的主动理解。为此，本文提出HCSG，首个以人类为中心的视觉语言导航框架，通过融合几何预测与语义解释模块，实现对人类行为的主动理解与社交距离控制，显著提升了导航的安全性与社会适应性。实验表明，HCSG在HA-VLNCE基准测试中大幅优于现有方法，成功率提升14%，碰撞率降低34%。

2605.13316 2026-05-14 cs.CV

Test-time Sparsity for Extreme Fast Action Diffusion

Kangye Ji, Yuan Meng, Jianbo Zhou, Ye Li, Chen Tang, Zhi Wang

发表机构 * Tsinghua University（清华大学）； The Chinese University of Hong Kong（香港中文大学）

AI总结该研究针对动作扩散模型在生成高质量动作序列时计算成本高的问题，提出了一种测试时稀疏化方法，通过动态预测模型前向过程中的可剪枝残差计算，以加速动作生成。为解决重复编码和剪枝带来的效率瓶颈，设计了高度并行的推理流程，并引入多向复用策略，有效提升了剪枝稀疏度与生成效率。实验表明，该方法在保持性能不变的情况下，将计算量降低了92%，生成速度提升了5倍。

详情

英文摘要

Action diffusion excels at high-fidelity action generation but incurs heavy computational costs owing to its iterative denoising nature. Despite current technologies showing promise in accelerating diffusion transformers by reusing the cached features, they struggle to adapt to policy dynamics arising from diverse perceptions and multi-round rollout iterations in open environments. We propose test-time sparsity to tackle this challenge, which aims to accelerate action diffusion by dynamically predicting prunable residual computations for each model forward at test time. However, two bottlenecks remain in this paradigm: 1) repetitive conditional encoding and pruning offset most potential speed gains, and 2) the features cached from previous denoising timesteps cannot constrain large pruning errors under aggressive sparsity. To address the first bottleneck, we design a highly parallelized inference pipeline that minimizes the non-decoder delay to milliseconds. Specifically, we first design a lightweight pruner that shares the encoder with the diffusion transformer. Then, we decouple the encoding and pruning from the autoregressive denoising loop by processing all denoising timesteps in parallel, and overlap the pruner with the decoder forward inference through asynchronism. To overcome the second bottleneck, we introduce an omnidirectional reusing strategy, which achieves 95% sparsity by selectively reusing features cached from the current forward, previous denoising timesteps, and earlier rollout iterations. To learn the rollout-level reusing strategies, we sample a few action trajectories to supervise the sparsified diffusion step by step. Extensive experiments demonstrate that our method reduces FLOPs by 92% and accelerates action generation by 5x, achieving lossless performance with an inference frequency of 47.5 Hz. Our code is available at https://github.com/ky-ji/Test-time-Sparsity.

URL PDF HTML ☆

赞 0 踩 0

2605.13312 2026-05-14 cs.LG

Supervised Deep Multimodal Matrix Factorization for Interpretable Brain Network Analysis

Amjad Seyedi, Lifang He, Songlin Zhao, Akwum Onwunta, Nicolas Gillis

发表机构 * Dept. of Mathematics & Operational Research University of Mons（数学与运筹学系蒙斯大学）； Dept. of Computer Science & Engineering Lehigh University（计算机科学与工程系莱斯大学）； Dept. of Industrial & Systems Engineering Lehigh University（工业与系统工程系莱斯大学）

AI总结本文提出了一种可解释的监督深度多模态矩阵分解框架SD3MF，用于整合多模态脑网络数据的分析。该方法将传统的无监督单图聚类扩展为多模态图的监督预测，通过深度分层分解学习各模态的特征，并构建共享的潜在表示以对齐不同视角的被试数据。实验表明，SD3MF在多模态脑连接数据集上优于CNN和GNN等深度学习方法，同时能够提供具有生物学意义的可解释特征。

2605.13311 2026-05-14 cs.AI cs.IR cs.MA

IdeaForge: A Knowledge Graph-Grounded Multi-Agent Framework for Cross-Methodology Innovation Analysis and Patent Claim Generation

Joy Bose

发表机构 * Independent Researcher（独立研究员）

AI总结 IdeaForge 是一个基于知识图谱的多智能体框架，旨在支持跨创新方法（如 TRIZ、设计思维等）的创新分析与专利权利要求生成。该框架通过多个专业智能体在持久化的知识图谱上协作，整合不同方法的结构化推理结果，并利用图结构实现跨方法的收敛关联，从而识别高可信度的创新方案。研究提出了一种基于图的收敛机制和专利生成流程，实验表明该方法在创新候选的多样性和可追溯性方面优于单一方法的基线模型。

Comments 14 pages, 3 figures, 6 tables

详情

英文摘要

Current AI-assisted innovation systems typically apply a single ideation methodology (such as TRIZ or Design Thinking) using sequential prompt-based workflows that do not preserve intermediate reasoning structure. As a result, insights generated across methodologies remain fragmented, limiting traceability, synthesis, and systematic evaluation of novelty. We present IdeaForge, a knowledge graph-grounded multi-agent framework for innovation analysis and patent claim generation. IdeaForge integrates multiple innovation methodologies (TRIZ, Design Thinking, and SCAMPER) through specialist agents operating over a persistent FalkorDB knowledge graph. Each agent contributes structured entities and relationships representing contradictions, inventive principles, user needs, transformations, analogies, and candidate claims. The central contribution of IdeaForge is a cross-methodology convergence mechanism implemented through graph-based claim linkage. Claims independently supported by multiple methodologies are connected using CONVERGENT relationships, enabling identification of high-confidence innovation candidates through graph traversal. A downstream patent drafting agent generates structured patent drafts grounded in convergent claim subgraphs, reducing reliance on unconstrained language model generation. An InnovationScore formula ranks claims by convergent support, methodology diversity, claim strength, and prior art challenge count. We describe the graph schema, agent architecture, convergence detection pipeline, and patent synthesis workflow. Experiments on a legal technology use case demonstrate that graph-grounded multi-methodology synthesis produces more diverse and traceable innovation candidates compared to single-methodology baselines. We discuss implications for computational creativity, explainable AI-assisted invention, and graph-native innovation systems.

URL PDF HTML ☆

赞 0 踩 0

2605.13307 2026-05-14 cs.CL cs.HC

PRISM-X: Experiments on Personalised Fine-Tuning with Human and Simulated Users

Hannah Rose Kirk, Liu Leqi, Fanzhi Zeng, Henry Davidson, Bertie Vidgen, Christopher Summerfield, Scott A. Hale

发表机构 * University of Oxford（牛津大学）； UK AI Security Institute（英国人工智能安全研究所）； University of Texas at Austin（德克萨斯大学奥斯汀分校）； Mercor ； Meedan

AI总结该研究探讨了个性化微调在对话系统中的有效性，通过大规模的被试内实验，比较了基于真实用户和模拟用户对个性化与非个性化语言模型的偏好。研究发现，基于用户偏好进行微调的方法在短期表现上优于通用模型和个性化提示，但在长期可能加剧模型的奉承和关系寻求行为。实验还表明，模拟用户在判断一致性、话题多样性和反馈动态等方面与真实用户存在显著差异，难以完全替代人类进行评估。

2605.13306 2026-05-14 cs.CV

Color Constancy in Hyperspectral Imaging via Reduced Spectral Spaces

G. Dofri Vidarsson, Liying Lu, Sabine Süsstrunk

发表机构 * \'Ecole Polytechnique F\'ed\'erale de Lausanne (EPFL), Lausanne, Switzerland

AI总结本文研究了如何通过降低光谱维度来提升高光谱成像中的颜色恒定性估计性能。作者采用基于相关性的颜色估计（CbC）框架，分析了不同光谱降维策略对光照估计的影响，揭示了在何种条件下紧凑的光谱表示优于传统RGB方法。该研究为高效利用高光谱信息进行光照估计提供了实用指导。

2605.13305 2026-05-14 cs.LG math.DS physics.chem-ph

MPINeuralODE: Multiple-Initial-Condition Physics-Informed Neural ODEs for Globally Consistent Dynamical System Learning

Lake Yang, Antonio Malpica-Morales, Frank Ioannis Papadakis Wood, Serafim Kalliadasis

发表机构 * Department of Chemical Engineering, Imperial College London（帝国理工学院伦敦校区化学工程系）

AI总结本文提出了一种名为MPINeuralODE的新方法，用于解决神经常微分方程（Neural ODE）在面对未见过的初始条件和长期预测时泛化能力差的问题。该方法结合了软物理感知残差和多初始条件（MIC）多阶段训练策略，通过结构互补的方式提升了对动态系统矢量场的全局一致性学习能力。实验表明，MPINeuralODE在多个指标上优于现有方法，尤其在长期稳定性和哈密顿量漂移控制方面表现突出。

2605.13301 2026-05-14 cs.AI cs.CL

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

Yafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li, Zhilin Wang, Jiacheng Chen, Futing Wang, Xuyang Hu, Yuchen Fan, Bangjie Xu, Yucheng Su, Xinmiao Han, Chenxi Li, Haodi Lei, Yufeng Zhao, Zejin Lin, Qianjia Cheng, Tong Zhu, Xiaoye Qu, Ganqu Cui, Peng Ye, Yun Luo, Zhouchen Lin, Yu Qiao, Bowen Zhou, Ning Ding, Yu Cheng

发表机构 * Shanghai AI Laboratory（上海人工智能实验室）； The Chinese University of Hong Kong（香港中文大学）； Tsinghua University（清华大学）； Shanghai Jiao Tong University（上海交通大学）； Peking University（北京大学）

AI总结本文提出了一种简单统一的方法，将预训练的推理模型转化为能够达到国际数学和物理奥林匹克竞赛金牌水平的解题系统。该方法通过逆困惑度课程进行监督微调，培养严格的证明搜索与自我检查能力，并通过两阶段强化学习流程逐步提升模型性能，最终通过测试时扩展进一步提高解题效果。实验表明，基于该方法训练的模型SU-01在数学与物理竞赛中表现出色，同时在科学推理的跨领域泛化能力方面也表现出色。

Comments Technical Report. 77 pages

2605.13297 2026-05-14 cs.LG

PaMM: Periodic Motif Memory for Atomistic Models with an Explicit Local-Structure Interface

Ryan Dong

发表机构 * Independent Research（独立研究）

AI总结本文提出了一种名为PaMM的周期性配位模式记忆模块，用于增强原子模型对晶体结构中重复局部配位模式的显式建模能力。PaMM通过引入基于原子类型和几何特征的成对和三元组模式查找表，显式地编码局部结构信息，并与原始边特征进行融合。实验表明，在固定训练预算下，PaMM能够有效提升模型在能量和力预测上的性能，且其优势来源于结构化的配对/三元组组织方式，而非简单的容量增加。

2605.13296 2026-05-14 cs.AI cs.LG cs.MA

Discrete Diffusion for Complex and Congested Multi-Agent Path Finding with Sparse Social Attention

Yuanzhe Wang, Tian Zhi, Zihang Wei, Hongguang Wang, Jiaming Guo, Yang Zhao, Zisheng Liu, Shiyu Quan, Xing Hu, Zidong Du, Yunji Chen

发表机构 * State Key Lab of Processors, Institute of Computing Technology, CAS（中国科学院计算技术研究所处理器重点实验室）； School of Advanced Interdisciplinary Sciences, CAS（中国科学院高等交叉学科学院）； University of Chinese Academy of Sciences（中国科学院大学）； Institute of Microelectronics, CAS（中国科学院微电子研究所）

AI总结本文研究了在复杂拥挤环境中多智能体路径规划（MAPF）的问题，提出了一种基于离散扩散模型的混合框架DiffLNS，用于生成高质量的初始路径草案以提升修复型求解器的性能。该方法结合了稀疏社交注意力机制的离散去噪扩散概率模型（D3PM）与LNS2算法，直接在离散动作空间中生成多样化的联合路径草案，有效提升了大规模MAPF问题的求解成功率和效率。实验表明，DiffLNS在多种复杂场景中表现优异，平均成功率达到95.8%，显著优于现有方法。

Comments 24 pages, 7 figures

2605.13295 2026-05-14 cs.CL cs.AI cs.MA

CANTANTE: Optimizing Agentic Systems via Contrastive Credit Attribution

Tom Zehle

发表机构 * University of Freiburg（弗赖堡大学）； ELLIS Institute（埃里克·林斯研究所）； Tübingen（图宾根）

AI总结本文提出了一种名为 CANTANTE 的框架，用于优化基于大语言模型的多智能体系统。该方法通过对比不同联合配置在相同查询上的执行结果，将系统层面的奖励分解为每个智能体的更新信号，从而解决信用分配问题。实验表明，CANTANTE 在编程、数学推理和多跳问答等任务上均优于现有优化方法，且在保持较高性能的同时降低了推理成本。

2605.13293 2026-05-14 cs.CV

Img2CADSeq: Image-to-CAD Generation via Sequence-Based Diffusion

Shiyu Tan, Zixuan Zhao, Hao Gao, Zhiheng Chen, Xiaolong Yin, Enya Shen

发表机构 * School of Software Tsinghua University China（软件学院清华大学中国）； Tsinghua University（清华大学）

AI总结该论文提出了一种名为Img2CADSeq的多阶段图像到CAD生成方法，旨在从单视角图像中生成高质量的边界表示（BRep）CAD模型。其核心方法是将CAD操作序列编码为三级层次化代码本，并通过重要性优先策略，优先保留轮廓信息以压缩长序列到稳定的离散潜在空间。为弥合图像与CAD之间的模态差异，研究引入了基于对比学习的点云中间表示，结合VQ-Diffusion模型进行条件生成，并在新构建的CAD-220K和PrintCAD数据集上验证了方法的有效性，显著优于现有方法，生成的STEP文件可直接用于商业CAD软件。

Comments Accepted by SIGGRAPH 2026 Conference

2605.13292 2026-05-14 cs.CL cs.AI cs.IR cs.LG

IndicMedDialog: A Parallel Multi-Turn Medical Dialogue Dataset for Accessible Healthcare in Indic Languages

Shubham Kumar Nigam, Suparnojit Sarkar, Piyush Patel

发表机构 * University of Birmingham（布里斯托尔大学）； Heritage Institute of Technology（遗产理工学院）； Madan Mohan Malaviya University of Technology（马丹·莫汉·马尔维亚理工学院）

AI总结本文介绍了IndicMedDialog，一个包含英印九种语言的平行多轮医疗对话数据集，旨在提升医疗对话系统在印地语系语言中的适用性和对话真实性。该数据集通过大语言模型生成对话并经母语者验证和后处理优化，同时基于该数据集微调了参数高效的医疗语言模型IndicMedLM，以实现更个性化的症状收集。研究通过多语言基线对比和专家评估，验证了模型的临床合理性和有效性。

Comments Accepted in BioNLP @ ACL 2026 Conference

2605.13290 2026-05-14 cs.AI

What properties of reasoning supervision are associated with improved downstream model quality?

Mikołaj Langner, Dzmitry Pihulski, Jan Eliasz, Michał Rajkowski, Przemysław Kazienko, Maciej Piasecki, Jan Kocoń, Teddy Ferdinan

发表机构 * Wroclaw Tech（沃拉布技术学院）

AI总结本文研究了如何在训练前通过内在数据指标可靠预测推理数据集的效用，以减少对昂贵试错调优的依赖。作者提出了一系列定量指标，并通过在语义不同的波兰推理数据集上微调8B和11B模型进行验证，发现这些指标与下游模型性能有显著相关性。研究还揭示了效用预测指标具有规模依赖性：小模型更依赖对齐性指标保证精度，而大模型则受益于高冗余度和详细推理过程以解决复杂任务。这一发现为推理数据验证提供了一个规模感知的框架，有助于更高效地选择训练数据集。

Comments To appear in the Proceedings of the International Conference on Computational Science (ICCS) 2026

2605.13287 2026-05-14 cs.LG cs.AI math.OC stat.ML

Delightful Exploration

Ian Osband

发表机构 * Google DeepMind（谷歌深Mind）

AI总结本文提出了一种名为“Delight-gated exploration”（DE）的探索策略，用于解决大规模动作空间中探索预算有限的问题。该方法通过衡量潜在收益与惊喜值的乘积（即“delight”）来决定是否进行探索，从而更高效地利用有限的探索资源。DE 在多种任务中表现出比 Thompson Sampling 和 $\varepsilon$-greedy 更弱的遗憾增长，并且其超参数具有良好的跨任务迁移性，无需重新调整。

2605.13283 2026-05-14 cs.LG math.ST stat.TH

Byzantine-Robust Distributed Sparse Learning Revisited

Yuxuan Wang, Lixin Zhang, Kangqiang Li

发表机构 * School of Mathematical Sciences（数学科学学院）； School of Statistics and Mathematics（统计与数学学院）； Information Center（信息中心）

AI总结本文重新研究了高维稀疏线性模型下的拜占庭鲁棒分布式估计问题。作者提出了一种结合局部鲁棒$\ell_1$正则化估计与服务器端鲁棒聚合的框架，适用于伪Huber回归、分位数回归和稀疏支持向量机。该方法在较弱条件下提供了非渐近保证，达到了近似最优的统计收敛速率，同时保持了通信效率，仿真实验验证了其在多种拜占庭攻击下的估计鲁棒性、支持恢复和分类精度。

2605.13277 2026-05-14 cs.CL cs.AI cs.CV cs.IR cs.LG

Utility-Oriented Visual Evidence Selection for Multimodal Retrieval-Augmented Generation

Weiqing Luo, Zongye Hu, Xiao Wang, Zhiyuan Yu, Haofeng Zhang, Ziyi Huang

发表机构 * Arizona State University（亚利桑那州立大学）； Texas A&M University（德克萨斯大学）； Morgan Stanley（摩根大通）

AI总结本文研究了多模态检索增强生成（RAG）中视觉证据的选择问题，指出现有方法通常基于语义相关性或表面相似性，难以准确反映证据对下游推理的实际效用。为此，作者从信息论角度重新定义了证据的效用，提出通过模型输出分布的信息增益来衡量证据价值，并设计了一种无需训练、基于轻量多模态模型的高效估计框架。实验表明，该方法在多个基准上优于现有RAG方法，同时显著降低了计算成本。

Comments Accepted to ACL 2026

2605.13266 2026-05-14 cs.RO

Galilean State Estimation for Inertial Navigation Systems with Unknown Time Delay

Giulio Delama, Martin Scheiber, Yixiao Ge, Tarek Hamel, Stephan Weiss, Robert Mahony

发表机构 * Control of Networked Systems Group（网络化系统控制组）； University of Klagenfurt（克莱根furt大学）； Systems Theory and Robotics Group（系统理论与机器人组）； Australian National University（澳大利亚国立大学）； I3S, CNRS, Université Côte d’Azur and Institut Universitaire de France（I3S、CNRS、坎特伯雷大学及法国大学研究院）

AI总结本文研究了在存在未知时间延迟的惯性导航系统（INS）中如何进行状态估计的问题。作者提出了一种基于伽利略对称性的几何框架，将时空统一建模，从而实现导航状态与时间延迟的联合估计，并推导出一种等变滤波器（EqF）用于在线估计。实验表明，该方法在保持估计精度的同时具有更好的一致性，优于现有的扩展卡尔曼滤波（EKF）方法，尤其在时间延迟较大时表现更优。

2605.13265 2026-05-14 cs.LG

LightSplit: Practical Privacy-Preserving Split Learning via Orthogonal Projections

Mert Cihangiroglu, Alessandro Pegoraro, Phillip Rieger, Antonino Nocera, Ahmad-Reza Sadeghi

发表机构 * University of Pavia（帕维亚大学）； Technical University of Darmstadt（达姆施塔特技术大学）

AI总结 Split Learning（SL）通过将神经网络分割在客户端和中央服务器之间实现协作训练，但切分层接口带来了高维激活值通信开销大和表示易受重构攻击的问题。本文提出LightSplit方法，在切分层应用轻量的固定正交随机投影，以降低信息暴露并减少通信开销。该方法基于信息论原理，通过投影限制样本特异性信息，抑制可被利用的样本信号，并在不改变原有架构的前提下实现高效训练，适用于边缘设备，同时保持端到端可微性。实验表明，LightSplit在大幅降低通信维度的情况下仍能保持超过95%的基线准确率。

2605.13262 2026-05-14 cs.LG q-bio.QM

Chem-GMNet: A Sphere-Native Geometric Transformer for Molecular Property Prediction

Deepak Warrier, Raja Sekhar Pappala

发表机构 * MSTACK AI

AI总结本文提出了一种名为Chem-GMNet的球面原生几何变换器，用于分子属性预测任务。该模型通过将传统变换器中的各个模块替换为基于球面几何的结构，充分利用了化学结构中的几何先验信息。实验表明，Chem-GMNet在参数更少的情况下取得了优于现有方法如ChemBERTa的性能，尤其在无需预训练的情况下也表现出色。

2605.13260 2026-05-14 cs.LG math.AP math.FA stat.ML

Unified generalization analysis for physics informed neural networks

Yuka Hashimoto, Tomoharu Iwata

发表机构 * NTT, Inc.（NTT公司）； RIKEN AIP（理化学研究所AIP）

AI总结本文针对物理信息神经网络（PINNs）及其变体（VPINNs）的泛化能力进行了统一的理论分析。研究通过泰勒展开将非线性微分算子转化为高维空间中的线性算子，结合Koopman分析方法，建立了适用于包含微分操作的神经网络的泛化界。该方法突破了以往对稳定性条件或线性椭圆性的依赖，揭示了微分算子的非线性特性对泛化性能的显著影响，为理解物理信息神经网络的训练与推广提供了新的理论视角。

2605.13255 2026-05-14 cs.AI

Respecting Self-Uncertainty in On-Policy Self-Distillation for Efficient LLM Reasoning

Junlong Ke, Zichen Wen, Weijia Li, Conghui He, Linfeng Zhang

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Tsinghua University（清华大学）； Shanghai AI Laboratory（上海人工智能实验室）

AI总结本文研究了如何在基于策略的自蒸馏中更有效地利用教师模型的不确定性信息，以提升大语言模型的推理效率。提出了一种基于熵引导的强化自蒸馏方法EGRSD，通过结合奖励引导方向、师生似然比幅度以及教师熵置信门机制，动态调整对不同位置token的监督权重，从而提升模型训练效果。进一步引入了因果前瞻变体CL-EGRSD，以区分持续高熵和短暂高熵区域，实验表明该方法在推理准确率与长度的权衡上优于现有可训练方法。

2605.13245 2026-05-14 cs.AI

It's not the Language Model, it's the Tool: Deterministic Mediation for Scientific Workflows

Marios Adamidis, Danae Katrisioti, Yannis Tzitzikas, Emmanuel Stratakis

发表机构 * Department of Materials Science and Technology, University of Crete（材料科学与技术系，克里特大学）； Institute of Electronic Structure and Laser, FORTH（电子结构与激光研究所，FORTH）； Computer Science Department, University of Crete（计算机科学系，克里特大学）； Institute of Computer Science, FORTH（计算机科学研究所，FORTH）； Department of Physics, University of Crete（物理系，克里特大学）

AI总结该研究探讨了语言模型在科学工作流中生成分析结果的可重复性问题，指出当前模型在同一数据上多次生成时可能得到不同结果，缺乏可信度。为此，作者提出了一种“类型化中介”方法，通过模型调用确定性工具来执行分析，每个工具对应特定仪器的精确操作流程，确保结果的一致性。实验表明，该方法在多个平台上实现了相同分析任务的完全可复现结果，相较商业模型具有更高的稳定性和可靠性，为科学分析中的可重复性需求提供了实用解决方案。

Comments 18 pages, 4 figures, 2 appendices. Submitted to SETN 2026

2605.13236 2026-05-14 cs.CL

A Hybrid Framework for Natural Language Querying of IFC Models with Relational and Graph Representations

Rabindra Lamsal, Sisi Zlatanova, Haowen Xu, Yafei Sun, Johnson Xuesong Shen

发表机构 * GRID Lab, School of Built Environment, The University of New South Wales（建筑环境学院，新南威尔士大学GRID实验室）； School of Civil and Environmental Engineering, The University of New South Wales（土木与环境工程学院，新南威尔士大学）

AI总结本文提出了一种名为IfcLLM的混合框架，用于通过自然语言查询IFC格式的建筑信息模型（BIM）。该框架将IFC模型转化为互补的表示形式，包括用于结构化属性和几何信息的关系表示，以及用于拓扑关系的图表示，并通过迭代的重试与优化机制整合这两种表示进行大语言模型推理。实验表明，该方法在多个场景下的首次查询准确率高达93.3%至100%，能够有效提升非专家用户对BIM数据的访问与分析能力。

2605.13229 2026-05-14 cs.AI cs.SE

Improving Code Translation with Syntax-Guided and Semantic-aware Preference Optimization

Yuhan Wu, Huan Zhang, Wei Cheng, Chen Shen, Jingyue Yang, Wei Hu

发表机构 * State Key Laboratory for Novel Software Technology, Nanjing University, China（南京大学新型软件技术国家重点实验室）； National Institute of Healthcare Data Science, Nanjing University, China（南京大学健康数据科学国家研究院）

AI总结本文研究如何提升代码翻译的准确性和语义一致性，提出了一种基于语法引导和语义感知的偏好优化方法CTO。该方法通过对比学习训练跨语言语义模型，直接评估源代码与翻译代码的功能等价性，并将语义信号与编译器反馈的语法信号统一到多目标优化框架中。实验表明，CTO在C++、Java和Python代码翻译任务中显著优于现有方法。

Comments Accepted in the 35th International Joint Conference on Artificial Intelligence (IJCAI 2016)

AI 大模型

视觉与机器人

科学与医疗