arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2510.10642 2026-05-14 cs.RO cs.AI

UniJEPA: Enhancing Robot Policy via Unified Continuous and Discrete Representation Learning

Jianke Zhang, Yucheng Hu, Yanjiang Guo, Xiaoyu Chen, Yichen Liu, Wenna Chen, Chaochao Lu, Jianyu Chen

发表机构 * Institute for Interdisciplinary Information Sciences, Tsinghua University, Beijing, China.（清华大学交叉信息研究院）； Shanghai Qi Zhi Institute, Shanghai, China（上海启智研究院）； Peking University, Beijing, China（北京大学）； Shanghai AI Lab, Shanghai, China（上海人工智能实验室）

AI总结本文提出了一种名为UniJEPA的新型机器人策略学习框架，旨在提升机器人在开放环境中处理多样化任务的能力。该方法通过统一学习连续和离散的视觉表征，结合大规模预训练和机器人本体数据微调，实现了对高维视觉特征的动态建模以及从预测表征到动作的映射学习。实验表明，UniJEPA在仿真环境和现实世界的分布外任务中均优于现有基线方法，展现出显著的性能提升。

Journal ref ICML 2026

2510.10265 2026-05-14 cs.CL

Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models

Liang Lin, Miao Yu, Moayad Aloqaily, Zhenhong Zhou, Kun Wang, Linsey Pang, Prakhar Mehrotra, Qingsong Wen

发表机构 * Institute of Information Engineering, Chinese Academy of Sciences（中国科学院信息工程研究所）； University of Science and Technology of China（中国科学技术大学）； United Arab Emirates University（阿联酋大学）； PayPal Inc（PayPal公司）； Walmart Labs（沃尔玛实验室）； Squirrel Ai Learning（Squirrel Ai学习）； Nanyang Technological University（南洋理工大学）

AI总结该研究针对大语言模型中的后门攻击问题，提出了一种无需先验触发设置知识的防御方法——Backdoor Collapse。其核心思想是通过注入已知后门触发器，使原有未知后门与新注入后门在表示空间中聚合，再通过恢复微调消除后门影响。实验表明，该方法在多个基准测试中显著降低了攻击成功率，同时保持了模型的清洁准确率和实用性，具有良好的泛化性和实际应用价值。

2510.08992 2026-05-14 cs.LG

Constraints-of-Thought: A Framework for Constrained Reasoning in Language-Model-Guided Search

Kamel Alrashedy, Vriksha Srihari, Zulfiqar Zaidi, Ridam Srivastava, Pradyumna Tambwekar, Matthew Gombolay

发表机构 * Georgia Institute of Technology（佐治亚理工学院）

AI总结该研究提出了一种名为Constraints-of-Thought（Const-o-T）的框架，旨在解决大语言模型在多步骤规划中难以满足高层用户意图和符号约束的问题。该框架通过将每个推理步骤表示为（意图，约束）对，为蒙特卡洛树搜索（MCTS）提供结构化先验，从而压缩搜索空间并确保路径的语义有效性。实验表明，Const-o-T在风险游戏、CAD代码生成和算术推理等多个领域均优于现有方法，展示了其在提升规划效率和约束对齐方面的重要贡献。

2510.03548 2026-05-14 cs.CV cs.AI

Unmasking Puppeteers: Leveraging Biometric Leakage to Expose Impersonation in AI-Based Videoconferencing

Danial Samadi Vahdati, Tai Duc Nguyen, Ekta Prashnani, Koki Nagano, David Luebke, Orazio Gallo, Matthew Stamm

发表机构 * Drexel University（德雷克斯el大学）； NVIDIA

AI总结本文研究了基于人工智能的视频会议系统中身份伪装攻击的问题，即攻击者可通过操控传输的潜空间信息实时劫持用户的形象。为解决这一问题，作者提出了一种新型防御方法，通过利用潜空间中固有的生物特征信息，设计了一个基于姿态条件的对比编码器，能够分离身份特征并消除姿态和表情的干扰，从而在不依赖重建视频的情况下检测身份伪装。实验表明，该方法在多个生成模型上均表现出优越的检测性能，并具有实时性和良好的泛化能力。

2510.00929 2026-05-14 cs.CV

Equivariant Splitting: Self-supervised learning from incomplete data

Victor Sechaud, Jérémy Scanvic, Quentin Barthélemy, Patrice Abry, Julián Tachella

发表机构 * LPENSL, CNRS, ENS de Lyon, France（LPENSL、CNRS、 Lyon 工程科学研究院、法国）； Prysm, Lyon, France（Prysm、Lyon、法国）

AI总结本文提出了一种用于不完整数据的自监督学习新方法——等变分裂，旨在解决在仅有单一不完整观测模型的情况下重建问题。该方法引入了重建网络中的等变性概念，并结合自监督分裂损失，实现了对有监督损失的无偏估计。实验表明，该方法在图像修复、加速磁共振成像、稀疏视角CT和压缩感知等任务中表现出色，尤其适用于正向模型高度欠秩的场景。

2509.25781 2026-05-14 cs.AI cs.LO

Deontic Argumentation

Guido Governatori, Antonino Rotolo

发表机构 * School of Engineering and Technology, Central Queensland University（中央昆士兰大学工程与技术学院）； Alma AI and Department of Legal Studies, University of Bologna（博洛尼亚大学法律系与Alma AI）

AI总结本文研究了如何为道义论证（deontic argumentation）定义一种支持弱许可（weak permission）的语义。作者指出，当前基于 grounded 语义的方法在义务冲突时无法支持弱许可，并提出了一个新的道义论证理论，以正确处理弱许可问题，从而完善了道义论证的语义基础。

2509.24728 2026-05-14 cs.LG stat.ML

Beyond Softmax: A Natural Parameterization for Categorical Random Variables

Alessandro Manenti, Cesare Alippi

发表机构 * Università della Svizzera italiana, IDSIA（瑞士大学、IDSIA）

AI总结该论文提出了一种替代传统softmax函数的新方法——catnat函数，用于处理分类随机变量。从信息几何角度出发，作者揭示了softmax的局限性，并通过分层二元分割构造catnat函数，使其具有对角化的费舍尔信息矩阵，从而提升梯度下降的效率。实验表明，catnat在图结构学习、变分自编码器和强化学习等多种任务中均能提高学习效率和模型性能，且易于实现并兼容现有训练技术。

2509.23597 2026-05-14 cs.LG cs.AI

Characteristic Root Analysis and Regularization for Linear Time Series Forecasting

Zheng Wang, Kaixuan Zhang, Wanfang Chen, Xiaonan Lu, Longyuan Li, Tobias Schlagenhauf

发表机构 * Bosch Center for AI (BCAI) & Bosch (China) Investment Co., Ltd.（博世人工智能中心（BCAI）及博世（中国）投资有限公司）； Robert Bosch GmbH（罗伯特·博世有限公司）

AI总结本文系统研究了线性模型在时间序列预测中的应用，重点分析了特征根在时间动态行为中的作用，并揭示了噪声环境下模型易产生虚假特征根的问题。为此，作者提出了两种互补的正则化策略：一种基于低秩回归技术恢复潜在动态结构，另一种通过新方法“Root Purge”引导模型学习抑制噪声的零空间。实验表明，这两种方法在多个基准数据集上表现优异，验证了理论分析的有效性，并在某些场景下达到了当前最优结果。

Comments Accepted for publication at ICLR 2026

详情

英文摘要

Time series forecasting remains a critical challenge across numerous domains, yet the effectiveness of complex models often varies unpredictably across datasets. Recent studies highlight the surprising competitiveness of simple linear models, suggesting that their robustness and interpretability warrant deeper theoretical investigation. This paper presents a systematic study of linear models for time series forecasting, with a focus on the role of characteristic roots in temporal dynamics. We begin by analyzing the noise-free setting, where we show that characteristic roots govern long-term behavior and explain how design choices such as instance normalization and channel independence affect model capabilities. We then extend our analysis to the noisy regime, revealing that models tend to produce spurious roots. This leads to the identification of a key data-scaling property: mitigating the influence of noise requires disproportionately large training data, highlighting the need for structural regularization. To address these challenges, we propose two complementary strategies for robust root restructuring. The first uses rank reduction techniques, including \textbf{Reduced-Rank Regression (RRR)} and \textbf{Direct Weight Rank Reduction (DWRR)}, to recover the low-dimensional latent dynamics. The second, a novel adaptive method called \textbf{Root Purge}, encourages the model to learn a noise-suppressing null space during training. Extensive experiments on standard benchmarks demonstrate the effectiveness of both approaches, validating our theoretical insights and achieving state-of-the-art results in several settings. Our findings underscore the potential of integrating classical theories for linear systems with modern learning techniques to build robust, interpretable, and data-efficient forecasting models. The code is publicly available at: https://github.com/Wangzzzzzzzz/RootPurge.

URL PDF HTML ☆

赞 0 踩 0

2509.23056 2026-05-14 cs.CV cs.LG

FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection

Ben Liang, Hongguang Wei, Yuan Liu, Bingwen Qiu, Yihong Wang, Xiubao Sui, Qian Chen

发表机构 * School of Electronic Engineering and Optoelectronic Technology, Nanjing University of Science and Technology（南京理工大学电子工程与光电子技术学院）

AI总结本文提出FMC-DETR，一种用于遥感图像中空中视角目标检测的频率解耦融合框架，旨在解决高分辨率图像中微小目标检测因视觉线索弱和全局上下文建模不足而面临的问题。该方法引入了Wavelet Kolmogorov-Arnold Transformer（WeKat）作为主干网络，结合小波变换和Kolmogorov-Arnold网络以增强浅层特征的全局低频结构感知和多尺度依赖的非线性建模；同时设计了多域特征协调模块（MDFC）和紧凑部分融合模块（CPF），分别用于优化跨尺度特征融合和提升小目标检测性能。实验表明，FMC-DETR在多个遥感基准数据集上取得了最先进的检测效果。

2509.19538 2026-05-14 cs.LG cs.AI

DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions

Zongyue Li, Xiao Han, Yusong Li, Niklas Strauss, Matthias Schubert

发表机构 * Department of Computer Science, University of Munich, Munich, Germany（慕尼黑大学计算机科学系）； Munich Center for Machine Learning (MCML), Munich, Germany（慕尼黑机器学习中心（MCML））

AI总结 DAWM 是一种基于扩散模型的世界模型，旨在提升离线强化学习的性能。该方法通过当前状态、动作和剩余回报生成未来状态-奖励轨迹，并结合逆动力学模型实现高效的动作推断，从而生成适用于基于一步时差学习的离线RL算法的完整合成转移。实验表明，DAWM 显著提升了保守离线RL算法如TD3BC和IQL在D4RL基准上的表现，优于现有的扩散模型基线。

Comments ICML2025 workshop Building Physically Plausible World Models

2509.15642 2026-05-14 cs.CV

UNIV: Unified Foundation Model for Infrared and Visible Modalities

Fangyuan Mao, Shuo Wang, Jilin Mei, Shun Lu, Chen Min, Fuyang Liu, Xiaokun Feng, Meiqi Wu, Yu Hu

发表机构 * Research Center for Intelligent Computing Systems, CAS ICT（智能计算系统研究所以及中国科学院信息科技研究院）； University of Chinese Academy of Sciences（中国科学院大学）； Institute of Automation, Chinese Academy of Sciences（中国科学院自动化研究所）

AI总结本文提出UNIV，一种统一的红外与可见光基础模型，旨在解决跨模态感知中的模态偏差问题。核心方法为Patch Cross-modal Contrastive Learning（PCCL），通过自监督学习构建统一的跨模态特征空间，提升语义对齐与类别可分性。此外，研究还构建了目前最全面的可见光-红外数据集MVIP，并在多个任务上验证了UNIV的优越性能。

2509.13858 2026-05-14 cs.CV

EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics

Qianxin Xia, Jiawei Du, Guoming Lu, Zhiyong Shu, Jielei Wang

发表机构 * University of Electronic Science and Technology of China（电子科技大学）； Centre for Frontier AI Research, Agency for Science, Technology and Research（前沿人工智能研究中心，科技研究局）

AI总结本文提出了一种名为EDITS的新框架，旨在通过利用图像中的隐含文本语义来提升数据集蒸馏的效果。该方法结合视觉语言模型生成的外部文本与图像特征，构建语义聚类缓冲区，并通过局部语义感知模块选择代表性样本生成图像与文本原型，最终利用扩散模型生成高质量的合成数据集。实验表明，该方法在保持模型性能的同时显著提升了蒸馏效率。

2509.10796 2026-05-14 cs.RO

Follow-Bench: A Unified Motion Planning Benchmark for Socially-Aware Robot Person Following

Hanjing Ye, Weixi Situ, Jianwei Peng, Yu Zhan, Bingyi Xia, Kuanqi Cai, Hong Zhang

发表机构 * Shenzhen Key Laboratory of Robotics and Computer Vision（深圳机器人与计算机视觉重点实验室）； Southern University of Science and Technology（南方科技大学）； Human-Robot Interfaces and Interaction Laboratory（人机交互实验室）； Istituto Italiano Di Tecnologia（意大利技术研究院）； Swiss Federal Technology Institute of Lausanne（洛桑联邦理工学院）

AI总结本文提出Follow-Bench，首个统一的用于社会感知机器人跟随任务的运动规划基准，旨在解决机器人在跟随目标人时如何同时保证安全与舒适的问题。研究系统回顾了相关场景、规划方法和评估指标，构建了包含多种轨迹模式、人群动态和环境布局的仿真基准，并重新实现了八种代表性规划器，全面评估其安全与舒适性能。通过仿真与实际机器人实验，揭示了现有方法的权衡与挑战，为未来研究提供了方向。

Comments Project page: https://follow-bench.github.io/

2509.08461 2026-05-14 cs.LG cs.AI cs.CV hep-ex

Adapting Vision-Language Models for Neutrino Event Classification in High-Energy Physics

Dikshant Sagar, Kaiwen Yu, Alejandro Yankelevich, Jianming Bian, Pierre Baldi

发表机构 * Department of Computer Science, University of California, Irvine, CA, USA（计算机科学系，加州大学欧文分校，加州，美国）； Department of Physics, University of California, Irvine, CA, USA（物理系，加州大学欧文分校，加州，美国）

AI总结本文研究了将视觉语言模型（VLM）应用于高能物理实验中中微子事件分类的问题，提出了一种基于微调LLaMA 3.2的VLM方法，并与卷积神经网络（CNN）和视觉变换器（ViT）进行了对比。实验表明，基于变换器的模型在分类准确率和鲁棒性方面优于传统CNN，而VLM通过引入文本或语义信息，进一步提升了预测的可解释性和推理能力。该研究展示了VLM作为物理事件分类通用框架的潜力，为中微子物理实验中的多模态推理提供了新思路。

Comments Accepted for publication in Communications Physics (Nature Portfolio)

2509.00626 2026-05-14 cs.CV cs.AI

Towards Methane Detection Onboard Satellites

Maggie Chen, Hala Lamdouar, Luca Marini, Laura Martínez-Ferrer, Chris Bridges, Giacomo Acciarini

发表机构 * University of Oxford（牛津大学）； Delft University of Technology（代尔夫特理工大学）； Universitat de València（瓦伦西亚大学）； University of Surrey（萨里大学）； European Space Agency (ESA)（欧洲航天局）

AI总结本文研究了如何在卫星上利用机器学习技术实现甲烷气体的快速检测，以支持气候变化的及时应对。研究提出了一种新的方法，无需传统图像预处理步骤，直接使用未正射校正的高光谱数据进行训练，取得了与传统方法相当的检测效果。此外，研究还展示了基于正射校正数据训练的模型在性能上优于传统匹配滤波方法，并公开了数据集和代码，为相关研究提供了重要资源。

2509.00072 2026-05-14 cs.AI

Test of Time: Rethinking Temporal Signal of Benchmark Contamination

Terry Jingchen Zhang, Gopal Dev, Ning Wang, Max Obreiter, Punya Syon Pandey, Keenan Samway, Wenyuan Jiang, Yinya Huang, Bernhard Schölkopf, Mrinmaya Sachan, Zhijing Jin

发表机构 * Jinesis Lab, University of Toronto & Vector Institute（Jinesis实验室、多伦多大学及向量研究所）； ETH Zürich & ETH AI Center（苏黎世联邦理工学院及ETH人工智能中心）； Max Planck Institute for Intelligent Systems, Tübingen, Germany（智能系统马克斯·普朗克研究所，图宾根，德国）； ELLIS Institute Tübingen（图宾根ELLIS研究所）

AI总结本文重新审视了大语言模型（LLM）在训练截止时间后性能下降作为基准污染的时序信号问题。研究指出，这一时序信号高度依赖于基准问题的构造方式，即使来源材料不变，不同形式的问题也可能导致截然不同的时序表现。通过实验证明，对同一问题进行LLM驱动的转换可以有效消除时序模式，并结合影响函数分析揭示了其机制，表明该信号易受问题构造方式影响，需更稳健的方法来评估模型污染情况。

Comments ACL 2026

2508.19651 2026-05-14 cs.CV

Scalable Object Detection in the Car Interior With Vision Foundation Models

Sebastian Schmidt, Bálint Mészáros, Ahmet Firintepe, Stephan Günnemann

发表机构 * Technical University of Munich, School of Computation, Information and Technology（慕尼黑技术大学，计算、信息与技术学院）； BMW Group（宝马集团）

AI总结本文研究了如何在车载环境中高效地进行车内物体检测与定位，以提升智能助手的响应质量。为解决车载系统计算资源受限的问题，作者提出了一种基于视觉基础模型的分布式检测框架 ODAL，将计算任务分配到车载端与云端，从而实现高效部署。研究还引入了 ODALbench 评估指标，并通过微调轻量模型 LLaVA 1.5 7B 实现了显著性能提升，其检测准确率较基线提升了 71%，并在关键指标上超越了 GPT-4o 模型。

2508.14302 2026-05-14 cs.LG cs.AI cs.CL

GLASS: Global-Local Aggregation for Inference-time Sparsification of LLMs

Amirmohsen Sattarifard, Sepehr Lavasani, Kunlin Zhang, Amirhossein Rajabpour, Hanlin Xu, Fengyu Sun, Negar Hassanpour, Chao Gao

发表机构 * Huawei Technologies Canada Co., Ltd.（华为技术加拿大公司）； Huawei Technologies Ltd.（华为技术有限公司）

AI总结本文提出了一种名为GLASS的推理时稀疏化框架，旨在在资源受限设备上高效部署大语言模型。该方法通过结合局部的输入提示激活信息和全局的模型内在先验，稳定动态剪枝过程，从而提升生成质量。实验表明，GLASS在短提示、长生成场景下显著优于现有无训练方法，有效降低了困惑度和KL散度，同时提升了设备端的推理速度。

2508.10683 2026-05-14 cs.CL

Neural Machine Translation for Coptic-French: Strategies for Low-Resource Ancient Languages

Nasma Chaoui, Richard Khoury

发表机构 * Department of Computer Science and Software Engineering（计算机科学与软件工程系）； Université Laval（拉瓦尔大学）

AI总结本文首次系统研究了将科普特语翻译为法语的策略，旨在解决低资源古代语言的机器翻译问题。研究全面评估了包括通过中间语言翻译、预训练的影响、多版本微调的优势以及模型对噪声的鲁棒性等多种方法。实验表明，使用风格多样且注重噪声处理的训练语料进行微调，能显著提升翻译质量，为历史语言的翻译工具开发提供了重要的实践指导。

Journal ref Fourth Workshop on Language Technologies for Historical and Ancient Languages (LT4HALA 2026) @ LREC 2026, 482-490

2508.07642 2026-05-14 cs.AI cs.CL cs.CV

Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents

Tianyi Ma, Yue Zhang, Zehao Wang, Parisa Kordjamshidi

发表机构 * Michigan State University（密歇根州立大学）； ESAT-PSI, KU Leuven（KU莱顿大学ESAT-PSI实验室）

AI总结视觉与语言导航（VLN）任务要求智能体理解自然语言指令并在复杂的3D环境中进行导航，当前方法在面对需要复杂时空推理的未知场景时仍存在较大挑战。本文提出SkillNav框架，通过将导航分解为一组可解释的原子技能，并由专门的智能体分别处理，引入结构化的技能推理机制。此外，研究构建了一个合成数据生成管道以支持无监督技能训练，并设计了一种基于视觉语言模型的路由器，动态选择最合适的智能体执行任务，显著提升了模型在新型指令风格和未知环境中的泛化能力。

Comments Accepted by ACL 2026 Main Conference

2507.19247 2026-05-14 cs.LG cs.AI cs.CL

A Markov Categorical Framework for Language Modeling

Yifan Zhang

发表机构 * Princeton University（普林斯顿大学）

AI总结本文提出了一种基于马尔可夫范畴的语言建模分析框架，旨在统一解释自回归语言模型的内部机制、训练过程对表示学习的影响以及这些表示如何支持复杂行为。该框架将单步生成过程建模为信息处理阶段的组合，揭示了训练目标、表示空间几何结构与模型能力之间的内在联系。研究还展示了负对数似然目标如何同时学习下一个词和数据的条件不确定性，并通过谱分析结果表明，在特定条件下，优化后的损失函数能够引导表示方向与预测原型对齐，从而为理解信息流动和模型内部结构提供了新的视角。

2507.18809 2026-05-14 cs.LG

Test-time Offline Reinforcement Learning on Goal-related Experience

Marco Bagatella, Mert Albaba, Jonas Hübotter, Georg Martius, Andreas Krause

发表机构 * ETH Zurich, Zurich, Switzerland（苏黎世联邦理工学院，苏黎世，瑞士）； Max Planck Institute for Intelligent Systems, Tubingen, Germany（智能系统马克斯·普朗克研究所，图宾根，德国）； University of Tubingen, Tubingen, Germany（图宾根大学，图宾根，德国）

AI总结本文研究了在测试阶段利用与目标相关的历史经验进行离线强化学习的方法，旨在提升策略性能。作者提出了一种新的自监督数据选择准则，根据当前状态和评估目标的相关性与质量筛选离线数据，并通过少量梯度步的微调显著提升策略表现。该方法在多个高维导航与操作任务中验证有效，且在推理阶段合理分配计算资源后，其性能提升优于单纯扩大模型规模。

2507.15867 2026-05-14 cs.LG cs.AI cs.CL cs.MA

RDMA: Cost Effective Agent-Driven Rare Disease Mining from Electronic Health Records

John Wu, Adam Cross, Jimeng Sun

发表机构 * Department of Computer Science, University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校计算机科学系）； Department of Pediatrics, University of Illinois College of Medicine Peoria（伊利诺伊大学皮奥里亚医学院儿科系）

AI总结该研究针对罕见病在电子健康记录中记录不足的问题，提出了一种基于智能代理的罕见病挖掘框架RDMA。该方法利用量化小型语言模型，结合专业工具实现缩写解析、隐性表型推理和本体映射，无需特定任务训练即可在多个数据集上显著优于现有方法。RDMA不仅大幅降低了推理和硬件成本，还通过不确定性标记机制减轻专家标注负担，为临床罕见病记录的规模化应用提供了可行方案。

2507.10797 2026-05-14 cs.LG math.OC stat.ML

Multi-Armed Sampling Problem and the End of Exploration

Mohammad Pedramfar, Siamak Ravanbakhsh

发表机构 * Mila - Quebec AI Institute, McGill University（魁北克AI研究所，麦吉尔大学）

AI总结本文提出了多臂采样问题框架，作为多臂老虎机优化问题的采样对应，旨在严谨分析采样过程中的探索与利用权衡。研究系统定义了该框架下的遗憾概念并建立了下界，提出了一种简单算法实现了近似最优的遗憾界，理论结果表明与优化不同，采样几乎无需探索。通过引入温度参数，本文还建立了连接多臂采样与多臂老虎机的连续问题族，为采样相关研究，如神经采样器、熵正则化强化学习等提供了基础理论支持。

Comments 29th International Conference on Artificial Intelligence and Statistics (AISTATS) 2026

2507.03167 2026-05-14 cs.CL cs.AI cs.LG

Where Do Reasoning Models Refuse?

Kureha Yamaguchi, Benjamin Etheridge, Andy Arditi

发表机构 * The Alan Turing Institute（艾伦·图灵研究所）； University of Oxford（牛津大学）； Northeastern University（东北大学）

AI总结本文研究了推理模型在生成过程中何时决定拒绝有害请求的问题。通过分析四个开源推理模型，发现推理过程中的因果链对拒绝决策有显著影响，特定的推理轨迹可大幅减少模型最终拒绝或服从的不确定性。研究还发现，在蒸馏模型中，推理链开头的细微差异可能完全决定拒绝决策，并且这种模式在来自同一教师模型的蒸馏模型中具有可迁移性。此外，研究从模型激活中提取了拒绝方向，并验证了其对有害服从行为的影响。

Comments v1 accepted to the ICML 2025 Workshop on Reliable and Responsible Foundation Models (R2FM). 20 pages, 12 figures

2507.01908 2026-05-14 cs.CV

Reasoning to Edit: Hypothetical Instruction-Based Image Editing with Visual Reasoning

Qingdong He, Xueqin Chen, Chaoyi Wang, Yanjie Pan, Xiaobin Hu, Zhenye Gan, Yabiao Wang, Chengjie Wang, Xiangtai Li, Jiangning Zhang

发表机构 * Tencent Youtu Lab（腾讯云图实验室）； Sichuan University（四川大学）； University of the Chinese Academy of Sciences（中国科学院大学）； Fudan University（复旦大学）； Zhejiang University（浙江大学）； National University of Singapore（新加坡国立大学）； Nanyang Technological University（南洋理工大学）

AI总结该论文提出了一种基于视觉推理的假设指令图像编辑方法，旨在解决现有图像编辑技术在处理复杂隐含指令时的不足。研究引入了Reason50K数据集和ReasonBrain框架，前者包含5万余个样本，涵盖物理、时间、因果和故事推理等四类场景，后者结合多模态大语言模型和扩散模型，通过细粒度推理线索提取模块和跨模态增强模块，实现对隐含指令的精准理解和编辑。实验表明，该方法在推理场景中表现优异，并具备良好的零样本泛化能力。

Comments Accepted by ICML2026

2507.00990 2026-05-14 cs.RO cs.AI cs.CV

Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations

Shivansh Patel, Shraddhaa Mohan, Hanlin Mai, Unnat Jain, Svetlana Lazebnik, Yunzhu Li

发表机构 * UIUC（伊利诺伊大学香槟分校）； UC Irvine（加州大学尔湾分校）； Columbia University（哥伦比亚大学）

AI总结本文提出了一种名为 RIGVid 的系统，使机器人能够通过模仿人工智能生成的视频完成复杂的操作任务，如倒水、擦拭和混合，而无需任何物理演示或机器人特定的训练。系统通过语言指令和初始场景图像生成潜在演示视频，并利用视觉语言模型筛选符合指令的视频，再通过6D姿态追踪提取物体轨迹并映射到机器人上。实验表明，生成的视频在实际任务中表现优异，且生成质量越高效果越佳，优于基于关键点预测等更简洁的方法。

Comments In ICLR 2026. Website: https://rigvid-robot.github.io/

2507.00029 2026-05-14 cs.LG cs.AI

LoRA-Mixer: Coordinate Modular LoRA Experts Through Serial Attention Routing

Wenbing Li, Zikai Song, Hang Zhou, Yunyao Zhang, Junqing Yu, Wei Yang

发表机构 * Huazhong University of Science and Technology（华中科技大学）

AI总结该论文提出了一种名为 LoRA-Mixer 的模块化混合专家框架，旨在提高大语言模型在多任务适应中的参数效率和任务专业化能力。与现有方法不同，LoRA-Mixer 将任务特定的 LoRA 专家嵌入到注意力模块的核心投影矩阵中，而非主要针对 FFN 模块，从而实现更细粒度的 token 级别专业化。通过引入自适应路由专业化损失（RSL），该方法在有限数据下训练出鲁棒的路由策略，提升了专家选择的稳定性和重用率，并在多个基准测试中以更少的可训练参数取得了优于现有方法的性能提升。

2506.15953 2026-05-14 cs.RO

ViTacFormer: Learning Cross-Modal Representation for Visuo-Tactile Dexterous Manipulation

Liang Heng, Haoran Geng, Kaifeng Zhang, Pieter Abbeel, Jitendra Malik

发表机构 * University of California, Berkeley（加州大学伯克利分校）； Peking University（北京大学）； Sharpa

AI总结 ViTacFormer 是一种用于视觉-触觉灵巧操作的跨模态表征学习方法，旨在提升机器人在复杂环境中进行精细操作的能力。该方法结合了交叉注意力编码器和自回归触觉预测头，实现了高分辨率视觉与触觉信息的融合，并通过渐进式课程学习优化跨模态表征。实验表明，ViTacFormer 在多个现实基准测试中表现出更高的成功率，并首次实现了使用类人手完成多阶段、长时间的高精度灵巧操作任务。

2506.13456 2026-05-14 cs.AI cs.RO

Block-wise Adaptive Caching for Accelerating Diffusion Policy

Kangye Ji, Yuan Meng, Hanyun Cui, Ye Li, Jianbo Zhou, Shengjia Hua, Lei Chen, Zhi Wang

发表机构 * Tsinghua Shenzhen International Graduate School, Tsinghua University（清华大学深圳国际研究生院，清华大学）； Department of Computer Science and Technology, Tsinghua University（清华大学计算机科学与技术系）

AI总结扩散策略（Diffusion Policy）在视觉运动控制建模方面表现出色，但由于计算成本高，难以用于实时机器人控制。本文提出了一种块级自适应缓存（BAC）方法，通过缓存中间动作特征并自适应更新和复用，实现无损的动作生成加速。BAC引入了自适应缓存调度器和冒泡联合算法，有效缓解了块间缓存误差传播问题，能够在不改变模型结构的前提下，为多种基于Transformer的扩散策略和视觉-语言-动作模型带来最高达3倍的推理加速。

AI 大模型

视觉与机器人

科学与医疗