arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2511.22565 2026-05-12 cs.AI cs.DB cs.LG

Counting Still Counts: Understanding Neural Complex Query Answering Through Query Relaxation

Yannick Brunink, Daniel Daza, Yunjie He, Michael Cochez

发表机构 * Translational AI Laboratory, Department of Laboratory Medicine Amsterdam University Medical Center, Vrije Universiteit Amsterdam（阿姆斯特丹大学医学中心转化人工智能实验室，实验室医学系，自由大学阿姆斯特丹）； Vrije Universiteit Amsterdam（自由大学阿姆斯特丹）； University of Stuttgart（斯图加特大学）； ELLIS Institute Finland & Abo Akademi University, Turku, Finland（芬兰埃利斯研究所及图尔库芬兰阿博阿卡迪米大学）； Elsevier discovery lab, Amsterdam（埃斯勒尔发现实验室，阿姆斯特丹）

AI总结本文研究了神经网络在知识图谱上处理复杂查询（CQA）的能力，通过对比神经方法与一种无需训练的查询松弛策略，揭示了神经模型在推理模式上可能存在的局限性。研究发现，神经模型在多个数据集和查询结构上的表现并不一致优于查询松弛方法，且两者检索出的答案重叠较少，结合两者结果能提升性能。这一结果表明，当前神经CQA模型尚未完全涵盖查询松弛所捕捉的推理模式，强调了引入非神经基线和融合松弛原理对未来发展的重要性。

Comments Accepted in Transactions on Machine Learning Research (2026)

2511.07756 2026-05-12 cs.CV

Determinism of Randomness: Prompt-Residual Seed Shaping for Diffusion Generation

Song Yan, Wei Zhai, Chenfeng Wang, Xinliang Bi, Jian Yang, Yancheng Cai, Yusen Zhang, Yunwei Lan, Tao Zhang, GuanYe Xiong, Min Li, Zheng-Jun Zha

发表机构 * USTC（中国科学技术大学）； Li Auto Inc.（利亚自动化公司）； Xi’an High-tech Research Institute（西安高新技术研究院）； Wechat Vision（微信视觉）； Cambridge University（剑桥大学）； HUST（华中科技大学）

AI总结扩散模型从各向同性高斯潜在空间开始生成，但仅改变随机种子会导致生成结果在语义忠实度、构图和视觉质量上出现显著差异。本文通过分析从初始噪声到生成内容的语义映射，揭示了种子敏感性的几何原因：潜在空间中大多数方向对语义变化不敏感，而语义敏感的变化集中在较小的子空间内。基于这一发现，作者提出了一种无需训练的提示残差种子塑造方法，通过注入与语义变化相关的切向分量，将种子拉回到原始高斯分布的壳层，从而在保持先验兼容性的同时提升生成结果的对齐度和质量。

2511.02623 2026-05-12 cs.CL

The Realignment Problem: When Right becomes Wrong in LLMs

Aakash Sen Sharma, Debdeep Sanyal, Manodeep Ray, Vivek Srivastava, Shirish Karande, Murari Mandal

发表机构 * Birla AI Labs（比拉人工智能实验室）； TCS Research（塔塔咨询服务研究）； Kalinga Institute of Industrial Technology, Bhubaneswar（比拉工业技术学院，巴布尔萨瓦尔）

AI总结随着政策和价值观的变化，大型语言模型（LLMs）的对齐目标可能逐渐偏离现实需求，形成对齐-现实鸿沟。本文提出TRACE框架，通过分析现有数据中的对齐冲突，无需重新标注即可实现模型的再对齐。该方法利用一个更强的模型作为判断者，通过三阶段流程优化模型对齐效果，并在多个主流模型上验证了其有效性与通用性。

Comments ICML 2026

2511.01774 2026-05-12 cs.RO cs.SY eess.SY

MOBIUS: A Multi-Modal Bipedal Robot that can Walk, Crawl, Climb, and Roll

Alexander Schperberg, Yusuke Tanaka, Stefano Di Cairano, Dennis Hong

发表机构 * Mitsubishi Electric Research Laboratories（三菱电机研究实验室）； Robotic Systems Lab（机器人系统实验室）； Robotics and Mechanisms Laboratory（机器人与机构实验室）； Department of Mechanical and Aerospace Engineering, University of California, Los Angeles（加州大学洛杉矶分校机械与航空航天工程系）

AI总结本文介绍了MOBIUS平台，这是一种能够行走、爬行、攀爬和滚动的双足机器人。该机器人配备四条肢体，包括两只6自由度的机械臂和两只4自由度的腿，结合强化学习与力控制的混合架构，实现了多种运动模式的无缝切换和稳定操作。研究通过硬件实验验证了其在复杂地形中的适应性与操作能力，展示了形态设计、高层规划与控制紧密结合在移动操作与抓取任务中的重要性。

Comments Paper is accepted at the Robotics: Science and Systems conference, held in Sydney, Australia, July 13th-17th, 2026. Alexander Schperberg and Yusuke Tanaka are co-first authors. Both were at the Robotics and Mechanisms Laboratory (RoMeLa) at UCLA when the work started, and are now with Mitsubishi Electric Research Laboratories and ETH Zurich (RSL) respectively

2510.27527 2026-05-12 cs.LG cs.AI

TetraJet-v2: Accurate NVFP4 Training for Large Language Models with Oscillation Suppression and Outlier Control

Yuxiang Chen, Yifan Liu, Xiaoming Xu, Pengle Zhang, Michael Beyer, Martin Rapp, Jun Zhu, Jianfei Chen

发表机构 * Dept. of Comp. Sci. and Tech., Institute for AI, BNRist Center, THBI Lab, Tsinghua-Bosch Joint ML Center, Tsinghua University（计算机科学与技术系，人工智能研究所，BNRist中心，THBI实验室，清华-博世联合机器学习中心，清华大学）； Zhili College, Tsinghua University（紫荆学院，清华大学）； Bosch AI Research, Renningen, Germany（博世人工智能研究，德国Renningen）

AI总结大型语言模型（LLM）的训练成本极高，因此低精度全量化训练（FQT）受到广泛关注。本文提出 TetraJet-v2，一种基于 NVFP4 格式的端到端 4 位 FQT 方法，用于激活、权重和梯度的量化。针对低精度训练中的权重震荡和异常值问题，该方法引入了无偏双块量化、OsciReset 算法和 OutControl 算法，有效提升了训练稳定性和精度。实验表明，TetraJet-v2 在多个大规模模型上实现了接近 BF16 的性能，同时相比 FP8 方法提升了 1.67 倍的训练速度。

Journal ref Proceedings of the 43rd International Conference on Machine Learning, Seoul, South Korea. PMLR 306, 2026 (ICML 2026)

2510.25372 2026-05-12 cs.CV cs.LG

Prompt Estimation from Prototypes for Federated Prompt Tuning of Vision Transformers

M Yashwanth, Sharannya Ghosh, Aditay Tripathi, Anirban Chakraborty

发表机构 * Department of Computational and Data Sciences, Indian Institute of Science（计算与数据科学系，印度科学研究院）； Accenture, Japan（日本Accenture公司）； Google, India（印度Google公司）； Indian Institute of Science（印度科学研究院）

AI总结本文研究了如何在联邦学习环境下高效且通用地对视觉Transformer进行提示调优。为了解决全局提示调优泛化性差和个性化调优过拟合的问题，作者提出了PEP-FedPT框架，引入了一种基于类上下文混合提示（CCMP）的新方法，通过全局类原型和客户端类先验动态组合类特定提示，实现样本级提示个性化，而无需存储客户端参数。实验表明，该方法在多个数据集上优于现有方法，为联邦视觉Transformer调优提供了有效解决方案。

Comments Accepted to TMLR 2026

2510.18184 2026-05-12 cs.LG cs.AI

ActivationReasoning: Logical Reasoning in Latent Activation Spaces

Lukas Helff, Ruben Härle, Wolfgang Stammer, Felix Friedrich, Manuel Brack, Antonia Wüst, Hikaru Shindo, Patrick Schramowski, Kristian Kersting

发表机构 * TU Darmstadt（图恩-达姆施塔特大学）； Lab1141（Lab1141实验室）； Aleph Alpha Research（Aleph Alpha研究）； MPI-Inf, SIC（马克斯·普朗克研究所（MPI-Inf））； Meta FAIR ； Adobe Applied Research（Adobe应用研究）； DFKI（DFKI研究所）； CERTAIN, Germany（德国CERTAIN）

AI总结大型语言模型（LLMs）在生成流畅文本方面表现出色，但其内部推理过程仍不透明且难以控制。为此，研究提出了一种名为ActivationReasoning（AR）的框架，通过在LLMs的潜在激活空间中嵌入显式的逻辑推理，使模型具备系统推理和行为引导的能力。该方法分三个阶段：首先通过稀疏自编码器（SAEs）识别并组织潜在概念表示，其次在推理时将激活的概念映射为逻辑命题，最后通过逻辑规则对这些命题进行推理，生成更高层次的结构、新概念并引导模型行为。实验表明，AR在多项推理任务中表现出良好的鲁棒性和泛化能力，为实现更透明、可控和可审计的AI提供了新路径。

Comments Proceedings of the 14th International Conference on Learning Representations (ICLR 2026)

2510.13397 2026-05-12 cs.LG stat.ML

Assessing the robustness of heterogeneous treatment effects in survival analysis under informative censoring

Yuxin Wang, Dennis Frauen, Jonas Schweisthal, Maresa Schröder, Stefan Feuerriegel

发表机构 * LMU Munich Munich Center of Machine Learning (MCML)（慕尼黑大学慕尼黑机器学习中心）

AI总结在临床研究中，由于患者提前退出（dropout）现象普遍，且退出可能与生存时间相关（即信息性删失），导致治疗效果估计存在偏差。本文提出了一种假设较少的框架，用于在信息性删失下评估条件平均处理效应（CATE）估计的稳健性，通过部分识别方法推导出CATE的置信区间，从而识别出在存在信息性删失情况下治疗仍有效的患者子群。此外，作者还提出了一种新型的模型无关元学习方法SurvB-learner，能够与任意机器学习模型结合使用，具有双重稳健性和近似最优效率等良好理论性质，并通过仿真和真实数据实验验证了其有效性。

2510.11233 2026-05-12 cs.CL

CNSocialDepress: A Chinese Social Media Dataset for Depression Risk Detection and Structured Analysis

Jinyuan Xu, Tian Lan, Xintao Yu, Xue He, Hezhi Zhang, Ying Wang, Pierre Magistry, Mathieu Valette, Lei Li

发表机构 * Ertim Inalco ； Milkuya Studio ； Sorbonne Université（索邦大学）； IRD Lab（IRD实验室）； Faculty of Psychology, Peking University（北京大学心理学系）； Faculty of Psychology and Cognitive Science, Beijing Normal University（北京师范大学心理学与认知科学系）； Beijing Institute of Technology（北京理工大学）

AI总结 CNSocialDepress 是一个用于检测和结构化分析中文社交媒体中抑郁风险的基准数据集。该数据集包含233名用户的44,178条帖子，并由心理专家标注了10,306段与抑郁相关的内容，提供了二分类风险标签及多维心理属性信息，支持细粒度和可解释的抑郁信号分析。实验表明，该数据集在结构化心理画像和大语言模型微调等任务中具有良好的应用效果，为中文语境下的心理健康研究提供了重要资源。

2510.10730 2026-05-12 cs.LG cs.AI stat.ML

Provable Anytime Ensemble Sampling Algorithms in Nonlinear Contextual Bandits

Jiazheng Sun, Weixin Wang, Pan Xu

发表机构 * Duke University（杜克大学）

AI总结本文提出了一种统一的算法框架，用于非线性上下文老虎机中的集成采样，并针对广义线性老虎机和神经网络上下文老虎机两种常见场景，分别给出了广义线性集成采样（GLM-ES）和神经网络集成采样（Neural-ES）方法，并证明了它们的高概率频繁主义遗憾界。研究通过在随机扰动数据上使用最大似然估计维护多个奖励模型参数估计器，解决了非线性模型中的理论挑战，并提供了无需固定时间步长的任意时间版本算法，具有较强的实用性和理论保证。实验结果表明，所提方法在实际中表现优异。

Comments 58 pages, 5 figures, 1 table

2510.10606 2026-05-12 cs.CV

ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models

Yuqi Liu, Liangyu Chen, Jiazhen Liu, Mingkang Zhu, Zhisheng Zhong, Bei Yu, Jiaya Jia

发表机构 * The Chinese University of Hong Kong（香港中文大学）； Renmin University of China（中国人民大学）； The Hong Kong University of Science（香港科学大学）

AI总结 ViSurf 是一种统一的单阶段微调方法，旨在解决大型视觉-语言模型在知识注入与性能提升之间的矛盾。该方法结合了监督微调（SFT）和基于可验证奖励的强化学习（RLVR）的优势，通过将真实标签直接注入RLVR过程，实现外部监督与内部强化的同步优化。ViSurf 还引入了三种新的奖励控制策略以保障训练稳定性，实验表明其在多个基准测试中均优于单独使用SFT、RLVR或传统两阶段方法。

2510.07500 2026-05-12 cs.LG cs.IT math.IT

Black-Box Detection of LLM-Generated Text Using Generalized Jensen-Shannon Divergence

Shuangyi Chen, Ashish Khisti

发表机构 * Department of Electrical and Computer Engineering, University of Toronto, Toronto, Canada（电子与计算机工程系，多伦多大学，多伦多，加拿大）

AI总结本文研究在实际约束下的黑盒检测问题，即在未知源模型与评分模型不匹配、且生成对比样本成本较高的情况下，如何检测机器生成的文本。提出了一种基于参考的检测方法 SurpMark，通过总结文本中 token 惊奇值的动态变化，利用离散化后的状态转移矩阵，并结合广义杰森-香农散度（GJS）与预设的人类和机器参考模型进行对比评分。实验表明，SurpMark 在多个数据集和生成模型上表现优异，具有良好的跨领域和跨生成器鲁棒性。

Comments ICML 2026

2510.04142 2026-05-12 cs.CV cs.AI cs.LG

Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Multi-Stream Environments

Xiaoyu Yang, En Yu, Wei Duan, Jie Lu

发表机构 * Australian Artificial Intelligence Institute (AAII)（澳大利亚人工智能研究所）； Faulty of Engineering and Information Technology（工程与信息技术学院）； University of Technology Sydney（悉尼技术大学）； Australia（澳大利亚）

AI总结本文研究了在非平稳多流环境中，如何从多个多模态大语言模型中实现鲁棒的推理对齐问题。针对源模型推理分布随时间演变带来的系统性偏差，作者提出了一种新的约束满足框架——自主偏好优化（APO），将模型间差异视为动态负约束，并通过两阶段策略实现对齐：先通过监督引导使目标模型具备源模型的联合能力，再通过约束感知优化生成一致的共识流形。实验表明，该方法在胸部X光解读任务中表现出优越的鲁棒性，并发布了包含七个多模态大模型推理轨迹的CXR-MAX基准数据集。

Comments ICML 2026

2510.03895 2026-05-12 cs.RO cs.CV

NoTVLA: Semantics-Preserving Robot Adaptation via Narrative Action Interfaces

Zheng Huang, Mingyu Liu, Xiaoyi Lin, Muzhi Zhu, Canyu Zhao, Zongze Du, Ye Lin, Xiaoman Li, Yiduo Jia, Hao Zhong, Hao Chen, Chunhua Shen

发表机构 * Zhejiang University（浙江大学）

AI总结该研究提出了一种名为NoTVLA的语义保持型机器人自适应框架，旨在解决视觉-语言-动作（VLA）模型在实际部署中面临的灾难性遗忘问题。其核心方法是通过关注稀疏轨迹而非密集动作序列，结合时间压缩和空间推理剪枝策略，优化轨迹规划并降低计算需求。NoTVLA在多任务评估中表现出优于现有模型的性能，同时显著减少计算资源消耗，并无需依赖腕部摄像头，实现了跨平台部署与零样本泛化能力。

2510.00883 2026-05-12 cs.LG cs.AI

GLAI: GreenLightningAI for Accelerated Training through Knowledge Decoupling

Jose I. Mestre, Alberto Fernández-Hernández, Cristian Pérez-Corral, Manuel F. Dolz, Jose Duato, Enrique S. Quintana-Ortí

发表机构 * organization= Openchip \& Software Technologies , city= Barcelona , country= Spain

AI总结本文提出了一种名为GreenLightningAI（GLAI）的新架构模块，旨在替代传统多层感知机（MLP），通过解耦训练过程中通常纠缠的结构知识和量化知识，实现更高效的训练。GLAI在结构稳定后固定其激活路径，仅优化数值参数，从而在保持MLP通用逼近能力的同时，显著提升了训练效率，平均减少约40%的训练时间。该模块具有通用性，可广泛应用于各类神经网络结构中，并在多种实验设置下表现出与MLP相当或更优的性能。

Comments 20 pages, 2 figures

2509.25080 2026-05-12 cs.LG

Towards a Certificate of Trust: Task-Aware OOD Detection for Scientific AI

Bogdan Raonić, Siddhartha Mishra, Samuel Lanthaler

发表机构 * Seminar for Applied Mathematics, ETH Zurich（应用数学研究所，苏黎世联邦理工学院）； ETH AI Center（苏黎世人工智能中心）

AI总结在科学人工智能领域，数据驱动模型在天气预测和流体力学等关键任务中广泛应用，但其在面对分布外（OOD）数据时可能失效，如何检测此类失效仍是回归任务中的挑战。本文提出一种基于分数扩散模型的联合似然估计方法，结合输入数据与回归模型预测结果，生成任务感知的可靠性评分。实验表明，该方法在多个科学数据集上能有效反映预测误差，为构建可验证的“信任证书”提供了基础，有助于评估科学人工智能预测的可信度。

2509.24244 2026-05-12 cs.AI

Model Merging Scaling Laws in Large Language Models

Yuanyi Wang, Yanggan Gu, Yiming Zhang, Qi Zhou, Zhaoyi Yan, Congkai Xie, Xinyao Wang, Jianbo Yuan, Hongxia Yang

发表机构 * The Hong Kong Polytechnic University (PolyU)（香港理工大学）； Amazon（亚马逊）； Innovation Research Institute（创新研究院）

AI总结本文研究了大语言模型中模型合并的规模定律，通过交叉熵进行衡量。作者发现了一个简洁的幂律关系，揭示了模型规模与专家数量之间的联系，并指出随着模型容量增大，合并效果的下限降低，而专家数量带来的收益则呈现边际递减趋势。该定律适用于不同领域和多种合并方法，能够解释合并过程中收益快速衰减和波动减小的现象，并为模型合并提供了预测性规划的理论依据，为分布式生成式AI系统的发展提供了可预测的扩展原则。

Comments ICML 2026

2509.21892 2026-05-12 cs.CL cs.AI cs.LG

Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts

Naibin Gu, Zhenyu Zhang, Yuchen Feng, Yilong Chen, Peng Fu, Zheng Lin, Shuohuan Wang, Yu Sun, Hua Wu, Weiping Wang, Haifeng Wang

发表机构 * Institute of Information Engineering, Chinese Academy of Sciences（中国科学院信息工程研究所）； School of Cyber Security, University of Chinese Academy of Sciences（中国科学院大学网络安全学院）； Baidu Inc.（百度公司）

AI总结本文研究了混合专家（MoE）模型在推理时动态调整激活专家数量以适应不同硬件和负载需求的问题。传统MoE模型在训练和推理时固定激活专家数，难以应对实际场景中的变化。作者提出了一种新的训练框架Elastic MoE（EMoE），通过同时训练专家在不同组合下的协作能力，并引导路由器做出高质量选择，从而在推理时弹性调整激活专家数量，显著提升了模型在不同预算下的性能表现。实验表明，EMoE在多个大规模MoE架构和基准测试中均取得了更广的扩展范围和更高的峰值性能。

2509.21000 2026-05-12 cs.LG math.OC

Feature Augmentation of GNNs for ILPs: Local Uniqueness Suffices

Qingyu Han, Qian Li, Linxin Yang, Qian Chen, Qingjiang Shi, Ruoyu Sun

发表机构 * School of Science and Engineering, The Chinese University of Hong Kong, Shenzhen, China（深圳大学理工学院，香港中文大学（深圳））； Shenzhen International Center for Industrial and Applied Mathematics, Shenzhen Research Institute of Big Data, China（深圳国际工业与应用数学中心，深圳大数据研究院）； School of Data Science, The Chinese University of Hong Kong, Shenzhen, China（数据科学学院，香港中文大学（深圳））； School of Software Engineering, Tongji University, Shanghai, China（软件工程学院，同济大学）

AI总结本文研究了如何提升图神经网络（GNN）在求解整数线性规划（ILP）问题中的表现。传统GNN因缺乏节点唯一标识而表达能力受限，而引入全局唯一标识（UID）又会导致泛化性能下降。为此，作者提出了一种局部唯一标识（Local-UID）方案，仅在每个节点的d-hop邻域内保证唯一性，并基于此设计了ColorGNN和ColorUID模型。实验表明，该方法在保持表达能力的同时显著提升了模型在ILP任务上的泛化性能。

Comments 19 pages, 9 Tables

2509.20863 2026-05-12 cs.CL

GIFT: Guided Importance-Aware Fine-Tuning for Diffusion Language Models

Guowei Xu, Wenxin Xu, Jiawang Zhao, Kaisheng Ma

发表机构 * Institute for Interdisciplinary Information Sciences（交叉信息科学研究院）

AI总结本文提出了一种针对扩散语言模型的指导性重要性感知微调方法GIFT，旨在解决其在监督微调过程中因缺乏精确概率估计而导致的生成不稳定问题。该方法通过基于词元熵值分配不同重要性权重，引导模型更关注关键生成步骤，从而提升生成一致性和准确性。实验表明，GIFT在多个主流数据集和不同微调设置下均优于传统微调方法，在四个广泛使用的推理基准测试中表现出显著性能提升。

Comments preprint

2509.20294 2026-05-12 cs.LG math.ST stat.TH

Alignment-Sensitive Minimax Rates for Spectral Algorithms with Learned Kernels

Dongming Huang, Zhifan Li, Yicheng Li, Qian Lin

发表机构 * Department of Statistics and Data Science, National University of Singapore, Singapore（新加坡国立大学统计与数据科学系）； School of Statistics and Mathematics, Zhongnan University of Economics and Law, Wuhan, China（中南财经政法大学统计与数学学院）； Department of Statistics and Data Science, Tsinghua University, Beijing, China（清华大学统计与数据科学系）

AI总结本文研究了在核函数从数据中学习的背景下谱算法的泛化性能，引入了一个新的复杂度度量——有效跨度维度（ESD），该度量考虑了信号、谱和噪声水平的联合影响，适用于任意核和信号，无需依赖特征值衰减条件。研究证明，当序列模型的ESD不超过$K$时，最小最大超额风险与$σ^2 K$成比例，并分析了过参数化梯度流如何降低ESD，从而提升谱算法的泛化能力。该框架拓展到了线性模型和再生核希尔伯特空间回归，并通过数值实验验证了理论结果，为理解自适应特征学习与泛化性能的关系提供了新视角。

2509.17815 2026-05-12 cs.LG math.OC

Global Optimization via Softmin Energy Minimization

Andrea Agazzi, Vittorio Carlei, Marco Romito, Samuele Saviozzi

发表机构 * Department of Mathematics（数学系）； University of Pisa（比萨大学）； Institute of Mathematical Statistics and Actuarial Science（数学统计与精算科学研究所）； University of Bern（伯尔尼大学）； Department of Buisness Economics（商业经济学系）； University Gabreiele D’annunzio（加布里埃尔·达·安奇奥尼奥大学）

AI总结本文研究了非凸函数的全局优化问题，针对传统梯度方法易陷入局部极小和元启发式方法缺乏理论保证的不足，提出了一种基于软最小能量函数的梯度粒子群优化方法。该方法通过引入平滑的软最小能量函数和布朗运动项，结合时间依赖参数控制平滑度，实现了粒子群在探索与收敛之间的有效平衡。理论分析表明，该方法在强凸函数下能保证至少一个粒子收敛到全局最优，且在逃离局部极小方面优于模拟退火方法，数值实验进一步验证了其有效性。

2509.12982 2026-05-12 cs.RO cs.AI cs.SE

Out of Distribution Detection in Self-adaptive Robots with AI-powered Digital Twins

Erblin Isaku, Hassan Sartaj, Shaukat Ali, Beatriz Sanguino, Tongtong Wang, Guoyuan Li, Houxiang Zhang, Thomas Peyrucain

发表机构 * Simula Research Laboratory（Simula研究实验室）； University of Oslo（奥斯陆大学）； Norwegian University of Science and Technology（挪威科学技术大学）； PAL Robotics（PAL机器人）

AI总结本文研究了自适应机器人在复杂不确定环境中检测分布外（OOD）行为的问题，提出了一种基于数字孪生的解决方案ODiSAR。该方法利用基于Transformer的数字孪生模型预测机器人状态，并通过重构误差和蒙特卡洛dropout进行不确定性量化，从而有效检测未知条件下的OOD行为。实验表明，ODiSAR在工业机器人场景中实现了高达98%的AUROC和96%的TNR@TPR95等优异检测性能，同时提供了可解释的洞察以支持机器人的自适应能力。

Comments 15 pages, 4 figures, 3 tables

Journal ref 2025 40th IEEE/ACM International Conference on Automated Software Engineering (ASE)

2509.10737 2026-05-12 cs.CL cs.LG

PolyTruth: Multilingual Disinformation Detection using Transformer-Based Language Models

Zaur Gouliev, Jennifer Waters, Chengqian Wang

发表机构 * School of Information & Communication Studies（信息与通信研究学院）； University College Dublin（都柏林大学学院）

AI总结本文提出 PolyTruth，一种基于 Transformer 的多语言虚假信息检测方法，旨在解决当前 AI 模型主要依赖英语数据而忽视多语言环境的问题。研究系统比较了五种多语言 Transformer 模型在统一的真假分类任务上的表现，并构建了一个包含 60,486 对多语言声明的 PolyTruth 数据集，涵盖五大语言系和多个主题领域。实验发现，如 RemBERT 等模型在低资源语言中表现更优，而 mBERT 和 XLM 在数据稀缺时存在明显局限，研究结果为多语言虚假信息检测的模型选择和实际应用提供了重要参考。

Comments 11 pages, 5 figures, 4 tables. Submitted to arXiv in Computation and Language

Journal ref Machine Learning and Principles and Practice of Knowledge Discovery in Databases, ECML PKDD 2025, Communications in Computer and Information Science, vol. 2843, pp. 353-367, Springer, Cham (2026)

2509.08031 2026-05-12 cs.SD cs.AI cs.LG eess.AS

AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs

Hoang Nguyen, Sidharth Surapaneni, Akshay Kalkunte, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Khyati Mahajan, Jash Shah, Shruthan Radhakrishna, Sathwik Tejaswi Madhusudhan, Vikas Yadav, Sai Rajeswar

发表机构 * ServiceNow ； University of Texas at Austin（德克萨斯大学奥斯汀分校）

AI总结随着大音频语言模型（LALMs）的快速发展，其评估工具仍面临效率低、标准化不足等问题，限制了模型的公平比较和系统评估。为此，本文提出AU-Harness，一个高效且全面的评估框架，通过优化的批量处理和并行执行，实现比现有工具快151%的评估速度，并提供标准化的提示协议和灵活配置，支持多轮对话分析，揭示LALMs的真实音频推理能力，推动模型的系统性发展。

2508.20325 2026-05-12 cs.CL cs.AI cs.CV

GUARD: Guideline Upholding Test through Adaptive Role-play and Jailbreak Diagnostics for LLMs

Haibo Jin, Ruoxi Chen, Peiyan Zhang, Andy Zhou, Zelei Cheng, Haohan Wang

发表机构 * Hong Kong University of Science and Technology（香港理工大学）； Lapis Labs（Lapis实验室）； Capital One

AI总结随着大型语言模型（LLMs）在各领域应用日益广泛，其生成有害内容的潜在风险引发了社会和监管方面的关注。为验证LLMs是否符合政府发布的伦理指南，本文提出GUARD方法，通过自动生成违反指南的问题并结合“越狱”检测技术，评估模型对指南的遵循程度。该方法不仅能够识别直接违反指南的响应，还能发现可能绕过安全机制的潜在违规场景，并已在多个主流LLMs上进行了实证验证，展示了其在提升模型可靠性方面的有效性。

Comments 56 pages

2508.14137 2026-05-12 cs.LG

Learning to Learn the Macroscopic Fundamental Diagram using Physics-Informed and meta Machine Learning techniques

Amalie Roark, Serio Agriesti, Francisco Camara Pereira, Guido Cantelmo

发表机构 * Technical University of Denmark（丹麦技术大学）

AI总结该研究旨在解决宏观基本图（MFD）估计中因检测器数量不足导致的数据稀缺问题，提出了一种结合元学习与物理信息神经网络的框架。通过从数据丰富的城市中学习可迁移的模式，并将其应用于数据有限的城市，该方法显著提升了MFD预测的准确性，平均将流量预测的平均绝对误差降低了约50%。实验表明，该元学习框架在不同城市和拓扑结构中具有良好的泛化能力，为在实际交通管理中应用提供了有效解决方案。

Comments Version accepted for publication in Transportation Research Part C (before proof-reading)

Journal ref Learning to learn the macroscopic fundamental diagram using physics-informed and model agnostic machine learning. Transportation Research Part C: Emerging Technologies, 2026, 189, 105707

详情

DOI: 10.1016/j.trc.2026.105707

英文摘要

The Macroscopic Fundamental Diagram is a popular tool used to describe traffic dynamics in an aggregated way, with applications ranging from traffic control to incident analysis. However, estimating the MFD for a given network requires large numbers of loop detectors, which is not always available in practise. This article proposes a framework to alleviate the data scarcity challenge harnessing Meta-Learning, a subcategory of Machine Learning that trains models to understand and adapt to new tasks on their own. We use Meta-Learning to identify and exploit transferable patterns from data-rich cities to cities where not enough data is available to estimate the MFD. The developed model is trained and tested by leveraging data from multiple cities and exploiting it to model the MFD of other cities with different shares of detectors and topological structures. The proposed Meta-Learning framework is applied to an ad-hoc Multi-Task Physics-Informed Neural Network, specifically designed to estimate the MFD. Results show an average MAE improvement in flow prediction of around 50% across cities (depending on the subset of loop detectors tested). The Meta-Learning framework thus successfully generalises across diverse urban settings and improves performance on cities with limited data, demonstrating the potential of using Meta-Learning when a limited number of detectors is available. We directly test this assumption by applying the Meta-Learning outputs to unseen cities to simulate a real-life application scenario and the wide applicability of the proposed methodology. Finally, the proposed framework is validated against traditional Transfer Learning approaches and tested with FitFun, a model for FD estimation from the literature, to prove its transferability.

URL PDF HTML ☆

赞 0 踩 0

2508.13813 2026-05-12 cs.LG cs.AI

Assessing Trustworthiness of AI Training Dataset using Subjective Logic -- A Use Case on Bias

Koffi Ismael Ouattara, Ioannis Krontiris, Theo Dimitrakos, Frank Kargl

发表机构 * Huawei Technologies（华为技术有限公司）； Ulm Universität（乌尔姆大学）

AI总结随着AI系统对训练数据的依赖日益增加，评估数据集的可信度变得尤为重要，尤其是在数据集层面出现的公平性或偏见等属性。本文首次提出了一种基于主观逻辑的正式框架，用于评估AI训练数据集的可信度，能够在证据不完整、分布或冲突的情况下对全局属性（如偏见）进行不确定性感知的评估。该方法在交通标志识别数据集上的实验表明，其能够有效捕捉类别不平衡现象，并在集中式和联邦学习场景中保持良好的可解释性和鲁棒性。

Comments Accepted at ECML PKDD Bias Workshop '25

2508.06248 2026-05-12 cs.CV

Deepfake Detection that Generalizes Across Benchmarks

Andrii Yermakov, Jan Cech, Jiri Matas, Mario Fritz

发表机构 * Czech Technical University in Prague（捷克技术大学布拉格分校）； CISPA Helmholtz Center for Information Security（CISPA海德堡信息安全中心）

AI总结本文研究了如何使深度伪造检测方法在面对未知的伪造技术时仍具有良好的泛化能力。提出了一种名为GenD的方法，仅通过微调预训练视觉编码器中的层归一化参数（占总参数的0.03%），结合L2归一化和度量学习，实现了高效的泛化性能。实验表明，该方法在14个不同年份的基准数据集上取得了最先进的结果，证明了在保持模型简洁性的同时，也能实现强大的跨数据集检测能力。

2508.05463 2026-05-12 cs.LG cs.AI physics.soc-ph

Task complexity shapes internal representations and robustness in neural networks

Robert Jankowski, Filippo Radicchi, M. Ángeles Serrano, Marián Boguñá, Santo Fortunato

发表机构 * Universitat de Barcelona（巴塞罗那大学）； Universitat de Barcelona Institute of Complex Systems（巴塞罗那大学复杂系统研究所）； Center for Complex Networks and Systems Research（复杂网络与系统研究所以）； ICREA

AI总结本研究探讨了神经网络内部表示和鲁棒性如何受任务复杂度的影响。通过引入一系列数据无关的分析方法，如剪枝、二值化、噪声注入等，研究发现任务难度显著影响多层感知机（MLP）的结构和性能表现。研究还揭示了任务复杂度可由全精度模型与二值化或随机化模型之间的性能差距来衡量，并指出保留符号结构而非精确权重大小即可维持较高准确率，为模型压缩和可解释性提供了新思路。

AI 大模型

视觉与机器人

科学与医疗

Counting Still Counts: Understanding Neural Complex Query Answering Through Query Relaxation

Determinism of Randomness: Prompt-Residual Seed Shaping for Diffusion Generation

The Realignment Problem: When Right becomes Wrong in LLMs

MOBIUS: A Multi-Modal Bipedal Robot that can Walk, Crawl, Climb, and Roll

TetraJet-v2: Accurate NVFP4 Training for Large Language Models with Oscillation Suppression and Outlier Control

Prompt Estimation from Prototypes for Federated Prompt Tuning of Vision Transformers

ActivationReasoning: Logical Reasoning in Latent Activation Spaces

Assessing the robustness of heterogeneous treatment effects in survival analysis under informative censoring

CNSocialDepress: A Chinese Social Media Dataset for Depression Risk Detection and Structured Analysis

Provable Anytime Ensemble Sampling Algorithms in Nonlinear Contextual Bandits

ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models

Black-Box Detection of LLM-Generated Text Using Generalized Jensen-Shannon Divergence

Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Multi-Stream Environments

NoTVLA: Semantics-Preserving Robot Adaptation via Narrative Action Interfaces

GLAI: GreenLightningAI for Accelerated Training through Knowledge Decoupling

Towards a Certificate of Trust: Task-Aware OOD Detection for Scientific AI

Model Merging Scaling Laws in Large Language Models

Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts

Feature Augmentation of GNNs for ILPs: Local Uniqueness Suffices

GIFT: Guided Importance-Aware Fine-Tuning for Diffusion Language Models

Alignment-Sensitive Minimax Rates for Spectral Algorithms with Learned Kernels

Global Optimization via Softmin Energy Minimization

Out of Distribution Detection in Self-adaptive Robots with AI-powered Digital Twins

PolyTruth: Multilingual Disinformation Detection using Transformer-Based Language Models

AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs

GUARD: Guideline Upholding Test through Adaptive Role-play and Jailbreak Diagnostics for LLMs

Learning to Learn the Macroscopic Fundamental Diagram using Physics-Informed and meta Machine Learning techniques

Assessing Trustworthiness of AI Training Dataset using Subjective Logic -- A Use Case on Bias

Deepfake Detection that Generalizes Across Benchmarks

Task complexity shapes internal representations and robustness in neural networks