arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

Halimat Afolabi, Zainab Afolabi, Elizabeth Friel, Jude Roberts, Antonio Ji-Xu, Lloyd Chen, Egheosa Ogbomo, Emiliomo Imevbore, Phil Eneje, Wissal El Ouahidi, Aaron Sohal, Alisa Kennan, Shreya Srivastava, Anirudh Vairavan, Laura Napitu, Katie McClure

发表机构 * Stratified Precision ； Harvard Medical School（哈佛医学院）； Imperial College London（帝国理工学院伦敦分校）； National Health Service（国家健康服务系统）； Ipsen France（Ipsen法国）； University College London（伦敦大学学院）

AI总结本文研究了封闭源大型语言模型（如ChatGPT和Gemini）在医疗推理任务中的解释可信度问题，指出其生成的解释可能看似合理但并不反映真实的推理过程。为此，作者设计了三种基于扰动的探测方法，包括因果消融、位置偏差和提示注入，评估模型推理过程与预测结果之间的关联性，并结合人类评估分析模型解释的可信度与用户信任之间的关系。研究发现，模型的推理步骤往往不直接影响预测结果，且容易受到外部提示的影响，强调在医疗场景中评估模型时，除了准确性，可信度也应成为核心考量。

Journal ref Proceedings of Machine Learning Research, Vol. 297, pp. 1562-1591, 2026

2603.05947 2026-05-13 cs.CV

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Flow-Based Real-World Super-Resolution

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu

发表机构 * The Hong Kong University of Science and Technology (Guangzhou)（香港科学与技术大学（广州））； The Hong Kong University of Science and Technology（香港科学与技术大学）

AI总结本文提出了一种名为LucidNFT的多奖励强化学习框架，用于基于流匹配的现实场景图像超分辨率任务。该方法通过引入一种对退化不变且对语义幻觉敏感的LR参考评估器LucidConsistency，以及解耦的奖励归一化策略和大规模真实退化图像集LucidLR，有效解决了现有方法在保持低分辨率输入真实性与提升视觉质量之间的平衡问题。实验表明，LucidNFT在多个基准上提升了感知质量，同时保持了对真实低分辨率输入的一致性。

2602.22347 2026-05-13 cs.CV cs.AI

Enabling clinical use of foundation models for computational pathology

Audun L Henriksen, Ole-Johan Skrede, Lisa van der Schee, Enric Domingo, Karolina Cyll, Sepp de Raedt, Ilyá Kostolomov, Jennifer Hay, Wanja Kildal, Joakim Kalsnes, Robert W Williams, Manohar Pradhan, John Arne Nesheim, Hanne Askautrud, Maria Isaksen, Karmele Saez de Gordoa, Miriam Cuatrecasas, Joanne Edwards, TransSCOT group, Arild Nesbakken, Neil A Shepherd, Ian Tomlinson, Daniel-Christoph Wagner, Rachel Kerr, Tarjei Sveinsgjerd Hveem, Knut Liestøl, Yoshiaki Nakamura, Marco Novelli, Masaaki Miyo, Sebastian Försch, David N Church, Miangela M Lacle, David J Kerr, Andreas Kleppe

发表机构 * Institute for Cancer Genetics and Informatics, Oslo University Hospital（癌症遗传学与信息学研究所，奥斯陆大学医院）； Department of Pathology, University Medical Center Utrecht（病理学系，乌得勒支大学医学中心）； Department of Oncology, University of Oxford（肿瘤学系，牛津大学）； CRUK Beatson Institute of Cancer Research, Garscube Estate（CRUK贝茨癌症研究中心，加尔斯克里特庄园）； Glasgow Tissue Research Facility, University of Glasgow, Queen Elizabeth University Hospital（格拉斯哥组织研究设施，格拉斯哥大学，伊丽莎白女王大学医院）； Area for Improvement and Digital Transformation, Norwegian Offshore Directorate（改进与数字化转型部门，挪威海上管理局）； Pathology Department, Hospital Clínic, Barcelona, Spain（病理学系，巴塞罗那医院，西班牙）； Institut d’Investigacions Biomèdiques August Pi I Sunyer (IDIBAPS), Barcelona, Spain（August Pi I Sunyer生物医学研究所（IDIBAPS），巴塞罗那，西班牙）； Department of Clinical Foundations, Universitat de Barcelona（临床基础系，巴塞罗那大学）； School of Cancer Sciences, Wolfson Wohl Cancer Research Centre, University of Glasgow（癌症科学学院，沃尔夫森沃尔夫癌症研究中心，格拉斯哥大学）； Institute of Clinical Medicine, University of Oslo（临床医学研究所，奥斯陆大学）； Department of Gastrointestinal Surgery, Oslo University Hospital（胃肠外科系，奥斯陆大学医院）

AI总结该研究探讨了如何使基础模型在计算病理学中更适用于临床场景，解决了现有模型因捕捉扫描仪和预分析变异而影响下游任务性能的问题。研究提出在下游模型训练中引入新的鲁棒性损失函数，以减少对技术变异的敏感性，并通过大量临床病理图像实验验证了该方法的有效性。该方法在不重新训练基础模型的前提下，提升了模型的鲁棒性和分类准确性，有助于开发更适用于真实临床环境的深度学习系统。

2602.21625 2026-05-13 cs.RO

Tacmap: Bridging the Tactile Sim-to-Real Gap via Geometry-Consistent Penetration Depth Map

Lei Su, Zhijie Peng, Renyuan Ren, Shengping Mao, Juan Du, Kaifeng Zhang, Xuezhou Zhu

发表机构 * Sharpa ； HKUST（香港科技大学）； NVIDIA（英伟达）

AI总结本文提出了一种名为Tacmap的高保真、计算高效的触觉仿真框架，旨在解决视觉触觉传感器在机器人操作中面临的仿真到现实的差距问题。该方法通过统一的形变图表示，将仿真与现实世界在几何空间中对齐，利用体积穿透深度计算仿真中的3D接触体积，并通过自动化数据采集装置在现实世界中学习触觉图像到真实深度图的映射。实验表明，Tacmap在多种接触场景中表现出与实际测量高度一致的性能，并成功实现了从仿真到物理机器人的零样本迁移。

Comments 8 pages

2602.15473 2026-05-13 cs.LG

POP: Prior-Fitted First-Order Optimization Policies

Jan Kobiolka, Christian Frey, Gresa Shala, Arlind Kadra, Erind Bedalli, Josif Grabocka

发表机构 * Department of Computer Science（计算机科学系）； University of Technology Nuremberg（纽伦堡技术大学）； Albert Ludwig University of Freiburg（弗赖堡阿尔伯特-路易斯大学）； University of Elbasan（埃尔巴沙大学）

AI总结本文提出了一种基于强化学习的元学习优化策略 POP，用于预测梯度下降中的自适应学习率。该方法通过优化轨迹中的上下文信息进行学习，并引入了新的奖励函数、函数缩放策略和先验分布以生成大量合成优化问题。实验表明，POP 在包含 43 个不同复杂度优化函数的基准测试中显著优于传统梯度优化方法，且无需任务特定调参即可实现良好的泛化能力。

Comments Under Review

2602.13690 2026-05-13 cs.LG

Physics Aware Neural Networks: Denoising for Magnetic Navigation

Aritra Das, Yashas Shende, Muskaan Chugh, Reva Laxmi Chauhan, Arghya Pathak, Debayan Gupta

发表机构 * Ashoka University（阿什oka大学）

AI总结本文研究了在GPS不可用情况下利用地磁异常进行导航时的去噪问题，提出了一种基于物理约束的神经网络方法。该方法引入了无散度矢量场和E(3)等变性两个物理约束，确保学习到的地磁场符合麦克斯韦方程并具有正确的空间变换特性。通过生成合成数据集和对比多种神经网络结构，实验表明该方法在预测精度和物理合理性方面优于传统方法。

详情

英文摘要

Magnetic-anomaly navigation, leveraging small-scale variations in the Earth's magnetic field, is a promising alternative when GPS is unavailable or compromised. Airborne systems face a key challenge in extracting geomagnetic field data: the aircraft itself induces magnetic noise. Although the classical Tolles-Lawson model addresses this, it inadequately handles stochastically corrupted magnetic data required for navigation. To handle stochastic noise, we propose using two physics-based constraints: divergence-free vector fields and E(3)-equivariance. These ensure the learned magnetic field obeys Maxwell's equation and that outputs transform correctly with sensor position and orientation. The divergence-free constraint is implemented by training a neural network to output a vector potential A, with the magnetic field defined as its curl. For E(3)-equivariance, we use tensor products of geometric tensors represented via spherical harmonics with known rotational transformations. Enforcing physical consistency and restricting the admissible function space acts as an implicit regularizer that improves spatiotemporal performance. We present ablation studies evaluating each constraint alone and jointly across CNNs, MLPs, LTCs, and Contiformers. Continuous-time dynamics and long-term memory are critical for modelling magnetic time series; the Contiformer, which provides both, outperforms existing methods. To mitigate data scarcity, we generate synthetic datasets using the World Magnetic Model (WMM) and time-series conditional GANs, producing realistic, temporally consistent magnetic sequences across varied trajectories and environments. Experiments show that embedding these constraints significantly improves predictive accuracy and physical plausibility, outperforming classical and unconstrained deep learning approaches. Acknowledgement: This work was done in collaboration with Dirac Labs.

URL PDF HTML ☆

赞 0 踩 0

2602.12139 2026-05-13 cs.LG

Oscillators Are All You Need: Irregular Time Series Modelling via Damped Harmonic Oscillators with Closed-Form Solutions

Yashas Shende, Aritra Das, Reva Laxmi Chauhan, Arghya Pathak, Debayan Gupta

发表机构 * Department of Physics（物理系）； Ashoka University（阿什oka大学）； Department of Computer Science（计算机科学系）

AI总结该论文提出了一种基于阻尼谐振子模型的新型时间序列建模方法，用于处理非均匀时间间隔的数据。通过将Transformer中的键值对建模为受驱阻尼振子，并以正弦基展开查询，该方法将注意力机制解释为共振现象，从而在保持模型表达能力的同时，避免了传统ODE求解器的计算开销。该方法具有理论保证，能够在非均匀时间序列任务上实现高精度且高效的表现。

2602.11126 2026-05-13 cs.LG

The Offline-Frontier Shift: Diagnosing Distributional Limits in Generative Multi-Objective Optimization

Stephanie Holly, Alexandru-Ciprian Zăvoianu, Siegfried Silber, Sepp Hochreiter, Werner Zellinger

发表机构 * LIT AI Lab and Institute for Machine Learning JKU Linz, Austria（LIT人工智能实验室和机器学习研究所，约翰·肯普夫大学（JKU）林茨分校，奥地利）； School of Computing, Engineering and Technology RGU, Aberdeen, Scotland（计算、工程与技术学院 RGU，阿伯丁，苏格兰）； Linz Center of Mechatronics GmbH Linz, Austria（林茨机电研究中心 GmbH，林茨，奥地利）

AI总结本文研究了离线多目标优化中生成方法的分布限制问题，指出尽管生成模型在超体积指标上表现良好，但在其他关键指标如代际距离上却明显落后于进化算法。研究发现，这种性能差异源于离线数据集与帕累托前沿之间的偏移，即“离线前沿偏移”现象，这构成了离线多目标优化的根本性限制。作者提出通过目标空间中的分布外采样来应对这一限制，并指出生成方法在目标分布上趋于保守，难以有效突破数据分布的边界。

2602.09587 2026-05-13 cs.CV cs.AI

MieDB-100k: A Comprehensive Dataset for Medical Image Editing

Yongfan Lai, Wen Qian, Bo Liu, Hongyan Li, Hao Luo, Fan Wang, Bohan Zhuang, Shenda Hong

发表机构 * State Key Laboratory of General Artificial Intelligence, Beijing, China（1 国家一般人工智能重点实验室，北京，中国）； School of Intelligence Science and Technology, Peking University, Beijing, China（2 智能科学与技术学院，北京大学，北京，中国）； National Institute of Health Data Science, Peking University, Beijing, China（3 国家健康数据科学研究院，北京大学，北京，中国）； DAMO Academy, Alibaba Group, Zhejiang, China（4 阿里巴巴集团 DAMO 院，浙江，中国）； hupan lab, zhejiang province（5 鹏元实验室，浙江省）； Zhejiang University, Zhejiang, China（6 浙江大学，浙江，中国）

AI总结针对医学图像编辑领域高质量数据稀缺的问题，本文提出MieDB-100k，一个大规模、高质量且多样化的文本引导医学图像编辑数据集。该数据集从感知、修改和转换三个视角分类编辑任务，兼顾理解和生成能力，并通过专家模型与规则合成方法构建，经过严格人工审核确保临床准确性。实验表明，基于该数据集训练的模型在性能和泛化能力上均优于现有开源和商业模型，为医学图像编辑研究提供了重要基础。

2602.09368 2026-05-13 cs.RO

Certified Gradient-Based Contact-Rich Manipulation via Smoothing-Error Reachable Tubes

Wei-Chen Li, Glen Chou

发表机构 * Georgia Institute of Technology（佐治亚理工学院）

AI总结该论文研究了如何在接触丰富的操作任务中，通过平滑动力学模型并补偿由此产生的误差，实现基于梯度的控制器优化与安全保证。核心方法是在可微分仿真中对接触动力学和平滑几何进行平滑处理，并通过集合值偏差量化模型失配，结合分析可达集优化时变仿射反馈策略，从而在原始非平滑动力学下实现闭环系统的鲁棒约束满足。该方法在多个接触密集任务中验证了其有效性，表现出更低的安全违规率和更小的目标误差。

Comments Robotics: Science & Systems (RSS) 2026

2602.08813 2026-05-13 cs.LG

Robust Policy Optimization to Prevent Catastrophic Forgetting

Mahdi Sabbaghi, George Pappas, Adel Javanmard, Hamed Hassani

发表机构 * University of Pennsylvania（宾夕法尼亚大学）； University of Southern California（南加州大学）

AI总结本文研究了大型语言模型在多阶段微调过程中因后续更新导致的“灾难性遗忘”问题，即早期学习的行为（如安全性）可能被破坏。为解决这一问题，作者提出了一种名为FRPO的鲁棒强化学习框架，通过在策略的KL散度邻域内优化奖励，确保策略在后续微调时仍能保持稳定。实验表明，该方法在多个基础模型和下游任务中有效减少了安全性能的下降，同时保持了任务性能。

2602.05830 2026-05-13 cs.AI cs.LG

Learning Compact Boolean Networks

Shengpu Wang, Yuhao Mao, Yani Zhang, Martin Vechev

发表机构 * Department of Information Technology and Electrical Engineering（信息科技与电气工程系）； Department of Computer Science（计算机科学系）

AI总结本文研究了如何学习结构紧凑且精度高的布尔网络，以应对资源受限场景下的高效推理需求。为解决布尔网络离散结构带来的学习难题，作者提出了三种互补的方法：一种无需参数的有效连接学习策略、一种利用空间局部性的紧凑卷积布尔架构，以及一种降低连续网络离散化精度损失的自适应量化方法。实验表明，该方法在多个视觉任务中实现了更优的精度-计算量权衡，相比现有方法在布尔运算数量上减少了高达47倍，并在FPGA上实现了更高的精度与更低的推理延迟。

2602.04476 2026-05-13 cs.CV

Vision-aligned Latent Reasoning for Multi-modal Large Language Model

Byungwoo Jeon, Yoonwoo Jeong, Hyunseok Lee, Minsu Cho, Jinwoo Shin

发表机构 * Byungwoo Jeon ； Yoonwoo Jeong ； Hyunseok Lee ； Minsu Cho ； Jinwoo Shin

AI总结尽管多模态大语言模型在多种理解任务上取得了进展，但在需要多步骤推理的问题上仍存在不足，主要原因是视觉信息在长上下文生成过程中逐渐稀释。为此，本文提出了一种名为Vision-aligned Latent Reasoning（VaLR）的推理框架，通过在每一步推理前动态生成与视觉对齐的潜在标记，引导模型基于潜在空间中的感知线索进行推理。实验表明，VaLR在多个需要长上下文理解和精确视觉感知的基准测试中表现优异，并在VSI-Bench上将性能从33.0%提升至52.9%，显著优于现有模型。

Comments Published as conference proceeding for ICML 2026. Last two authors advised equally

2602.02282 2026-05-13 cs.LG

MoLF: Mixture-of-Latent-Flow for Pan-Cancer Spatial Gene Expression Prediction from Histology

Susu Hu, Stefanie Speidel

发表机构 * Translational Surgical Oncology, National Center for Tumor Diseases (NCT/UCC) Dresden, Germany ； Faculty of Medicine ； University Hospital Carl Gustav Carus, Dresden University of Technology ； German Cancer Research Center (DKFZ), Heidelberg, Germany

AI总结该研究提出了一种名为MoLF的生成模型，用于从组织学图像预测跨癌症类型的基因表达空间分布。MoLF通过条件流匹配目标，结合专家混合架构，将噪声映射到基因潜在空间，从而有效处理不同癌症类型的异质性。实验表明，MoLF在跨癌症基准测试中优于现有方法，并能在跨物种数据上实现零样本泛化，揭示了其对保守组织分子机制的捕捉能力。

Comments Accepted at Proceedings 43rd International Conference on Machine Learning, Seoul, South Korea

Journal ref Proceedings 43rd International Conference on Machine Learning 2026

2602.00297 2026-05-13 cs.LG

From Observations to States: Latent Time Series Forecasting

Jie Yang, Yifan Hu, Yuante Li, Kexin Zhang, Kaize Ding, Philip S. Yu

发表机构 * University of Illinois Chicago（伊利诺伊大学芝加哥分校）； Tsinghua University（清华大学）； Carnegie Mellon University（卡内基梅隆大学）； Northwestern University（西北大学）

AI总结该论文研究了时间序列预测中的潜在表示悖论问题，即模型在预测准确的同时往往学习到时间无序的潜在表示。为此，作者提出了一种新的方法——潜在时间序列预测（LatentTSF），通过将观测数据映射到潜在状态空间并在此空间中进行预测，使模型能够学习到更结构化的时序动态。实验表明，该方法有效缓解了潜在混沌问题，在预测精度和表示质量上均取得显著提升。

Comments Accepted at ICML 2026

2601.09448 2026-05-13 cs.SD cs.AI

One Prompt, Many Sounds: Modeling Listener Variability in LLM-Based Equalization

Ioannis Stylianou, Jon Francombe, Pablo Martinez-Nuevo, Sven Ewan Shepstone, Zheng-Hua Tan

发表机构 * Bang & Olufsen A/S, Struer, Denmark（丹麦Bang & Olufsen A/S公司，Struer）； Department of Electronic Systems, Aalborg University（奥胡斯大学电子系统系）； Pioneer Centre for AI, Copenhagen, Denmark（哥本哈根先锋人工智能中心）

AI总结本文提出了一种基于大语言模型（LLM）的音频均衡方法，通过自然语言提示映射到均衡设置，实现了对声音系统的对话式控制。该方法利用受控听音实验收集的数据，结合上下文学习和参数高效微调技术，使模型能够可靠地对齐人群偏好的均衡设置。实验结果表明，与随机采样和静态预设基线相比，该方法在分布对齐方面有显著提升，展示了LLM作为“人工均衡器”的潜力，为更易用、上下文感知和专家级的音频调音方法提供了新方向。

Comments 13 pages, 15 figures, 2 tables, IEEE JSTSP submission

2512.24985 2026-05-13 cs.CV cs.AI cs.LG cs.RO

DarkQA: Benchmarking Vision-Language Models on Visual-Primitive Question Answering in Low-Light Indoor Scenes

Yohan Park, Hyunwoo Ha, Wonjun Jo, Tae-Hyun Oh

发表机构 * Korea Advanced Institute of Science and Technology (KAIST)（韩国科学技术院）； Pohang University of Science and Technology (POSTECH)（釜山科学技术大学）

AI总结本文提出DarkQA，一个用于评估视觉语言模型在低光室内场景下视觉原语问答能力的开源基准。该基准通过多级光照控制生成9,400个可验证的问题-图像对，模拟真实光照下降和传感器噪声，揭示了现有模型在低光条件下的性能退化问题。研究还系统评估了多种视觉语言模型和低光图像增强方法，展示了DarkQA在分析模型鲁棒性方面的有效性。

Comments This work has been submitted to the IEEE for possible publication

2512.20865 2026-05-13 cs.LG cs.SY eess.SY

Robustness Certificates for Neural Networks against Adversarial Attacks

Sara Taheri, Mahalakshmi Sabanayagam, Debarghya Ghoshdastidar, Majid Zamani

发表机构 * LMU Munich（慕尼黑大学）； Technical University of Munich（慕尼黑技术大学）； University of Colorado Boulder（科罗拉多大学博尔德分校）

AI总结随着机器学习在安全关键领域中的广泛应用，对抗性威胁，尤其是数据投毒攻击，带来的风险日益加剧。本文提出了一种基于离散时间动态系统建模的正式鲁棒性认证框架，将梯度训练过程形式化，并借鉴控制理论中的屏障证书概念，为模型在最坏情况下的鲁棒性提供形式化保证。该方法通过神经网络参数化屏障证书，并结合场景凸优化推导出泛化性保证，首次实现了对训练时和测试时攻击的统一形式化认证，实验表明其在多个数据集上具有良好的鲁棒性认证效果。

Journal ref IEEE Open Journal of Control Systems, 2026

2512.17637 2026-05-13 cs.AI cs.FL cs.LO

About Time: Model-free Reinforcement Learning with Timed Reward Machines

Rajarshi Roy, Anirban Majumdar, Ritam Raha, David Parker, Marta Kwiatkowska

发表机构 * University of Liverpool（利物浦大学）

AI总结在强化学习中，奖励规范对指导智能体行为至关重要。为表达非马尔可夫奖励，已有研究引入奖励机，但传统奖励机难以建模精确的时间约束。本文提出了一种新的时间奖励机（TRM），将时间约束融入奖励结构，支持更丰富的奖励逻辑，例如对延迟施加惩罚或对及时动作给予奖励。研究基于无模型强化学习框架（如表格Q学习），通过时间自动机的抽象和反事实想象启发式方法，学习满足时间约束的最优策略，并在多个基准任务中验证了其有效性。

Comments Extended version of paper accepted at IJCAI 2026

2512.11114 2026-05-13 cs.LG cs.AI stat.ML

In-Context Multi-Objective Optimization

Xinyu Zhang, Conor Hassan, Julien Martinelli, Daolang Huang, Samuel Kaski

发表机构 * Department of Computer Science, Aalto University, Finland（芬兰阿尔托大学计算机科学系）； ELLIS Institute Finland（芬兰ELLIS研究所）； Department of Computer Science, University of Manchester, UK（英国曼彻斯特大学计算机科学系）

AI总结在多目标优化问题中，如何平衡多个竞争目标是一个普遍存在的挑战，尤其在药物设计和自主系统等领域。本文提出了一种名为TAMO的全摊销通用策略，利用Transformer架构实现对不同输入和目标维度的多目标黑盒优化，无需针对每个任务重新训练模型。通过强化学习预训练，TAMO能够在单次前向传播中快速生成优化方案，显著提升了计算效率，并在多个基准和实际任务中表现出优异的帕累托前沿质量。

2512.07150 2026-05-13 cs.LG cs.AI cs.CV

FlowLPS: Langevin-Proximal Sampling for Flow-based Inverse Problem Solvers

Jonghyun Park, Jong Chul Ye

发表机构 * KAIST（韩国科学技术院）

AI总结本文提出了一种名为 FlowLPS 的训练-free 潜在流逆问题求解方法，基于朗之万-近端采样（Langevin-Proximal Sampling），旨在解决深度生成模型在图像逆问题中的有限步数权衡问题。该方法在每一步反向过程中使用少量朗之万更新对模型预测的干净估计进行扰动，以提供后验导向的随机初始化，随后通过局部 MAP 风格的近端优化快速提升测量一致性，并结合受控的 pCN 风格重噪声技术保持轨迹稳定性。实验表明，FlowLPS 在多个线性逆问题上实现了测量保真度与感知质量的良好平衡。

2512.01675 2026-05-13 cs.CV

GRASP: Guided Residual Adapters with Sample-wise Partitioning

Felix Nützel, Mischa Dombrowski, Bernhard Kainz

发表机构 * Friedrich-Alexander-Universität Erlangen-Nürnberg（埃朗根-纽伦堡弗里德里希-亚历山大大学）； Imperial College London（伦敦帝国理工学院）

AI总结在长尾分布场景下，文本到图像的流匹配变换器在尾部类别上表现出生成质量下降的问题。本文提出GRASP方法，通过条件空间的确定性划分和分组残差适配器，有效提升了尾部类别的生成质量，同时保持了原优化目标和采样器不变。实验表明，GRASP在多个数据集上显著提升了生成图像的多样性与尾部类别覆盖率，并在下游分类任务中优于现有方法。

Comments 16 pages, 6 figures, 6 tables

2511.22663 2026-05-13 cs.CV

AIA: Rethinking Architecture Decoupling Strategy In Unified Multimodal Model

Dian Zheng, Manyuan Zhang, Hongyu Li, Kai Zou, Hongbo Liu, Ziyu Guo, Kaituo Feng, Yexin Liu, Ying Luo, Hongsheng Li

发表机构 * MMLab, CUHK（CUHK多媒体实验室）； Meituan（美团）； USTC（中国科学技术大学）； TJU（天津大学）

AI总结统一多模态模型在图像生成与理解方面取得了显著进展，但任务间的冲突目标使得训练范式难以优化。为缓解冲突，现有方法多采用架构解耦策略，但可能导致模型失去交互生成能力。本文提出一种无需架构解耦的策略，通过分析模型的跨模态注意力行为，揭示解耦提升性能的本质是引导模型学习任务特定的交互模式，并提出注意力交互对齐（AIA）损失函数，有效优化跨模态注意力结构，提升生成与理解性能。

Comments Project page: https://zhengdian1.github.io/AIA-project/ Code: https://github.com/zhengdian1/AIA

2511.18152 2026-05-13 cs.CV cs.AI

UnfoldLDM: Degradation-Aware Unfolding with Iterative Latent Diffusion Priors for Blind Image Restoration

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu

发表机构 * Duke University（杜克大学）； Shanghai Jiao Tong University（上海交通大学）； Peking University（北京大学）； Tsinghua University（清华大学）； Xiamen University（厦门大学）

AI总结本文提出了一种名为 UnfoldLDM 的盲图像修复方法，旨在解决现有深度展开网络在未知退化建模和过平滑问题上的不足。该方法结合了深度展开网络与潜在扩散模型，通过多粒度退化感知模块估计未知退化信息，并设计了退化鲁棒的扩散模型和过平滑校正模块，以恢复图像的高频细节和纹理。实验表明，UnfoldLDM 在多种盲图像修复任务中表现优异，并可作为通用框架与现有方法兼容。

Comments 6 figures, 11 tables

2511.16814 2026-05-13 cs.AI cs.HC

Stable diffusion models reveal a persisting human and AI gap in visual creativity

Silvia Rondini, Claudia Alvarez-Martin, Paula Angermair-Barkai, Olivier Penacchio, M. Paz, Matthew Pelowski, Dan Dediu, Antoni Rodriguez-Fornells, Xim Cerda-Company

发表机构 * Cognition and Brain Plasticity Unit, Bellvitge Biomedical Research Institute（认知与脑可塑性单位，贝尔维希生物医学研究所）； Bridging AI and Neuroscience, Computer Vision Center（弥合人工智能与神经科学，计算机视觉中心）； Department of Cognition, Development and Educational Psychology, University of Barcelona（认知、发展与教育心理学系，巴塞罗那大学）； Vienna Cognitive Science Hub（维也纳认知科学中心）； Faculty of Psychology, University of Vienna（心理学系，维也纳大学）； Computer Science Department, Universitat Autonoma de Barcelona（计算机科学系，巴塞罗那自治大学）； University of Barcelona Institute for Complex Systems (UBICS)（巴塞罗那大学复杂系统研究所）； Department of Catalan Philology and General Linguistics, University of Barcelona（加泰罗尼亚语言学与一般语言学系，巴塞罗那大学）； Catalan Institution for Research and Advanced Studies (ICREA)（加泰罗尼亚研究与高级科学研究机构（ICREA））； Aix-Marseille University（艾克斯-马赛大学）； Institute of Neurosciences (UBNeuro), University of Barcelona（神经科学研究所（UBNeuro），巴塞罗那大学）

AI总结尽管近期研究表明大型语言模型在发散性思维任务中已能匹配人类的创造力，但视觉创造力领域仍缺乏系统研究。本研究通过对比视觉艺术家、非艺术家以及两种不同提示条件下的生成式AI模型（人类启发式与自主引导式）的图像生成结果，发现人类在视觉创造力上仍显著优于AI，且AI的创造力随着人类引导的增加而提升，但仍未达到非艺术家水平。研究还揭示了人类与AI在创造力评价上的判断模式存在明显差异，表明视觉创造力依赖于感知细节与情境敏感性，这些能力可能难以从语言模型直接迁移至视觉生成模型。

Journal ref Advanced Science, 2026, e24142

2511.11935 2026-05-13 cs.LG

SurvBench: A Standardised Preprocessing Pipeline for Multi-Modal Electronic Health Record Survival Analysis

Munib Mesinovic, Tingting Zhu

发表机构 * Department of Engineering Science, University of Oxford（牛津大学工程科学系）

AI总结 SurvBench 是一个开源的预处理流程，旨在为多模态电子健康记录（EHR）的生存分析提供标准化的数据处理方法。该工具解决了当前深度学习生存模型在EHR数据上难以比较的问题，通过统一的预处理步骤，包括队列定义、时间离散化、缺失值处理和截断规则等。SurvBench 支持多个重症监护数据库和多种输入模态，提供了统一的配置接口和跨数据集验证支持，为未来多模态EHR生存分析研究提供了可靠的基准平台。

2511.11412 2026-05-13 cs.CL cs.CY stat.OT

MajinBook: An open catalogue of digitally mediated world literature

Antoine Mazières, Thierry Poibeau

发表机构 * Lattice (ENS-PSL, CNRS)（Lattice（ENS-PSL，CNRS））； LEDa (Dauphine-PSL, CNRS)（LEDa（Dauphine-PSL，CNRS））

AI总结本文介绍了MajinBook，一个开放的数字文献目录，旨在促进对影子图书馆（如Library Genesis和Z-Library）在计算社会科学和文化分析中的应用。通过将这些众包档案的元数据与Goodreads的结构化书目数据进行关联，构建了一个包含539,000多本英文书籍的高精度语料库，并附有首次出版日期、类型和受欢迎程度等信息。该研究采用原生数字EPUB文件以确保机器可读性，同时解决了传统语料库的偏差问题，并提供了法语、德语和西班牙语的辅助数据集。

Comments 9 pages, 5 figures, 1 table

2511.10670 2026-05-13 cs.CL cs.AI cs.SD

Towards Fine-Grained Code-Switch Speech Translation with Semantic Space Alignment

Yan Gao, Yazheng Yang, Zhibin Lan, Yidong Chen, Min Zhang, Daimeng Wei, Derek F. Wong, Jinsong Su

发表机构 * School of Informatics, Xiamen University, China（厦门大学信息学院）； Huawei Translation Services Center, Beijing, China（华为翻译服务中心）； NLP 2 CT Lab, Department of Computer and Information Science, University of Macau（澳门大学计算机与信息科学系NLP 2 CT实验室）

AI总结该研究旨在解决代码混用（Code-switching）语音翻译中的细粒度语义建模难题，提出了一种结合专家混合（MoE）结构的语音投影方法，通过语言专家组对不同语言的语义空间进行精细化建模。研究引入了语言特定损失和组内负载均衡损失，以提升模型效率，并采用多阶段训练策略，结合现有自动语音识别和单语翻译数据，增强对齐效果和翻译性能。实验表明，该方法在多个数据集上显著优于现有模型，BLEU和COMET指标均有明显提升。

Comments Accepted to IJCAI 2026 Main Track

2511.07767 2026-05-13 cs.LG

Taking the Road Less Scheduled with Adaptive Polyak Steps

Dimitris Oikonomou, Matthew Buchholz, Yuen-Man Pun, Robert M. Gower, Nicolas Loizou

发表机构 * Johns Hopkins University（约翰霍普金斯大学）； University of British Columbia（不列颠哥伦比亚大学）； Australian National University（澳大利亚国立大学）； Center for Computational Mathematics（计算数学中心）； Flatiron Institute, Simons Foundation（Flatiron 机构，Simons 基金会）

AI总结本文研究了无需预设训练周期的自适应优化方法，提出了一种适用于Schedule-Free SGD和Adam的Polyak步长选择策略，该方法能够在每一步迭代中仅基于当前损失、梯度和迭代点自动计算学习率，无需手动调参。通过引入一个理想情况下的变体和一个无需理想值的鲁棒变体，作者证明了其在凸且满足利普希茨条件的目标函数上的收敛速率。实验表明，该方法在语言模型预训练和知识蒸馏任务中表现优异，且对超参数选择更加鲁棒。

2510.27055 2026-05-13 cs.CL cs.AI

Detecting Data Contamination in LLMs via In-Context Learning

Michał Zawalski, Meriem Boubdir, Klaudia Bałazy, Besmira Nushi, Pablo Ribalta

发表机构 * NVIDIA

AI总结本文提出了一种名为CoDeC的方法，用于检测和量化大语言模型训练数据中的污染问题。该方法通过衡量上下文学习对模型性能的影响，区分模型在训练过程中记忆的数据与训练分布之外的数据。实验表明，CoDeC能够生成可解释的污染评分，有效区分已见和未见数据集，并揭示了未公开训练语料的开源模型中存在显著的记忆现象。该方法简单、自动化，且适用于不同模型和数据集，便于集成到基准评估中。

AI 大模型

视觉与机器人

科学与医疗

Faithful or Just Plausible? Evaluating the Faithfulness of Closed-Source LLMs in Medical Reasoning