arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.12064 2026-05-13 cs.CV

TAR: Text Semantic Assisted Cross-modal Image Registration Framework for Optical and SAR Images

Zhuoyu Cai, Dou Quan, Ning Huyan, Pei He, Shuang Wang, Licheng Jiao

AI总结本文提出了一种基于文本语义辅助的跨模态图像配准框架TAR，用于光学图像与合成孔径雷达（SAR）图像的配准。该方法通过引入遥感场景和地物覆盖类型的文本语义先验，缓解了光学与SAR图像之间的模态差异，增强了跨模态特征学习能力。TAR包含多尺度视觉特征学习、文本辅助特征增强和由粗到细的密集匹配三个模块，实验表明其在大形变情况下仍能实现优于现有方法的配准性能。

2605.12061 2026-05-13 cs.AI

SAGE: A Self-Evolving Agentic Graph-Memory Engine for Structure-Aware Associative Memory

Juntong Wang, Haoyue Zhao, guanghui Pan, Xiyuan Wang, Yanbo Wang, Qiyan Deng, Muhan Zhang

AI总结本文提出了一种名为SAGE的自进化智能图记忆引擎，旨在解决语言智能体在长期记忆方面的瓶颈问题。SAGE将图记忆建模为动态的长期记忆载体，结合了用于构建结构化图记忆的“记忆写入器”和基于图基础模型的“记忆读取器”，通过交互历史逐步完善记忆结构，并利用反馈机制实现自我进化。实验表明，SAGE在多跳问答、开放域检索和长期记忆评估等任务中显著提升了证据恢复、答案置信度和检索效率，验证了其在构建稳健长期语言智能体中的有效性。

2605.12056 2026-05-13 cs.AI

OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models

Yuchen Deng, Zidang Cai, Hai-Tao Zheng, Jie Wang, Feidiao Yang, Yuxing Han

AI总结 OmniRefine 是一种用于高效多模态大语言模型的训练-free 两阶段压缩框架，旨在解决长视频和密集音频序列推理成本高的问题。该方法通过跨模态对齐的分块优化和模态感知的协同压缩，有效保留关键信息并减少冗余，从而在保持模型性能的同时提升推理效率。实验表明，OmniRefine 在多个任务上实现了优于现有方法的效率与性能平衡，并在较低压缩比下仍能保持稳定表现。

2605.12051 2026-05-13 cs.LG

Learning plug-in surrogate endpoints for randomized experiments

Alessandro-Umberto Margueritte, Ahmet Zahid Balcıoğlu, Jesse Krijthe, Dave Zachariah, Fredrik D. Johansson

AI总结在随机实验中，当长期结果难以观测时，常使用短期替代终点来评估干预效果。本文研究了一类可以直接替代主要结果的插件复合替代终点，提出两种方法以最大化其对真实效应的预测能力，并分析了在典型场景下找到无偏效应估计替代终点的可能性。实验表明，基于直接建模替代效应的方法相比现有方法能生成更具预测性的插件终点。

Comments 29 pages, 5 figures

2605.12049 2026-05-13 cs.LG cs.AI cs.IT cs.NE math.IT

Scaling Laws and Tradeoffs in Recurrent Networks of Expressive Neurons

Aaron Spieler, Georg Martius, Anna Levina

AI总结本文探讨了在固定参数预算下，如何在神经网络的单元数量、每个单元的复杂度和连接度之间进行最优分配的问题。研究引入了一种基于“表达型漏记忆”（ELM）神经元的循环网络架构，能够独立调节网络宽度、单元复杂度和连接度，并在不同规模下稳定训练。实验表明，在固定参数预算下，存在一个非平凡的最优权衡点，且更大的预算倾向于支持更复杂和更多的神经元，研究还通过信息论模型解释了这一权衡现象的机制。

Comments 25 pages, 21 figures, 3 tables, including derivations. Submitted for peer review

详情

英文摘要

Cortical neurons are complex, multi-timescale processors wired into recurrent circuits, shaped by long evolutionary pressure under stringent biological constraints. Mainstream machine learning, by contrast, predominantly builds models from extremely simple units, a default inherited from early neural-network theory. We treat this as a normative architectural question. How should one split a fixed parameter budget $P$ between the number of units $N$, per-unit effective complexity $k_e$, and per-unit connectivity $k_c$? What controls the optimal allocation? This calls for a model in which per-unit complexity can be tuned independently of width and connectivity. Accordingly, we introduce the ELM Network, whose recurrent layer is built from Expressive Leaky Memory (ELM) neurons, chosen to mirror functional components of cortical neurons. The architecture allows for individually adjusting $N$, $k_e$, and $k_c$ and trains stably across orders of magnitude in scale. We evaluate the model on two qualitatively different sequence benchmarks: the neuromorphic SHD-Adding task and Enwik8 character-level language modeling. Performance improves monotonically along each of the three axes individually. Under a fixed budget, a clear non-trivial optimum emerges in their tradeoff, and larger budgets favor both more and more complex neurons. A closed-form information-theoretic model captures these tradeoffs and attributes the diminishing returns at two ends to: per-neuron signal-to-noise saturation and across-neuron redundancy. A hyperparameter sweep spanning three orders of magnitude in trainable parameters traces a near-Pareto-frontier scaling law consistent with the framework. This suggests that the simple-unit default in ML is not obviously optimal once this tradeoff surface is probed, and offers a normative lens on cortex's reliance on complex spatio-temporal integrators.

URL PDF HTML ☆

赞 0 踩 0

2605.12047 2026-05-13 cs.CL

Is Child-Directed Language Optimized for Word Learning? A Computational Study of Verb Meaning Acquisition

Francesca Padovani, Jaap Jumelet, Yevgen Matusevych, Arianna Bisazza

AI总结本研究探讨儿童导向语言（CDL）是否优化了词汇学习，特别是动词意义的获取。通过对比基于CDL和成人导向语言（ADL）训练的神经语言模型，研究发现CDL和口语ADL在语法干扰下表现出更强的学习鲁棒性。研究还发现，动词意义的习得早于语法能力的提升，且这一异步现象在口语中尤为明显，表明CDL在动词学习上的优势可能源于口语本身的特性，而非CDL独有的优化。

Comments 8 pages

2605.12039 2026-05-13 cs.CL

SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs

Xiaoyuan Li, Moxin Li, Keqin Bao, Yubo Ma, Wenjie Wang, Dayiheng Liu, Fuli Feng

AI总结 SkillGraph 是一种通过动态演化技能图谱来增强智能体强化学习能力的方法，旨在解决现有技能库在组合任务中依赖关系识别和维护困难的问题。该方法将可复用的技能表示为有向图中的节点，并通过边类型编码技能之间的前提、增强和共现关系，从而支持多步骤决策。实验表明，SkillGraph 在多个复杂任务中表现出色，显著优于传统的记忆增强型强化学习方法。

Comments Under Review

2605.12038 2026-05-13 cs.CV

OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation

Yiren Song, Xiyao Deng, Pei Yang, Yihan Wang, Mike Zheng Shou

AI总结 OmniHumanoid 是一种用于跨具身视频生成的流式生成框架，旨在实现从人类到机器人或机器人到机器人之间的动作迁移。该方法通过分离可迁移的运动学习与具身特定的适配，解决了传统方法中因素纠缠和依赖配对数据的限制，仅需使用未配对视频即可适应新具身。研究还引入了分支隔离注意力机制，并构建了一个包含多具身、多场景的合成数据集，实验表明该方法在运动保真度和具身一致性方面表现优异，且无需重新训练共享运动模型即可扩展到新机器人。

2605.12031 2026-05-13 cs.LG cs.CV

Resilient Vision-Tabular Multimodal Learning under Modality Missingness

Camillo Maria Caruso, Valerio Guarrasi, Paolo Soda

AI总结该研究针对医疗多模态学习中常见的模态缺失问题，提出了一种无需数据填补或启发式切换的联合视觉-表格学习框架。该方法通过可学习的模态标记对单模态表示进行加权，并利用带有掩码的自注意力机制进行中间融合，从而排除缺失的模态和特征。此外，引入模态丢弃正则化策略增强模型鲁棒性，实验表明该方法在不同缺失场景下均优于现有基线，表现出更稳定的性能和更强的鲁棒性。

详情

英文摘要

Multimodal deep learning has shown strong potential in medical applications by integrating heterogeneous data sources such as medical images and structured clinical variables. However, most existing approaches implicitly assume complete modality availability, an assumption that rarely holds in real-world clinical settings where entire modalities and individual features are frequently missing. In this work, we propose a multimodal transformer framework for joint vision-tabular learning explicitly designed to operate under pervasive modality missingness, without relying on imputation or heuristic model switching. The architecture integrates three components: a vision, a tabular, and a multimodal fusion encoder. Unimodal representations are weighted through learnable modality tokens and fused via intermediate fusion with masked self-attention, which excludes missing tokens and modalities from information aggregation and gradient propagation. To further enhance resilience, we introduce a modality-dropout regularization strategy that stochastically removes available modalities during training, encouraging the model to exploit complementary information under partial data availability. We evaluate our approach on the MIMIC-CXR dataset paired with structured clinical data from MIMIC-IV for multilabel classification of 14 diagnostic findings with incomplete annotations. Two parallel systematic stress-test protocols progressively increase training and inference missingness in each modality separately, spanning fully multimodal to fully unimodal scenarios. Across all missingness regimes, the proposed method consistently outperforms representative baselines, showing smoother performance degradation and improved robustness. Ablation studies further demonstrate that attention-level masking and intermediate fusion with joint fine-tuning are key to resilient multimodal inference.

URL PDF HTML ☆

赞 0 踩 0

2605.12028 2026-05-13 cs.CL cs.IR

Caraman at SemEval-2026 Task 8: Three-Stage Multi-Turn Retrieval with Query Rewriting, Hybrid Search, and Cross-Encoder Reranking

David-Maximilian Caraman, Gheorghe Cosmin Silaghi

AI总结本文介绍了参与SemEval-2026任务8（MTRAGEval）的系统，针对多轮检索任务提出了一个三阶段方法，包括基于LoRA微调的查询重写、BM25与稠密检索的混合搜索以及交叉编码器重排序。该方法在四个英文领域中取得了nDCG@5为0.531的成绩，排名第八，显著优于基准系统。研究还发现，针对不同领域调整生成查询的温度参数能够有效提升性能，而其他复杂策略则可能带来性能下降。

Comments Accepted at SemEval2026, task 8: MTRAGEval

2605.12027 2026-05-13 cs.CV

4DVGGT-D: 4D Visual Geometry Transformer with Improved Dynamic Depth Estimation

Ying Zang, Xuanyi Liu, Yidong Han, Deyi Ji, Chaotao Ding, Yuanqi Hu, Qi Zhu, Xuanfu Li, Jin Ma, Lingyun Sun, Tianrun Chen, Lanyun Zhu

AI总结该论文提出了一种名为4DVGGT-D的4D视觉几何变换器，旨在解决从单目视频中重建动态4D场景时的挑战。研究核心在于通过一种无需训练的渐进式解耦框架，将动态与静态要素分离，从而提升深度估计的稳定性与准确性。方法包含动态掩码引导的位姿解耦、拓扑子空间手术以及信息论置信度融合三个关键模块，有效提升了4D重建的质量与鲁棒性。

2605.12026 2026-05-13 cs.CV cs.AI eess.SP

Spectral Vision Transformer for Efficient Tokenization with Limited Data

Alexandra G. Roberts, Maneesh John, Jinwei Zhang, Dominick Romano, Mert Sisman, Ki Sueng Choi, Heejong Kim, Mert R. Sabuncu, Thanh D. Nguyen, Alexey V. Dimov, Pascal Spincemaille, Brian H. Kopell, Yi Wang

AI总结本文提出了一种新型的光谱视觉变换器架构，旨在在数据量有限的情况下实现高效的图像分块处理，特别关注医学影像应用。该方法利用光谱基函数的选择带来了空间不变性和最优信噪比等理论优势，并通过光谱投影降低了模型复杂度。实验表明，与多种主流模型相比，该方法在参数更少的情况下仍能取得相当甚至更优的性能，适用于多种类型的数据集。

2605.12025 2026-05-13 cs.LG stat.ML

Approximation Theory of Laplacian-Based Neural Operators for Reaction-Diffusion System

Takashi Furuya, Ryo Ozawa, Jenn-Nan Wang

AI总结本文研究了基于拉普拉斯算子的神经算子在非线性反应-扩散系统中的逼近理论，以通用的Gierer-Meinhardt模型为例，分析了从初始条件到时间依赖解的映射学习问题。通过利用PDE格林函数的拉普拉斯谱表示，作者建立了神经网络深度、宽度和谱秩相关的显式逼近误差界，证明了所需参数复杂度随目标精度呈多项式增长，从而克服了传统算子学习中面临的参数复杂度指数增长问题。数值实验验证了理论结果的有效性。

2605.12022 2026-05-13 cs.CL

SAGE: Scalable Automated Robustness Augmentation for LLM Knowledge Evaluation

Xiaoyuan Li, Yuzhe Wang, Moxin Li, Keqin Bao, Rui Men, Yichang Zhang, Dayiheng Liu, Wenjie Wang, Fuli Feng

AI总结该研究提出了一种可扩展的自动鲁棒性增强框架SAGE，用于提升大语言模型知识评估基准的鲁棒性。SAGE通过微调小型模型实现高效的问题变体生成与验证，其中VariantGen负责生成变体，VariantQual基于人工标注数据训练用于验证质量。实验表明，SAGE能够在远低于人工成本的情况下构建大规模鲁棒性增强基准，并且微调模型还能泛化到其他任务如MMLU，无需针对具体基准进行微调。

Comments Under Review

2605.12021 2026-05-13 cs.CV

What-Where Transformer: A Slot-Centric Visual Backbone for Concurrent Representation and Localization

Ryota Yoshihashi, Masahiro Kada, Satoshi Ikehata, Rei Kawakami, Ikuro Sato

AI总结本文提出了一种名为What-Where Transformer（WWT）的视觉骨干网络，旨在同时学习物体的外观（what）和位置（where）信息。该方法通过分离“what-where”这一归纳偏置，采用多流架构将物体表示与注意力图分别处理，从而实现对物体外观和空间位置的解耦表征。实验表明，WWT在无额外后处理的情况下即可从原始注意力图中发现多个物体，并在零样本目标发现和弱监督语义分割等任务中表现出优越性能。

2605.12019 2026-05-13 cs.LG cs.AI

Efficient and Adaptive Human Activity Recognition via LLM Backbones

Aleksandr Bredikhin, Philippe Lalanda, German Vega

AI总结本文提出了一种基于大语言模型（LLM）的高效且自适应的人类活动识别（HAR）方法，旨在解决传统方法在计算资源消耗和领域适应性方面的不足。通过将预训练的LLM作为通用时间特征提取器，并引入结构化卷积投影将传感器信号映射到LLM的隐空间，该方法大幅降低了参数量和训练成本，同时提升了模型的泛化能力。实验表明，该方法在低数据和少样本场景下表现出色，为HAR系统提供了可扩展且高效的解决方案。

2605.12017 2026-05-13 cs.CV

FAME: Feature Activation Map Explanation on Image Classification and Face Recognition

Xinyi Zhang, Manuel Günther

AI总结本文提出了一种名为FAME的图像分类与人脸识别任务的特征激活图解释方法，旨在提升深度学习模型的可解释性。FAME结合了基于梯度的特征图方法与扰动方法的优点，通过梯度驱动的方式对输入图像进行操作，而非使用固定补丁，从而更准确地生成像素级的归因图。实验表明，FAME在深度网络中优于传统CAM方法，并在定性和定量评估中展现出竞争力。

Comments Accepted for CVPR Workshop 2026

2605.12016 2026-05-13 cs.AI

LLMs and the ZPD

Peter Wallis

AI总结本文探讨了大语言模型（LLMs）与维果茨基“最近发展区”（ZPD）理论之间的关系，提出LLMs并非通过分布式表征进行“思考”，而是在执行一种基于实践的“原始思维”。研究认为，LLMs的行为更类似于“做梦”而非幻觉，强调互动在人类沟通中的核心地位，而非仅仅是理解的辅助手段，为理解LLMs的认知机制提供了新的视角。

Comments Short paper submitted to Interspeech 2026 (Desk Reject) 4 pages, plus references. 2 figures

2605.12013 2026-05-13 cs.CV cs.AI

L2P: Unlocking Latent Potential for Pixel Generation

Zhennan Chen, Junwei Zhu, Xu Chen, Jiangning Zhang, Jiawei Chen, Zhuoqi Zeng, Wei Zhang, Chengjie Wang, Jian Yang, Ying Tai

AI总结本文提出了一种名为L2P的高效像素生成框架，旨在解决从头训练高精度像素空间模型所需的高昂计算和数据资源问题。L2P通过直接利用预训练潜在扩散模型（LDM）的知识，采用大块标记化替代VAE，并冻结LDM中间层仅训练浅层网络，从而学习潜在空间到像素空间的映射。该方法仅使用LDM生成的合成图像作为训练数据，无需真实数据采集，实现了快速收敛，并可在8块GPU上生成4K超高分辨率图像，实验表明其性能接近源模型，在多个基准测试中表现优异。

Comments project page: https://nju-pcalab.github.io/projects/L2P/

2605.12010 2026-05-13 cs.LG

Limits of Learning Linear Dynamics from Experiments

Aybüke Ulusarslan, Niki Kilbertus, Nora Schneider

AI总结本文研究了从实验数据中学习线性动力系统时的可识别性限制问题。作者指出，传统方法通常假设系统可识别，但当这一假设不成立时，模型预测可能不准确。通过几何分析，论文揭示了实验设置（初始状态和控制输入）决定了可从观测轨迹中恢复的信息上限，并推导出与该实验设置一致的所有系统的闭式描述，证明即使整个系统不可识别，实验可达子空间上的动力学仍可唯一确定。

2605.12009 2026-05-13 cs.LG

Estimating Subgraph Importance with Structural Prior Domain Knowledge

Changhyun Kim, Seunghwan An, Jong-June Jeon

AI总结本文提出了一种用于预训练图神经网络（GNN）图级任务的子图重要性估计方法，将其建模为嵌入空间中的线性组Lasso回归问题。该方法有效利用了图子结构的先验领域知识，且不受GNN输出层或读出函数形式的限制，无需真实目标标签即可进行估计。实验表明，该方法在多个现实图数据集上优于现有基线，并进一步扩展用于识别图中的重要节点。

2605.12006 2026-05-13 cs.CV

Robust Promptable Video Object Segmentation

Sohyun Lee, Yeho Gwon, Lukas Hoyer, Konrad Schindler, Christos Sakaridis, Suha Kwak

AI总结本文研究了可提示视频对象分割（PVOS）模型在输入受到干扰时性能下降的问题，提出了首个全面的鲁棒PVOS（RobustPVOS）研究。作者构建了一个包含351个视频片段和2500多张物体掩膜的综合性基准，涵盖真实场景下的多种不利条件，并生成了带有多样化时间变化干扰的合成训练数据。提出了一种新的鲁棒PVOS方法MoGA，通过记忆中的物体特异性表示来增强模型对不同物体退化的处理能力，并保持预测的时序一致性，实验表明该方法在多种干扰条件下均取得显著提升，为未来鲁棒PVOS研究提供了有力基础。

Comments Accepted to CVPR 2026

2605.12004 2026-05-13 cs.CL

Learning Agentic Policy from Action Guidance

Yuxiang Ji, Zengbin Wang, Yong Wang, Shidong Yang, Ziyu Ma, Guanhua Chen, Zonghua Sun, Liaoni Wu, Xiangxiang Chu

AI总结该研究针对大语言模型在智能体强化学习中的探索能力不足问题，提出了一种基于行动指导的强化学习方法ActGuide-RL。该方法利用日常交互中产生的丰富行动数据作为计划式参考指导，帮助智能体克服奖励状态的可达性障碍，并通过混合策略训练将引导策略的探索收益反馈到未引导策略中。实验表明，该方法在搜索智能体基准测试中显著优于零样本强化学习，并可与监督微调加强化学习的方法相媲美，为智能体强化学习提供了一种减少对大量监督数据依赖的新范式。

Comments Work in progress

2605.12002 2026-05-13 cs.CV

EDGER: EDge-Guided with HEatmap Refinement for Generalizable Image Forgery Localization

Minh-Khoa Le-Phan, Minh-Hoang Le, Minh-Triet Tran, Trong-Le Do

AI总结本文提出了一种名为EDGER的图像伪造定位方法，旨在应对文本引导的图像修复技术带来的挑战，提升跨域检测能力。该方法采用双分支框架，结合基于频率的边缘检测与合成热图定位，分别在像素级和块级定位伪造区域，从而实现高精度、高分辨率的通用化检测。实验表明，EDGER在多个基准数据集上表现出优异的跨域泛化能力和对高分辨率图像的适应性。

Comments Accepted for publication in the Proceedings of the 14th International Symposium on Information and Communication Technology (SOICT 2025)

2605.11996 2026-05-13 cs.AI

BadSKP: Backdoor Attacks on Knowledge Graph-Enhanced LLMs with Soft Prompts

Xiaoting Lyu, Yufei Han, Hangwei Qian, Haoyuan Yu, Xiang Ao, Bin Wang, Chenxu Wang, Xiaobo Ma, Wei Wang

AI总结本文研究了针对知识图谱增强大语言模型（KG-LLMs）的后门攻击问题，特别是针对通过图神经网络将知识图谱编码为软提示的新型架构。该架构引入了图条件通道，使得现有针对文本通道的后门攻击效果大打折扣。为此，作者提出BadSKP攻击方法，通过多阶段优化策略操纵图表示，诱导软提示生成对抗性语义，实验表明该方法在多种设置下均能有效攻击目标模型，而传统仅针对文本的攻击则效果有限。

2605.11993 2026-05-13 cs.CL

Towards Visually-Guided Movie Subtitle Translation for Indic Languages

Tarun Chintada, Kshetrimayum Boynao Singh, Asif Ekbal

AI总结该研究探讨了面向印地语等低资源语言的电影字幕翻译问题，指出仅依赖文本的系统往往无法捕捉到视觉信息中蕴含的情感、动作和社会语境。研究比较了两种轻量级的视觉引导策略，发现通过选择性地增强低质量字幕片段，可以有效提升翻译质量，同时大幅减少视觉处理需求。实验表明，基于粗粒度属性的视觉上下文摘要方法在捕捉场景情感和细微语境方面更具鲁棒性。

2605.11987 2026-05-13 cs.AI cs.LG stat.AP stat.ML

Random-Set Graph Neural Networks

Tommy Woodley, Shireen Kudukkil Manchingal, Matteo Tolloso, Davide Bacciu, Fabio Cuzzolin

AI总结本文提出了一种新的图神经网络框架——随机集图神经网络（RS-GNN），用于更准确地量化节点层面的不确定性。该方法通过信念函数形式对节点的认识不确定性进行建模，能够同时输出精确的概率预测和不确定性度量。实验表明，RS-GNN在多个真实世界的图学习数据集上表现出优越的不确定性量化能力。

Comments 23 pages, 6 figures

2605.11986 2026-05-13 cs.AI

On the Limitations of Large Language Models for Conceptual Database Modeling

Arthur F. Siqueira, Carlos D. S. Nogueira, Eduarda Farias, Claudio E. C. Campelo, Júlia Menezes

AI总结本文分析了大语言模型（LLMs）在支持关系数据库概念建模中的应用，特别是通过从自然语言需求中自动生成实体-关系（ER）图的能力。研究结合不同的语言模型和提示工程方法，评估其在概念上一致地识别实体、关系和属性的能力。实验结果表明，尽管LLMs在简单场景中表现尚可，但随着需求复杂性的增加，其可靠性下降，出现了更多不一致、模糊和约束表示失败的问题，表明当前LLMs在复杂场景中尚不成熟，验证成本可能抵消其表面的效率提升。

2605.11983 2026-05-13 cs.LG stat.ML

QDSB: Quantized Diffusion Schrödinger Bridges

Tobias Fuchs, Florian Kalinke, Nadja Klein

AI总结在源分布和目标分布仅通过未配对样本指定的情况下，生成模型的学习变得越来越重要。本文提出了一种名为QDSB的量化扩散Schrödinger桥方法，用于加速无模拟Schrödinger桥的训练过程。该方法通过在锚点量化后的分布上计算端点耦合，并通过单元采样将结果映射回原始数据点，从而减少计算成本并保持全局传输结构的稳定性。实验表明，QDSB在保持样本质量的同时显著提升了训练效率。

2605.11978 2026-05-13 cs.CL

On Predicting the Post-training Potential of Pre-trained LLMs

Xiaoyuan Li, Yubo Ma, Kexin Yang, Moxin Li, Keqin Bao, Wenie Wang, Fuli Feng, Dayiheng Liu

AI总结本文研究如何在预训练阶段预测大型语言模型在后续微调后的性能，以提高模型选择效率。作者提出了一种基于评分标准的判别评估框架RuDE，通过构建细粒度对比样本来评估模型的可塑性，并引入4C分类体系指导实验设计。实验表明，RuDE能以超过90%的相关性预测模型微调后的表现，并通过强化学习验证其有效性，为高效开发基础模型提供了新方法。

Comments Under Review