arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.12286 2026-05-13 q-bio.GN cs.AI

Set-Aggregated Genome Embeddings for Microbiome Abundance Prediction

Younhun Kim, Georg K. Gerber, Travis E. Gibson

AI总结该研究探讨了是否仅通过微生物群落成员的原始DNA序列即可预测其群落层面的丰度特征。研究提出了一种基于集合聚合基因组嵌入（SAGE）的方法，结合基因组语言模型（GLMs）的少样本学习能力，用于预测微生物群落的丰度分布。实验表明，该方法在新型基因组上的泛化能力优于传统生物信息学方法，并验证了群落层面潜在表示对性能提升的关键作用。

Comments 11 pages, 7 figures

2605.12280 2026-05-13 cs.SE cs.AI

Iterative Audit Convergence in LLM-Managed Multi-Agent Systems: A Case Study in Prompt Engineering Quality Assurance

Elias Calboreanu

AI总结本文研究了在大型语言模型（LLM）管理的多智能体系统中，通过迭代审计实现规范收敛的问题，以AEGIS系统为案例，探讨提示规范的质量保证。研究采用由 Claude 子代理执行的检查表驱动审计方法，发现了51个提示规范一致性缺陷，并提出了七类缺陷的分类体系及编码规则。实验表明，随着审计范围的扩展，缺陷收敛呈现非单调变化，且单一文件审查无法发现所有问题，研究还提炼出一套可复现的审计协议。

Comments 13 pages, 3 figures, 6 tables. Companion preprint at arXiv:2604.05000. Submitted to MDPI Software, Special Issue on Software Reliability, Security and Quality Assurance

2605.12264 2026-05-13 cs.CR cs.CL cs.LG

Reconstruction of Personally Identifiable Information from Supervised Finetuned Models

Sae Furukawa, Alina Oprea

AI总结本文首次研究了从监督微调（SFT）模型中重建个人身份信息（PII）的问题。作者构建了包含PII的医疗和法律场景下的多轮问答数据集，用于评估模型在微调过程中可能泄露的隐私信息。研究提出了一种名为COVA的新解码算法，在前缀攻击下显著优于现有方法，实验表明即使攻击者仅掌握部分微调数据知识，也能有效重建PII，且不同类型PII的泄露程度存在显著差异。

2605.12263 2026-05-13 cs.DL cs.AI

Reconnecting Fragmented Citation Networks with Semantic Augmentation

Vu Thi Huong, Annika Buchholz, Imene Khebouri, Thorsten Koch, Tim Kunt, Wolfgang Peters-Kottig, Tomasz Stompor, Janina Zittel

AI总结本文研究了如何通过语义增强方法修复科学文献引用网络中的碎片化问题。作者提出了一种结合引用拓扑结构和基于大语言模型的文本相似度的高效混合框架，通过添加语义边和调整现有引用权重来增强原始引用网络。该方法在保持学科同质性的同时显著减少了网络碎片，并在大规模数据集上表现出良好的扩展性，为改进基于引用的科学评价指标提供了实用策略。

Comments 11 pages, 4 figures, 3 tables

2605.12241 2026-05-13 eess.SP cs.AI cs.LG

Pretraining Strategies and Scaling for ECG Foundation Models: A Systematic Study

M A Al-Masud, Nils Strodthoff

AI总结本文系统研究了心电图（ECG）基础模型的预训练策略及其规模扩展，评估了五种不同的自监督学习目标，并在最多1100万条公开数据上分析了模型性能随数据量增长的变化趋势。研究发现，对比预测编码（CPC）在多种临床任务中表现出最佳的迁移能力，且随着数据量增加，大多数目标的性能仍有显著提升。此外，研究还表明结构化状态空间模型在ECG表示学习中优于Transformer和CNN模型，其强归纳偏置可能是提升模型性能的关键因素。

Comments 59 pages, 16 figures, 59 Tables. Code available at https://anonymous.4open.science/r/ecg-pretraining-strategies-4DE3

2605.12239 2026-05-13 cs.PL cs.AI math.CT

Harness Engineering as Categorical Architecture

Bogdan Banu

AI总结本文探讨了基于大语言模型的智能体系统中“代理框架”（harness）的设计问题，提出了一种基于范畴论的架构三元组（G, Know, Phi）作为形式化理论，用于描述和规范代理系统的组成、属性保持和跨框架比较。研究将代理外部化的四个核心要素——记忆、技能、协议和框架工程——映射到该架构的三个组成部分，并通过编译器验证结构保证的保持性。实验验证了该理论在多个实际框架中的适用性，并展示了其在质量驱动的智能体升级中的有效性。

2605.12235 2026-05-13 stat.ML cs.LG

Optimal Policy Learning under Budget and Coverage Constraints

Giovanni Cerulli

AI总结本文研究在预算和最低覆盖约束下的最优策略学习问题，揭示了该问题具有类似于背包问题的结构，并证明最优策略可通过结合预算和覆盖影子价格的线性阈值规则来刻画。研究还表明其组合优化的线性规划松弛具有常数积分间隙，意味着离散分配与最优解在渐近情况下等价。基于此，作者提出了两种可实施的算法——贪心拉格朗日算法和排序-切割算法，并通过实验验证了它们在不同条件下的近似最优性能。

2605.12217 2026-05-13 cs.AR cs.AI

Heterogeneous SoC Integrating an Open-Source Recurrent SNN Accelerator for Neuromorphic Edge Computing on FPGA

Michelangelo Barocci, Vittorio Fra, Enrico Macii, Gianvito Urgese

AI总结本文提出了一种异构系统级芯片（SoC），集成开源的循环脉冲神经网络（SNN）加速器ReckOn，旨在推动边缘端神经形态计算的发展。该设计结合了RISC-V开源微控制器X-HEEP和Zynq Ultrascale系统中的ARM处理器，通过在FPGA上实现ReckOn的物理版本，验证了其分类性能与实际硬件的一致性，并进一步评估了其在线学习能力，用于盲文数字数据集的分类任务。该研究为开放源码的神经形态硬件设计提供了一种灵活且成本较低的实现方案。

Comments Deep Learning meets Neuromorphic Hardware Workshop at ECML-PKDD 2024 Conference in Vilnius, Lithuania

详情

DOI: 10.1007/978-3-032-25311-8_10
Journal ref: Machine Learning and Principles and Practice of Knowledge Discovery in Databases 3 (2026) 128-143

英文摘要

The growing popularity of Spiking Neural Networks (SNNs) and their applications has led to a significant fast-paced increase of neuromorphic architectures capable of mimicking the spike-based data processing typical of biological neurons. The efficient power consumption and parallel computing capabilities of the SNNs lead researchers towards the development of digital accelerators, which exploit such features to bring fast and low-power computation on edge devices. The spread of digital neuromorphic hardware however is slowed down by the prohibitive costs that the silicon tape out of circuits brings, that's why targeting Field Programmable Gate Arrays (FPGAs) could represent a viable alternative, offering a flexible and cost-effective platform for implementing digital neuromorphic systems and helping the spread of open-source hardware designs. In this work we present an heterogeneous System-on-Chip (SoC) where the operations of ReckOn, a Recurrent SNN accelerator, are managed through the integration with traditional processors. These include the RISC-V-based, open-source microcontroller X-HEEP and the ARM processor featured in Zynq Ultrascale systems. We validate our design by reproducing the classification results through the implementation on FPGA of the taped-out version of ReckOn in order to check the equivalence of the accuracy and the characteristics in terms of physical implementation. In a second set of experiments, we evaluate the online learning capability of the solution in classifying a subset of the Braille digit dataset recently used to compare neuromorphic frameworks and platforms.

URL PDF HTML ☆

赞 0 踩 0

2605.12201 2026-05-13 cs.SE cs.AI

Uncertainty Quantification for LLM-based Code Generation

Senrong Xu, Yuhao Tan, Yanke Zhou, Guangyuan Wu, Zenan Li, Yuan Yao, Taolue Chen, Feng Xu, Xiaoxing Ma

AI总结本文研究了基于大语言模型（LLM）的代码生成任务中的不确定性量化问题，提出了一种名为RisCoSet的新方法。该方法通过多假设检验构建风险可控的预测集，能够在保证高置信度包含正确解的前提下，有效减少生成代码的冗余。实验表明，与现有方法相比，RisCoSet在多个LLM上均表现出更优的性能，最多可减少24.5%的代码移除量。

2605.12194 2026-05-13 cond-mat.mtrl-sci cs.LG

Probing Non-Equilibrium Grain Boundary Dynamics with XPCS and Domain-Adaptive Machine Learning

Mouyang Cheng, Bowen Yu, Chu-Liang Fu, Nina Andrejevic, Matthias T. Agne, Riley Hanus, Qiwei Wan, Nathan C. Drucker, Thanh Nguyen, Andrei Fluerasu, Lutz Wiegart, Xiaoqian M Chen, Daniel Pajerowski, Yongqiang Cheng, Joshua J Turner, G. Jeffrey Snyder, Mingda Li

AI总结该研究结合X射线光子相关谱（XPCS）与领域自适应机器学习方法，探索纳米晶材料中晶界在非平衡状态下的动态行为。通过温度和晶粒尺寸依赖的两时间XPCS测量，揭示了晶界弛豫过程在实验时间尺度上远未达到平衡的现象。研究提出了一种半监督学习框架，通过领域自适应表示对齐技术，将连续介质模拟中的物理参数标签迁移至实验XPCS数据，从而直接提取出晶界扩散率、刚度和有效浓度等关键动力学参数，为研究固体中非平衡缺陷运动提供了新的方法。

Comments 14 pages, 4 figures

2605.12190 2026-05-13 stat.ML cs.LG

Information-Theoretic Generalization Bounds for Sequential Decision Making

Futoshi Futami, Masahiro Fujisawa

AI总结本文研究了序贯决策问题中的泛化界分析，针对在线学习、流式主动学习和多臂老虎机等场景，提出了一个序贯超样本框架。该方法通过分离学习者的过滤过程与用于幽灵坐标比较的证明扩展，引入了基于轮次选择器-损失信息项的序贯条件互信息（CMI）来控制泛化差距，并在适当方差条件下建立了伯恩斯坦型改进，提升了收敛速率。该方法适用于多种序贯决策场景，为算法依赖的泛化分析提供了新工具。

2605.12180 2026-05-13 cs.IT cs.AI math.IT

A Deep Learning-based Receiver for Asynchronous Grant-Free Random Access in Control-to-Control Networks

Massimo Battaglioni, Edoardo Carnevali, Dania De Crescenzo, Enrico Testi, Marco Baldi, Enrico Paolini

AI总结本文研究了室内共享无线信道中异步无授权控制到控制（C2C）通信系统中的接收机设计问题。每个通信节点发送包含可变长度LDPC编码数据的命令单元，并由起始序列和尾序列标识。由于异步接入，接收端观测到的是多个节点发送信号的叠加。本文提出了一种基于卷积神经网络的接收机架构，能够直接从接收信号中检测命令单元的边界，并利用LDPC译码的软信息和信道估计提升尾序列检测性能。仿真结果表明，该接收机在高负载和无协调条件下仍能实现可靠的包边界识别和低端到端丢包率。

Comments Submitted to IEEE Transactions on Communications

2605.12165 2026-05-13 physics.ins-det cs.LG physics.comp-ph

Machine Learning for neutron source distributions

Jose Ignacio Robledo, Norberto Schmidt, Klaus Lieutenant, Jingjing Li, Stefan Kesselheim, Paul Zakalek

AI总结本文提出了一种基于概率生成模型的新方法，用于中子源分布的估计。该方法利用蒙特卡洛粒子列表进行训练，训练完成后模型可独立于原始数据进行高效、快速且无需额外内存的采样。研究对比了变分自编码器、归一化流、生成对抗网络和去噪扩散模型等多种生成模型，并与现有方法进行了比较，展示了概率生成模型在中子源分布建模中的可行性和优势。

Comments Under review at Machine Learning: Science & Technology

2605.12153 2026-05-13 cs.SE cs.AI

CIDR: A Large-Scale Industrial Source Code Dataset for Software Engineering Research

Vladislav Savenkov

AI总结本文介绍了CIDR，一个通过与12家工业合作伙伴直接合作收集的大型工业源代码数据集，包含2440个软件仓库，涵盖138种编程语言，总代码量达3.73亿行，并附有结构化元数据。与现有基于开源平台的代码语料库不同，CIDR仅包含在正式数据共享协议下提供的专有生产代码，覆盖企业级Web与移动开发、金融科技和定制软件咨询等领域。该数据集经过多阶段处理流程，包括结构化合作伙伴接入、两阶段质量筛选和确定性匿名化处理，旨在支持代码智能、软件质量分析、代码语言模型预训练与微调、开发者行为研究以及智能体评估基准构建等方向的研究。

Comments 34 pages, 9 figures, 4 appendices. Dataset access: https://fermatix.ai/#Contact. Anonymization tool: https://github.com/Fermatix/repo-sanitizer. Metadata utility: https://github.com/Fermatix/repo_metadata_cli

2605.12147 2026-05-13 cs.CR cs.LG

PrivacySIM: Evaluating LLM Simulation of User Privacy Behavior

James Flemings, Murali Annavaram

AI总结本文提出PrivacySIM，用于评估大型语言模型（LLMs）在模拟用户隐私行为方面的表现。研究通过分析1000名用户的实际隐私决策数据，探讨用户人口统计信息、过往经验及隐私态度等特征对LLM模拟效果的影响。实验表明，基于用户画像的条件模拟能提升模型表现，但现有模型仍难以准确还原个体隐私决策，尤其对高AI使用但隐私态度不明确的用户模拟难度较大。PrivacySIM为评估和改进LLM隐私行为模拟能力提供了重要工具。

2605.12129 2026-05-13 cs.SE cs.AI cs.OS

It's Not the Size: Harness Design Determines Operational Stability in Small Language Models

Yong-eun Cho

AI总结本文研究了小语言模型（2-3B参数）的操作稳定性如何受“框架设计”影响，而非模型规模。通过对比三种不同框架条件（仅模型、最小外壳、四阶段流水线）在24个任务中的表现，发现四阶段流水线显著提升了任务成功率，尤其在Gemma4 E2B模型上达到了95.2%的任务成功率和100%的有效任务成功率。研究还揭示了框架缺失可能导致模型结构崩溃，并发现规划和恢复机制对性能提升贡献显著。

2605.12078 2026-05-13 cs.SE cs.AI

Property-Level Reconstructability of Agent Decisions: An Anchor-Level Pilot Across Vendor SDK Adapter Regimes

Oleg Solozobov

AI总结该研究探讨了智能体决策在不同供应商SDK适配环境下的可重构性问题，旨在评估决策过程的可追溯程度。研究采用未修改的决策轨迹重构器，对六个公共SDK体系中的固定示例进行分析，按属性分类判断其可填充程度。结果表明，不同体系下决策属性的可重构性存在显著差异，揭示了在治理完整性方面存在的多层级差距，为跨体系的智能体行为分析提供了新的评估框架。

Comments 23 pages, 3 tables; reproducibility package: https://doi.org/10.5281/zenodo.20077961; GitHub: https://github.com/agent-runtime-evidence/anchor-level-reconstructability-pilot

2605.12075 2026-05-13 cs.CR cs.AI

The Deepfakes We Missed: We Built Detectors for a Threat That Didn't Arrive

Shaina Raza

AI总结近年来，深度伪造（deepfake）检测的研究主要围绕2017至2019年间提出的威胁模型展开，重点关注公众人物的面部替换和语音操控等大规模虚假信息风险。然而，2022年至2026年的实际案例显示，当前主要威胁已转变为非自愿亲密影像、语音克隆诈骗和情感操控欺诈等新型问题。本文指出，研究方向与现实威胁的脱节已成为深度伪造防御的主要瓶颈，并呼吁学界重新调整研究重点，以应对当前日益增长的实际危害。

2605.12073 2026-05-13 cs.CC cs.AI

Clausal Deletion Backdoors for QBF: a Parameterized Complexity Approach

Leif Eriksson, Victor Lagerkvist, Sebastian Ordyniak, George Osipov, Fahad Panolan, Mateusz Rychlicki

AI总结该论文研究了量化布尔公式（QBF）的可满足性问题，提出了一种新的参数化复杂性方法，基于“子句删除后门”（CC-backdoor）的大小来分析求解效率。作者考虑了三个经典的易解QBF子类——Horn、2-CNF和线性方程，并证明除了Horn类外，其余两类在给定CC-backdoor大小为$k$时具有固定参数可解性（FPT）。研究揭示了QBF参数化复杂性中的关键区分点，并展示了不同求解技术在该框架下的应用潜力。

2605.12059 2026-05-13 cs.HC cs.RO

RoboBlockly Studio: Conversational Block Programming with Embodied Robot Feedback for Computational Thinking

Leyi Li, Chenyu Du, Jiafei Sun, Erick Purwanto, Qing Zhang

AI总结本文介绍了一款名为 RoboBlockly Studio 的交互式编程学习系统，旨在通过结合积木式编程、对话式AI教学代理和实体机器人执行，提升学生计算思维能力。该系统通过编程、运行、观察和修改的紧密循环，帮助学习者更好地理解程序逻辑与实际效果之间的联系。研究基于对编程教师的访谈设计，支持学习者自主性、程序行为的透明性、课堂任务的具身化以及通过AI对话引导反思等目标，并通过与高中生的实际应用验证了其有效性。

Comments Accepted to ACM DIS 2026. Camera-ready version

2605.12046 2026-05-13 quant-ph cs.AI cs.LG

Rethink the Role of Neural Decoders in Quantum Error Correction

Ge Yan, Shanchuan Li, Yuxuan Du

AI总结本文重新审视了神经解码器在量子纠错中的作用，针对表面码解码问题，在明确的精度与延迟约束下，对多种神经解码器架构进行了统一与改进，并开发了端到端压缩流程以评估其在FPGA硬件上的部署性能。研究发现，短期内解码性能更依赖于数据规模而非架构复杂度，适当的归纳偏置对实现高精度至关重要，且INT4量化是满足微秒级延迟需求的必要条件，为可扩展的实时神经量子纠错解码提供了具体指导。

Comments Accepted to ICML 2026; 33 Pages, 9 figures

2605.12001 2026-05-13 cs.IT cs.AI math.IT

CR^2: Cost-Aware Risk-Controlled Routing for Wireless Device-Edge LLM Inference

Nan Xue, Shengkang Chen, Zhiyong Chen, Jiangchao Yao, Yaping Sun, Zixia Hu, Meixia Tao

AI总结随着大语言模型（LLM）从集中式云平台向移动边缘环境迁移，如何在有限的设备-边缘资源下高效平衡延迟、能耗与精度成为关键问题。本文提出CR²，一种面向无线设备-边缘环境的成本感知风险控制路由框架，通过解耦设备端的轻量边缘门和边缘端的效用选择器，实现对查询的延迟路由决策。CR²引入了符合风险控制校准方法，能够在有限信息下显式控制决策风险，并在实验中表现出优于现有方法的精度-成本帕累托前沿性能。

Comments submitted to IEEE Journal

2605.11999 2026-05-13 cs.DC cs.AI cs.LG cs.PF

The Illusion of Power Capping in LLM Decode: A Phase-Aware Energy Characterisation Across Attention Architectures

Bole Ma, Ayesha Afzal, Jan Eitzinger, Gerhard Wellein

AI总结本文研究了在大语言模型推理过程中，功率限制（Power Capping）在实际应用中的效果问题，发现其在主流的自回归解码阶段效果并不明显。通过在多种注意力架构上进行能效分析，作者指出解码阶段主要受限于内存带宽而非计算能力，导致功率限制机制无法触发。研究提出通过时钟锁定（SM clock locking）替代功率限制，能够更有效地优化能效，在保持吞吐量损失最小的前提下，提升解码阶段的能源效率，并揭示了不同架构下的动态电压频率调节（DVFS）行为模式。

2605.11981 2026-05-13 physics.flu-dyn cs.AI

High-lift Wing Separation Control via Bayesian Optimization and Deep Reinforcement Learning

Ricard Montalà, Bernat Font, Oriol Lehmkuhl, Ricardo Vinuesa, Ivette Rodriguez

AI总结本研究利用壁面解析的大涡模拟方法，探讨了在雷诺数 $Re_c = 450,000$ 和攻角 $α = 23^\circ$ 下，通过合成射流对30P30N高升力翼型进行主动流动控制的问题。研究对比了开环贝叶斯优化和闭环深度强化学习两种优化策略，结果表明贝叶斯优化能有效提升气动效率，而深度强化学习由于奖励函数设计的限制，仅取得有限的改进。该工作为高雷诺数下基于深度强化学习的流动控制方法提供了重要的优化方向和实践经验。

2605.11922 2026-05-13 cs.SE cs.CL

StepCodeReasoner: Aligning Code Reasoning with Stepwise Execution Traces via Reinforcement Learning

Hao Wang, Rui Li, Lei Sha, Jie M. Zhang

AI总结现有的代码推理方法主要关注最终输出结果，忽视了中间推理过程，容易导致奖励黑客问题。为此，本文提出StepCodeReasoner框架，通过强化学习引入显式的中间执行状态监督，将代码推理转化为可验证的逐步执行建模问题。该方法在多个基准测试中表现出色，显著优于现有模型，在代码推理和生成任务中均取得提升。

2605.11901 2026-05-13 cs.CR cs.AI

AccLock: Unlocking Identity with Heartbeat Using In-Ear Accelerometers

Lei Wang, Jiangxuan Shen, Xi Zhang, Dalin Zhang, Jingyu Li, Haipeng Dai, Chenren Xu, Daqing Zhang, He Huang

AI总结本文提出了一种基于耳内加速度计的被动身份认证系统 AccLock，通过提取耳内血压波（BCG）信号的独特特征实现无需用户主动参与的高安全性身份验证。该系统采用两阶段去噪方案和基于解耦的深度学习模型 HIDNet 提取用户特定特征，并结合 Siamese 网络构建可扩展的认证框架，有效提升了环境噪声下的鲁棒性和实用性。实验表明，AccLock 在 33 名参与者中实现了平均误拒率（FAR）3.13% 和误接受率（FRR）2.99%，验证了其实际可行性。

2605.11891 2026-05-13 cs.CR cs.AI

Proteus: A Self-Evolving Red Team for Agent Skill Ecosystems

Zhaojiacheng Zhou

AI总结该研究提出了一种名为Proteus的自我进化的红队框架，用于评估基于技能的智能体生态系统中的安全风险。面对第三方技能可能在部署后通过迭代修改绕过审核并造成运行时危害的问题，Proteus通过模拟攻击者的行为，在形式化的五维攻击空间中搜索潜在威胁，并利用审核反馈进行跨轮次的技能变异与优化。实验表明，Proteus在多个测试场景中表现出较高的攻击成功率，揭示了当前技能审核机制在应对自适应攻击时存在显著的漏检风险。

2605.11875 2026-05-13 eess.SP cs.AI

Modulation Consistency-based Contrastive Learning for Self-Supervised Automatic Modulation Classification

Chenxu Wang, Shuang Wang, Lirong Han, Xinyu Hu, Hanlin Mo, Hantong Xing, Licheng Jiao

AI总结本文针对自动调制分类（AMC）任务中自监督学习方法依赖任务无关预训练目标、导致表征受干扰因素影响的问题，提出了一种基于调制一致性的对比学习框架Mod-CL。该方法利用同一信号不同时间片段之间调制类型一致但波形不同的特性，构建正样本对以学习共享的调制信息并抑制干扰因素。实验表明，Mod-CL在多个RadioML数据集上显著优于现有方法，尤其在标签稀缺场景下表现出色。

2605.11868 2026-05-13 cs.CR cs.AI

IPI-proxy: An Intercepting Proxy for Red-Teaming Web-Browsing AI Agents Against Indirect Prompt Injection

Chia-Pei, Chen, Kentaroh Toyoda, Anita Lai, Alex Leung

AI总结本文提出IPI-proxy，一个用于对抗间接提示注入（IPI）的开源拦截代理工具，旨在评估和增强浏览网页的AI代理的安全性。该工具通过实时修改白名单域名的HTTP响应，嵌入从多个基准库中提取的攻击载荷，支持多种嵌入方式和位置参数化配置，实现无需模拟页面的参数扫描测试。IPI-proxy填补了现有红队工具在真实部署环境中测试IPI漏洞的空白，为AI安全团队提供了一种可复现的测试平台。

Comments code: https://github.com/VulcanLab/IPI-Proxy/

2605.11865 2026-05-13 stat.ML cs.LG

Variance-aware Reward Modeling with Anchor Guidance

Shuxing Fang, Ruijian Han, Liangyu Zhang, Fan Zhou

AI总结本文研究了在人类偏好多样化的情况下，如何改进奖励模型以更准确地反映偏好不确定性。提出了一种基于锚点引导的方差感知奖励建模方法，通过引入两个粗粒度的响应级锚点标签，解决了高斯奖励模型在仅依赖成对偏好数据时的基本不可识别性问题。该方法在理论分析和多个实际数据集上均表现出优越的奖励建模性能和强化学习效果。