Q-MMR: Off-Policy Evaluation via Recursive Reweighting and Moment Matching
AI总结 本文提出了一种名为Q-MMR的新型理论框架,用于有限时间马尔可夫决策过程中的离线策略评估。该方法通过递归重加权和矩匹配,学习一组标量权重以近似目标策略下的期望回报,并在无需依赖函数类复杂度的情况下,建立了数据依赖的有限样本保证。研究还揭示了覆盖性在离线强化学习中的本质意义,并与重要性采样和线性FQE等现有方法建立了联系。
AI总结 本文提出了一种名为Q-MMR的新型理论框架,用于有限时间马尔可夫决策过程中的离线策略评估。该方法通过递归重加权和矩匹配,学习一组标量权重以近似目标策略下的期望回报,并在无需依赖函数类复杂度的情况下,建立了数据依赖的有限样本保证。研究还揭示了覆盖性在离线强化学习中的本质意义,并与重要性采样和线性FQE等现有方法建立了联系。
AI总结 SEQUOR 是一个用于评估模型在长期多轮对话中遵循约束能力的自动基准测试。该研究通过模拟基于真实对话的个性化交互,揭示了当前模型在面对持续、复杂或变化的用户指令时表现不佳的问题。实验表明,随着对话轮次增加或约束条件变化,模型的遵循准确率显著下降,突显了长期多轮指令遵循任务的挑战性。
AI总结 该研究提出了一种名为Retina-RAG的低成本模块化框架,用于同时进行糖尿病视网膜病变严重程度分级、黄斑水肿检测和临床报告生成。该方法结合高性能视网膜分类器与参数高效的视觉-语言模型,并通过检索增强生成模块注入眼科知识,以提升诊断一致性和减少错误生成。实验表明,Retina-RAG在多个指标上显著优于现有方法,且可在普通消费级GPU上运行,展示了在有限计算资源下实现临床结构化视网膜AI的可行性。
Comments 10 pages, 5 figures. Submitted to MICCAI 2026
AI总结 该研究聚焦于满足预算和截止时间约束的智能体工作流在线资源分配问题。面对复杂任务分解后的子任务调度,研究提出了一种基于依赖结构的动态资源分配方法,旨在最大化在给定预算和时间限制下完成整个工作流的概率。为此,作者提出了蒙特卡洛投资组合规划(MCPP)算法,通过模拟执行流程并根据实时结果进行重规划,有效提升了在多种约束条件下的任务完成成功率。
Comments Preprint
AI总结 研究表明,大型语言模型在面对孤立的错误声明时能够可靠地进行纠正,但在任务导向的请求中却往往选择顺从而非纠正,这种现象被称为“纠正抑制”。研究通过构建包含300个错误前提的基准,发现多个模型在任务场景下抑制纠正的比例高达90%。分析表明,模型并非缺乏知识,而是在任务上下文影响下,注意力被引导至顺从输出,从而抑制了纠正行为。研究提出了两种无需训练的干预方法,有效提升了模型的事实严谨性。
AI总结 随着长视频内容的增多,视频大模型在推理时面临内存和延迟的挑战。为此,本文提出VideoRouter,一种基于InternVL的查询自适应双路由框架,通过语义路由和图像路由分别预测时间覆盖策略和帧相关性,实现对不重要帧的高效压缩与关键帧的细节保留。该方法在多个基准测试中表现出色,在保持或降低计算预算的情况下显著提升了模型性能。
AI总结 本文提出了一种名为“在线局部化共形预测”(OLCP)的新方法,旨在解决在线学习和时间序列场景下传统共形预测因数据非交换性而无法有效量化不确定性的问题。该方法结合在线自适应与协变量依赖的局部化策略,以更好地应对数据异质性,并进一步开发了OLCP-Hedge算法,通过在线凸优化框架实现带宽选择,提升鲁棒性。实验表明,新方法在保证长期覆盖率的同时,相比现有方法具有更窄的预测区间。
AI总结 本文提出了一种名为 LineRides 的基于轨迹引导的强化学习框架,用于训练自行车机器人完成高难度特技动作。该方法无需示教或明确的时间信息,仅通过用户提供的空间轨迹和关键姿态即可学习多样化的可控特技行为。LineRides 引入了跟踪裕度以处理不可行轨迹,并通过轨迹距离和关键姿态序列解决时间模糊性问题,实验表明该方法在 Ultra Mobility Vehicle 平台上实现了多种特技动作的流畅切换与执行。
Comments Published in IEEE Robotics and Automation Letters (RA-L), 2026
AI总结 在深度强化学习中,智能体在持续学习过程中可能会出现“可塑性丧失”问题,即其学习新技能的能力随训练时间增加而下降。本文针对基于专家混合(MoE)网络的策略在持续学习中表现出的可塑性退化问题,提出了一种基于神经切线核理论的解决方案,将可塑性丧失形式化为谱可塑性损失,并设计了一种可计算的代理指标。基于此,作者提出了SPHERE方法,通过引入Parseval正则化惩罚,有效缓解了MoE策略在持续学习中的谱可塑性损失,实验表明该方法在多个基准任务中显著提升了持续学习性能。
Comments Accepted to ICML 2026
AI总结 该论文提出了一种名为FAAST的前向-only关联学习方法,用于在测试时进行有监督适配。FAAST通过一次性解析标注样本来生成快速权重,无需反向传播或依赖记忆/上下文,从而实现常数时间推理并解耦任务适配与预训练表示。实验表明,FAAST在图像分类和语言建模任务中表现优异,相比传统方法大幅减少了适配时间和内存消耗,是一种高效且可扩展的解决方案。
Comments 9 pages, 6 figures, 10 tables
AI总结 该研究旨在从基于调查的社区干预数据中发现稀疏且可行的反事实干预策略,以引导目标群体向参考群体转变。研究提出了一种基于固定基非负潜在表示的方法,通过可解释的潜在因素调整实现分布对齐,并结合Shapley值指导的归因分析和熵正则化的最优传输方法,学习出具有稀疏性且易于实施的群体级干预方案。实验表明,该方法在真实交通调查数据上有效提升了群体转化效果,同时保持了干预策略的简洁性和可操作性。
AI总结 LUCAS-MEGA 是一个大规模多模态数据集,旨在推动土壤-环境系统的表示学习研究。该数据集通过系统融合欧洲土壤环境观测数据构建,包含超过7万个样本和1000多个涵盖物理、化学、生物等多方面的特征。研究提出了一种名为 SoilFuser 的多智能体数据融合框架,用于标准化异构数据并生成统一的机器学习特征空间,并基于该数据集预训练了多模态表格模型 SoilFormer,展示了其在不确定性感知预测和土壤过程建模中的有效性。
Comments 27 pages, 7 figures, 1 table
AI总结 该研究旨在从时间序列数据中发现变量之间的因果关系,并允许不同变量之间存在不同的时间滞后。提出了一种基于禁忌搜索的结构学习算法,能够在指定最大滞后范围内为每条边分配特定的滞后长度,从而更灵活地建模时间依赖关系。该方法结合了基于BIC的可分解评分函数和节点特定的有效样本大小,同时引入滞后长度惩罚项以促进简洁的滞后分配,并提供了理论上的有效性与局部最优性保证。实验表明,该方法在模拟数据和真实疫情政策数据中均能准确恢复因果结构和滞后关系。
AI总结 本文提出了一种名为 HeadsUp 的高效前馈方法,用于从大规模多视角摄像机捕获中重建高质量的3D高斯人脸模型。该方法采用编码-解码架构,将输入视角压缩为紧凑的潜在表示,并将其解码为基于中性人脸模板的UV参数化3D高斯分布,从而实现输入图像数量和分辨率与3D高斯数量的解耦。实验在包含超过10,000个主体的内部数据集上进行,模型在重建质量、泛化能力和计算效率方面均达到先进水平,并展示了其在生成新身份和表情动画中的应用潜力。
Comments Project page: https://apple.github.io/ml-headsup/
AI总结 该研究提出了一种名为DGPO的分布引导策略优化方法,旨在解决大语言模型在复杂推理任务中细粒度信用分配的问题。DGPO通过将分布偏差作为引导信号而非严格惩罚,结合熵门控机制,有效区分真实推理突破与幻觉噪声,并实现对关键推理步骤的精准激励。该方法无需额外价值网络,显著提升了推理轨迹的探索效率,在多个基准测试中取得了优于现有方法的优异性能。
AI总结 在三维点云理解中,如何准确捕捉复杂邻域中的判别性特征是核心挑战,这对下游任务如具身人工智能和自动驾驶的执行精度有直接影响。为解决现有方法在点级或通道级特征评估中信息损失严重的问题,本文提出PointCRA网络,引入时间趋势变化作为新的评估维度,并结合邻域同质性约束构建多级校准框架,提升通道级特征的判别能力。实验表明,PointCRA在多个基准数据集上取得了优异的性能,并具有良好的可解释性、可迁移性和高效性。
AI总结 机器卸载旨在移除特定训练数据以满足隐私法规要求,但现有研究大多假设卸载与部署时精度一致,忽略了实际大模型常以低精度部署。本文提出量化恢复攻击(QRA),指出INT4量化会在模型通过BF16合规性检查后恢复被遗忘的内容,且INT4量化下恢复强度可达22倍。为应对这一问题,作者提出DURABLEUN-SAF方法,在保证遗忘效果和模型性能的同时提升量化鲁棒性,并在多个数据集上验证了其有效性。
AI总结 该研究旨在提升大语言模型在数学推理任务中的表现,通过优化奖励函数来改进强化学习的效果。研究提出了一种基于搜索的框架,利用前沿语言模型生成候选奖励函数,并通过多轮迭代验证与优化,最终选出性能最佳的奖励函数组合。实验表明,该方法在GSM8K数据集上显著提升了模型的F1分数,优于传统基线方法。
AI总结 本文研究了多跳事实验证(MHFV)中复杂推理的问题,针对大语言模型在逻辑链断裂和幻觉方面的缺陷,提出了一种基于结构因果模型(SCM)的新框架,将验证过程建模为因果推理任务。通过引入基于规则的强化学习策略——组相对策略优化(GRPO),动态平衡推理链的深度与简洁性,实验表明该方法在多个数据集上显著优于现有方法,为复杂事实验证提供了可靠且可解释的解决方案。
AI总结 本文研究了深度非线性网络在小初始化条件下训练过程中出现的长时间平坦期及突变特征获取现象。通过推导适用于任意平滑激活函数和可微损失函数的矩阵Frobenius范数不平衡恒等式,作者将激活函数分为四类通用类别,并在对称子流形上将矩阵演化简化为标量ODE,得出了临界深度逃逸时间与瓶颈层数相关的解析公式。理论结果与数值模拟高度一致,揭示了深度网络训练动态中瓶颈结构对逃逸时间的关键影响。
AI总结 尽管自回归的大型视觉-语言模型(LVLMs)在多模态任务中表现出色,但在生成过程中会出现“视觉信号稀释”现象,导致视觉注意力随着生成长度增加而衰减。为解决这一问题,本文提出了一种轻量可学习模块——持久视觉记忆(PVM),通过并行于前馈网络(FFN)的分支,建立一种与距离无关的视觉信息检索路径,从而增强模型对视觉信息的持续感知能力。实验表明,PVM在参数开销极小的情况下显著提升了模型性能,尤其在需要长期视觉感知的复杂推理任务中表现突出。
AI总结 该论文提出了一种名为ResRL的新方法,旨在提升大语言模型的推理能力,同时保持生成多样性。ResRL通过引入负样本投影残差强化学习,将正负样本之间的语义分布解耦,并利用低秩正空间投影和梯度调制策略,在增强推理性能的同时避免多样性下降。实验表明,ResRL在多个基准任务中优于现有方法,尤其在数学推理任务上取得了显著提升。
Comments Accepted to ICML 2026. Preprint version. https://github.com/1229095296/ResRL.git
AI总结 本文综述了用于具身人工智能和机器人仿真中的3D生成技术,重点探讨了其在生成可交互对象、构建任务导向仿真环境以及促进仿真到现实迁移中的三大作用。研究指出,当前领域正从追求视觉真实转向注重交互能力,并指出了物理注释不足、几何质量与物理合理性不匹配等主要瓶颈问题。该综述为推动3D生成成为具身智能可靠基础提供了系统性分析与未来方向。
Comments 27 pages, 11 figures, 8 tables
AI总结 随着大语言模型规模的快速增长,分布式训练中的通信开销成为影响计算效率的主要瓶颈。本文提出了一种名为CommFuse的新方法,通过通信分解与融合技术,有效消除现有重叠策略中的尾部延迟问题。该方法将传统的集体通信操作替换为细粒度的点对点通信,并优化计算调度,从而在数据并行和张量并行场景下显著降低通信开销,提升模型训练的吞吐量和计算利用率。
Comments Slightly modified the title, and corresponding minor wording change in the content
AI总结 本文提出了一种名为TSAssistant的人机协作智能框架,用于自动化靶点安全性评估(TSA)。该框架通过模块化、分章节的多智能体架构,将报告生成分解为多个专业子代理协同完成,每个子代理负责生成可引用、基于证据的TSA报告部分。TSAssistant支持用户在生成过程中进行交互式修改与补充,并通过系统记忆保持对话连贯性,旨在减轻证据整合与报告撰写的机械负担,实现人工智能与毒理学家的协同决策。
Comments Updated with self-consistency quantitative evaluation; additional quantitative and expert evaluations to be included in future revisions
AI总结 本文研究了在部分可观测的配电网络中,时空图神经网络(STGNN)用于故障定位的鲁棒性问题。作者提出了一种基于测量节点构建图结构的新方法,并引入了基于GraphSAGE和改进的GATv2的STGNN模型,实验表明该方法在性能和训练效率上均优于传统RNN模型。研究还发现,仅使用测量节点构建的图结构能够显著提升模型效率和稳定性,为部分可观测配电网络的故障定位提供了更实用和鲁棒的解决方案。
AI总结 该研究针对多模态大语言模型在STEM领域中的推理能力评估问题,提出了一个名为StepSTEM的细粒度基准测试,涵盖数学、物理、化学等283道研究生级别题目,强调跨模态推理过程的评估。该基准通过严格构建文本与视觉输入的互补性,并引入基于动态规划的步骤级评估框架,全面衡量模型的推理链表现。实验表明,当前主流模型仍主要依赖文本推理,跨模态能力仍有较大提升空间,StepSTEM为细粒度多模态推理研究提供了重要参考。
AI总结 本文研究了在结果尚未确定的情况下进行未来预测的问题,核心挑战在于监督信号仅在事后提供,难以指导预测过程中的关键判断。作者提出利用多次预测过程中产生的“预解决信号”来改进预测代理的判断能力,并设计了名为Milkyway的预测系统,通过持续更新的外部状态存储可复用的指导信息,从而在多次预测中不断优化预测结果。实验表明,该方法在多个基准测试中表现优异,其优势主要来源于预解决信号驱动的系统演化。
Comments Work in progress
AI总结 本文研究了漂移场(drift field)在生成模型中的性质,指出漂移场通常不是保守场,因此不能表示为任何标量势函数的梯度。作者发现非保守性的根源在于位置依赖的归一化操作,而高斯核是唯一的径向例外。为此,他们引入了尖锐核(sharp kernel)和对应的归一化漂移场,使其对于一般的径向核都成为保守场,从而可以使用梯度下降直接优化标量势函数,提升了模型的理论基础和生成性能。
AI总结 本文探讨了人们如何在有限认知能力下,通过他人获取丰富且灵活的环境知识。研究通过强化学习模拟表明,无需推断他人心理状态,仅通过观察行为并利用简单社会线索,即可间接传递高层表征。研究发现,基于模型的学习者在社会暴露下能更快学习并形成更接近专家的表征,揭示了文化传递可能源于非心智化的过程。
Comments Code available at https://github.com/skessler01/social-transmission-rl.git