Refresh-Scaling the Memory of Balanced Adam
AI总结 本文研究了平衡Adam优化器中单一剩余超参数β的设置问题,提出应将其视为统计记忆范围的控制变量,而非固定常数。通过引入有效训练周期和刷新次数的概念,作者发现将β调整使得刷新次数约为1000时,能在不同规模的视觉和语言任务中提升模型的鲁棒性。实验表明,该方法相比固定β值的最优基线,在最坏情况下的验证损失差距减少了33.4%,并显著提升了模型性能的一致性。
AI总结 本文研究了平衡Adam优化器中单一剩余超参数β的设置问题,提出应将其视为统计记忆范围的控制变量,而非固定常数。通过引入有效训练周期和刷新次数的概念,作者发现将β调整使得刷新次数约为1000时,能在不同规模的视觉和语言任务中提升模型的鲁棒性。实验表明,该方法相比固定β值的最优基线,在最坏情况下的验证损失差距减少了33.4%,并显著提升了模型性能的一致性。
AI总结 在联邦推理任务中,如何在不集中训练和不共享原始数据的前提下,利用多方持有的私有高质量示例提升大语言模型的多步推理能力是一个关键挑战。本文提出了一种无需训练的不确定性感知联邦推理框架FERA,通过迭代的服务器-客户端协同优化,使客户端生成带有轻量不确定性估计的推理轨迹,服务器则基于这些轨迹合成更优的推理结果并反馈给客户端,从而逐步提升整体推理性能。该方法引入了不确定性感知的自批判聚合机制,有效解决异构客户端之间的冲突,并通过理论分析证明了其收敛性与效率优势,实验表明FERA在多个推理基准上均优于现有方法。
Comments 44 pages, 8 figures
AI总结 PlantMarkerBench 是一个面向多物种植物的基准数据集,用于评估基于文献的植物标记基因推理能力。该基准通过模块化流程构建,涵盖拟南芥、玉米、水稻和番茄四种植物,包含5,550个标注了标记证据有效性、类型和支持强度的句子级实例。研究定义了两个任务:判断句子是否为基因-细胞类型对的有效标记证据,并对证据类型进行分类,旨在推动基于文献的生物证据解析和可信科学信息提取的研究。
AI总结 蛋白质-蛋白质相互作用(PPIs)在细胞功能和疾病机制中起着关键作用。当前基于学习的PPI预测方法主要关注学习蛋白质的表示,却忽略了设计专门的分类头,通常依赖于缺乏生物学依据的通用聚合方法。本文提出了一种基于生物“L3规则”的模型无关PPI分类器L3-PPI,通过引入L3路径正则化的图提示学习方法,将蛋白质嵌入对的分类任务转化为图级别的分类任务,有效提升了预测性能。
Comments Accepted at ICML 2026
AI总结 TOC-Bench 是一个用于评估视频大语言模型(Video-LLMs)时间对象一致性能力的诊断基准。该基准通过对象轨迹和结构化时间事件时间线进行构建,强调模型在遮挡、消失、重现、状态变化和跨对象交互等场景下保持同一对象身份、状态和连续性的能力。研究发现,尽管现有模型在一般视频理解任务上表现良好,但在事件计数、事件排序、身份敏感推理和幻觉检测等方面仍存在显著不足,表明时间对象一致性是当前视频大语言模型的一个关键瓶颈。
AI总结 本文提出 SoccerLens,一个用于评估足球视频理解中视觉 grounding 能力的新基准,旨在解决现有模型可能依赖虚假关联而非真实视觉证据的问题。该基准包含标注的13类常见足球事件视频片段,并通过三级语义相关性结构组织视觉线索。研究进一步扩展了注意力归因方法,引入了衡量模型注意力是否与标注线索对齐的评估指标,结果表明当前最先进的足球视觉语言模型在 grounding 性能上表现有限,揭示了预测准确率与真实视觉理解之间的显著差距。
Comments Preprint
AI总结 本文提出了一种名为HS-FNO的历史空间傅里叶神经算子,用于求解非马尔可夫型偏微分方程。该方法通过引入扩展状态$u_t(θ,x)$,将历史信息纳入模型,从而更准确地捕捉系统动态。HS-FNO通过将历史状态更新分解为预测新时间片和精确移动已知部分,减少了学习维度并提升了预测精度。实验表明,HS-FNO在多个基准问题上优于现有方法,尤其在自回归预测中表现出显著的误差降低。
Comments 15 pages, 4 figures, 1 table. Code at https://github.com/lennonshikhman/hs-fno/
AI总结 本文提出了一种名为VulTriage的三路径上下文增强框架,用于基于大语言模型(LLM)的漏洞检测。该方法通过控制路径提取并描述程序结构信息,知识路径检索相关的漏洞模式与示例,语义路径总结代码功能行为,从而增强LLM的输入上下文,提升其对细微语义差异导致的漏洞的检测能力。实验表明,VulTriage在多个基准数据集上取得了优于现有深度学习和LLM基线方法的性能,尤其在资源有限和类别不平衡场景下表现出良好的泛化能力。
AI总结 本文提出了一种名为FlashAR的轻量级后训练加速框架,旨在高效提升自回归图像生成模型的推理速度。该方法通过引入一个垂直预测头与原有的水平预测头协同工作,基于双向下一个token预测实现高度并行的生成过程,同时尽量保持原模型的训练目标不变。实验表明,FlashAR仅需少量训练数据即可实现对预训练模型的高效适配,在512x512图像生成任务中达到最高22.9倍的加速效果。
Comments Post-training acceleration for autoregressive image generation, code is available at https://lxazjk.github.io/FlashAR/
AI总结 本文提出了一种基于关键步骤的信用分配方法PiCA,用于改进基于大语言模型的搜索智能体在强化学习中的训练效果。针对长期任务中奖励稀疏、信用孤立和分布偏移等关键问题,PiCA通过引入潜在基于奖励塑形机制,将搜索过程重构为累积进展的序列,并利用历史轨迹中的关键步骤作为信息峰值,为每一步提供与最终目标紧密关联的密集奖励。实验表明,PiCA在多个知识密集型问答任务中显著提升了模型性能,显示出其良好的通用性和有效性。
Comments 21 pages, 7 figures
AI总结 本文研究了具有睡眠臂的半带问题中的组合汤普森采样(CTS)算法,针对其长期存在的理论保障不足和实际性能不佳的问题,提出了首个最坏情况下的遗憾界分析,并设计了一种改进算法CL-SG。该算法通过共享高斯种子协调探索,显著提升了理论性能,实验表明其在真实数据集上优于现有方法。
Comments Accepted by INFOCOM 26 on Dec 2025
AI总结 本文提出了一种名为SHIELD的分层算法,通过利用强凸性和拉格朗日对偶性,有效降低$\ell_1$-正则化凸规划中的决策变量维度和约束集规模,同时保证被移除的约束和变量仍满足安全要求。为加速算法运行,作者引入了基于Transformer的深度神经网络辅助对偶证书的推导,并在复杂多模态交通场景中的随机模型预测控制(SMPC)中验证了该方法,实验表明其在保持可行性与闭环安全性的前提下,计算效率提升了数量级。
AI总结 本文研究了对话中情感意义分歧(AMD)的相变现象,即对话双方对同一词语的情感理解逐渐偏离,最终导致沟通失效。作者基于言语行为理论和熵正则化博弈论,构建了AMD的数学模型,并发现当参数 $βα> 4$ 时,AMD的增加会导致协调修复能力的突变式崩溃。在多个数据集上的实验证明,AMD在对话失控前表现出显著的临界减慢特征,且其时间动态模式优于传统毒性或情感指标,为理解对话破裂提供了新的理论依据。
Comments Accepted to the ACL 2026 Student Research Workshop
AI总结 本文提出了一种名为FlashClear的高效图像内容移除方法,旨在解决基于扩散模型的对象移除方法在计算效率上的不足。该方法通过引入区域感知的对抗蒸馏(RAD)和前景优先的非对称注意力与缓存(FPAC)策略,实现了仅需少数步骤即可完成高质量内容移除的模型,显著提升了推理速度。实验表明,FlashClear在保持视觉质量的同时,相比现有方法在速度上分别提升了8.26倍和122倍。
Comments Code: https://github.com/GuoCalix/FlashClear
AI总结 本文提出了一种基于探索感知的强化学习框架,旨在解决智能体在执行任务时探索策略不加区分的问题。该方法通过变分推断引入细粒度奖励函数,能够评估探索行为对未来决策的潜在提升,并结合探索感知的分组机制,在优化过程中区分探索动作与任务完成动作。实验表明,该方法在多种文本和图形界面基准任务中均取得了显著提升。
AI总结 该研究提出了一种名为EnvTrustBench的可扩展智能体框架,用于评估大型语言模型代理在面对过时、错误或恶意环境信息时的可靠性问题。研究定义了“证据锚定缺陷”(EGD),即代理在未核实当前证据的情况下,仅凭环境提供的信息做出决策,从而导致任务错误。通过构建任务场景、生成工作空间与验证机制,EnvTrustBench系统评估了多种代理在不同情境下的表现,揭示了环境信息可靠性对代理行为的广泛影响,突显了环境锚定在智能体系统中的核心地位。
AI总结 该论文提出了一种名为L2A的框架,旨在通过有效利用历史姿态信息来提升三维人体姿态估计的准确性。研究发现,现有方法在跨层特征复用方面存在不足,为此,作者设计了空间-时间并行的Transformer骨干网络以保持一致的表示空间,并引入了历史姿态积累(HPA)机制和层姿态历史聚合(LPA)模块,以自适应地整合多层特征,减少冗余并提升稳定性。实验表明,该方法在多个基准数据集上取得了最先进的性能。
Comments 15page
AI总结 CoLVR 是一种通过对比优化增强潜空间视觉推理探索能力的方法,旨在解决现有模型因依赖硬对齐目标而限制潜空间推理灵活性的问题。该方法引入了基于角度扰动的潜空间对比训练框架,以学习更加多样化和探索性强的表示,并结合强化学习的潜轨迹对比奖励进行后训练,进一步优化潜空间推理过程。实验表明,CoLVR 在多个基准测试中显著提升了潜空间表示的探索能力,并在跨域任务中表现出色。
AI总结 本文提出了一种名为CaTR的强化学习框架,用于解决机场地面上的实时多架飞机滑行路径规划问题。该框架通过分层的冲突感知观测机制,结合基于网格的环境建模和动作掩码技术,能够有效捕捉当前及下游的交通冲突信息,并采用价值分解策略以平衡安全与效率的多目标优化。实验表明,CaTR在多种交通密度下均能实现优于传统规划和强化学习方法的安全与效率综合性能。
AI总结 SkillMaster 是一种旨在使大语言模型代理实现自主技能掌握的训练框架。该方法通过轨迹引导的技能复盘、反事实效用评估和双优势估计机制,使代理能够在任务解决过程中自主创建、优化和选择技能,从而提升其应对复杂任务的能力。实验表明,SkillMaster 在多个基准任务中显著优于现有方法,展示了代理从被动使用技能向主动学习和改进技能的能力转变。
AI总结 本文介绍了一个包含100,502条哈萨克斯坦电影评论的多语言语料库,涵盖俄语、哈萨克语及代码混合文本,时间跨度从2001年至2025年。评论经过人工标注语言和情感极性,并附有部分用户评分。研究通过对比传统文本特征方法与多语言Transformer模型在情感分类任务中的表现,发现后者在极性分类任务中具有明显优势,但在评分分类任务中仍面临类别不平衡和评分细微差异带来的挑战。
Comments 10 pages, 1 figure, 8 tables, to appear in Proceedings of the 6th International Conference on Natural Language Processing for the Digital Humanities (NLP4DH 2026)
AI总结 本文提出BEACON框架,旨在通过最佳努力适应实现跨领域协同训练,用于在源域有大量示范而目标域示范有限的情况下训练生成式机器人策略。该方法将跨域协同训练建模为差异感知的重要性重加权问题,同时学习基于扩散模型的视觉运动策略和样本级源权重,以最小化目标域泛化保证下的目标函数。通过可扩展的实例级差异估计器、策略与权重的随机交替更新以及多源扩展,BEACON在多种跨域场景中提升了策略的鲁棒性和数据效率,并隐式实现了特征对齐。
AI总结 本文提出了一种通过直接最小化Bethe自由能来训练贝叶斯神经网络的方法,替代传统的变分下界最大化策略。该方法在树状因子图上能够精确计算Bethe自由能,支持概率层和确定层的混合结构,并且在权重后验限制为最后一层高斯分布时,能够得到解析可计算的损失函数。实验表明,该方法在预测性能上与标准方法相当,同时避免了变分族选择带来的Jensen间隙,并实现了单次梯度传递下的超参数优化。
Comments Submited to conference - fix typo in title + name
AI总结 本文提出了一种名为 P-Flow 的新框架,用于解决线性逆问题,通过引入代理梯度来更新源点,有效避免了传统方法中因长链求导导致的数值不稳定和计算开销。该方法结合高维空间中的测度集中现象,采用高斯球面投影以确保先验分布的一致性,并基于贝叶斯理论和 Lipschitz 连续性进行了理论分析。实验表明,P-Flow 在多种图像修复任务中表现优异,尤其在极端退化条件下具有明显优势。
AI总结 本文提出了一种名为SDG-MoE的新颖稀疏混合专家(MoE)架构,旨在通过引入专家间的结构化交流机制提升模型性能。该方法在路由后引入了一个轻量级的迭代讨论步骤,包含支持图和批评图两个交互矩阵,以及基于分歧的锚定机制,以增强专家间的信息传递与协调。实验表明,SDG-MoE在多个基准数据集上显著优于传统MoE和无符号图通信基线,验证了其有效性与优越性。
AI总结 本文研究了如何在推理时通过分配额外计算资源来提升大语言模型的性能,提出了一种名为AutoTTS的环境驱动框架,用于自动发现高效的推理时扩展策略。该方法通过构建可控的环境,使策略搜索更加高效,并引入参数化和反馈机制以提升发现效率。实验表明,所发现的策略在数学推理任务中优于手动设计的基线,在成本与准确率的权衡上表现更优,且发现过程成本低廉。
Comments 25 pages
AI总结 CktFormalizer 是一个将自然语言自动转化为电路表示的框架,旨在解决大语言模型生成的 Verilog 代码在综合和实现过程中常出现的缺陷问题。该框架通过嵌入在 Lean 4 中的依赖类型硬件描述语言,实现了类型检查、正确性保障和形式化证明,有效提升了生成电路的正确性和可实现性。实验表明,CktFormalizer 在保持仿真通过率的同时,显著提高了后端实现的成功率,并能通过自动化定理证明实现性能优化。
AI总结 本文研究了多智能体在同时分配目标和规划路径(TAPF)中的协调问题,提出了一种解耦目标分配与路径规划的迭代优化框架。该方法基于高效的次优多智能体路径规划求解器,通过反复规划路径并利用反馈信息优化目标分配,有效提升了算法的可扩展性。实验表明,该框架在保持较好解质量的同时,显著优于基于冲突搜索的传统方法,为实际大规模TAPF问题提供了可行的解决方案。
AI总结 该论文提出了一种名为VIMCAN的混合架构,用于视觉-惯性融合的三维人体姿态估计。该方法结合了Mamba的高效序列建模能力和Cross-Attention的空间感知能力,有效解决了传统Transformer在处理长序列时计算复杂度高、难以实时处理的问题。实验表明,VIMCAN在多个数据集上取得了优于现有方法的精度,并能在普通消费级硬件上实现每秒60帧以上的实时推理。
Comments Accepted in CVPR 2026
AI总结 该研究提出MultiSoc-4D,一个用于诊断封闭集指令下大型语言模型(LLM)标注偏差的孟加拉语社交媒体数据集,包含超过58,000条来自六个来源的社交媒体评论,并在四个维度上进行标注。通过多模型协作标注与共享验证集的结构化流程,研究系统性地揭示了LLM在标注过程中普遍存在的“指令诱导标签坍缩”现象,即模型倾向于使用默认标签,导致对少数类别的检测严重不足。该研究还通过统计验证证明了这一现象形成的“标签一致性幻觉”,并评估了40多个LLM在训练流程中的标注偏差传播情况,为低资源语言的NLP标注研究提供了重要基准。
Comments 21 pages, 14 figures, 13 tables