A Theory of Saddle Escape in Deep Nonlinear Networks
AI总结 本文研究了深度非线性网络在小初始化条件下训练过程中出现的长时间平坦期及突变特征获取现象。通过推导适用于任意平滑激活函数和可微损失函数的矩阵Frobenius范数不平衡恒等式,作者将激活函数分为四类通用类别,并在对称子流形上将矩阵演化简化为标量ODE,得出了临界深度逃逸时间与瓶颈层数相关的解析公式。理论结果与数值模拟高度一致,揭示了深度网络训练动态中瓶颈结构对逃逸时间的关键影响。
AI总结 本文研究了深度非线性网络在小初始化条件下训练过程中出现的长时间平坦期及突变特征获取现象。通过推导适用于任意平滑激活函数和可微损失函数的矩阵Frobenius范数不平衡恒等式,作者将激活函数分为四类通用类别,并在对称子流形上将矩阵演化简化为标量ODE,得出了临界深度逃逸时间与瓶颈层数相关的解析公式。理论结果与数值模拟高度一致,揭示了深度网络训练动态中瓶颈结构对逃逸时间的关键影响。
AI总结 尽管自回归的大型视觉-语言模型(LVLMs)在多模态任务中表现出色,但在生成过程中会出现“视觉信号稀释”现象,导致视觉注意力随着生成长度增加而衰减。为解决这一问题,本文提出了一种轻量可学习模块——持久视觉记忆(PVM),通过并行于前馈网络(FFN)的分支,建立一种与距离无关的视觉信息检索路径,从而增强模型对视觉信息的持续感知能力。实验表明,PVM在参数开销极小的情况下显著提升了模型性能,尤其在需要长期视觉感知的复杂推理任务中表现突出。
AI总结 该论文提出了一种名为ResRL的新方法,旨在提升大语言模型的推理能力,同时保持生成多样性。ResRL通过引入负样本投影残差强化学习,将正负样本之间的语义分布解耦,并利用低秩正空间投影和梯度调制策略,在增强推理性能的同时避免多样性下降。实验表明,ResRL在多个基准任务中优于现有方法,尤其在数学推理任务上取得了显著提升。
Comments Accepted to ICML 2026. Preprint version. https://github.com/1229095296/ResRL.git
AI总结 本文综述了用于具身人工智能和机器人仿真中的3D生成技术,重点探讨了其在生成可交互对象、构建任务导向仿真环境以及促进仿真到现实迁移中的三大作用。研究指出,当前领域正从追求视觉真实转向注重交互能力,并指出了物理注释不足、几何质量与物理合理性不匹配等主要瓶颈问题。该综述为推动3D生成成为具身智能可靠基础提供了系统性分析与未来方向。
Comments 27 pages, 11 figures, 8 tables
AI总结 随着大语言模型规模的快速增长,分布式训练中的通信开销成为影响计算效率的主要瓶颈。本文提出了一种名为CommFuse的新方法,通过通信分解与融合技术,有效消除现有重叠策略中的尾部延迟问题。该方法将传统的集体通信操作替换为细粒度的点对点通信,并优化计算调度,从而在数据并行和张量并行场景下显著降低通信开销,提升模型训练的吞吐量和计算利用率。
Comments Slightly modified the title, and corresponding minor wording change in the content
AI总结 本文研究了在部分可观测的配电网络中,时空图神经网络(STGNN)用于故障定位的鲁棒性问题。作者提出了一种基于测量节点构建图结构的新方法,并引入了基于GraphSAGE和改进的GATv2的STGNN模型,实验表明该方法在性能和训练效率上均优于传统RNN模型。研究还发现,仅使用测量节点构建的图结构能够显著提升模型效率和稳定性,为部分可观测配电网络的故障定位提供了更实用和鲁棒的解决方案。
AI总结 该研究针对多模态大语言模型在STEM领域中的推理能力评估问题,提出了一个名为StepSTEM的细粒度基准测试,涵盖数学、物理、化学等283道研究生级别题目,强调跨模态推理过程的评估。该基准通过严格构建文本与视觉输入的互补性,并引入基于动态规划的步骤级评估框架,全面衡量模型的推理链表现。实验表明,当前主流模型仍主要依赖文本推理,跨模态能力仍有较大提升空间,StepSTEM为细粒度多模态推理研究提供了重要参考。
AI总结 本文研究了在结果尚未确定的情况下进行未来预测的问题,核心挑战在于监督信号仅在事后提供,难以指导预测过程中的关键判断。作者提出利用多次预测过程中产生的“预解决信号”来改进预测代理的判断能力,并设计了名为Milkyway的预测系统,通过持续更新的外部状态存储可复用的指导信息,从而在多次预测中不断优化预测结果。实验表明,该方法在多个基准测试中表现优异,其优势主要来源于预解决信号驱动的系统演化。
Comments Work in progress
AI总结 本文研究了漂移场(drift field)在生成模型中的性质,指出漂移场通常不是保守场,因此不能表示为任何标量势函数的梯度。作者发现非保守性的根源在于位置依赖的归一化操作,而高斯核是唯一的径向例外。为此,他们引入了尖锐核(sharp kernel)和对应的归一化漂移场,使其对于一般的径向核都成为保守场,从而可以使用梯度下降直接优化标量势函数,提升了模型的理论基础和生成性能。
AI总结 本文探讨了人们如何在有限认知能力下,通过他人获取丰富且灵活的环境知识。研究通过强化学习模拟表明,无需推断他人心理状态,仅通过观察行为并利用简单社会线索,即可间接传递高层表征。研究发现,基于模型的学习者在社会暴露下能更快学习并形成更接近专家的表征,揭示了文化传递可能源于非心智化的过程。
Comments Code available at https://github.com/skessler01/social-transmission-rl.git
AI总结 本研究揭示了大语言模型中情感向量在二维“效价-唤醒”(VA)子空间中呈现出环形几何结构,并通过主成分分解和岭回归方法,恢复出与情感控制向量相关的VA轴。研究发现,沿这些轴进行情感引导可实现对生成文本情感属性的单调控制,并能同时双向调控下游行为(如拒绝和奉承)。实验在多个主流模型中复现,表明该方法具有普适性,且提出词汇中介机制解释其有效性。
AI总结 本文研究如何通过引入非结构化稀疏性来降低大型语言模型(LLM)的计算成本,重点优化前馈层的参数和计算效率。作者提出了一种新的稀疏打包格式和配套的CUDA内核,以适配现代GPU的优化执行流程,从而在推理和训练过程中实现高效的稀疏计算。实验表明,使用简单的L1正则化可以实现超过99%的稀疏度,且对模型性能影响极小,同时显著提升了模型的吞吐量、能效和内存使用效率。
Comments Code and checkpoints available at: https://github.com/SakanaAI/sparser-faster-llms
AI总结 本文研究了策略优化中探索机制的问题,指出现有的随机梯度老虎机(SGB)算法在收敛性保证上依赖于不现实的假设,因此提出通过引入对数障碍(log-barrier)正则化来增强策略的探索能力。该方法在保持样本复杂度的同时,能够在更一般的情况下保证收敛,并揭示了对数障碍与自然策略梯度之间的几何联系。实验验证了理论分析的有效性。
AI总结 本文研究了源自二阶常微分方程的神经振荡器在学习复杂非线性结构系统动态映射时的泛化能力。通过Rademacher复杂度框架,推导了其在连续时间函数空间之间逼近因果和一致连续算子,以及逼近一致渐近增量稳定二阶动力系统的上界泛化界,并将其扩展到目标算子与神经振荡器输出之间的平方Wasserstein-1距离。理论分析表明,估计误差随神经网络规模和时间长度多项式增长,避免了参数复杂度的灾难,并指出通过损失函数正则化约束MLP的Lipschitz常数可提升泛化性能。数值实验验证了理论预测的误差幂律关系,并证实了在有限训练数据下约束MLP矩阵和向量范数的有效性。
Comments This manuscript contains 33 pages with 6 figures
AI总结 随着大型语言模型在代码生成方面的发展,人机交互正从静态文本响应转向动态的、基于HTML的交互式应用,即MiniApps。为评估模型在生成此类应用方面的能力,本文提出了MiniAppBench,这是首个全面评估原理驱动型交互应用生成的基准测试,包含来自真实应用场景的500个任务。同时,文章还引入了MiniAppEval评估框架,通过浏览器自动化进行类人探索测试,从意图、静态和动态三个维度系统评估应用质量,为未来研究提供了可靠的标准。
AI总结 本文研究了如何准确评估合作大型语言模型(LLM)系统中各智能体的贡献问题。不同于传统多智能体强化学习依赖近似方法,作者指出在合作LLM系统中,由于交互历史是可观测文本的确定性函数,因此可以精确还原每个决策点的状态,从而实现无偏的因果贡献度量。基于此,提出了一种名为C3的方法,通过固定完整历史、冻结行为策略并采样替代动作,计算出精确的每步优势值,实验表明该方法在多个基准上优于现有方法,并且还提出了首个与方法无关的多智能体LLM信用分配审计工具。
AI总结 本文探讨了如何通过上下文规范(context specification)提升AI评估在实际部署中的相关性。研究指出,当前AI评估方法往往忽视了影响部署效果的实际操作环境,导致组织难以判断AI工具能否带来持久价值。为此,作者提出通过明确界定评估场景中的关键属性、行为和结果,将模糊的利益相关者观点转化为可观察和衡量的构建,从而为AI系统的部署评估提供清晰的指导框架。
Comments 8 pages; 2 figures
AI总结 本文提出 VDCook,一种可自我演进的视频数据操作系统,旨在为研究人员和垂直领域团队提供灵活的视频数据构建平台。用户可通过自然语言查询和参数调整发起数据请求,系统自动优化查询并并行运行视频检索与可控合成模块,最终生成带有完整来源信息和元数据的数据包。VDCook 支持基于 MCP 协议的自动数据摄入机制,使数据集能够持续更新和扩展,同时提供多维元数据标注,为后续数据处理和索引奠定基础,显著降低了构建专业视频训练数据集的门槛。
AI总结 本文提出了一种基于量子启发的多分类方法——Pretty Good Measurement(PGM),用于解决医学影像中的肺癌亚型分类和前列腺癌风险分层问题。该方法将每个类别映射为一个编码的混合量子态,并通过单个正交测量(POVM)进行分类,实现了真正的多类分类策略,无需降维为二分类或一对一比较。实验表明,该方法在多个医学影像分析任务中表现优异,尤其在肺癌的二分类和三分类任务中优于传统方法,且在前列腺癌风险分层中也展现出良好的临床相关性。
Comments 22 pages, 9 figures, 12 table, in preparation for journal submission
AI总结 本文研究了在时间序列政策决策中,计量经济学方法与因果结构学习方法在因果关系发现上的表现差异,以英国新冠疫情政策为案例进行实证分析。研究对比了四种计量经济学方法与十一种因果机器学习算法在图结构、模型维度和因果效应恢复能力方面的表现,发现计量经济学方法在时间结构上提供了明确的规则,而因果机器学习方法则能探索更广泛的图结构空间,从而发现更多可识别的因果关系。研究为因果机器学习从计量经济学中借鉴经验提供了实证依据,并提供了将计量经济学结果转换为贝叶斯网络工具的代码支持。
AI总结 本文研究了如何实现水下驻留机器人在深海环境下的持续自主运行,以克服传统水下监测方法在成本和效率上的限制。作者提出了一种结合对接站和小型遥控水下机器人(ROV)的驻留系统,在90米深度环境下实现了自主导航、视觉定位对接和局部检测任务。该系统展示了高自主对接成功率和快速任务执行能力,验证了声学与视觉导航融合在实际水下环境中的可行性,为低成本、可扩展的水下监测提供了新思路。
AI总结 该研究针对强化学习中因稀疏奖励导致的样本效率低下的问题,提出了一种名为Goldilocks的新型数据采样策略。该方法通过教师模型预测学生模型在不同问题上的难度,选择适中的问题(既不太简单也不太困难),从而更高效地训练模型的推理能力。实验表明,该方法在相同计算预算下显著提升了模型在数学推理任务中的表现。
Comments 28 pages, 13 figures
AI总结 本文通过对比VGG、ResNet和GoogLeNet等卷积神经网络架构,研究了CNN拓扑结构与其图像识别性能之间的关系。研究引入了名义深度和有效深度的概念,揭示了网络结构中身份捷径和分支模块对优化稳定性的影响。结果表明,有效深度比名义深度更能准确反映网络的可训练性和扩展潜力,指出网络拓扑结构而非单纯的层数是影响深度学习模型梯度健康的关键因素。
AI总结 本文提出HAIC,一种用于人形机器人敏捷物体交互的控制框架,解决了与非完整约束和独立动力学物体交互时的控制难题。HAIC通过仅依靠本体感觉历史预测物体的高阶状态(如速度、加速度),并结合静态几何先验生成动态占用地图,从而在无外部状态估计的情况下实现鲁棒交互。实验表明,HAIC在多种敏捷任务和多物体长期任务中表现出色,展示了其对惯性扰动的主动补偿能力和环境适应性。
Comments RSS 2026. Webpage: https://haic-humanoid.github.io/
AI总结 在大型语言模型的强化学习训练中,由于异步训练和训练与推理引擎不匹配,导致策略更新需要依赖离线策略。传统的重要度采样方法虽无偏,但方差大,且在自回归生成中问题更严重。本文提出了一种基于变分序列级软策略优化的方法VESPO,通过直接对序列级重要性权重进行处理,有效降低方差并提供明确的方差上界,实验表明该方法在数学推理和代码生成任务中能稳定训练并优于现有方法。
AI总结 本文研究了在重尾噪声环境下符号梯度优化算法(如Lion和Muon)的优越性问题,提出了一个新的重尾噪声条件,更准确地描述了大语言模型训练中的梯度特性。理论分析表明,符号梯度方法在该噪声模型下具有与现有最佳结果相当或更优的收敛速度,并首次对Muon等算法在矩阵优化中的表现进行了严格分析。实验验证了理论结论,说明符号优化器在处理重尾噪声时具有显著优势。
Comments Code is available at https://github.com/Dingzhen230/Heavy-tailed-Noise-in-LLMs
AI总结 本文提出SynthForensics,一个以人物为中心的合成视频深度伪造基准数据集,包含来自8个文本到视频和7个图像到视频生成器的20,445个视频,并与真实视频进行配对验证。该数据集在四个压缩版本中提供完整元数据,实验表明现有检测方法在该数据集上的性能显著下降,突显了当前评估体系的不足。研究还揭示了合成视频与传统伪造视频在特征上的差异,为未来检测方法的改进提供了重要参考。
AI总结 该研究探讨了如何通过行动条件下的预测序列网络实现路径整合和物体-位置绑定。研究中使用了一个递归神经网络,在连续的二维场景中依次采样标记,并通过预测下一个标记来学习环境模型。实验表明,网络能够逐步提升预测准确性,并在解码分析中展现出路径整合和动态绑定能力,揭示了结构化表征如何通过灵活绑定支持预测,为认知科学中的序列世界建模提供了机制性解释。
Comments 8 pages, 4 figures; accepted at CogSci 2026
AI总结 本文提出了一种名为CaRE的可扩展持续学习框架,旨在解决在数百个任务序列上同时保持模型稳定性和可塑性的挑战。其核心方法是引入双级路由混合专家(BR-MoE)机制,通过动态激活任务相关的路由和专家模块,增强模型对判别性和综合性特征的提取能力。此外,研究还构建了一个包含上千任务的挑战性数据集OmniBenchmark-1K,并在多种任务设置下验证了CaRE的优越性能,尤其在超长任务序列上表现突出,是目前首个支持300多个非重叠任务的持续学习模型。
Comments Accepted by ICML 2026
AI总结 本文提出了一种基于连续时间动力学的Koopman自编码器,用于流体动力学的长期预测,其核心在于通过连续时间演化方程 $dz/dt = \mathbf{K}_{\mathrm{cont}} z$ 实现闭式推理,从而摆脱固定时间步长的限制,并提升计算效率。面对高维混沌系统中潜在状态不稳定的挑战,作者引入了包括滚动训练、前后一致性、潜在正则化和物理条件化的LoRA等结构约束,有效提升了长期预测的稳定性。实验表明,该方法在复杂流体基准测试中优于现有扩散模型和算子学习方法,并实现了110倍的推理加速。