Perceptrons and localization of attention's mean-field landscape
AI总结 本文研究了Transformer模型中感知机模块在注意力机制均场景观中的作用,将前向传播过程建模为单位球面上的相互作用粒子系统。通过分析权重设置下的梯度流和无限上下文长度的均场极限,发现临界点通常具有原子性和在球面子集上的局部化特性,揭示了注意力机制在高维空间中的结构特征。
AI总结 本文研究了Transformer模型中感知机模块在注意力机制均场景观中的作用,将前向传播过程建模为单位球面上的相互作用粒子系统。通过分析权重设置下的梯度流和无限上下文长度的均场极限,发现临界点通常具有原子性和在球面子集上的局部化特性,揭示了注意力机制在高维空间中的结构特征。
AI总结 扩散模型难以满足严格的约束条件,而物理科学中的许多应用则需要精确满足守恒定律、边界条件和观测一致性。本文提出了一种名为Predict-Project-Renoise(PPR)的算法,通过迭代地利用去噪器进行投影并结合前向扩散核重新引入噪声,从而在预训练扩散模型中实现对硬约束的采样。该方法在多个实验中表现出色,能够在保持分布保真度的同时显著降低约束违反程度,是现有方法所无法实现的。
Comments Code coming soon
AI总结 本文提出了一种名为TouchGuide的新方法,通过触觉引导在推理阶段对视觉运动策略进行引导,以提升机器人对精细和高接触任务的操控能力。该方法结合预训练的视觉运动策略与任务特定的接触物理模型(CPM),在低维动作空间中融合视觉与触觉信息,从而生成符合物理接触约束的精细动作。此外,研究还引入了TacUMI数据采集系统,以高效、低成本地获取可靠的触觉数据,实验表明TouchGuide在多个复杂任务中显著优于现有方法。
AI总结 本文提出了一种名为 PolySHAP 的新方法,通过引入高阶多项式回归扩展了 KernelSHAP 算法,以更准确地捕捉特征之间的非线性交互作用,从而提升对 Shapley 值的估计效果。研究证明了 PolySHAP 在多个基准数据集上具有更好的实证表现,并且其估计结果具有一致性。此外,该方法还揭示了配对采样(antithetic sampling)与二阶 PolySHAP 之间的理论联系,为这一广泛使用的改进方法提供了首个坚实的理论依据。
Comments Published at ICLR 2026: https://openreview.net/forum?id=M19J8UGguq
AI总结 在神经音频合成中,现有模型在生成高质量音乐和人声演唱时常因非线性激活函数和上采样层引入严重的混叠伪影而表现不足。本文将可微分的抗混叠技术引入激活和上采样模块,提出Pupu-Vocoder和Pupu-Codec模型,有效提升了音频重建质量。实验表明,新模型在音乐、人声演唱和通用音频任务中优于现有系统,在语音任务上也保持了相近性能。
Comments Accepted by TASLP
AI总结 本文提出了一种名为 Make-It-Poseable 的新型前馈框架,用于解决3D角色姿态生成中的关键问题,如皮肤权重不准确、网格拓扑固定和姿态不匹配等。该方法将角色姿态生成重新定义为一种无需皮肤绑定的潜在空间变换问题,通过在紧凑的潜在表示上操作,实现了对目标姿态的高效重建。该框架结合了潜在姿态变换器、密集姿态表示和自适应补全模块,能够处理拓扑变化并展现出优异的零样本泛化能力,适用于多种形态的角色和3D创作任务。
Comments Project page: https://jasongzy.github.io/Make-It-Poseable/
AI总结 许多最先进的大型语言模型在回答问题前需要进行推理,但这种顺序交互方式限制了其在实时场景中的应用。本文提出了一种无需额外训练的方法,使具备推理能力的模型能够像人类一样异步进行思考、监听和输出。通过利用位置嵌入的特性,模型可以同时进行多任务处理,显著提升了响应速度和交互效率。
Comments Preprint, work in progress
AI总结 在大型语言模型(LLMs)部署中,推理能力与推理成本之间的权衡是一个重要问题。本文提出了一种异步先验引导的贝叶斯模型合并方法(AP-BMM),通过层-wise合并策略,结合参数和推理激活差异来指导搜索过程,并利用异步优化提升计算效率。该方法在固定评估预算下,能够生成更高质量且覆盖范围更广的精度-成本帕累托前沿集,优于同步优化和传统模型级合并方法。
AI总结 本文研究了跨机器人平台动作表示的一致性问题,提出了一种基于相机外参的统一动作表示方法,使单臂和双臂机器人等不同形态的机器人动作在相机坐标系下具有相同的几何语义。为了解决现有数据集缺乏相机外参标注的问题,作者提出了一个无需训练、跨机器人平台的标注方法CalibAll,通过从粗到细的校准策略,实现了高精度的相机外参估计,并生成标准化的动作表示。实验表明,基于相机帧动作的跨平台预训练在多个任务中取得了最先进的性能。
AI总结 STORM 是一种统一的框架,能够基于单张参考图像进行条件化的6D姿态估计与跟踪,具有较高的鲁棒性和较低的人工输入需求。该方法结合了分层空间融合注意力机制和基于BCE训练的跟踪验证器,能够在遮挡和快速运动等复杂场景下稳定恢复目标姿态。实验表明,STORM 在无需标注的情况下优于现有方法,并能有效应对严重遮挡和视角变化。
Comments 21 pages. Accepted at the 43rd International Conference on Machine Learning (ICML 2026); camera-ready version
AI总结 本文研究了在数据所有权和竞争利益限制下,如何通过预测市场机制促进多方协作进行准确预测的问题。提出了一种允许代理自主进出市场、适应动态环境并考虑历史表现的预测市场框架,采用鲁棒回归模型处理缺失提交,并设计了一种兼顾样本内与样本外性能的收益分配机制。实验表明,该设计在模拟和真实数据中均表现出良好的有效性和适应性。
AI总结 本文综述了能够处理多语言文本与图像的多语言视觉-语言模型,系统回顾了33个模型和23个基准测试,分析了编码器和生成式架构的发展趋势,并指出了语言中立性与文化适应性之间的关键矛盾。当前训练方法倾向于通过对比学习实现语言中立性,而文化适应性则依赖于多样化数据,多数评估基准优先考虑语义一致性,但近期研究开始引入文化相关的内容以弥补这一差距。
AI总结 该研究提出了一种名为 Self-CriTeach 的框架,旨在通过大语言模型(LLM)的自我教学与自我批评机制,提升机器人规划能力。该方法利用 LLM 自主生成符号规划域,既用于生成大规模的机器人任务-计划对以进行监督微调,又作为结构化奖励函数提供密集反馈以增强强化学习。该统一训练流程显著提高了 LLM 的规划成功率、跨任务泛化能力,并降低了推理成本和对不完美逻辑状态的敏感性。
Comments International Conference on Machine Learning (ICML) 2026
AI总结 本文提出了一种轻量可学习的自适应加权方法LiLAW,用于在存在噪声和数据异质性的场景下提升深度神经网络的训练效果。该方法通过三个全局可学习的标量参数动态调整每个样本的损失权重,根据样本难度(易、中、难)进行自适应调整,并在每次训练小批量后使用验证小批量进行一次梯度下降更新,无需干净的验证集。实验表明,LiLAW在多种数据集和噪声条件下均能有效提升模型准确率和AUROC,尤其在高噪声环境下表现突出,且计算高效,适用于资源受限的场景。
AI总结 本文提出了一种名为CR-Net的参数高效的预训练框架,旨在解决当前低秩结构方法在模型性能、计算开销和激活内存节省方面的不足。CR-Net基于跨层激活残差具有低秩特性的发现,采用双路径架构,通过结合前一层输出与低秩差异高效重建层激活,从而在保持高秩信息的同时大幅减少参数量。实验表明,CR-Net在不同规模的模型(从60M到7B参数)上均优于现有低秩方法,且在计算资源和内存消耗方面表现更优。
Comments 32 pages. Accepted by ICLR 2026
AI总结 本文探讨了激活语言化方法是否能揭示大型语言模型(LLM)的内部工作机制。研究发现,现有方法可能更多地反映语言化模型自身的参数知识,而非目标模型的内部状态。实验表明,这些方法在无需访问目标模型内部信息的情况下也能表现良好,说明当前数据集不足以有效评估语言化方法的效果,亟需设计更严格的基准和实验控制来验证其真正的解释能力。
Comments ICML 2026. 41 pages, 23 tables, 6 figures
AI总结 本文提出了一种名为SkySplat的新型自监督框架,旨在从多时相稀疏卫星图像中实现通用化的三维高斯点云重建。该方法通过将有理多项式系数(RPC)模型集成到通用3D高斯点云生成流程中,解决了现有方法在卫星图像处理中几何约束不足、瞬时物体干扰和辐射不一致等问题。SkySplat仅依赖RGB图像和鲁棒的相对高度监督,无需真实高度图即可实现高效且准确的重建,并在多个基准数据集上表现出优越的性能和跨数据集泛化能力。
Comments AAAI 2026. Code is available at https://github.com/NanCheng2001/SkySplat-main
AI总结 该论文提出了一种用于图神经网络(GNN)的精确验证方法,旨在应对属性和结构扰动下的对抗攻击,确保模型的鲁棒性。该方法通过约束求解与边界收紧相结合,并利用求解器的增量求解能力提升效率,支持包括求和、最大值和平均值在内的三种聚合函数,其中后两种为首次应用。实验表明,该方法在多个真实数据集上表现出良好的实用性和优越的分类性能。
Comments Extended version of the paper accepted at FM 2026
AI总结 本文研究了语言模型在面对新数据分布时的适应性问题,指出传统子词分词器的固定性导致在分布外领域、未见过的语言或脚本中出现文本过度碎片化的问题。为此,作者提出了一种可学习的字节级分词器,通过预测输入字节序列的边界来实现自适应分词,并设计了FLEXITOKENS这一简化训练目标,显著提升了分词的灵活性。实验表明,该方法在多种多语言基准和生成任务中有效减少了分词过度碎片化,相比BPE等传统分词方法在分类和生成任务上提升了约10个百分点。
Comments Accepted to ACL (findings) 2026
AI总结 该研究针对藏语这类低资源语言的大规模语言模型发展不足的问题,提出了一套完整的解决方案,包括构建72GB的高质量藏语语料库,并通过多语言持续预训练和指令调优对Qwen2.5-7B模型进行适配。为进一步提升模型容量,研究还将其扩展为50B-10B的专家混合架构,并构建了多个高质量评估数据集。实验表明,所提出的密集模型和MoE模型在多种任务上均优于现有同规模模型,为藏语及其它低资源语言的大模型研究提供了重要参考。
AI总结 该研究提出了一种名为AdeptHEQ-FL的统一混合经典-量子联邦学习框架,旨在解决非独立同分布环境下模型性能、隐私保护与通信效率之间的平衡问题。该方法结合了混合CNN-PQC架构、基于差分隐私的精度加权聚合策略、选择性同态加密技术以及动态层级自适应冻结机制,实现了对敏感模型层的安全聚合与通信开销的最小化。实验表明,该方法在CIFAR-10等数据集上相比现有方法具有显著的精度提升和通信效率优势,验证了其在隐私保护与资源优化方面的有效性。
Comments Accepted in 1st International Workshop on ICCV'25 BISCUIT (Biomedical Image and Signal Computing for Unbiasedness, Interpretability, and Trustworthiness)
AI总结 该论文提出了一种基于物理原理的3D高斯点云方法(3D-UIR),用于解决水下三维场景重建中的光-介质耦合问题。通过将物体外观与水介质效应解耦,并引入显式的介质嵌入表示,有效提升了场景的一致性和渲染质量。此外,该方法结合深度引导的优化策略,提高了几何重建的准确性,在水下场景的视图合成和场景恢复方面取得了显著改进。
Comments Accepted to IEEE TIP 2026. Project webpage: https://bilityniu.github.io/3D-UIR
AI总结 该研究提出了LENS,一个多层级的基准测试,用于评估多模态大语言模型在感知、理解和推理任务中的综合能力。LENS包含3400张当代图像和6万余个由人类撰写的问答,覆盖八个任务和十二种日常场景,支持从基础感知到复杂推理的多层次评估。该数据集通过丰富的标注和来自社交媒体的高质量图像,能够更真实地反映模型在现实场景中的表现,实验表明当前前沿模型在推理任务上的准确率均未超过60%。
Comments Published as a conference paper at ICLR 2026
AI总结 本文提出了一种名为神经关联技能记忆(Neural Associative Skill Memories)的框架,旨在提升机器人在复杂环境中的安全性和适应性。该方法通过自监督预测编码实现技能学习与表达的统一,无需显式选择技能即可根据上下文进行技能识别与执行,并具备故障检测能力。相比传统方法,该模型采用局部学习规则,实现了与生物运动准备相关的速度-精度权衡,为神经机器人学和人类感觉运动学习提供了新的计算视角。
AI总结 ClassInvGen 是一种利用大语言模型(LLM)生成类不变式的方法,旨在为如 C++ 等主流编程语言生成高质量的类不变式。该方法通过协同生成可执行的类不变式和测试输入,提升了不变式的准确性和完整性,并在实验中优于基于纯 LLM 和传统数据驱动的方法。研究还构建了一个包含标准 C++ 数据结构的基准测试集,并通过实际案例验证了其在真实代码库中的应用效果。
AI总结 本文提出了一种高效的概率回归树学习算法,用于在加权区间分数(WIS)或连续排名概率分数(CRPS)损失函数下进行校准的非参数概率预测。通过引入最小最大堆、权重平衡二叉树和Fenwick树等数据结构,算法在计算效率上得到了显著提升。该方法不仅在数值实验中表现出与现有方法相当的性能,还继承了树模型的可解释性,适用于符合预测和组条件覆盖率保证的场景。
AI总结 本文研究了在有限时间范围的马尔可夫决策过程(MDPs)中,利用低秩张量近似值函数的方法学习最优策略的问题。针对有限时间MDPs中值函数非平稳带来的高维问题和样本复杂度高的挑战,作者提出将值函数建模为低秩张量,从而实现可扩展的表示形式,并在策略迭代框架下结合低秩策略评估与贪心策略改进,计算近似最优策略。该方法引入了基于优化的贝尔曼方程求解框架及块坐标下降算法,并在未知系统动态情况下通过采样轨迹估计值函数,实验表明该方法在计算效率和策略性能方面均具有优势。
AI总结 本文提出了一种基于深度变分思想的序列蒙特卡洛方法,用于处理高维观测下的非线性状态空间系统。该方法通过神经网络参数化提议分布和状态转移分布,利用无监督变分SMC目标进行学习,从而提升粒子滤波的性能。实验表明,该方法在高维部分观测下对洛伦兹吸引子的跟踪任务中优于现有基准,并且在证据下界评估中显示出对后验分布更准确的建模能力。
AI总结 本文提出了一种基于时空拓扑和可达集分析的超车轨迹规划框架(SROP),旨在解决高速场景下传统分层规划方法易陷入局部最优和计算效率低的问题。该框架通过引入拓扑类别表示不同的超车行为,上层规划器进行时空搜索以生成多样化的初始路径,下层规划器利用可达集并行评估轨迹,从而解耦车辆运动学约束并加速计算。实验表明,SROP在轨迹平滑性和计算效率方面均有显著提升,并在F1TENTH仿真平台中验证了其在复杂场景下的实用性和鲁棒性。
AI总结 本文研究了在数据稀缺情况下如何通过多任务学习提取线性不变特征的问题,提出了一种名为Meta Subspace Pursuit(Meta-SP)的新算法,用于学习不同任务间共享的低秩不变子空间。该方法在算法层面和统计层面均提供了理论保证,并通过大量实验验证了其在性能上的优越性,优于包括ANIL在内的多种对比方法。