WALL-WM: Carving World Action Modeling at the Event Joints
WALL-WM:在事件关节处雕刻世界动作建模
发表机构 * X Square Robot Team(X Square机器人团队)
AI总结 提出WALL-WM世界动作模型,通过事件级视觉-语言-动作预训练解决固定长度动作块与语言、视觉、动作之间的粒度不匹配问题,实现跨语言、场景和任务的泛化,在大规模真实世界评估中达到最先进性能。
WALL-WM:在事件关节处雕刻世界动作建模
发表机构 * X Square Robot Team(X Square机器人团队)
AI总结 提出WALL-WM世界动作模型,通过事件级视觉-语言-动作预训练解决固定长度动作块与语言、视觉、动作之间的粒度不匹配问题,实现跨语言、场景和任务的泛化,在大规模真实世界评估中达到最先进性能。
流变换隐式过程用于函数空间变分推断
发表机构 * Aalborg University(奥尔堡大学)
AI总结 提出流变换隐式过程(FTIP),通过归一化流增强组合权重的变分分布,从而在函数空间中捕获非对称、重尾和多模态后验结构,并使用黑盒α目标进行优化。
Comments 24 pages, 4 figures, 10 tables. Pre-print submitted for revision
随机最小二乘值迭代本身是联合差分隐私的
发表机构 * Laboratoire d’Informatique Fondamentale d’Orléans (LIFO), Université d’Orléans(奥尔良基础信息学实验室(LIFO),奥尔良大学) ; College of Control Science and Engineering, Zhejiang University(浙江大学控制科学与工程学院) ; Department of Computer Science, University of Copenhagen(哥本哈根大学计算机科学系)
AI总结 研究随机探索算法RLSVI在表格MDP中的隐私保护,证明其内在噪声同时提供联合差分隐私保证。
Comments 12 pages, 0 figures
基于自我中心视频与示范的机器人导航任务协同训练
发表机构 * Department of Informatics, Graduate School of Informatics, Kyoto University(信息学系,京都大学研究生院) ; Spatial Robotics Research Center, Fujitsu Limited(空间机器人研究中心,富士通有限公司)
AI总结 提出将自我中心行走视频转化为移动机器人模仿学习数据集的框架,通过联合训练VLA模型提升语言理解和动作生成能力。
面向刚性物体的学习动作条件与对象中心高斯溅射世界模型
发表机构 * Intelligent Perception in Technical Systems Group(技术系统智能感知组)
AI总结 提出MRO-GWM模型,通过对象中心高斯表示和时空变换器架构,学习刚性物体在3D中的动作条件动力学,支持多物体场景和部分观测下的未来运动预测。
大型预训练模型在实例分割任务中的参数高效微调
发表机构 * University of Freiburg(弗赖堡大学)
AI总结 本研究针对实例分割任务,探索了适配器和低秩适应(LoRA)两种参数高效微调方法,在仅微调约1-6%参数的情况下取得竞争性能,并发现每个Transformer块使用2-3个适配器可达到性能与效率的最佳平衡。
Comments Published by the Machine Learning and Knowledge Extraction Journal
超越低秩:通过脉冲神经网络和提示分解实现低秩稀疏提示
发表机构 * Information Materials and Intelligent Sensing Laboratory of Anhui Province(安徽省信息材料与智能感知实验室) ; Anhui Provincial Key Laboratory of Multimodal Cognitive Computation(安徽省多模态认知计算重点实验室) ; School of Computer Science and Technology, Anhui University(安徽大学计算机科学与技术学院)
AI总结 提出LoRSP框架,利用脉冲神经元的稀疏发放机制和低秩分解,生成实例特定的稀疏视觉提示,实现高效且鲁棒的视觉提示学习。
SCAPO: 从单次3D观测中自监督学习类别级关节物体姿态估计
发表机构 * Department of Computer Science, National University of Singapore(新加坡国立大学计算机科学系)
AI总结 提出SCAPO框架,通过自监督方式从单张RGB-D图像中估计关节物体的规范几何、刚性部件分割和关节参数,无需真实标签或类别特定模型。
SAVMap: 基于结构辅助的全景视频大规模2.5D曼哈顿线框视觉映射
发表机构 * Nokia Bell Labs(诺基亚贝尔实验室) ; NYU(纽约大学)
AI总结 提出SAVMap方法,利用全景视频和语义分割网络,结合曼哈顿网格几何约束,从仓库场景生成语义线框地图,实现高精度大规模3D重建。
Comments IEEE ICRA 2026
格式化什么以及如何格式化:文档格式化的基准与工作流方法
发表机构 * Institute of Information Engineering, Chinese Academy of Sciences(信息工程研究所,中国科学院) ; School of Cyber Security, University of Chinese Academy of Sciences(中国科学院大学网络安全学院)
AI总结 针对内容感知的文档格式化任务,提出基准DocFormBench和工作流方法DocFormFlow,通过解耦目标定位与修改执行,在提升准确率的同时降低token消耗。
HMPO: 用于思维链压缩的混合中位数长度策略优化
发表机构 * Li Auto Inc.(Li Auto公司)
AI总结 提出HMPO,一种单阶段强化学习框架,通过自适应中位数预算、余弦衰减令牌奖励和乘法奖励公式,在数学数据上训练后实现19%-46%的令牌压缩且精度损失极小,并泛化至多种任务。
CVPR 2026 CASTLE挑战赛第三名:基于层次化知识图谱检索的智能多视角长视频理解
发表机构 * TAHAKOM(塔哈科姆)
AI总结 提出一种免训练的智能框架,通过视频知识图谱和层次化检索索引,解决大规模多视角视频中的复杂时空推理问题,在CASTLE挑战赛中获得第三名。
通过可处理提议缓解局部约束解码中的偏差
发表机构 * Stanford University(斯坦福大学) ; University of California, Berkeley(加州大学伯克利分校) ; Massachusetts Institute of Technology(麻省理工学院)
AI总结 针对局部约束解码中因短视掩码导致的采样偏差,提出基于张量化有限自动机的全局约束解码提议和概率全局约束解码提议,结合序贯蒙特卡洛方法实现无偏采样,在函数调用、关键词生成和SQL生成任务中显著减少所需粒子数并加速收敛。
Comments 13 pages, 5 figures
共振上下文锚定:推理时解耦注意力路由与信号增益
发表机构 * Xi’an Jiaotong University(西安交通大学) ; University of Science and Technology of China(中国科学技术大学) ; Tongji University(同济大学) ; Tsinghua University(清华大学)
AI总结 提出共振上下文锚定(RCA)方法,通过解耦自注意力中的路由逻辑与信息幅度,在推理时动态增强上下文令牌的信号,有效抑制大语言模型的参数化幻觉,提升事实一致性。
多模态大语言模型空间推理中空间词汇偏差的机制诊断
发表机构 * Kyoto University(京都大学) ; NII LLMC(日本国立信息与通信技术研究所语言模型中心) ; RIKEN AIP(日本理化学研究所先进理工研究所) ; Case Western Reserve University(凯斯西储大学) ; The Hong Kong Polytechnic University(香港理工大学) ; The University of Osaka(大阪大学) ; University of Tokyo(东京大学)
AI总结 本文发现多模态大语言模型存在空间词汇偏差,即添加空间关系词会吸引模型选择该选项,并通过机制可解释性工具揭示偏差主要源于语言侧而非视觉侧,最后提出轻量级LLM-only DPO更新可有效缓解偏差。
SMH-Bench:用于智能家居中环境基础推理与行动的LLM代理基准测试
发表机构 * Midea Group(美的集团) ; Beijing University of Posts and Telecommunications(北京邮电大学) ; Donghua University(东华大学) ; The University of Sydney(悉尼大学) ; Peking University(北京大学)
AI总结 提出SMH-Bench基准,基于可执行模拟器HomeEnv,通过1100个任务评估LLM在智能家居中的推理与行动能力,发现前沿模型在自动化调度、模糊处理和个性化推理方面存在不足。
残差解码器适配器:用于自回归文本渲染的身份保持分词器适配
发表机构 * Central South University(中南大学) ; University of Oxford(牛津大学) ; Microsoft Research(微软研究院)
AI总结 提出残差解码器适配器(RDA),通过引入配对码本和平行分支学习像素空间残差,在不重新训练分词器和自回归模型的情况下显著提升文本渲染性能。
Comments CVPR 2026 poster
具有差分隐私的私有且稳定的测试时自适应
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出将多种测试时自适应方法转化为差分隐私形式,通过逐样本梯度裁剪和高斯噪声保护测试数据隐私,在ImageNet-C上实现隐私与精度的平衡,并发现裁剪机制能提升连续自适应的准确性和稳定性。
Comments ICML 2026
贝叶斯谱情感转移发现:来自多标注者分歧
发表机构 * Keio University(庆应大学) ; National Institute of Advanced Industrial Science and Technology(国家工业科学与技术研究院)
AI总结 提出贝叶斯谱情感转移发现(BSETD)两阶段框架,从多标注者软标签中挖掘情感转移结构,并通过谱分解分离惯性与传染成分,在EmotionLines数据集上验证了与心理学理论的一致性。
图像重建游戏:通过迭代多模态对话建立共同基础
发表机构 * Computational Linguistics, Department of Linguistics University of Potsdam(波恩大学语言学系计算语言学部) ; German Research Center for Artificial Intelligence (DFKI), Berlin(德国人工智能研究中心(DFKI)柏林)
AI总结 提出图像重建游戏基准,通过多轮迭代中视觉语言模型向图像生成器发出纠正指令,使累积的共同基础直接可视化为重建图像,发现描述器是重建质量的主导因素,而生成器决定迭代改进的效果。
训练、测试、重新评估:用于手部检测的生成数据的调度敏感评估
发表机构 * Federal Institute for Occupational Safety and Health(联邦职业安全与卫生研究所)
AI总结 本研究通过多阶段训练调度实验,评估生成性图像修补数据对安全关键场景下手部检测性能的影响,发现适当的训练流程能显著提升真实部署效果。
Comments 16 pages, 4 figures
LEO星座中基于多卫星视角的协作空间目标检测
发表机构 * Government of Canada(加拿大政府) ; Natural Sciences and Engineering Research Council of Canada(加拿大自然科学和工程研究理事会)
AI总结 针对LEO星座中空间目标检测的挑战,提出基于深度学习框架的多视角观测融合方法,使用YOLO检测器处理多视角数据,实验表明多视角融合显著提升检测精度。
物理约束的Mamba-SDE用于不规则观测下的剩余使用寿命预测
发表机构 * Nanjing University of Aeronautics and Astronautics(南京航空航天大学) ; Nanyang Technological University(南洋理工大学) ; Singapore University of Technology and Design(新加坡科技设计大学)
AI总结 提出PC-MambaSDE框架,通过掩码感知连续Mamba编码器和物理引导的潜在SDE,解决不规则观测下剩余使用寿命预测的物理不可行性问题。
吸收复杂性:面向金融LLM代理的交互原生知识驾驭系统
发表机构 * True Trading ; Inc4.net
AI总结 提出交互原生知识驾驭(InKH)架构,通过被动知识注入、时序图记忆和过期失效机制,将复杂性吸收到系统中,在金融LLM代理任务中显著降低延迟、令牌成本和过时知识使用,同时提升任务质量和可追溯性。
Comments 17 pages, 3 figures
超越单纯形:用于评分器无关的开放集识别的平衡原型几何
发表机构 * Indian Institute of Technology Jodhpur(印度理工学院乔浦尔)
AI总结 本文提出平衡等范数原型几何理论,统一分析不同嵌入维度下的开放集识别,证明评分器性能依赖于评分规则而非单纯形结构。
Comments 20 pages, 2 figures, 6 tables
CultureForest:理解与评估大语言模型中的文化规范推理
发表机构 * Harbin Institute of Technology(哈尔滨工业大学) ; The University of Hong Kong(香港大学) ; Harvard University(哈佛大学)
AI总结 为弥补现有研究仅将文化智能视为知识获取问题而忽视实际场景应用的不足,提出CultureForest基准,通过基于原子规范的推理任务评估模型,发现顶级模型在开放式生成中性能大幅下降,并揭示推理能力瓶颈。
G2LoRA: 面向文本属性图的梯度正交低秩自适应框架用于图持续学习
发表机构 * School of Computer Science and Engineering, Beihang University(北航计算机科学与工程学院) ; Department of Statistics, Columbia University(哥伦比亚大学统计系) ; College of Computer Science, Beijing University of Technology(北京理工大学计算机学院)
AI总结 针对LLM-as-Aligner模型在文本属性图持续学习中的灾难性遗忘问题,提出G2LoRA框架,通过统一图-文本对齐目标、类别感知梯度投影和梯度幅度调制,实现任务间正向迁移并缓解模态漂移。
Comments Accepted by KDD 2026
任务诱导的表征不变性依赖于深度强化学习中的学习目标
发表机构 * Department of Physics, Harvard University(哈佛大学物理系) ; Kempner Institute, Harvard University(哈佛大学凯普纳研究所) ; Center for Computational Neuroscience, Flatiron Institute(Flatiron研究所计算神经科学中心)
AI总结 本文通过MDP约简理论分析深度强化学习中的表征,发现基于价值的方法(DQN)学习对MDP同态对称性不变的表征,而基于策略梯度的方法(PPO)学习对动作对称性不变的表征,这些差异影响迁移学习并在LLM中呈现提示依赖性。
集合监督扩散策略:通过修正学习动作分块扩散
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; ETH Zurich(苏黎世联邦理工学院)
AI总结 提出集合监督扩散策略(SDP),利用人类修正中的对比动作分块数据,通过构建期望动作分块集合来训练扩散策略,有效缓解分布偏移并提升鲁棒性。
持续学习作为多相移动边界问题
发表机构 * Independent Researcher(独立研究者)
AI总结 受熔化物理学启发,提出Stefan-CL方法,将知识巩固视为固相、未用容量视为液相,通过控制潜热调节边界移动,在几乎零遗忘下实现持续学习,无需存储原始数据。