GARDEN: Gravity-Aligned Reconstruction of Disentangled ENvironments from RGB images
GARDEN: 从RGB图像中重力对齐的解耦环境重建
发表机构 * Zhejiang University(浙江大学) ; Ant Group(蚂蚁集团)
AI总结 提出GARDEN框架,利用重力先验将多视图RGB图像重建为具有显式刚体和解耦背景的结构化混合场景表示,支持直接物理模拟。
GARDEN: 从RGB图像中重力对齐的解耦环境重建
发表机构 * Zhejiang University(浙江大学) ; Ant Group(蚂蚁集团)
AI总结 提出GARDEN框架,利用重力先验将多视图RGB图像重建为具有显式刚体和解耦背景的结构化混合场景表示,支持直接物理模拟。
多模态视频理解中的视觉状态追踪基准测试
发表机构 * New York University(纽约大学) ; KAIST(韩国科学技术院)
AI总结 提出VSTAT基准,通过需要连续感知和整合整个视频流的问题评估多模态大语言模型的视觉状态追踪能力,发现当前模型远低于人类表现,失败主要源于视觉感知而非文本推理。
Comments Website: https://vision-x-nyu.github.io/vstat-site/
Hedge-Bench:在金融推理相关的困难、现实任务上对智能体进行基准测试
发表机构 * Trata ; Brigham Young University
AI总结 提出Hedge-Bench基准,包含102个基于对冲基金分析师实际工作推理轨迹的任务,用于评估AI智能体在开放金融推理问题上的表现,前沿模型得分低于16%。
Comments Dataset and evaluation harness available at github.com/Trata-Inc/trata-hedge-bench
PatchScene:基于体素块扩散的大规模场景补全
发表机构 * MEGVII Technology(MEGVII技术有限公司) ; Qianli Technology(千利技术) ; Peking University(北京大学) ; Northeastern University, China(中国东北大学) ; Northwest Polytechnical University, Xi’an(西北工业大学西安校区)
AI总结 提出PatchScene,一种基于体素块扩散的框架,通过局部3D区域细粒度生成、置信度引导的时空融合和环形流扩散策略,实现大规模LiDAR场景补全,在SemanticKITTI上达到最优性能并展现强泛化能力。
Comments 10 pages, 5 figures, 5 tables
Bootstrap Your Generator: 基于流匹配的无配对视觉编辑
发表机构 * Weizmann Institute of Science(魏茨曼科学研究院)
AI总结 提出Bootstrap Your Generator (ByG)框架,利用基础模型知识通过流匹配实现无配对训练的图像视频编辑,无需外部信号,在数据稀缺场景下达到最优性能。
Comments Accepted at ICML 2026. Project page is at https://research.nvidia.com/labs/par/byg/
SparseStreet: 用于实时街景模拟的稀疏高斯泼溅
发表机构 * Peking University(北京大学) ; Chinese Academy of Sciences(中国科学院) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Autonomous Driving Development, NIO(蔚来自动驾驶开发)
AI总结 针对街景重建中高斯原语冗余问题,提出节点可学习剪枝与背景压缩框架,实现高达80%压缩比且质量损失极小。
scTranslation:单细胞多组学模态翻译的综合基准
发表机构 * Westlake University(西湖大学) ; Shanghai Jiao Tong University(上海交通大学) ; Zhejiang University(浙江大学) ; The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; Xidian University(西安电子科技大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所)
AI总结 针对单细胞多组学模态翻译任务,提出了包含多样化数据集、先进模型和全面评估指标的综合基准scTranslation,并系统研究了特征选择、特征质量和少样本设置等影响因素。
语义加权ICP用于LiDAR里程计:基于类感知残差加权的鲁棒扫描配准
发表机构 * Institute of Robotics and Autonomous Systems, University of Lisbon(里斯本大学机器人与自主系统研究所)
AI总结 提出语义加权ICP方法,通过根据语义类别的几何稳定性对残差进行加权,在动态和复杂环境中提升LiDAR里程计的位姿估计鲁棒性。
MAdam: 度量感知的多目标Adam
发表机构 * Cornell Tech(康奈尔科技) ; Weill Cornell Medicine(韦尔医学院) ; Delft University of Technology(代尔夫特理工大学)
AI总结 提出MAdam,通过偏好条件曲率预处理多目标优化中的协调方向,解决Adam与求解器之间的权重失配和几何失配问题,在多任务学习、帕累托前沿恢复等任务中一致提升性能。
一种基于注意力的扩散加权成像去噪模型
发表机构 * Institute of Infrastructure Technology Research and Management (IITRAM)(基础设施技术研究与管理研究所) ; University of Sheffield(谢菲尔德大学)
AI总结 提出一种结合Swin Transformer窗口注意力和多维门控精化的噪声感知注意力驱动去噪框架,用于解决DWI中信号依赖的Rician噪声问题,在1%至15%噪声水平下实现平均PSNR 33.69 dB和SSIM 0.8539。
基于高精度X光到CT配准的股骨截骨电磁导航
发表机构 * Department of Pediatric Orthopedics and Traumatology, University Children’s Hospital Zürich(苏黎世大学儿童医院小儿骨科与创伤外科部门) ; Research in Orthopedic Computer Science, University Hospital Balgrist, University of Zurich(骨科计算机科学研究所,巴尔格里斯大学医院,苏黎世大学) ; Department of Orthopedic Surgery, University Hospital Balgrist, University of Zurich(骨科外科部门,巴尔格里斯大学医院,苏黎世大学)
AI总结 提出一种基于电磁跟踪的股骨截骨导航系统,通过一次术中C臂标定和两幅X光图像配准实现实时无荧光导航,在合成股骨实验中总角度误差显著优于徒手操作,并与患者特异性器械精度等效。
Comments Will be published in the International Journal of Computer Assisted Radiology and Surgery
OVO-S-Bench:多模态大语言模型中流式空间智能的分层基准
发表机构 * Tsinghua University(清华大学) ; Shanghai AI Laboratory(上海人工智能实验室) ; Beihang University(北京航空航天大学)
AI总结 提出OVO-S-Bench,一个完全人工标注的流式空间智能基准,包含1680个问题,涵盖四个抽象层次,评估38个MLLM,发现Gemini-3.1-Pro落后人类专家27分,流式空间微调MLLM表现不如其骨干模型。
Comments 48 pages, 12 figures, 15 tables. Project page: https://internlm.github.io/OVO-S-Bench/
CoralBay: 一种自监督CT基础模型
发表机构 * kaiko.ai(Kaiko AI)
AI总结 提出CoralBay框架,通过分层3D Swin骨干网络和自蒸馏学习多尺度特征,实现CT体积数据的自监督预训练,有效提升下游放射学任务性能。
通过分布路径进行信息揭示的归因
发表机构 * New Jersey Institute of Technology(新泽西理工学院)
AI总结 提出Reveal-IG方法,将路径归因从输入空间提升到结构化探针分布空间,通过逐步揭示信息并归因模型期望输出的变化,保留完整性并避免输入空间路径伪影。
Comments Code: https://github.com/murphyka/Reveal-IG
超越编码器累加:衡量多编码器视觉语言模型中编码器的作用
发表机构 * Tsinghua University(清华大学) ; Tencent(腾讯) ; University of Macau(澳门大学) ; University of Science and Technology Beijing(北京科技大学)
AI总结 通过重新训练所有31个非空子集,提出容量-必要性分解和预投影器秩分析,揭示多编码器视觉语言模型中编码器角色并非简单累加,并给出最优配对原则。
MLP Splatting: 以对象为中心的神经场
发表机构 * Department of Computing, Imperial College London(帝国理工学院伦敦分校计算机系)
AI总结 提出MLP-Splatting方法,通过少量紧凑MLP原语实现场景分解和新视角合成,支持对象级编辑且内存和渲染效率优于现有方法。
Seg2Track++: 用于多目标跟踪与分割的概率轨迹验证与数据关联
发表机构 * University of Coimbra, Institute of Systems and Robotics, Department of Electrical and Computer Engineering(科英布拉大学,系统与机器人研究所,电气与计算机工程系)
AI总结 提出Seg2Track++框架,结合SAM2实例分割与概率轨迹验证,实现零样本多目标跟踪与分割,提升身份保持并抑制假阳性传播。
DyaPlex: 用于二元交互的全双工语音-运动模型
发表机构 * NVIDIA ; HKUST(香港科技大学)
AI总结 提出DyaPlex,一种流式全双工语音-运动模型,通过双塔Transformer架构和统一二元令牌交织机制,实现同步多模态交互,在单体和二元交互基准上达到最优性能。
Comments Project page: https://research.nvidia.com/labs/amri/projects/DyaPlex
视觉指令调优通过抽象对齐模态
发表机构 * Area Science Park, Trieste, Italy(特里埃斯特Area Science Park)
AI总结 通过探针分析和因果干预,发现视觉指令调优将视觉特征直接嵌入LLM的中间语义层,绕过早期单模态处理层,并通过扩展和强化现有抽象阶段对齐视觉与文本表示。
统一视频-动作联合去噪用于灵巧动作与数据生成
发表机构 * Technical University of Munich(慕尼黑技术大学) ; ByteDance(字节跳动) ; Tsinghua University(清华大学)
AI总结 提出Donk模型,通过联合建模交互视频与手部轨迹的分布,实现灵巧手的动作生成与数据增强。
Comments 9 pages, 5 figures
一种基于LLM和知识图谱的无训练混合智能体框架用于多文档摘要
发表机构 * Faculty of Artificial Intelligence and Data Science, Phenikaa University(人工智能与数据科学学院,泛尼克大学) ; VNPT AI, VNPT Group(VNPT AI,VNPT集团) ; MobiFone Research and Development Center, MobiFone Corporation(MobiFone研发与开发中心,MobiFone公司) ; Business AI Lab, Faculty of Data Science and Artificial Intelligence, National Economics University, College of Technology(商业人工智能实验室,数据科学与人工智能学院,国家经济大学,技术学院)
AI总结 提出一种无需训练、结合大语言模型和知识图谱的混合智能体框架,通过分解摘要任务为专用智能体(抽取、知识感知抽象、迭代精炼)并利用多视角一致性机制,在英文和越南语数据集上取得领先性能。
Comments Accepted by Neural Computing and Applications
PyraMathBench: 评估与提升大型语言模型的数学能力
发表机构 * East China Normal University(东华师范大学) ; Hasso Plattner Institute, University of Potsdam(波茨坦大学哈索普兰特纳研究所)
AI总结 提出PyraMathBench分层基准测试,通过整合数值处理与数学推理评估LLM,并引入SOLVE模块和IRPO优化方法提升数值-数学协同能力。
带有切换成本的双动作苹果品尝问题
发表机构 * School of Electrical Engineering and Computer Science University of Ottawa(电气工程与计算机科学学院 马来西亚渥太华大学) ; School of Mathematics University of Bristol(数学学院 布里斯托尔大学)
AI总结 研究对抗性对手下带有切换成本的双动作苹果品尝问题,通过揭示动作和盲动作的权衡,证明了最优遗憾为Θ(√T)。
去噪提示何时重新规划:基于流的机器人策略的去噪方差自适应分块
发表机构 * Beijing Institute of Technology(北京理工大学) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; Shenzhen Loop Area Institute(深圳Loop区研究院) ; Hunan University(湖南大学) ; Xi’an Jiaotong University(西安交通大学) ; Renmin University of China(中国人民大学) ; Harbin Institute of Technology, Shenzhen(哈尔滨工业大学(深圳))
AI总结 针对基于流的机器人策略中固定执行步长的问题,提出DVAC方法,利用去噪过程中干净动作估计的方差自适应决定执行步长,在保持或提升任务成功率的同时降低重新规划频率。
聚类自评估:一种简单而有效的大型语言模型不确定性量化方法
发表机构 * The University of Tokyo(东京大学)
AI总结 提出一种基于语义聚类和多项选择概率的简单自评估方法,用于大型语言模型的不确定性量化,在多个模型和数据集上优于基线方法。
Comments Findings of ACL 2026
重新评估带少样本适应的持续学习
发表机构 * Department of Computer Science(计算机科学系)
AI总结 本文提出用少样本评估替代零样本评估来更全面衡量持续学习系统的稳定性和可塑性,并通过新指标“每样本可塑性”发现元学习未来任务序列能诱导学习到学习行为。
Comments 21 pages, 16 figures
EvoDS: 具有技能学习和上下文管理的自进化自主数据科学智能体
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州))
AI总结 提出EvoDS,通过自主技能获取和自适应上下文压缩策略,结合强化学习训练,使数据科学智能体能够自进化并显著提升多阶段迭代任务的性能。
Comments Accepted by KDD2026
通过文本选择和属性匹配的文本属性图压缩
发表机构 * School of Computer Science Wuhan University(武汉大学计算机学院) ; Institute for Math & AI Wuhan University(武汉大学数学与人工智能研究院)
AI总结 提出TAGSAM方法,通过子图文本选择和属性相似性匹配压缩文本属性图,在保持训练精度的同时显著降低空间和时间消耗。
在低资源视频任务适应中,我们(不)需要时间上下文的哪些部分?
发表机构 * Leiden University(莱顿大学)
AI总结 本文系统研究了视频理解中模型适应策略的时间上下文分配问题,通过评估不同设置下的参数高效微调和探测方法,揭示了时间上下文在骨干网络、PEFT和探测之间的最优分布。
让动力学流动:稳定的流匹配动力系统
发表机构 * Department of Robotics, Perception, and Learning, KTH Royal Institute of Technology(机器人、感知与学习系,皇家理工学院) ; Advanced Mining Technology Center (AMTC) and Department of Electrical Engineering, Universidad de Chile(先进采矿技术中心(AMTC)和电气工程系,智利大学) ; Bosch Center for Artificial Intelligence, Renningen, Germany(博世人工智能中心,德国Renningen) ; Italian Institute of Artificial Intelligence (AI4I), Turin, Italy(意大利人工智能研究所(AI4I),意大利都灵)
AI总结 提出稳定流匹配动力系统(SFMDS)框架,通过流匹配参数化动力系统并施加李雅普诺夫稳定性约束,实现稳定、可扩展、多模态的机器人运动生成。