Do Video Foundation Models Understand Intuitive Physics? A Layerwise Probing Analysis
视频基础模型是否理解直觉物理?逐层探测分析
发表机构 * University of Amsterdam(阿姆斯特丹大学)
AI总结 通过冻结特征探测,研究预训练视频基础模型在直觉物理信息上的编码能力,发现V-JEPA表现最佳,物理信息在中后期层最易获取,且时序破坏显著降低性能。
视频基础模型是否理解直觉物理?逐层探测分析
发表机构 * University of Amsterdam(阿姆斯特丹大学)
AI总结 通过冻结特征探测,研究预训练视频基础模型在直觉物理信息上的编码能力,发现V-JEPA表现最佳,物理信息在中后期层最易获取,且时序破坏显著降低性能。
信息物理系统中的组件与连接建模
发表机构 * Vanderbilt University(范德堡大学)
AI总结 提出基于WebGME的模型集成工具ROSLaunchVisual,通过图形界面可视化ROS启动文件中的节点、发布者、订阅者和参数,提升开发效率和系统理解。
答案从何而来?面向自动驾驶的多视角MLLMs中视角级视觉证据识别基准
发表机构 * University of Waterloo(滑铁卢大学)
AI总结 针对多视角自动驾驶场景,提出一个基准测试,评估多模态大模型在视觉问答中识别支持性相机视角的能力,包含122个冲突中心问题对,并区分视角选择与答案正确性。
MAVIS: 通过结构化视频理解实现多智能体视频检索
发表机构 * School of Computing and Information Technology, Great Bay University(大湾区大学计算机与信息技术学院) ; College of Computer Science, Nankai University(南开大学计算机学院) ; Tsinghua Shenzhen International Graduate School, Tsinghua University(清华大学深圳国际研究生院) ; Graduate School of Information Science and Technology, The University of Tokyo(东京大学信息科学与技术研究生院)
AI总结 提出多智能体框架MAVIS,通过结构化语义库解析视频,利用逻辑感知辩论机制协作推理,无需全库扫描和微调即可实现高效视频检索。
面向欧拉-拉格朗日机器人动力学的物理感知稀疏学习与选择性在线自适应
发表机构 * The University of Manchester(曼彻斯特大学) ; International Institute of Information Technology Hyderabad(海得拉巴国际信息技术学院) ; Delft University of Technology(代尔夫特理工大学) ; Newcastle University(纽卡斯尔大学)
AI总结 提出一种保结构残差学习框架,将模型误差分解为惯性修正、科里奥利项和广义力残差,通过物理约束学习机械部分,并用稀疏历史依赖潜变量模型和贝叶斯线性回归在线自适应扰动敏感部分,提升多机器人平台动力学预测与轨迹跟踪性能。
跨物理系统的控制微分方程数据驱动发现
发表机构 * School of Computer Science, Shanghai Jiao Tong University(上海交通大学计算机科学与工程学院) ; Ningbo Key Laboratory of Advanced Manufacturing Simulation, Eastern Institute of Technology(东部理工学院宁波先进制造仿真重点实验室) ; The State Key Lab of Brain-Machine Intelligence, Zhejiang University(浙江大学脑机智能全国重点实验室) ; Department of Statistics and Data Science, Yale University(耶鲁大学统计与数据科学系) ; Department of Chemical and Environmental Engineering, Yale University(耶鲁大学化学与环境工程系) ; Gaoling School of Artificial Intelligence, Renmin University of China(中国人民大学高瓴人工智能学院) ; School of Engineering Sciences, University of Chinese Academy of Sciences(中国科学院大学工程科学学院) ; DP Technology
AI总结 本文提出问题导向视角,通过二维相图组织方程可发现性,并引入表示-评估-优化(REO)框架抽象发现过程,旨在从数据中推断物理定律,推动理论修正与新概念形成。
ATN3D:面向极端稀疏性的密度感知激光雷达-雷达早期3D目标检测
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Tsinghua University(清华大学)
AI总结 针对远距离稀疏感知下早期融合丢失信息、通道监督不均衡的问题,提出ATN3D框架,通过密度感知融合、占用门控邻域聚合、证据条件通道自注意力和距离感知损失,在VoD数据集上显著提升远距离检测性能。
基于大型语言模型的民事法庭模拟
发表机构 * Beijing University of Posts and Telecommunications(北京邮电大学) ; Tsinghua University(清华大学)
AI总结 提出多智能体民事法庭模拟框架,通过五阶段审判程序、记忆模块和法规检索实现可靠判决,在责任分配和多项裁决上表现优异。
ReCoVLA: VLM引导的奖励编译用于视觉-语言-动作策略的故障恢复
发表机构 * University of Southern California(南加州大学) ; Mitsubishi Electric Research Laboratories (MERL)(三菱电机研究实验室) ; Harvard University(哈佛大学)
AI总结 提出ReCoVLA框架,通过冻结预训练VLA策略,利用外部VLM推断故障模式并编译结构化奖励,训练残差恢复策略,实现零样本仿真到真实部署,在多种操作任务中提升成功率。
Comments 19 pages, 7 figures
面向电子商务营销活动的约束用户-物品分配
发表机构 * Umeå University(于默奥大学) ; KTH Royal Institute of Technology(皇家理工学院) ; University of Würzburg(维尔茨堡大学)
AI总结 提出自动定向方法,通过约束谱双聚类、贪心局部搜索和多臂老虎机框架联合选择用户和物品构建多个不重叠营销活动,在合成数据、Amazon评论和商业数据上优于模拟退火。
数百个浮动机器人的运动规划
发表机构 * Institute for Dynamic Systems and Control, ETH Zürich(苏黎世联邦理工学院动态系统与控制研究所)
AI总结 针对大型浮动机器人编队的无碰撞运动规划问题,提出一种可扩展的流水线方法,通过碰撞图分解为独立子问题并行求解,在500个机器人仿真和实际演示中验证了有效性。
DexPIE:基于真实世界经验的稳定灵巧策略改进
发表机构 * Hunan University(湖南大学)
AI总结 提出DexPIE后训练框架,通过灵巧手适配干预系统、多阶段DAgger数据收集、相对动作空间异步推理和连续最优性指标条件化,在三个真实灵巧操作任务上成功率提升37%。
Comments Project website: https://siiuuuuuu.github.io/DexPIE
AGENTSERVESIM:面向多轮LLM智能体服务的硬件感知模拟器
发表机构 * University of Central Florida(中佛罗里达大学)
AI总结 提出AGENTSERVESIM模拟器,通过程序编排器、工具模拟器、会话感知路由器和KV驻留模型等模块,在程序粒度上评估多轮LLM智能体服务策略,在CPU上以6%误差复现真实系统行为。
Comments Preprint
基于多智能体强化学习的任意物体协同运输中的形状形成
发表机构 * University of Technology Nuremberg(纽伦堡工业大学)
AI总结 提出一种多智能体强化学习方法,使多机器人系统自主形成支撑任意形状和非均匀质量分布物体的编队,同时避免障碍物,实现可靠且泛化的协同运输。
TUDSR: 用于更高超分辨率的两次上采样扩散
发表机构 * East China Normal University(华东师范大学) ; Zhejiang University(浙江大学)
AI总结 提出TUDSR框架,通过两阶段训练(R分辨率和NR分辨率)结合循环分块策略,在SD2.1基础上实现1024²和2048²高分辨率图像超分辨率,显著优于现有方法。
注意力头中的闭包验证电路发现:共激活提出,消融处置
发表机构 * GitHub
AI总结 通过共激活聚类提出注意力头电路假设,并用因果消融验证闭包性,发现该方法在密集模型有效但在MoE模型失效,表明共激活仅是电路提议而非确认。
Comments 22 pages, 3 figures
下一个词预测学习睡眠生理学的可泛化表示
发表机构 * Institute of Biomedical Engineering, University of Oxford(牛津大学生物医学工程研究所)
AI总结 提出Hypnos模型,通过下一个词预测目标,从多模态生理信号中学习可泛化表示,在睡眠阶段分类和房颤检测等任务上显著优于现有基础模型。
基于语料库特征扩散的繁体中文家长会自动化个别化教育计划生成
发表机构 * National University of Singapore(新加坡国立大学) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 针对繁体中文个别化教育计划(IEP)生成中数据稀缺和隐私限制问题,提出基于语料库特征扩散(CGFD)的低资源微调流程,通过种子选择、特征扩散和语法约束解码(GCD)生成高质量样本,并发现GCD在繁体中文下适得其反,无GCD路径在可靠性和速度上更优。
Comments 12 pages, 5 figures
临床导向的医学语言模型隐私评估
发表机构 * Stanford University(斯坦福大学) ; Massachusetts Institute of Technology(麻省理工学院) ; American Board of Family Medicine(家庭医学认证委员会)
AI总结 提出临床导向框架,按对抗访问等级评估医学语言模型隐私泄露,发现常规元数据可导致高比率逐字记忆和敏感诊断恢复,但部分记忆源于模板化文档。
光学推理:重新思考图像作为超越文本的表达性推理媒介
发表机构 * The Hong Kong Polytechnic University(香港理工大学)
AI总结 提出光学推理概念,将图像作为独立推理媒介,通过排版和图形两种变体实现,在语言和多模态任务中匹配或超越文本推理,同时减少推理令牌。
论高斯差分隐私中参数 $μ$ 的选择
发表机构 * Lausanne University Hospital(拉索恩大学医院) ; University of Helsinki(赫尔辛基大学)
AI总结 本文通过匹配强对手成员推理攻击的最坏情况成功度,提供从纯-DP ε到GDP μ的原则性映射,并推荐 μ≈ε/5 作为保守通用转换。
TABVERSE:大语言模型与视觉语言模型中跨格式表格理解的基准测试
发表机构 * Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)(穆罕默德·本·扎耶德人工智能大学) ; Singapore University of Technology and Design (SUTD)(新加坡科技设计大学)
AI总结 提出TABVERSE基准,通过控制表格内容、跨多种结构格式(HTML、Markdown、LaTeX)和渲染图像,系统评估LLM和VLM在问答、结构理解和结构重建任务中的表现,发现表示格式显著影响表格理解能力。
Comments 24 pages, 18 tables, 16 figures, Submitted to ARR May 2026
代码不仅仅是文本:代码生成的不确定性估计
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; University of Cambridge(剑桥大学)
AI总结 针对代码生成中错误程序的可靠性问题,提出基于词法、算法和功能三个正交轴的不确定性估计方法,在五个代码LLM上将AUROC提升8.1个百分点。
CT-VAM: 一种小脑-丘脑启发的视觉-动作模型用于高效视觉运动控制
发表机构 * University of Science and Technology of China(中国科学技术大学) ; AIRLab, Department of Automation(自动化系AIRLab)
AI总结 提出CT-VAM模型,通过TARS条件注意力解码器融合异构输入,以68M参数实现与大型VLA模型相当的LIBERO成功率,并降低推理延迟,支持高频控制。
自动驾驶应用中相对位姿估计的高效最小求解器
发表机构 * College of Aerospace Science and Engineering, Naval Aviation University(海军航空大学航空航天科学与工程学院)
AI总结 提出基于新平移参数化和一阶旋转近似的统一框架,设计三种最小求解器(利用IMU垂直方向、转向旋转轴方向、平面运动假设),减少点对应数量和代数复杂度,在RANSAC中加速假设生成,平衡速度与精度。
自适应与自组织系统中的自解释性:现状与研究方向
发表机构 * Kiel University(基尔大学)
AI总结 本文通过系统文献综述,定义自解释性(SX)并建立分类法,提出自解释性层次框架,发现多数方法仍处于概念阶段,缺乏评估标准。
Comments Under review as a regular paper at ACM Transactions on Autonomous and Adaptive Systems (TAAS)
PRISM:从语言模型激活中恢复指令集
发表机构 * Center for Cybersecurity Systems & Networks, Amrita Vishwa Vidyapeetham(阿姆里塔·维什瓦·维迪亚佩瑟姆网络安全系统与网络中心) ; Microsoft(微软) ; Ben-Gurion University of the Negev(内盖夫本-古里安大学)
AI总结 提出PRISM方法,通过激活条件解码从冻结目标模型隐藏状态中恢复活跃指令集,利用法官引导的GRPO优化,在多种场景下优于基线方法。
Comments Under Review
Safe-RULE:安全强化反学习
发表机构 * University of Notre Dame(圣母大学)
AI总结 针对离线安全强化学习易受数据投毒攻击的问题,提出Safe-RULE框架,通过反学习移除恶意样本影响,无需从头训练或访问原始环境,实验证明能有效提升安全性。
Comments 20 pages, 3 figures
AI科学家的能力取决于其证据:药物资产估值中专有数据与推理技能的分层消融研究
发表机构 * Noah AI Research(Noah AI研究)
AI总结 通过分层消融实验,发现药物资产估值中AI科学家的决策上限由专有证据集决定,而非仅依赖推理框架;加入专有数据后决策质量显著提升。
Comments Preprint; 2 figures, 5 tables
流式干预:视频大语言模型能否在错误发生时即时纠正?
发表机构 * Qualcomm AI Research(高通人工智能研究院) ; York University(约克大学) ; Vector Institute for AI(向量人工智能研究所)
AI总结 提出Ego-MC-Bench基准评估视频LLM在烹饪场景中的实时干预能力,并构建Ego-CoMist反事实合成数据集提升小模型性能。
Comments Qualcomm Interactive Cooking: Ego-MC-Bench -- available at https://huggingface.co/datasets/neuripsedtracksub/ego-mistake-corrections and Ego-CoMist -- available at https://huggingface.co/datasets/neuripsedtracksub/ego-counterfactual-mistakes