Thinking in Blender: Staged Executable Inverse Graphics with Vision-Language Models
在Blender中思考:基于视觉语言模型的分阶段可执行逆向图形
发表机构 * Cornell University(康奈尔大学)
AI总结 提出分阶段可执行逆向图形(SEIG)框架,利用预训练视觉语言模型直接从单张图像重建可编辑的Blender程序,无需专用基础模型或可微渲染,通过逐步细化几何、材质、组合和光照提升重建保真度。
在Blender中思考:基于视觉语言模型的分阶段可执行逆向图形
发表机构 * Cornell University(康奈尔大学)
AI总结 提出分阶段可执行逆向图形(SEIG)框架,利用预训练视觉语言模型直接从单张图像重建可编辑的Blender程序,无需专用基础模型或可微渲染,通过逐步细化几何、材质、组合和光照提升重建保真度。
通过感知扰动和奖励建模减轻多模态大语言模型作为评判者中的感知判断偏差
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; KAIST(韩国科学技术院)
AI总结 本文通过构建感知扰动数据集和结合GRPO奖励与批排序目标的统一训练框架,解决了多模态大语言模型作为评判者时因视觉证据与文本线索冲突而产生的感知判断偏差问题,显著提升了感知忠实度和与人类评价的一致性。
Comments ICML 2026
RoboDream: 用于可扩展机器人数据合成的组合世界模型
发表机构 * USC Physical Superintelligence (PSI) Lab(USC物理超智能实验室) ; Toyota Research Institute(丰田研究院)
AI总结 提出一种以具身为中心的组合世界模型,通过将轨迹执行与环境合成解耦,实现从新视角、新场景和新物体中合成逼真演示数据,并展示其在数据扩展和减少真实数据需求方面的有效性。
Comments Project page: https://junjieye.com/RoboDream/
从零到英雄:世界模型中的免训练自定义概念生成
发表机构 * Virginia Tech(弗吉尼亚理工学院)
AI总结 提出SPAWN方法,利用图像到视频骨干网络的结构特性,通过交换参考帧锚点与外部概念潜变量,实现无需训练即可在世界模型中生成用户指定的视觉概念。
HumanNOVA: 从单张图像实现逼真、通用且快速的3D人体化身建模
发表机构 * University of Texas at Austin(德克萨斯大学奥斯汀分校) ; National University of Singapore(新加坡国立大学) ; Texas A&M University(德克萨斯农工大学)
AI总结 提出HumanNOVA模型,通过可扩展数据生成流水线和前馈令牌条件化架构,从单张RGB图像快速生成逼真3D人体化身,无需测试时优化。
Comments CVPR 2026 Highlight
VISReg: 用于JEPA训练的方差-不变性-素描正则化
AI总结 提出VISReg正则化方法,用基于切片Wasserstein距离的素描目标替代协方差,以增强分布形状约束,在防止嵌入坍塌的同时提升鲁棒性和性能。
AdaCodec: 面向视频多模态大语言模型的预测性视觉编码
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shanghai Innovation Institute(上海创新研究院) ; JD.com(京东公司)
AI总结 针对视频帧间冗余问题,提出预测性视觉编码AdaCodec,通过条件预测代价决定是否发送完整参考帧或紧凑P-令牌,在匹配视觉令牌预算下提升性能,并大幅降低首令牌延迟。
Comments 23 pages
ClinEnv:面向智能体的交互式多阶段长时程电子健康记录环境
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Peking University(北京大学) ; University of Texas Southwestern Medical Center(德克萨斯西南医学中心) ; Tsinghua University(清华大学)
AI总结 提出ClinEnv,一个基于真实住院患者数据的交互式基准,通过多阶段决策序列评估大语言模型在不确定性下逐步收集信息并做出不可逆决策的能力,发现模型决策质量与过程质量严重脱节。
Comments 20 pages, 6 figures, 12 tables
强极化与熵
AI总结 本文证明了实Hilbert空间中单位向量的加权强极化不等式,并给出其在线性泛函乘积极化与Bang定理强化中的应用,同时揭示了该不等式与Shannon熵的关联。
基于策略的中央凹成像与感知
发表机构 * Stanford University USA(斯坦福大学)
AI总结 提出一种实时、预测且任务感知的中央凹成像系统,通过强化学习策略动态分配像素带宽到任务相关区域,在严格像素预算下实现高任务性能。
Comments Project website at https://howardxiao.ca/foveated/
VLMs 是视频推理的好老师:通过自适应测试时优化
发表机构 * City University of Hong Kong(香港城市大学) ; Kling Team, Kuaishou Technology(快手科技 Kling 团队)
AI总结 提出将视觉语言模型(VLM)作为“教师”,通过提取任务规则并设计可微分奖励,指导视频生成模型(VGM)在测试时在线优化轻量级 LoRA 模块,从而提升视频推理的泛化能力。
Comments Project Page: https://VLM-as-Teacher.github.io/
IntraShuffler:一种用于异构差分隐私联邦学习的隐私保护框架
发表机构 * University of Tennessee, Knoxville, USA(田纳西大学,科文特分校) ; Oak Ridge National Laboratory, USA(橡树岭国家实验室)
AI总结 针对异构差分隐私联邦学习中诚实但好奇的服务器通过梯度结构推断客户端属性的隐私推理攻击,提出IntraShuffler中间件框架,通过隐私感知混洗机制破坏梯度持久结构,同时保持ε感知聚合,将梯度可恢复性降低60%以上,代理推理准确率从0.78降至0.33。
通过可信推理实现许可安全:可验证的信念空间神经安全滤波器用于保证交互式机器人
发表机构 * Department of Computer Science, Johns Hopkins University, USA(约翰霍普金斯大学计算机科学系)
AI总结 针对交互式机器人中人类不确定性带来的安全问题,提出一种基于共形预测的信念空间安全滤波器验证方法,在考虑推理可靠性的前提下保证高概率安全,并减少保守性。
Comments Accepted to the 17th World Symposium on the Algorithmic Foundations of Robotics (WAFR 2026)
从层到子模块:重新思考基于替换的LLM压缩中的粒度
发表机构 * University of Trento(特伦托大学)
AI总结 提出子模块级别的非连续替换压缩方法SubFit,通过为注意力和前馈子模块分别设计轻量残差旁路,在多种LLM上实现更好的困惑度-准确率权衡。
英雄之旅:用文本游戏测试复杂规则归纳
发表机构 * Department of Linguistics(语言学系) ; The University of Texas at Austin(德克萨斯大学奥斯汀分校)
AI总结 本文提出HERO'S JOURNEY基准,通过目标导向的文本游戏评估大型语言模型在属性与程序归纳任务中的规则推理能力,发现模型虽能进行规则归纳但能力有限且不均衡,程序执行成为瓶颈,而表面语义影响较小。
Comments 24 pages
LongLive-RAG: 一种用于长视频生成的通用检索增强框架
发表机构 * NVIDIA ; USC(美国大学) ; MIT(麻省理工学院)
AI总结 提出LongLive-RAG框架,通过将自回归视频生成中的历史潜变量作为可检索记忆,利用查询嵌入检索相关历史潜变量并引入窗口时间增量损失,以减轻滑动窗口注意力导致的误差累积,提升长视频生成质量。
Comments 20 pages, 7 figures, 4 tables
建模深度歧义:一种用于无飞点深度估计的混合密度表示
发表机构 * University of Michigan(密歇根大学) ; NVIDIA(英伟达)
AI总结 提出混合密度表示MDA,通过预测每个像素的多个深度假设及其概率,解决深度估计中边界处的飞点伪影问题,显著改善边界重建并消除飞点。
AFUN:迈向用于功能理解的可供性基础模型
发表机构 * University of Michigan(密歇根大学) ; University of California, San Diego(加州大学圣地亚哥分校) ; NVIDIA(英伟达)
AI总结 提出AFUN模型,从单张RGB-D图像和语言任务描述中预测任务条件功能掩码和3D接触后运动曲线,通过大规模标准化数据流水线实现开放世界泛化,在多项基准测试中显著优于现有方法。
SN-WER:用于多脚本印度语ASR评估的脚本归一化词错误率
发表机构 * Oracle America Inc.(Oracle美国公司)
AI总结 提出SN-WER指标,通过将参考和假设文本音译为规范脚本后计算WER,解决多脚本场景下WER高估错误的问题,在印度语上评估显示可减少高达12%的模型差距。
Comments Accepted to ACL 2026 MeLLM
多元排行榜
AI总结 针对用户偏好异质性导致传统Bradley-Terry模型排名失真的问题,提出基于社会选择理论的局部稳定机制,仅需少量用户比较即可实现稳定的多元排行榜。
基于证据增强机器学习方法的急诊科分诊笔记可迁移自伤监测
发表机构 * School of Computing and Information Systems, University of Melbourne(墨尔本大学计算与信息系) ; Orygen ; Centre for Youth Mental Health, University of Melbourne(墨尔本大学青年心理健康中心) ; Centre for Digital Transformation of Health, University of Melbourne(墨尔本大学医疗数字化转型中心)
AI总结 本研究提出一种结合大语言模型筛选与证据提取的三阶段机器学习方法,从急诊科分诊笔记中检测自伤行为,并在三家澳大利亚医院验证了其高可迁移性和细粒度监测能力。
SimSD:扩散语言模型中的简单推测解码
发表机构 * University of California San Diego(加州大学圣地亚哥分校) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Google(谷歌) ; University of California Santa Barbara(加州大学圣芭芭拉分校)
AI总结 针对扩散语言模型无法直接使用标准推测解码的问题,提出SimSD算法,通过即插即用的掩码策略引入参考令牌并设计注意力掩码,实现单次前向传播验证多个草稿令牌,在保持并行解码优势的同时提升解码吞吐量。
Comments 13 pages, 4 figures, code available at https://github.com/airevo2/SimSD-release
SkillHarm: 通过自动化构建实现生命周期感知的基于技能的攻
AI总结 提出SkillHarm基准,通过固定载荷投毒和自我变异投毒两种攻击场景,系统评估基于技能的攻击在技能使用生命周期中的风险,并构建自动化管道AutoSkillHarm生成大规模攻击样本。
Comments Work in Progress
高阶同质性指南
AI总结 本文综述了超图中高阶同质性和异质性的量化方法及模型,为研究者提供方法论选择和未来发展的基础。
追踪自适应智能体的行为轨迹
发表机构 * University of Birmingham(伯明翰大学)
AI总结 提出一种通过文本嵌入空间中的方向定义智能体特质的方法,训练线性模型对技能文件差异进行评分,实现高准确率的行为特质分类与排序。
Comments 5 pages, 1 figure. To appear at the Second Workshop on Agents in the Wild: Safety, Security, and Beyond (AIWILD) at ICML 2026
LL-Bench: 在大规模生成模型时代重新思考低级视觉评估
发表机构 * Shanghai Jiao Tong University(上海交通大学)
AI总结 提出LL-Bench基准,包含大量真实退化图像和人工偏好标注,系统评估大规模生成模型在低级视觉任务中的性能,并引入LL-Score评估器以更好对齐人类偏好。
通过掩码条件潜在扩散增强改善TEM缺陷的联合检测与分类
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校) ; University of Michigan-Ann Arbor(密歇根大学安娜堡分校)
AI总结 提出一种基于掩码条件潜在扩散模型(LDM)的生成式数据增强方法,用于合成可控、自动标注的多类缺陷掩码的TEM图像,以提升小样本下Mask R-CNN模型的缺陷检测与分类性能。
SafeSteer: 局部化在策略蒸馏用于高效安全对齐
发表机构 * Beihang University(北航) ; Beijing Institute of Technology(北京理工大学) ; Beijing University of Posts and Telecommunications(北京邮电大学) ; Peking University(北京大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Beijing Academy of Artificial Intelligence(北京人工智能研究院)
AI总结 针对大语言模型安全对齐导致通用能力下降的问题,提出SafeSteer方法,通过激活引导构建安全教师并选择安全令牌,仅在安全令牌上施加反向KL惩罚,在仅用100个有害样本且无需通用数据的情况下,实现了安全与通用能力之间的优越平衡。
Comments 19 pages, 8 figures, 14 tables. Submitted to EMNLP 2026
自适应激励设计的无遗憾框架
AI总结 针对连续动作空间和私有成本的博弈,提出无遗憾自适应激励设计框架,通过切换激励策略实现参数估计和遗憾最小化。
Comments 21 pages, 5 figures
审计金融大语言模型中的资产特定偏好:来自比特币表征与投资组合配置的证据
AI总结 本研究通过三级审计协议,发现大型语言模型对比特币存在框架依赖的偏好,并识别出模型内部一个可因果干预的比特币选择性特征,该特征能显著影响下游投资组合配置。
Comments 28 pages, 5 figures, 18 tables