Thinking in Blender: Staged Executable Inverse Graphics with Vision-Language Models
在Blender中思考:基于视觉语言模型的分阶段可执行逆向图形
发表机构 * Cornell University(康奈尔大学)
AI总结 提出分阶段可执行逆向图形(SEIG)框架,利用预训练视觉语言模型直接从单张图像重建可编辑的Blender程序,无需专用基础模型或可微渲染,通过逐步细化几何、材质、组合和光照提升重建保真度。
在Blender中思考:基于视觉语言模型的分阶段可执行逆向图形
发表机构 * Cornell University(康奈尔大学)
AI总结 提出分阶段可执行逆向图形(SEIG)框架,利用预训练视觉语言模型直接从单张图像重建可编辑的Blender程序,无需专用基础模型或可微渲染,通过逐步细化几何、材质、组合和光照提升重建保真度。
通过感知扰动和奖励建模减轻多模态大语言模型作为评判者中的感知判断偏差
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; KAIST(韩国科学技术院)
AI总结 本文通过构建感知扰动数据集和结合GRPO奖励与批排序目标的统一训练框架,解决了多模态大语言模型作为评判者时因视觉证据与文本线索冲突而产生的感知判断偏差问题,显著提升了感知忠实度和与人类评价的一致性。
Comments ICML 2026
RoboDream: 用于可扩展机器人数据合成的组合世界模型
发表机构 * USC Physical Superintelligence (PSI) Lab(USC物理超智能实验室) ; Toyota Research Institute(丰田研究院)
AI总结 提出一种以具身为中心的组合世界模型,通过将轨迹执行与环境合成解耦,实现从新视角、新场景和新物体中合成逼真演示数据,并展示其在数据扩展和减少真实数据需求方面的有效性。
Comments Project page: https://junjieye.com/RoboDream/
从零到英雄:世界模型中的免训练自定义概念生成
发表机构 * Virginia Tech(弗吉尼亚理工学院)
AI总结 提出SPAWN方法,利用图像到视频骨干网络的结构特性,通过交换参考帧锚点与外部概念潜变量,实现无需训练即可在世界模型中生成用户指定的视觉概念。
HumanNOVA: 从单张图像实现逼真、通用且快速的3D人体化身建模
发表机构 * University of Texas at Austin(德克萨斯大学奥斯汀分校) ; National University of Singapore(新加坡国立大学) ; Texas A&M University(德克萨斯农工大学)
AI总结 提出HumanNOVA模型,通过可扩展数据生成流水线和前馈令牌条件化架构,从单张RGB图像快速生成逼真3D人体化身,无需测试时优化。
Comments CVPR 2026 Highlight
AdaCodec: 面向视频多模态大语言模型的预测性视觉编码
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shanghai Innovation Institute(上海创新研究院) ; JD.com(京东公司)
AI总结 针对视频帧间冗余问题,提出预测性视觉编码AdaCodec,通过条件预测代价决定是否发送完整参考帧或紧凑P-令牌,在匹配视觉令牌预算下提升性能,并大幅降低首令牌延迟。
Comments 23 pages
ClinEnv:面向智能体的交互式多阶段长时程电子健康记录环境
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Peking University(北京大学) ; University of Texas Southwestern Medical Center(德克萨斯西南医学中心) ; Tsinghua University(清华大学)
AI总结 提出ClinEnv,一个基于真实住院患者数据的交互式基准,通过多阶段决策序列评估大语言模型在不确定性下逐步收集信息并做出不可逆决策的能力,发现模型决策质量与过程质量严重脱节。
Comments 20 pages, 6 figures, 12 tables
基于策略的中央凹成像与感知
发表机构 * Stanford University USA(斯坦福大学)
AI总结 提出一种实时、预测且任务感知的中央凹成像系统,通过强化学习策略动态分配像素带宽到任务相关区域,在严格像素预算下实现高任务性能。
Comments Project website at https://howardxiao.ca/foveated/
VLMs 是视频推理的好老师:通过自适应测试时优化
发表机构 * City University of Hong Kong(香港城市大学) ; Kling Team, Kuaishou Technology(快手科技 Kling 团队)
AI总结 提出将视觉语言模型(VLM)作为“教师”,通过提取任务规则并设计可微分奖励,指导视频生成模型(VGM)在测试时在线优化轻量级 LoRA 模块,从而提升视频推理的泛化能力。
Comments Project Page: https://VLM-as-Teacher.github.io/
IntraShuffler:一种用于异构差分隐私联邦学习的隐私保护框架
发表机构 * University of Tennessee, Knoxville, USA(田纳西大学,科文特分校) ; Oak Ridge National Laboratory, USA(橡树岭国家实验室)
AI总结 针对异构差分隐私联邦学习中诚实但好奇的服务器通过梯度结构推断客户端属性的隐私推理攻击,提出IntraShuffler中间件框架,通过隐私感知混洗机制破坏梯度持久结构,同时保持ε感知聚合,将梯度可恢复性降低60%以上,代理推理准确率从0.78降至0.33。
通过可信推理实现许可安全:可验证的信念空间神经安全滤波器用于保证交互式机器人
发表机构 * Department of Computer Science, Johns Hopkins University, USA(约翰霍普金斯大学计算机科学系)
AI总结 针对交互式机器人中人类不确定性带来的安全问题,提出一种基于共形预测的信念空间安全滤波器验证方法,在考虑推理可靠性的前提下保证高概率安全,并减少保守性。
Comments Accepted to the 17th World Symposium on the Algorithmic Foundations of Robotics (WAFR 2026)
从层到子模块:重新思考基于替换的LLM压缩中的粒度
发表机构 * University of Trento(特伦托大学)
AI总结 提出子模块级别的非连续替换压缩方法SubFit,通过为注意力和前馈子模块分别设计轻量残差旁路,在多种LLM上实现更好的困惑度-准确率权衡。
英雄之旅:用文本游戏测试复杂规则归纳
发表机构 * Department of Linguistics(语言学系) ; The University of Texas at Austin(德克萨斯大学奥斯汀分校)
AI总结 本文提出HERO'S JOURNEY基准,通过目标导向的文本游戏评估大型语言模型在属性与程序归纳任务中的规则推理能力,发现模型虽能进行规则归纳但能力有限且不均衡,程序执行成为瓶颈,而表面语义影响较小。
Comments 24 pages
LongLive-RAG: 一种用于长视频生成的通用检索增强框架
发表机构 * NVIDIA ; USC(美国大学) ; MIT(麻省理工学院)
AI总结 提出LongLive-RAG框架,通过将自回归视频生成中的历史潜变量作为可检索记忆,利用查询嵌入检索相关历史潜变量并引入窗口时间增量损失,以减轻滑动窗口注意力导致的误差累积,提升长视频生成质量。
Comments 20 pages, 7 figures, 4 tables
建模深度歧义:一种用于无飞点深度估计的混合密度表示
发表机构 * University of Michigan(密歇根大学) ; NVIDIA(英伟达)
AI总结 提出混合密度表示MDA,通过预测每个像素的多个深度假设及其概率,解决深度估计中边界处的飞点伪影问题,显著改善边界重建并消除飞点。
AFUN:迈向用于功能理解的可供性基础模型
发表机构 * University of Michigan(密歇根大学) ; University of California, San Diego(加州大学圣地亚哥分校) ; NVIDIA(英伟达)
AI总结 提出AFUN模型,从单张RGB-D图像和语言任务描述中预测任务条件功能掩码和3D接触后运动曲线,通过大规模标准化数据流水线实现开放世界泛化,在多项基准测试中显著优于现有方法。
SN-WER:用于多脚本印度语ASR评估的脚本归一化词错误率
发表机构 * Oracle America Inc.(Oracle美国公司)
AI总结 提出SN-WER指标,通过将参考和假设文本音译为规范脚本后计算WER,解决多脚本场景下WER高估错误的问题,在印度语上评估显示可减少高达12%的模型差距。
Comments Accepted to ACL 2026 MeLLM
基于证据增强机器学习方法的急诊科分诊笔记可迁移自伤监测
发表机构 * School of Computing and Information Systems, University of Melbourne(墨尔本大学计算与信息系) ; Orygen ; Centre for Youth Mental Health, University of Melbourne(墨尔本大学青年心理健康中心) ; Centre for Digital Transformation of Health, University of Melbourne(墨尔本大学医疗数字化转型中心)
AI总结 本研究提出一种结合大语言模型筛选与证据提取的三阶段机器学习方法,从急诊科分诊笔记中检测自伤行为,并在三家澳大利亚医院验证了其高可迁移性和细粒度监测能力。
SimSD:扩散语言模型中的简单推测解码
发表机构 * University of California San Diego(加州大学圣地亚哥分校) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Google(谷歌) ; University of California Santa Barbara(加州大学圣芭芭拉分校)
AI总结 针对扩散语言模型无法直接使用标准推测解码的问题,提出SimSD算法,通过即插即用的掩码策略引入参考令牌并设计注意力掩码,实现单次前向传播验证多个草稿令牌,在保持并行解码优势的同时提升解码吞吐量。
Comments 13 pages, 4 figures, code available at https://github.com/airevo2/SimSD-release
追踪自适应智能体的行为轨迹
发表机构 * University of Birmingham(伯明翰大学)
AI总结 提出一种通过文本嵌入空间中的方向定义智能体特质的方法,训练线性模型对技能文件差异进行评分,实现高准确率的行为特质分类与排序。
Comments 5 pages, 1 figure. To appear at the Second Workshop on Agents in the Wild: Safety, Security, and Beyond (AIWILD) at ICML 2026
LL-Bench: 在大规模生成模型时代重新思考低级视觉评估
发表机构 * Shanghai Jiao Tong University(上海交通大学)
AI总结 提出LL-Bench基准,包含大量真实退化图像和人工偏好标注,系统评估大规模生成模型在低级视觉任务中的性能,并引入LL-Score评估器以更好对齐人类偏好。
通过掩码条件潜在扩散增强改善TEM缺陷的联合检测与分类
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校) ; University of Michigan-Ann Arbor(密歇根大学安娜堡分校)
AI总结 提出一种基于掩码条件潜在扩散模型(LDM)的生成式数据增强方法,用于合成可控、自动标注的多类缺陷掩码的TEM图像,以提升小样本下Mask R-CNN模型的缺陷检测与分类性能。
SafeSteer: 局部化在策略蒸馏用于高效安全对齐
发表机构 * Beihang University(北航) ; Beijing Institute of Technology(北京理工大学) ; Beijing University of Posts and Telecommunications(北京邮电大学) ; Peking University(北京大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Beijing Academy of Artificial Intelligence(北京人工智能研究院)
AI总结 针对大语言模型安全对齐导致通用能力下降的问题,提出SafeSteer方法,通过激活引导构建安全教师并选择安全令牌,仅在安全令牌上施加反向KL惩罚,在仅用100个有害样本且无需通用数据的情况下,实现了安全与通用能力之间的优越平衡。
Comments 19 pages, 8 figures, 14 tables. Submitted to EMNLP 2026
为什么不采用超参数友好的优化?一种用于长尾识别的单调自适应范数缩放方法
发表机构 * University of Oxford(牛津大学)
AI总结 提出一种无需参数正则化的自适应单调归一化方法(SAMN),通过保序回归直接对类别权重范数施加单调性约束,实现超参数友好的长尾识别。
FigSIM:用于自杀迷因的细粒度自杀严重程度和比喻语言数据集
发表机构 * School of Computing and Information Systems, University of Melbourne, Australia(墨尔本大学计算与信息学院) ; Orygen, The National Centre of Excellence in Youth Mental Health, Australia(奥里根青少年心理健康国家研究中心) ; Centre for Youth Mental Health, University of Melbourne, Australia(墨尔本大学青少年心理健康中心) ; O’Donnell School of Public Health, UT Southwestern Medical Center, United States(奥唐奈公共卫生学院,西南医学中心)
AI总结 本文提出FigSIM数据集,包含1049个自杀迷因,标注了细粒度自杀严重程度、比喻现象和自杀相关内容,并评估了16个单模态和多模态模型在比喻语言、自杀严重程度和自杀相关内容检测任务上的表现,揭示了建模和内容审核的独特挑战。
Comments Content warning: contains suicide-related content. Accepted to Findings of the Association for Computational Linguistics: ACL 2026
Moment-Video: 诊断视频多模态大语言模型在瞬时视觉事件上的时间保真度
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shandong University(山东大学) ; Southeast University(东南大学) ; Tencent Youtu Lab(腾讯优图实验室)
AI总结 提出 Moment-Video 基准,通过瞬时视觉事件理解任务诊断视频 MLLMs 的时间保真度,发现最佳模型准确率仅 39.6%,多数开源模型低于 25%。
Comments 28 pages, 10 figures, 11 tables
ToolFG:面向良好基础的细粒度图像分类
发表机构 * Lancaster University(兰卡斯特大学) ; Peking University(北京大学)
AI总结 提出ToolFG框架,通过MCTS引导的工具使用知识蒸馏和模型-工具协同进化机制,使MLLM自主调用外部工具获取可靠视觉线索,实现细粒度图像分类。
并非所有点都同等重要:不确定性感知的4D LiDAR场景合成
发表机构 * NUAA(南京航空航天大学) ; NUS(新加坡国立大学) ; FDU(福建工程学院) ; Duke(杜克大学) ; NTU(国立新加坡大学) ; NJUPT(南京理工大学泰州学院) ; SKL-TI(特种信息处理实验室)
AI总结 提出U4D框架,利用空间不确定性引导LiDAR场景生成,通过熵图识别高不确定性区域并优先合成,再补全其余区域,实现高保真4D场景。
Comments CVPR 2026 E2E3D Workshop; GitHub at https://github.com/worldbench/U4D
当评分量表不足时:LLM辅助发现土耳其教师叙述中的ADHD信号
发表机构 * Department of Computer Science, University of Illinois Chicago(伊利诺伊大学芝加哥分校计算机科学系) ; Department of Child and Adolescent Psychiatry, Gazi University(加齐大学儿童与青少年精神病学系)
AI总结 本研究通过分析土耳其教师评估表中的结构化评分和开放式叙述,利用大语言模型辅助的主题发现方法,揭示了叙述文本中未被结构化量表捕捉的ADHD互补信号。
Comments 15 pages. Accepted to CLPsych 2026. Camera-ready author version. The final version will appear in the ACL Anthology
CRAM:面向多模态持续指令调优的质心路由与自适应MoE
发表机构 * School of Artificial Intelligence, Nanjing University, China(南京大学人工智能学院) ; State Key Laboratory of Novel Software Technology, Nanjing University, China(南京大学新型软件技术国家重点实验室)
AI总结 提出CRAM方法,通过将任务特定模式隔离到独立模块、自适应秩实例化动态分配参数、质心路由激活现有专家以及正交惩罚约束更新方向,解决了多模态持续指令调优中任务竞争导致遗忘和参数效率低下的问题。