ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation
ActCam: 零样本联合摄像机和3D运动控制用于视频生成
发表机构 * University of Oxford(牛津大学)
AI总结 ActCam通过零样本方法实现视频生成中演员动作与摄像机轨迹的联合控制,通过几何一致的条件生成提升摄像机适应性和动作真实性。
Comments SIGGRAPH 2026
ActCam: 零样本联合摄像机和3D运动控制用于视频生成
发表机构 * University of Oxford(牛津大学)
AI总结 ActCam通过零样本方法实现视频生成中演员动作与摄像机轨迹的联合控制,通过几何一致的条件生成提升摄像机适应性和动作真实性。
Comments SIGGRAPH 2026
UniPool: 一种全局共享专家池的混合专家架构
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; Huawei Technologies(华为技术有限公司) ; The University of Hong Kong(香港大学)
AI总结 UniPool通过全局共享专家池替代传统每层独立专家资源,减少专家参数线性增长需求,提升模型效率和效果。
BAMI:无需训练的GUI定位偏差缓解
发表机构 * Tsinghua University, China(清华大学,中国) ; Lenovo Research, China(联想研究院,中国)
AI总结 本文提出BAMI方法,通过粗到细聚焦和候选选择缓解GUI定位中的精度偏差和歧义偏差,提升模型在无训练设置下的准确性。
Comments Accepted by CVPR 2026
多机器人在V2X环境中的协同
发表机构 * Karlsruhe Institute of Technology(卡尔斯鲁厄理工学院) ; Halmstad University(哈姆斯塔德大学)
AI总结 本文提出一种V2X通信框架,通过引入机器人中心的服务层服务实现复杂城市交通环境中社交机器人的去中心化协作。
Comments Accepted for publication at the IEEE Intelligent Transportation Systems Conference (ITSC), 2026
基于验证器的数学推理硬问题生成
发表机构 * Department of Data Science, City University of Hong Kong(香港城市大学数据科学系) ; Hong Kong Institute of AI for Science, City University of Hong Kong(香港城市大学人工智能科学研究所) ; School of Intelligence Science and Technology, Peking University(北京大学智能科学与技术学院) ; Department of Statistics, University of Oxford(牛津大学统计系)
AI总结 本文提出VHG框架,通过引入独立验证器约束问题生成器的奖励,提升生成问题的有效性和难度,实验显示其在不定积分和数学推理任务中优于基线方法。
Relit-LiVE: 通过联合学习环境视频实现视频照明
发表机构 * Nanjing University(南京大学) ; Tsinghua University(清华大学) ; The Hong Kong University of Science and Technology(香港科学与技术大学) ; University of Chinese Academy of Sciences(中国科学院大学) ; Huazhong University of Science and Technology(华中科技大学) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳))
AI总结 Relit-LiVE通过引入原始参考图像和环境视频预测方法,实现了无需相机姿态先验知识的物理一致视频照明,提升了真实场景下的照明效果和时间稳定性。
Comments Accepted at SIGGRAPH 2026. Project site: https://github.com/zhuxing0/Relit-LiVE
为何全球大语言模型排行榜具有误导性:异质监督学习的小微投资组合
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; MIT Sloan School of Management(麻省理工学院斯隆管理学院)
AI总结 本文分析了全球大语言模型排行榜的误导性,指出语言异质性导致传统排名方法失效,并提出(λ,ν)投资组合框架以解决异质性问题。
优化器-模型一致性:使用与预训练相同的优化器进行全微调可减少遗忘
发表机构 * UIUC(伊利诺伊大学香槟分校) ; Apple(苹果公司)
AI总结 本文发现使用与预训练相同的优化器进行全微调,在监督微调阶段能更少遗忘并保持性能,提出优化器-模型一致性概念,通过实验和理论分析揭示优化器对模型的影响及微调策略的重要性。
在没有基准的情况下:在无标签的情况下验证比较LLM安全性评分
发表机构 * Simula Metropolitan Center for Digital Engineering(Simula 数字工程中心) ; Oslo Metropolitan University(奥斯陆 Metropolitan 大学) ; University of Oslo(奥斯陆大学) ; Simula Research Laboratory(Simula 研究实验室) ; Norwegian Directorate of Health(挪威健康 Directorate)
AI总结 本文提出在无标签情况下验证LLM安全性的方法,通过构建仪器有效性链来替代真实标签,通过实验验证其有效性,并展示了在不同场景下的应用和结果。
Comments SimpleAudit Repository: https://github.com/kelkalot/simpleaudit
超越负回滚:仅正回滚的策略优化
发表机构 * University of Washington(华盛顿大学)
AI总结 本文提出POPO框架,通过仅使用在线正回滚进行学习,避免负回滚,并通过siamese网络和相似性惩罚提升稳定性,实验证明其在数学基准测试中性能优于GRPO。
归纳性Venn-Abers及相关回归器
发表机构 * GitHub
AI总结 本文将Venn-Abers回归器推广到无界回归,引入符合预测元素,通过模拟和实证研究证明其在大训练集下提升预测效率。
Comments 33 pages
我们是否在多模态领域泛化中取得进展?一个全面的基准研究
发表机构 * ETH Zürich(苏黎世联邦理工学院) ; Zhengzhou University(郑州大学) ; MBZUAI(马克斯·普朗克人工智能研究所) ; EPFL(苏黎世联邦理工学院)
AI总结 本文通过MMDG-Bench基准测试,评估了多模态领域泛化方法的有效性,发现现有方法在公平比较下进步有限,且存在领域和模态配置差异,揭示了领域泛化仍需进一步改进。
Comments Code: https://github.com/lihongzhao99/MMDG_Benchmark
StraTA: 通过战略轨迹抽象激励代理强化学习
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; University of Georgia(佐治亚大学) ; University of Oxford(牛津大学) ; Shenzhen Loop Area Institute(深圳Loop区研究院)
AI总结 本文提出StraTA框架,通过引入显式的轨迹级策略提升代理强化学习的样本效率和最终性能,实验显示其在ALFWorld、WebShop和SciWorld上均优于基线模型。
Comments 26 pages, 4 figures, 7 tables
GlazyBench:陶瓷釉料属性预测与图像生成的基准测试
发表机构 * Queen Mary University of London(伦敦大学玛丽女王学院)
AI总结 本文提出GlazyBench,首个用于AI辅助釉料设计的基准数据集,包含23148种真实釉料配方,支持釉料属性预测与图像生成任务,通过传统机器学习和大语言模型建立基线,展示出有前景但具挑战性的实验结果。
基于概念的归纳与对比解释用于视觉模型的行为
发表机构 * Colorado State University(科罗拉多州立大学) ; KBR Inc.(KBR公司) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 本文提出基于概念的归纳与对比解释方法,用于解释视觉模型的行为,通过概念擦除过程建立因果关系,实现对单张图像和图像集合的预测理解。
递归智能体优化
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Amazon AGI Labs(亚马逊人工智能实验室)
AI总结 本文提出递归智能体优化方法,通过递归代理训练实现更高效的推理扩展和泛化能力,提升任务处理效率和泛化性能。
被引用但未验证:解析和评估LLM深度研究代理中的源归属
发表机构 * Commercial Technology and Innovation Office, PricewaterhouseCoopers, U.S(普华永道商业技术与创新办公室,美国)
AI总结 本文提出首个源归属评估框架,通过AST解析器大规模评估LLM生成的Markdown报告中的引用,从链接有效性、内容相关性和事实准确性三个维度验证引用可靠性,揭示了表面引用质量与事实可靠性之间的关键断层。
在大型语言模型中构建可逆的SFT行为
发表机构 * Michigan State University(密歇根州立大学) ; Hippocratic AI(希波克拉底AI) ; University of Georgia(佐治亚大学)
AI总结 本文提出LCDD和SFT-Eraser方法,通过构建稀疏必要子网络实现对SFT诱导行为的可控逆向,验证了结构对行为因果必要性的重要性。
混合量子-经典GANs用于生成对抗网络流
发表机构 * Kennesaw State University(肯尼斯州立大学) ; University of Nebraska Omaha(内布拉斯加大学奥马哈分校)
AI总结 本文提出混合量子-经典GAN框架,利用量子生成器生成模拟恶意流量的合成网络流,通过量子态编码减少计算开销,并测试其对经典IDS的绕过能力,探索量子机器学习在生成高级攻击流中的潜力。
Comments 14 pages
PianoCoRe:综合与优化的钢琴MIDI数据集
发表机构 * Skolkovo Institute of Science and Technology(斯克洛尔沃科学与技术研究院)
AI总结 PianoCoRe数据集整合并优化了多个开源钢琴数据集,包含250,046次演奏5,625首作品,提供高质量的MIDI数据及注释对齐功能,支持不同应用需求。
Comments Published in TISMIR. Project repository: https://github.com/ilya16/PianoCoRe
Journal ref Transactions of the International Society for Music Information Retrieval, 9(1), 144-163, 2026
L2韩语UD中的解析一致与不一致:对人类在环标注的启示
发表机构 * Rochester Institute of Technology(罗切斯特技术学院) ; University of Illinois Chicago(伊利诺伊大学芝加哥分校)
AI总结 本文提出一种简化的人工在环流程,利用两个领域适应解析器的一致性进行第二语言韩语形态语法标注,通过对比解析器与人类判断发现其高度一致,支持半自动标注的可行性,并指出解析分歧集中在语言可预测领域。
Comments To be published in the 20th Linguistic Annotation Workshop
算法语言:隐藏在开放中的平衡:可理解性与检测规避之间的权衡
发表机构 * Stanford University(斯坦福大学) ; Freie Universität Berlin(柏林自由大学)
AI总结 本文研究了算法语言在内容生成和审核中的平衡问题,提出了多数可理解调制概念,并通过实验验证了可理解性与检测规避之间的关系。
Comments Under Review
何时以及为何SignSGD优于SGD:基于ℓ1范数下界的一个理论研究
发表机构 * State Key Laboratory of Novel Software Technology, Nanjing University(南京大学新型软件技术国家重点实验室) ; School of Artificial Intelligence, Nanjing University(南京大学人工智能学院)
AI总结 本文通过分析ℓ1范数站稳性、ℓ∞光滑性和可分离噪声模型,揭示SignSGD在稀疏噪声下比SGD更高效的原因,并证明其在矩阵域中的最优性。
Comments Code is available at https://github.com/Dingzhen230/SignSGD_Outperforms_SGD
SkillOS: 为自演化代理学习技能编目
发表机构 * Google Cloud AI Research(谷歌云人工智能研究) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Massachusetts Institute of Technology(麻省理工学院)
AI总结 SkillOS通过经验驱动的强化学习方法,解决自演化代理中复杂长期技能编目的学习问题,优于记忆-free和强记忆基线,在效果和效率上均表现优异,技能库逐步演变成更丰富的Markdown文件。
Comments 11 pages, 6 figures, 3 tables
在线贝叶斯校准在渐进和突发系统变化下的应用
发表机构 * Department of Industrial and Systems Engineering(工业与系统工程系) ; University of Washington(华盛顿大学) ; Seattle, WA 98195(华盛顿州西雅图98195)
AI总结 本文提出BRPC框架,用于处理流数据中的系统渐进变化和突发变化,通过分离校准参数更新和偏差更新,提升校准精度和鲁棒性。
注意力陷阱的结构起源:方差差异、超级神经元和维度不均等
发表机构 * The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; Huawei Foundation Model Department(华为基础模型部门)
AI总结 本文揭示了大语言模型中注意力陷阱现象的结构成因,通过分析自注意力机制中的方差差异和前馈网络中超级神经元的激活,证明了维度不均等导致注意力陷阱的形成,并提出head-wise RMSNorm架构改进以稳定值聚合。
Comments Accepted to ICML 2026
Transformer 通过归一化梯度下降高效执行上下文逻辑回归
发表机构 * School of Computing & Data Science, The University of Hong Kong(香港大学计算机与数据科学学院)
AI总结 本文研究了softmax注意力机制的Transformer在线性分类数据上的上下文学习能力,通过构建多层Transformer实现上下文逻辑回归,证明其可通过训练单层自注意力层并循环应用获得,提供了训练收敛性和分布外泛化性的理论保障。
Comments 94 pages, 8 figures
需要多少次迭代才能突破限制?多轮LLM评估中的动态预算分配
发表机构 * Department of Computer Science(计算机科学系) ; Technion, Israel(技术ion, 以色列) ; Departments of Electrical and Computer Engineering and of Computer Science(电气与计算机工程系和计算机科学系)
AI总结 本文提出DAPRO框架,通过动态预算分配在多轮LLM交互中提供事件发生时间的界限,解决静态方法效率低的问题,实验表明其在覆盖性和方差方面优于传统方法。
权重衰减使Transformer损失景观变得Villani:优化和泛化的功能-分析基础
发表机构 * Science and Technology Organization, GE HealthCare(科技组织,GE医疗)
AI总结 本文通过功能-分析方法研究权重衰减对Transformer损失景观的影响,证明其满足Villani的 coercive 能量函数条件,并推导出与正则化强度和模型维度相关的收敛保证和泛化界限。
Comments 17 pages, 10 figures
跨模态导航与多智能体强化学习
发表机构 * Khoury College of Computer Sciences(计算机科学学院)
AI总结 本文提出CRONA框架,通过多智能体强化学习实现跨模态导航,利用辅助信念和集中式多模态批评者提升协作效率,实验表明多智能体方法在视觉-听觉导航中优于单智能体基线。