Gaze Heads: How VLMs Look at What They Describe
注视头:视觉语言模型如何观察它们所描述的内容
发表机构 * Northeastern University(东北大学)
AI总结 发现视觉语言模型的语言骨干中存在一组“注视头”,其注意力跟踪当前描述的图像区域,通过干预这些头可精确控制模型描述内容,准确率达83.1%。
注视头:视觉语言模型如何观察它们所描述的内容
发表机构 * Northeastern University(东北大学)
AI总结 发现视觉语言模型的语言骨干中存在一组“注视头”,其注意力跟踪当前描述的图像区域,通过干预这些头可精确控制模型描述内容,准确率达83.1%。
OmniVideo-100K:通过结构化脚本和证据链进行音视频推理的数据集
发表机构 * Nanjing University(南京大学) ; CASIA(中国科学院自动化研究所)
AI总结 提出OmniVideo-100K数据集,通过实体锚定视频脚本和线索引导的QA生成机制,解决音视频问答中跨段实体不一致和长时推理不足的问题,微调模型在多个基准上取得显著提升。
Comments Project page: https://github.com/MiG-NJU/OmniVideo-100K
RATS!补丁通过寄存器对话:寄存器注意力Transformer中的涌现部件
发表机构 * Johns Hopkins University(约翰霍普金斯大学) ; Office of Naval Research, Arlington, VA(海军研究办公室,阿灵顿,弗吉尼亚州) ; Department of Laboratory Medicine and Pathology, Mayo Clinic, MN, USA(梅奥诊所检验医学与病理学系,明尼苏达州,美国)
AI总结 提出RATS模型,通过将分类令牌分解为可学习的寄存器令牌,在L→N→N→L瓶颈中路由补丁信息,无需辅助损失或部件标注,每个寄存器自发专化为类似物体部件的原语义区域,在五个分割基准上平均mIoU提升12。
RepFusion:利用多模态先验在表示空间中进行去噪
发表机构 * Meta AI ; New York University(纽约大学)
AI总结 提出RepFusion方法,利用多模态大语言模型作为噪声表示编码器,为扩散变压器提供条件信号,在相似推理预算下优于新初始化解码器基线。
Comments Project Page: https://xichenpan.com/repfusion
Instruct-Particulate: 基于运动学控制的可扩展前馈式3D物体关节化
发表机构 * University of Oxford(牛津大学) ; University of Cambridge(剑桥大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出Instruct-Particulate模型,通过运动学规范(部件描述、连接性、关节类型等)指导3D网格的关节分割和运动参数预测,利用异构数据集(15万+物体)训练,实现跨类别和AI生成网格的泛化。
Comments Project page: https://instruct-particulate.github.io/
ClinHallu: 用于诊断医学多模态大语言模型推理中阶段式幻觉的基准
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; DAMO Academy, Alibaba Group(阿里巴巴达摩院) ; Hupan Lab(湖畔实验室) ; Zhejiang University(浙江大学)
AI总结 提出ClinHallu基准,包含7031个实例,每个实例带有结构化推理轨迹(视觉识别、知识回忆、推理整合),通过阶段替换干预和轨迹监督微调,实现细粒度幻觉诊断与缓解。
Comments Code and datasets: https://github.com/alibaba-damo-academy/ClinHallu
Persona-Pruner: 为角色扮演雕琢轻量级模型
AI总结 提出Persona-Pruner框架,通过从单个描述中隔离特定角色的子网络来剪枝语言模型,在保持角色扮演性能的同时大幅降低计算成本,性能下降比最强基线减少93.8%。
Comments 25 pages; ICML 2026; Code is available at https://github.com/jsu-kim/Persona-Pruner
学习协调偏好用于多目标多智能体强化学习
发表机构 * Department of Electrical and Computer Engineering, University of Arizona(亚利桑那大学电气与计算机工程系)
AI总结 提出偏好协调多智能体策略优化(PCMA),通过学习协调的智能体特定偏好实现多目标多智能体强化学习中的互补权衡,理论证明偏好多样性可诱导团队改进,实验验证性能与协调性提升。
CORA: 通过一致性导向的推理对齐分析与弥合多模态RLVR中的思考-答案差距
发表机构 * University of Chinese Academy of Sciences(中国科学院大学) ; Wuhan University(武汉大学) ; Tsinghua University(清华大学) ; Tianjin University(天津大学)
AI总结 本文分析多模态RLVR中思考与答案的语义不一致问题,提出CORA方法,通过轻量级一致性奖励模型引入语义一致性,并采用混合奖励优势分裂稳定优化,提升推理忠实度。
Comments Submitted to EMNLP 2026
多组均值估计中主动学习的复杂度度量
发表机构 * Department of Industrial Engineering and Operations Research & Data Science Institute, Columbia University(哥伦比亚大学工业工程与运筹学系及数据科学研究所)
AI总结 针对多组均值估计的max-risk目标,提出局部极小极大框架并证明一般下界,引入方差局部曲率(VLC)作为复杂度度量,在平滑类中与方差-费希尔信息关联,并揭示异质实例中的系统性差距。
洪流与收获:通过极限语言生成视角证明琐碎知识对于生成有价值数学的必要性
发表机构 * University of New South Wales(新南威尔士大学) ; University of Sydney(悉尼大学) ; University of Cambridge(剑桥大学)
AI总结 本文通过极限语言生成模型证明,在形式化数学生成中,验证器无法替代品味:覆盖未记录的有价值数学必须产生无限但渐近可忽略的琐碎语句,这是理论上的必然。
CottonLeafVision:一种可解释且鲁棒的棉花叶部病害分类深度学习框架
AI总结 提出CottonLeafVision框架,使用DenseNet201在棉花叶部病害数据集上达到98%分类准确率,并集成Grad-CAM、遮挡敏感性和对抗训练增强可解释性与鲁棒性。
Comments This paper contains 11 figures and 4 tables. It was Presented at 18th IEEE International Conference on Computational Intelligence and Communication Networks (CICN) 2026
HumP-KD: 一种混合不确定性感知的多阶段渐进式知识蒸馏框架用于高效火灾分类
AI总结 提出HumP-KD框架,通过层次化渐进式知识蒸馏和多阶段蒸馏,将两个冻结的异构Transformer教师(Swin-Tiny和ViT-Base)及其集成知识蒸馏到轻量级MobileViT-S学生模型中,在火灾分类任务上显著提升性能,同时保持低参数量和实时推理速度。
一般凸集上在线库存优化的最优隐藏目标学习
发表机构 * UIUC(伊利诺伊大学厄巴纳-香槟分校)
AI总结 针对一般凸容量集上的在线库存优化问题,提出隐藏目标投影方法,将遗憾从逆概率依赖改进为平方根逆概率依赖,并证明匹配下界,同时首次给出强凸损失的 polylog 遗憾和动态遗憾保证。
探测器错误模型的拟线性等价性检查
AI总结 提出探测器错误模型(DEM)的等式理论,通过拟线性时间归约系统实现结构等价性判定,并应用于量子编译器验证与优化。
Comments 19 pages, 5 figures
AgentSpec: 通过受控组合理解具身智能体脚手架
发表机构 * University of California, San Diego(加利福尼亚大学圣迭戈分校) ; Johns Hopkins University(约翰霍普金斯大学) ; University of Washington(华盛顿大学) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出AgentSpec模块化规范框架,将具身智能体表示为可复用策略组件的类型化组合,通过标准化接口实现受控组件替换与重组,揭示脚手架兼容性和交互效应对性能的主导作用。
压缩计算(可能)不是叠加计算
发表机构 * Metamorphic ; Independent(独立研究者) ; UK AI Security Institute(英国人工智能安全研究所) ; Apollo Research
AI总结 通过分析压缩计算(CC)模型,发现其性能提升源于标签中的混合矩阵,而非真正的叠加计算,SNMF基线可复现其损失特征。
Comments Presented at the Mechanistic Interpretability Workshop at NeurIPS 2025
面向LLM-Agent工作流中并行分支的直接潜在空间合成
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Meta
AI总结 提出Parallel-Synthesis框架,通过直接利用并行工作代理的KV缓存进行合成,避免文本拼接冗余,在9个数据集上匹配或超越文本合成,并将首令牌延迟降低2.5-11倍。
Memento: 通过重建来记忆以实现一致的长视频生成
发表机构 * Xiamen University(厦门大学) ; ERNIE Team, Baidu Inc.(百度公司ERNIE团队)
AI总结 提出Memento框架,通过主体重建引导和双查询记忆机制,解决长视频生成中主体一致性丢失问题,实现跨镜头连贯生成。
Comments Project page: https://ernie-research.github.io/Memento/
EgoGuide: 以自我为中心引导的高效无机器人演示收集与学习
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shanghai Innovation Institute(上海创新研究院) ; Beijing Institute for General Artificial Intelligence (BIGAI)(北京通用人工智能研究院)
AI总结 提出EgoGuide数据收集接口,通过同步腕部和头部/自我中心观察并在线视觉-几何质量引导,结合门控自我中心残差策略,减少所需数据量并提高数据效率。
自我感知的身体:以用户为中心的设计治疗性声音交互框架
AI总结 提出一个用于设计运动声音化治疗交互技术的框架,包括概念重构、设计平台和以用户为中心的方法,以促进临床采用。
超越任务性能:用语音特征解码生物声学嵌入
AI总结 本研究通过线性与非线性回归探针,揭示生物声学预训练嵌入编码的语音特征,发现不同模型互补覆盖声学空间,并提出基于特征可恢复性的模型选择指南。
Comments Accepted at Interspeech 2026
parRSB: 极大规模谱元网格划分
AI总结 提出基于递归谱二分法的并行图划分器parRSB,用于谱元网格的高质量划分,通过Lanczos和共轭梯度逆迭代计算Fiedler向量,在Summit和Frontier上验证了可扩展性和划分质量。
给AI带来头痛:针对计算机视觉应用的声学对抗攻击
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 研究利用低频声波(<20 kHz)引起相机物理振动,导致AI视觉模型(如YOLO11)误分类、漏检或产生幻觉,并分析了影响攻击效果的因素。
Comments 9 pages, 7 figures, SPIE Defense + Security
HPSv3++:跨扩散模型能力全谱系扩展奖励模型
发表机构 * Tsinghua University(清华大学) ; JD Explore Academy(京东探索研究院) ; Peking University(北京大学) ; Zhejiang University(浙江大学)
AI总结 提出HPSv3++奖励模型框架,通过双维度偏好数据集HPDv3++和两阶段训练(正交梯度投影+无监督引导),提升对各类T2I模型及RL迭代的偏好预测能力,在多个基准上达到最优。
Jordan-Moore-Gibson-Thompson方程在消失松弛极限中的间断Galerkin逼近
AI总结 针对JMGT方程,提出间断Galerkin空间离散化,推导与松弛参数无关的先验误差估计,证明半离散逼近在消失松弛极限下以线性速率收敛到阻尼Westervelt方程,并给出全离散Newmark型方法。
将跨领域动作序列抽象为可解释的工作流
发表机构 * Microsoft Corporation(微软公司)
AI总结 提出WorkflowView框架,利用大语言模型将低层动作序列抽象为高层活动,在三个不同任务中验证了有效性和泛化能力,实现高语义相似度和预测性能。
Comments preprint; 9 pages, 5 figures
关于相对单子和余单子的焦点化的语法与语义
AI总结 本文研究直觉主义与线性设置中资源与效应模态的焦点化语法,通过相对(余)单子实现线性call-by-push-value模型中模态的完备性,并从非结合范畴的伴随角度建立对应关系。
Comments Presented at the Sixth International Workshop on Structures and Deduction 2026 (SD 2026)
具有非线性奖励关联的图结构组合半赌博机通过可分离信号
发表机构 * IEEE
AI总结 针对图结构组合半赌博机问题,提出基于图因果奖励建模、再生核方法和泰勒近似的自适应策略,实现时间次线性与数据量线性性能保证,并验证于合成与真实交通数据。
哪些方向重要?仿射鲁棒优化的稀疏设计
发表机构 * University of South Florida(南佛罗里达大学)
AI总结 研究有限字典和预算约束下鲁棒优化中不确定性方向的选择问题,提出基于覆盖目标的数据驱动选择规则,证明其单调次模性,给出贪心算法的近似保证和匹配的难度下界。
Comments Accepted at UAI 2026