From Pixels to Words -- Towards Native One-Vision Models at Scale
从像素到文字——迈向原生单视觉大规模模型
AI总结 本文提出NEO-ov原生基础模型,通过端到端学习跨帧和像素-文字对应,无需外部编码器或适配器,在细粒度视觉感知上缩小了与模块化模型的差距,验证了原生单视觉架构的可行性和竞争力。
Comments 13 pages, 6 figures
从像素到文字——迈向原生单视觉大规模模型
AI总结 本文提出NEO-ov原生基础模型,通过端到端学习跨帧和像素-文字对应,无需外部编码器或适配器,在细粒度视觉感知上缩小了与模块化模型的差距,验证了原生单视觉架构的可行性和竞争力。
Comments 13 pages, 6 figures
PEFT-Arena:从稳定性-可塑性角度理解参数高效微调
AI总结 提出PEFT-Arena基准,通过稳定性-可塑性困境评估参数高效微调方法,发现正交微调在帕累托前沿上最优,并从权重空间和激活空间分析其几何特性。
Comments Technical report v1 (28 pages, 9 figures, project page: https://spherelab.ai/PEFT-Arena/)
VLMs 在自然阅读中可能不会全局性地增强与人类的对齐性优于 LLMs
AI总结 通过严格文本设置比较LLM和VLM,发现多模态预训练在自然阅读中未带来全局性人类对齐优势,但视觉语义内容强的句子中VLM有选择性优势。
Comments 17 pages, 10 figures
Gamma-World: 超越双玩家的生成式多智能体世界建模
AI总结 提出一种生成式多智能体世界模型,通过Simplex Rotary Agent Encoding实现智能体置换等价性,并采用Sparse Hub Attention降低跨智能体注意力成本,支持多玩家交互视频生成。
Comments Project Page: https://research.nvidia.com/labs/sil/projects/gamma-world
具有双向进化搜索的自我改进语言模型
AI总结 提出双向进化搜索(BES)框架,通过前向候选进化与后向目标分解相结合,克服了传统搜索方法中稀疏验证信号和自回归扩展的局限,在训练后和推理时均显著提升语言模型性能。
超越二元:基于物理接触表示的仿真到现实灵巧操作
AI总结 提出基于物理原理的中心压力(CoP)触觉表示,结合可微动力学传感器标定,实现多指手的零样本仿真到现实迁移,在插销入孔和球平衡任务中优于二元接触和原始触觉基线。
Comments Project site: https://mpan31415.github.io/tactile_rep/
HarmoVid: 可重光照的视频人像协调
AI总结 提出一种基于视频扩散模型和光照去闪烁方法,实现前景视频与目标背景场景在阴影、色调和光照强度上的协调,解决视频时域抖动问题。
Comments CVPR 2026
情感音乐推荐:基于展开世界模型的离线偏好优化
AI总结 针对在线情感实验受伦理限制的问题,提出基于展开世界模型的情感音乐推荐系统AMRS,利用因果Transformer预测用户情感状态,并通过离线偏好优化提升推荐效果。
AREA: 基于CLIP的类增量学习中的属性提取与聚合
AI总结 提出AREA方法,通过主测地线分析稳定属性提取、轻量级任务专家和变分信息瓶颈正则化稳定属性聚合,并利用最优传输进行推理,以解决CLIP类增量学习中的灾难性遗忘问题。
Comments Accepted to ICML 2026. Code is available at https://github.com/LAMDA-CL/ICML2026-AREA
校准保守主义以实现可扩展监督
AI总结 提出校准集体监督(CCO)方法,通过在线校准保守主义,在无分布假设下确保不良结果低于用户指定阈值,并在SWE-bench和MACHIAVELLI实验中验证其有效性。
来自显式和隐式证据的个人视觉记忆
AI总结 本文提出个人视觉记忆基准和VisualMem混合架构,通过显式与隐式视觉证据增强AI代理的长期记忆,显著提升个性化任务性能。
Comments Project Page: https://viettmab.github.io/visualmem-page/
OmniVerifier-M1: 具有显式结构化重校准的多模态元验证器
AI总结 提出OmniVerifier-M1,通过符号化元验证(如边界框)和解耦强化学习,实现多模态大模型的可靠细粒度验证与动态区域级自校正。
Comments ICML 2026. Project: https://github.com/Cominclip/OmniVerifier
Ω-QVLA: 通过复合旋转和逐步缩放实现视觉-语言-动作模型的鲁棒量化
AI总结 提出Ω-QVLA,首个无需训练的后训练量化框架,通过复合SVD-Hadamard旋转和逐步DiT激活缩放量化,将VLA模型的语言骨干和扩散动作头统一压缩至W4A4精度,在LIBERO上达到或超越FP16性能,内存减少71.3%。
人类标注变异作为稳定信号:通过跨标注者偏好优化学习标注者特定的解释行为
AI总结 研究大语言模型能否学习并复现标注者特定的标签-解释行为,提出跨标注者偏好优化(CAPO)方法,通过对比目标标注者与其他有效但非目标标注者的响应来提升模仿和归因能力。
Comments 43 pages, 20 figures
CaMBRAIN:基于因果状态空间模型的实时连续脑电图推理
AI总结 提出首个基于因果Mamba的状态空间模型CaMBRAIN,通过多阶段自监督训练实现实时、长程连续的EEG信号推理,在三个数据集上达到SOTA且吞吐量提升10倍以上。
Comments 22 pages, 3 figures, 8 tables
技能条件门控自蒸馏用于大语言模型推理
AI总结 提出技能条件门控自蒸馏(SGSD),通过从经验技能库中检索技能-错误对构建多教师池,并利用验证器验证教师极性,以鲁棒门控目标蒸馏信息性师生差异,在弱先验信息假设下提升数学推理性能。
大型语言模型能否处理话语标记?以口语马来语为例
AI总结 本文通过构建MalayPrag基准和提出五个属性,系统评估并改进了大型语言模型在口语马来语中处理话语标记的能力。
偏差留下梯度痕迹:基于概念分解的梯度探针实现无标签偏差识别
AI总结 提出一种无需偏差标签的后处理方法,通过非负矩阵分解提取概念向量,并利用误分类样本的梯度信号识别视觉模型中的虚假关联,在不重新训练的情况下提升最差组准确率。
Comments Accepted to the 49th German Conference on Artificial Intelligence (KI2026)
视觉-语言因果推理中的抽象差距
AI总结 针对视觉-语言模型(VLM)生成因果解释时语言流畅性与忠实因果推理的混淆问题,提出双探针方法和抽象差距(AG)指标,通过CAGE基准评估发现多数模型存在显著AG,但通过预训练和架构选择可缩小差距。
LLMs 能否使用语言不确定性标记可靠地反映内在置信度?
AI总结 本研究首次系统探究大语言模型(LLMs)是否能够稳定且泛化地将其语言置信度标记与内在置信度关联,并评估上下文特征的影响,通过提出7个指标分析标记内在置信度的稳定性,发现LLMs即使在模型中心解释下也存在忠实校准偏差。
Comments Code: https://github.com/yale-nlp/marker_internal_confidence
从弱点中学习:小型计算机使用代理的自动化领域专业化
AI总结 提出LearnWeak框架,通过更强的参考代理识别学生代理在目标领域的弱点,自动合成针对性任务和监督信号,并引入误差感知专业化目标,显著提升小型计算机使用代理在多个领域的性能。
Agent探索性策略优化用于多模态Agent推理
AI总结 针对多模态Agent推理中思考与工具使用的不对称性(Thinking-Acting Gap),提出AXPO算法,通过固定思考前缀并重采样工具调用及其延续,结合基于不确定性的前缀选择,显著提升工具使用率和模型性能。
Comments Project page: https://byungkwanlee.github.io/AXPO-page/
重新思考记忆作为持续演化的连接性
AI总结 提出 FluxMem 框架,将记忆建模为异构图并通过三个阶段(初始连接形成、反馈驱动优化、长期巩固)动态演化拓扑结构,以解决现有记忆增强型 LLM 代理在动态环境中的脆弱性问题。
Comments Ongoing work
多混合器模型:基于共享表示的灵活序列建模
AI总结 提出Oryx混合模型,通过序列轴上的灵活切换(注意力与线性递归)实现高效长上下文处理,在1.4B规模下平均语言建模任务提升0.7个百分点。
多标签学习中优化广义度量的原则性算法
AI总结 本文基于H-一致性理论,设计了可分解的代理损失函数,提出MMO算法族,用于优化多标签学习中的广义线性分式度量,并在大规模数据集上验证了其可扩展性和优越性能。
SwarmHarness:通过去中心化激励对齐的AI智能体网络进行基于技能的任务路由
AI总结 提出SwarmHarness去中心化协议,通过DHT注册、效用函数路由和Shapley值激励,实现无中心化计算集群的自我组织与任务分配。
CubePart: 一种开放词汇、部件可控的3D生成器
AI总结 提出CubePart框架,通过开放词汇的部件模式实现用户定义的部件级3D网格生成,无需后处理即可直接用于游戏引擎。
Comments SIGGRAPH 2026. Project Page: https://cubepart.github.io/
LLM零阶微调是一种推理工作负载
AI总结 本文发现LLM零阶微调是推理主导的工作负载,通过将其重复评分阶段在服务运行时中执行,实现了8.13倍加速,并保持了高精度。
Comments 12 pages, 4 figures, 3 tables, including appendix and references
外推权重平均揭示代码强化学习中的正确性-效率前沿
AI总结 通过外推权重平均,无需额外RL训练即可扩展微调检查点间的帕累托前沿,在竞争性编程中实现正确性与效率的权衡,并提升推理时性能。
Comments 54 pages
预测市场中的立场检测:通过反事实增强和市场上下文解决交易者评论不平衡问题
AI总结 针对预测市场评论中极端不平衡的立场检测问题,提出结合市场上下文和LLM驱动的反事实增强方法,显著提升了少数类(反对立场)的召回率和F1值。
Comments 14 pages, 9 figures