Attention-guided Fine-tuning of Multimodal Large Language Models Improves Chain-of-Thought Reasoning
注意力引导的多模态大语言模型微调提升思维链推理能力
发表机构 * University of Virginia(弗吉尼亚大学)
AI总结 针对多模态大语言模型中思维链推理效果不佳的问题,提出注意力引导的微调目标Attentive-CoT,通过延迟答案承诺和维持视觉令牌访问来提升推理性能。
注意力引导的多模态大语言模型微调提升思维链推理能力
发表机构 * University of Virginia(弗吉尼亚大学)
AI总结 针对多模态大语言模型中思维链推理效果不佳的问题,提出注意力引导的微调目标Attentive-CoT,通过延迟答案承诺和维持视觉令牌访问来提升推理性能。
处处学习:具有逐点约束的人工智能
发表机构 * Department of Electrical and Systems Engineering, University of Pennsylvania(宾夕法尼亚大学电气与系统工程系) ; École polytechnique, Institut Polytechnique de Paris(巴黎理工学院)
AI总结 提出“处处学习”新范式,通过近似对偶理论分析泛化性能,并用稀疏L1惩罚控制泛化,在语言模型任务中验证其优势。
RoleCDE:角色扮演代理中的角色-对齐权衡的基准测试与缓解
发表机构 * School of Information, Renmin University of China(中国人民大学信息学院)
AI总结 针对角色扮演代理在角色特定价值与对齐约束冲突时的决策问题,提出首个基准RoleCDE,通过认知困境场景评估角色-场景基础、价值冲突解决和决策倾向,发现“角色价值解耦”现象,并基于RoleCDE的微调有效缓解该问题。
Comments 23pages
ForestMamba: 基于几何引导查询的稀疏Mamba用于3D森林点云分割
发表机构 * Nagoya University(名古屋大学) ; RIKEN Seika(日本理化学研究所Seika研究中心) ; University of California, Los Angeles(加州大学洛杉矶分校) ; University of Twente(埃因霍温理工大学) ; Ritsumeikan University(立命馆大学)
AI总结 提出ForestMamba方法,通过稀疏编码器、几何引导查询初始化和Mamba查询解码器,实现高效且结构感知的森林点云分割,在七个森林区域上优于现有方法,推理速度提升3倍,GPU内存降低2.3倍。
CRePE: 后训练剪枝中基于卷积感知的相对重要性及高效搜索
发表机构 * Hankuk University of Foreign Studies(韩国家外国语大学)
AI总结 提出CRePE方法,通过引入二维局部邻域上下文和自适应系数改进相对重要性评分,结合PHO代理优化实现高效后训练剪枝,在多种模型和稀疏度下取得最优性能。
Comments 10 pages
PathAR: 结构优先的多模态病理图像自回归合成
发表机构 * Key Laboratory of New Generation Artificial Intelligence Technology and Its Interdisciplinary Applications (Southeast University), Ministry of Education(新一代人工智能技术及其交叉应用重点实验室(东南大学),教育部) ; Centre for Innovation and Precision Eye Health, Yong Loo Lin School of Medicine, National University of Singapore(创新与精准眼健康中心,新加坡国立大学 Yong Loo Lin 医学院) ; Department of Ophthalmology, Yong Loo Lin School of Medicine, National University of Singapore(眼科学系,新加坡国立大学 Yong Loo Lin 医学院) ; Department of Biostatistics, Center for Global Health, School of Public Health, Nanjing Medical University(生物统计学系,全球健康中心,南京医科大学) ; Institute of High-Performance Computing, Agency for Science, Technology and Research(高性能计算研究所,科技研究局)
AI总结 提出PathAR,一种结构优先的自回归合成框架,通过显式分解结构与外观并使用交错自回归Transformer,实现模态标签条件下的病理图像生成,改善结构一致性和模态保真度。
Comments 12 pages, 7 figures
TN-SHAP-G:用于Shapley值和交互的图结构张量网络代理
发表机构 * University of Washington(华盛顿大学) ; CNRS(法国国家科学研究中心)
AI总结 提出TN-SHAP-G框架,利用图结构输入通过张量网络代理高效计算Shapley值和高阶交互指数。
通过新颖性信号实现联合智能体记忆与探索学习
发表机构 * Tsinghua University(清华大学) ; Sun Yat-sen University(中山大学) ; Baidu Inc.(百度公司) ; Tongji University(同济大学) ; Peking University(北京大学)
AI总结 提出JAMEL框架,利用新颖性信号联合训练智能体记忆与探索策略,在开放环境中实现高效探索并泛化到未见环境。
平滑强凸损失下的近最优纯机器遗忘
发表机构 * University of Waterloo(滑铁卢大学) ; Vector Institute(向量研究所) ; CISPA Helmholtz Center for Information Security(CISPA海德堡信息安全中心)
AI总结 针对平滑强凸随机优化中的近似ε-遗忘问题,本文通过证明超额总体风险的上界和下界(紧至条件数因子),几乎解决了遗忘的基本统计代价,并提出了在ε≫d时相比从头再训练和差分隐私基线具有指数级精度提升的遗忘算法。
基于自适应预设时间CBF的多机器人网络时空重连
发表机构 * Department of Computer Science, University of Illinois Chicago(伊利诺伊大学芝加哥分校计算机科学系) ; Department of Computer Science, University of North Carolina at Charlotte(北卡罗来纳大学夏洛特分校计算机科学系)
AI总结 提出自适应预设时间控制屏障函数框架,使多机器人系统能在可调预设时间内断开并重连通信,结合触发机制提升任务效率。
Comments 6 pages, 6 figures, accepted by IFAC 2026
基于集合级结构先验的半监督双曲层次聚类
发表机构 * College of Electronic Science and Technology, National University of Defense Technology(电子科学与技术学院,国防科技大学)
AI总结 提出一种半监督双曲层次聚类方法,通过引入集合作为基本建模单元,利用从叶级监督导出的集合级结构先验来指导非叶层次结构学习,提升标签一致性和树质量。
通过临界阻尼动量优化实现插值后的快速泛化
发表机构 * University of Cambridge(剑桥大学) ; University of Hawaii at Manoa(夏威夷大学曼瑙分校)
AI总结 提出GROKtimizer双阶段策略,结合快速收敛到插值与临界阻尼动量后插值范数最小化,在局部二次模型下实现比经典梯度下降二次加速,选择低范数插值解以提升泛化。
TERRA: 面向跨领域应用的任务嵌入推理与表示架构
发表机构 * Humanpath Labs Inc.(Humanpath实验室有限公司)
AI总结 提出TERRA架构,通过形式化跨领域转移问题,利用松弛双模拟差异和Gromov-Wasserstein距离度量结构状态域间的同态性,推导出预测误差与决策遗憾的转移界,将广泛直觉转化为可检验理论。
MotionDreamer: 面向3D绑定形状的通用骨骼运动生成
发表机构 * City University of Hong Kong(香港城市大学)
AI总结 提出基于扩散的框架MotionDreamer,通过结构-语义注入机制从2D视频生成类别无关的骨骼动画,并构建大规模动态数据集,实现跨形态的高保真运动合成。
Comments 18 pages, 7 figures
ProbMoE:可微分的专家混合概率路由
发表机构 * Imperial College London(伦敦帝国学院) ; University of Waterloo(多伦多大学) ; EPFL(瑞士联邦理工学院)
AI总结 提出ProbMoE概率路由框架,通过离散子集空间上的概率推断实现专家选择,解决top-k路由的离散非可微问题,并扩展到动态k路由,提升专家利用率和路由多样性。
Comments Accepted at ICML 2026
论高效统一视觉语言训练中令牌缩减的极限
发表机构 * University of Michigan(密歇根大学) ; Sony AI(索尼人工智能)
AI总结 本文通过分析层注意力分配,发现视觉理解与视觉生成在令牌冗余上存在不对称性,设计任务特定加速器,但统一训练中任务特定令牌丢弃导致协同损失,表明高效统一建模需保留共享跨任务结构。
TimeSage-MT:用于评估智能时间序列推理的多轮基准测试
发表机构 * University of Oxford(牛津大学) ; VulpiVox Intelligence ; Eindhoven University of Technology(埃因霍温理工大学) ; Griffith University(格里菲斯大学) ; Squirrel Ai Learning ; East China Normal University(华东师范大学)
AI总结 提出TimeSage-MT多轮基准测试,包含240个任务和2680轮对话,覆盖8个真实领域,用于评估LLM智能体在时间序列推理中的表现,揭示其在决策导向任务中的性能下降及记忆、不确定性处理等缺陷。
Splatshot: 从单张非约束照片生成3D人脸头像
发表机构 * Rice University(里士大学) ; Samsung Research America(三星美国研究院)
AI总结 提出SplatShot,一种无需训练的方法,通过将3D高斯泼溅与扩散模型去噪过程耦合,从单张照片生成多视图一致的逼真3D人脸头像。
Comments 28 pages, 15 figures
感知优先:具有自一致性的前沿原生视频模型用于隐式视频问答
发表机构 * The Ohio State University(俄亥俄州立大学)
AI总结 本文通过系统实验发现隐式视频问答基准是感知受限而非推理受限,并指出提升基础模型感知能力和轻量级测试时去噪是唯一可靠手段。
MURMUR:一种高效的长时间语音识别推理系统
发表机构 * University of Washington(华盛顿大学)
AI总结 提出MURMUR推理系统,通过块间和块内两级优化,在保持高精度的同时显著降低长时间语音识别的延迟。
超越主题相似性:RAG 中具有可解释注意力对齐的对比证据检索
发表机构 * University of Chile(智利大学) ; São Paulo State University(圣保罗州立大学) ; Saarland University(萨尔兰州立大学) ; University of Munich(慕尼黑大学) ; Portland State University(波特兰州立大学) ; Idiap Research Institute(Idiap研究机构)
AI总结 提出 CERA 框架,通过基于主观性的困难负样本选择和辅助注意力对齐损失注入证据归纳偏差,实现可解释且事实准确的检索。
SafeGen-Bench: 图像条件文本到视频生成中的安全性基准测试
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校) ; Tsinghua University(清华大学) ; Johns Hopkins University(约翰霍普金斯大学)
AI总结 针对图像条件文本到视频生成中安全文本和图像组合仍可能产生有害内容的问题,提出SafeGen-Bench基准,定义10个恶意类别并评估现有模型,发现当前模型难以避免生成恶意内容,且单模态护栏防御不足。
Comments 8 pages, 7 figures, 2 tables
用于文本到语音中可解释情感控制的稀疏自编码器
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文通过稀疏自编码器分析基于LLM的TTS模型中的情感相关潜在特征,提出特征级干预框架实现双向情感诱导与抑制,无需修改模型参数。
Comments Accepted by ICML 2026
Peacemaker at ATE-IT: 使用编码器模型从意大利语文本中自动提取废物管理术语
发表机构 * Department of Computer Science, University of Tabriz(塔布里兹大学计算机科学系) ; University of Tabriz(塔布里兹大学)
AI总结 针对ATE共享任务中的Task A,提出一种低计算成本、可解释的自动术语提取方法,通过微调编码器模型在少量资源上实现平衡性能,为低资源模型提供起点。
Comments 9 pages, 2 figures, Published in EVALITA 2026, CEUR Workshop Proceedings Vol. 4195
跨语言自一致性:面向语言模型的多语言推理
发表机构 * HiTZ Center, University of the Basque Country (UPV/EHU)(巴斯克大学HiTZ中心) ; Reka AI
AI总结 提出无监督强化学习方法,通过强制模型对跨语言等价问题产生相同答案来增强多语言推理,在MGSM上平均提升21.7%,并展现出强泛化能力。
Comments Paper under review
人工推理之谜:探究大型推理模型中的生成-评估差距
发表机构 * NUS Department of Computer Science(国立新加坡大学计算机科学系) ; MIT EECS(麻省理工学院电子工程与计算机科学系) ; A*STAR(新加坡科技研究局) ; Singapore-MIT Alliance for Research and Technology (SMART)(新加坡-麻省理工联合研究技术机构(SMART))
AI总结 本文通过VAIR数据集发现大型推理模型在评估推理时存在显著缺陷,表现为答案确认偏差,即模型倾向于验证答案正确性而非仔细检查推理步骤。
Comments 10 pages, 8 figures, 2 tables (Appendix: 19 pages, 13 figures, 3 tables)
基于证据的多目标潜在扰动在扩散模型中的基因型条件分子生成
发表机构 * Department of Computer Science and Engineering(计算机科学与工程系) ; University of Notre Dame(诺克斯大学) ; Department of Chemistry and Biochemistry(化学与生物化学系) ; Lucy Family Institute for Data & Society(数据与社会学院)
AI总结 提出一种在预训练的基因型到药物扩散模型的潜在空间中,通过梯度上升优化可学习扰动以最大化药物敏感性、类药性和合成可及性的复合奖励,并利用实验数据和LLM管道确保生物合理性和机制一致性。
轻量级槽注意力框架用于多乐器多音高估计
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出一种轻量级槽注意力框架,通过匈牙利匹配和模块化扩展实现多乐器多音高估计,并验证了其在URMP上的乐器族分解效果。
Comments Preprint submitted to the IEEE 28th International Workshop on Multimedia Signal Processing (MMSP). This work has been submitted to the IEEE for possible publication. 6 pages, 2 figures
LEGS: 在具身高斯泼溅世界中免遥操作微调VLA用于人形机器人全身操控
发表机构 * Stanford University(斯坦福大学)
AI总结 提出LEGS混合模拟器,通过程序化运动基元生成器和两阶段颜色校准,无需遥操作即可合成训练数据,使VLA策略在真实人形机器人操控任务中达到或超越遥操作训练效果。
Comments https://legsvla.github.io/
诚实的人工智能顾问:偏好错位下大语言模型诚实性的预设基准
发表机构 * Amazon Lab126, HW Tech Org.(亚马逊实验室126,硬件技术组织) ; Computational Modeling and Simulation University of Pittsburgh(计算建模与仿真大学匹兹堡分校) ; Mathematics & Statistics Department University of Minnesota Duluth(数学与统计学系明尼苏达大学 Duluth 分校)
AI总结 通过Crawford-Sobel廉价谈话模型构建基准,评估大语言模型在偏好冲突时是否诚实,发现模型过度揭示信息,偏离策略最优。
Comments 19 pages. Code and data: https://github.com/iHamidHasani/cheap-talk-llm-benchmark