TIAR: Trajectory-Informed Advantage Reweighting for LLM Abstention Learning
TIAR:基于轨迹信息的优势重加权用于大语言模型弃权学习
AI总结 本文提出TIAR方法,利用GRPO中的多条轨迹作为自然弃权信号,动态重加权弃权奖励,在六个评估类别中的五个上取得最优弃权F1分数,同时保持基线准确率。
Comments 10 pages, 1 figure, 4 tables
TIAR:基于轨迹信息的优势重加权用于大语言模型弃权学习
AI总结 本文提出TIAR方法,利用GRPO中的多条轨迹作为自然弃权信号,动态重加权弃权奖励,在六个评估类别中的五个上取得最优弃权F1分数,同时保持基线准确率。
Comments 10 pages, 1 figure, 4 tables
几何演化图:从Transformer残差流中提取稳定概念探针
AI总结 提出几何演化图(GEM)方法,通过追踪残差流中概念的方向轨迹并识别旋转停止的交接层,提取稳定的概念探针,在391个概念×模型对中优于峰值层探针的比例达66.2%。
Comments 24 pages, 3 figures. Reference implementation: rosetta_tools v1.3.1 (doi:10.5281/zenodo.20361433)
论预训练中模型合并对多语言能力的限制
AI总结 通过控制实验比较混合预训练、模型合并和单语预训练,发现合并单语模型会导致性能崩溃,表明表示相似性是模型合并的前提。
Comments MeLLM Workshop 2026
面向Kubernetes清单生成的上下文-工具数据蒸馏方法及实验评估
AI总结 提出上下文-工具数据蒸馏方法,通过合成生成和反向指令生成构建语料库,结合外部验证器过滤,在资源受限条件下微调1.5B参数小语言模型生成Kubernetes清单,实验表明严格输出格式比增加训练样本更关键。
Comments 15 pages, 4 figures, 2 tables
当搜索成为记忆:将机器人设计试验转化为可迁移技能
AI总结 提出Auto-Robotist,一种自进化LLM代理,通过将形态搜索轨迹提炼为自然语言技能库,实现可迁移的机器人设计知识,在EvoGym任务中提升冷启动搜索并跨设计空间迁移技能。
Comments 20 pages, 8 figures
澄清、弃权或回答?基于信念增强生成的对话策略
AI总结 提出信念增强生成(BAG)方法,通过将大语言模型自身的信念状态注入提示,使其推理多个采样响应并决定对话策略(回答、澄清或弃权),从而提升多轮模糊问答的准确性和策略决策的忠实度。
OASIS: 通过SE(3)轨迹预测实现机器人操作中的观测-动作空间对齐
AI总结 提出OASIS视觉运动策略,通过SE(3)末端执行器轨迹预测对齐中间表示与动作空间,在仿真和真实实验中优于VLA和WAM基线。
[CLS] 还不够:基于补丁级推理与自适应聚合的多标签识别
AI总结 针对CLIP等视觉语言模型在多标签识别中因[CLS]全局表征不足的问题,提出PIAA框架,通过补丁级推理和自适应聚合实现无训练的多标签识别,在NUS-WIDE上mAP提升超6%。
关于高效成员推断脆弱性评估的可靠性
AI总结 本文揭示了高效成员推断攻击评估中两个关键缺陷:跨样本FPR未校准导致差分隐私审计不可靠,以及有限总体偏差导致样本脆弱性高估,并提出了后处理校准方法。
Comments 14 pages, 10 figures
超越架构复杂性的微调:基于DeBERTa的PIIBench广泛覆盖PII检测
AI总结 本研究通过微调DeBERTa模型,在涵盖82种实体类型的多源PIIBench数据集上实现广泛覆盖的PII检测,直接微调方法在F1分数上显著优于架构复杂的层次模型和课程扩展方法。
自适应图优化与基于大语言模型的标签传播用于经济高效实体解析
AI总结 提出Alper框架,通过迭代概率标签传播整合匹配与聚类,自适应融合图传播弱信号与LLM强查询,在预算约束下最大化边际增益,实现高效实体解析。
将具身问答从感知扩展到决策
AI总结 提出大规模具身问答数据集EQA-Decision和基线模型RoboDecision,系统覆盖静态场景构建、空间理解、任务动态推理和即时决策四个维度,以统一框架评估具身环境中的感知、推理和行动级决策。
Comments 11 pages,4 figures
数据驱动的自然注视-头部协调头部运动生成
AI总结 提出首个数据驱动方法,通过自动提取自然注视和头部运动,利用条件变分自编码器生成与注视相关的头部运动,并应用于注视控制的视频生成。
基于时空与频率增强深度神经网络的事件到视频重建
AI总结 提出MSFET-E2V模型,通过跨域注意力模块融合时空特征与离散小波变换的频率表示,并设计轻量级小波增强跳跃块,实现高质量事件到视频重建,在多个数据集上超越现有方法。
重新思考用于VLA初始化的VLM表示
AI总结 本文通过控制表示设计问题,沿能力级具身VQA监督、参数更新策略和机器人数据预训练三个轴,研究VLA初始化,发现保留预训练VLM表示对动作性能至关重要,而LoRA比全微调提供更可靠的初始化,分阶段基于LoRA的训练获得最强变体。
Comments 9 main-text pages, 5 appendix pages, 4 figures
PixelWizard: 迈向高效高保真超大规模空间分辨率视频生成
AI总结 提出PixelWizard框架,通过分层解耦全局结构建模与细节合成,并引入噪声跨度对齐捷径训练,实现超大规模分辨率视频的高效高保真生成,加速超过10倍。
应对源自由跨域小样本学习中加剧的注意力汇聚问题
AI总结 针对跨域小样本学习中标准微调加剧注意力汇聚导致判别性下降的问题,提出基于令牌动态重加权的方法抑制简单令牌依赖并增强困难令牌学习,实现新最优性能。
Comments Accepted by CVPR 2026
何时可以信任早期预警?从 LMS 交互日志中排除泄漏的早期结果预测
AI总结 针对学习管理系统日志中早期预测结果因时间泄漏而被高估的问题,提出 LEAP 协议(排除泄漏的早期可用性协议),通过截止优先截断和特征溯源审计防止后截止证据进入基准,并在 OULAD 数据集上验证了多种方法的性能。
HoLoArm: 用于碰撞容忍四旋翼飞行的可变形臂
AI总结 受蜻蜓翅膀结脉结构启发,提出具有柔性臂的四旋翼HoLoArm,结合强化学习控制策略实现被动变形与快速恢复,在高达7.6 m/s碰撞速度下保持稳定飞行。
Comments 8 pages, 15 figures, 1 table, Accepted at the IEEE Robotics and Automation Letters (RA-L) and the IEEE International Conference on Robotics and Automation (ICRA), 2026
关于自由探索对多臂老虎机遗憾最小化的益处
AI总结 本文研究在初始自由探索阶段后最小化累积遗憾的多臂老虎机问题,提出一种两阶段算法UFE-KLUCB-H,并证明其相比无自由探索的策略能严格减少遗憾。
Comments 55 pages
NPSolver: 具有迭代物理监督的神经泊松求解器
AI总结 提出NPSolver,通过迭代物理监督(利用少量PCG步骤)训练无标签的神经泊松求解器,并引入边界感知Transolver架构,在2D/3D不规则几何上优于物理信息和数据驱动基线。
Comments kdd 2026
VertiCue-Bench: 诊断多模态大语言模型是否利用高度线索解决遥感自然场景中的二维歧义
AI总结 提出VertiCue-Bench基准,通过17个任务1534个实例诊断MLLMs是否真正利用冠层高度模型(CHM)的垂直线索解决遥感自然场景中的语义歧义,发现模型在感知高度线索与语义推理之间存在显著脱节。
双三角形标注:一种可扩展的人机协同高精度历史文档标注框架
AI总结 提出双三角形标注框架,通过两层人机协同和跨模型共识自动完成大部分标注工作,实现高精度历史文档结构化信息提取。
Comments 12 pages, 4 figures. ACL ARR 2026 March submission
OMGTex: 无需几何引导的一阶段多风格面部纹理重建
AI总结 提出OMGTex,一种端到端的扩散框架,无需3D几何先验,直接从多风格面部图像重建高质量、可编辑的UV纹理,通过梯度引导推理和语义感知训练实现鲁棒重建与编辑。
Comments CVPR 2026 (Poster)
DRFusion: 抗漂移的时间一致红外-可见光视频融合
AI总结 提出一种抗漂移的视频融合方法,将任务重构为历史条件运动生成,通过稳定历史引导和软时间锚定实现时间一致性,并采用解耦结构-运动适应策略,在融合质量和时间稳定性上达到最优。
Comments 11 pages, 7 figures, 4 tables
MDGMIX: 边界感知的子图混合用于多域图预训练
AI总结 针对多域图预训练中的数据冗余问题,提出MDGMIX框架,通过边界感知子图混合与层次判别学习解耦共享和域特定模式,并在适配时使用轻量级提示加权机制,在少样本分类任务中优于强基线且效率更高。
Comments Accepted by ICML2026
通过交叉注意力激活投影实现扩散模型的概念遗忘
AI总结 提出PURE方法,利用交叉注意力激活空间构建遗忘和保留基,通过线性投影编辑权重,在保持保留概念的同时有效消除目标概念。
病理基础模型在空间域理解中的基准测试
AI总结 提出SpaPath-Bench基准,通过空间域识别任务评估病理基础模型在区分组织区域和捕获空间关系方面的表示能力。
Comments MICCAI2026
通过合成局部偏好实现解剖学合理的人体图像生成
AI总结 提出 ASAP 框架,利用局部退化机制构建受控偏好对,并结合局部有界 DPO 变体,在保持整体图像质量的同时减少解剖学错误。
SplitAvatar: 基于自回归高斯分裂的单次头部化身
AI总结 提出一种基于自回归高斯分裂的单图像可动画头部化身重建方法,通过图分裂网络渐进生成高斯体,解决高斯数量不匹配和细粒度细节缺失问题。