Remembering by Reconstructing: Domain Incremental Learning With Test-Time Training on Video Streams
通过重建来记忆:视频流上的域增量学习与测试时训练
AI总结 提出一种结合主任务头和自监督掩码自编码器头的域增量学习方法,通过测试时训练识别最佳LoRA适配器以重新记忆域,适用于视频流数据。
通过重建来记忆:视频流上的域增量学习与测试时训练
AI总结 提出一种结合主任务头和自监督掩码自编码器头的域增量学习方法,通过测试时训练识别最佳LoRA适配器以重新记忆域,适用于视频流数据。
基于物理信息神经网络的通用流形上的黎曼扩散模型
AI总结 针对黎曼流形上热核难以解析计算的问题,提出用物理信息神经网络求解流形热方程来近似热核,从而实现扩散模型的训练与采样。
GRKV: 长上下文LLM中免训练的KV缓存压缩的全局回归
AI总结 提出GRKV方法,通过岭回归合并步骤最小化压缩缓存与完整缓存注意力输出的差异,解决基于跨度保留的合并模式不平衡导致的过度合并和信息损失问题。
Comments 21 pages, 7 figures
通过跨模型局部等距一致性的向量链接
AI总结 提出一种基于局部几何一致性的迭代参考几何嵌入哈希方法,从少量种子锚点恢复跨模型向量对应关系,实现准确鲁棒的向量链接。
Comments Accepted at ICML 2026
KnowledgeGain: 评估和优化面向读者学习的科学新闻生成
AI总结 提出KnowledgeGain指标,通过测量读者知识增益来评估科学新闻质量,并利用LLM模拟器优化生成,提升读者学习效果。
iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型中
AI总结 提出iVGR框架,利用强化学习和双流训练策略将视觉定位能力内化到文本推理中,避免显式视觉基础在推理时的干扰,提升细粒度感知性能。
Comments Accepted by ICML 2026
重新定义实例匹配:全景分割评估中部件感知匹配的统一框架
AI总结 提出将全景分割中的片段匹配重新表述为约束二分分配问题,定义四种匹配策略,并扩展至部件感知评估,发布基于Panoptica的统一开源包。
Comments 9 pages, 4 figures
跨模态临床知识整合用于乳腺X线报告生成
AI总结 提出MammoRG框架,通过两阶段训练模拟临床报告流程,整合BI-RADS指南和先验知识,提升报告生成的临床一致性。
Comments 16 pages, 5 figures
重新审视熵在识别错误标注图像中的应用
AI总结 提出基于训练动态的有符号熵积分(SEI)统计量,通过捕捉预测熵的幅度和时间趋势,有效识别训练集中的错误标注样本,在医学影像数据集上达到最优性能。
Comments ICML 2026
媒体中的音效:实拍与动画中录制样本与合成样本的比较分析
AI总结 通过比较程序化生成的合成音效与真实录制音效在实拍和动画场景中的可信度,发现合成音效在戏剧和科幻场景中表现良好,但在卡通日常动作中可信度较低。
Comments ArtsIT, Interactivity and Game Creation 2024
面向多模态智能体的任务聚焦记忆
AI总结 提出基于强化学习的任务聚焦记忆策略学习框架TaskMem,通过两阶段训练使多模态智能体在流式观测中动态选择任务相关记忆,在三个流式基准上VQA准确率提升5.3%-7.0%。
ConsisGuard:在LLM护栏中对齐安全审议与策略执行
AI总结 提出ConsisGuard框架,通过策略到决策轨迹蒸馏和功能耦合对齐,解决基于推理的LLM护栏中审议与执行之间的不一致问题,提升安全检测性能并减少策略执行失败。
Comments 18 pages, 9 figures
在FCR市场中学习投标:一种两全其美的方法
AI总结 针对欧洲频率控制储备(FCR)市场中投标者仅能观察到部分反馈(如出清价格和分配数量)的问题,提出了一种将多国FCR出清问题转化为重复多单位统一价格拍卖的方法,并采用两全其美的组合半强盗算法实现对数伪遗憾(随机环境)和平方根遗憾(对抗环境),实验验证了其理论缩放性和实际竞争力。
Comments Algorithms and data available at https://data.mendeley.com/datasets/htprbf47dg/1
面向有效长视频事件预测的多级事件语义挖掘
AI总结 提出VISTA框架,通过多级事件语义挖掘(细节级、事件级、未来级)实现长视频事件预测,解决现有模型无法精确提取事件细节和进行细粒度分析的问题。
HQ-JEPA: 用于跨模态遥感表示学习的混合量子联合嵌入预测架构
AI总结 提出HQ-JEPA混合量子-经典架构,通过联合嵌入预测、跨模态对齐、SIGReg高斯正则化和量子保真度损失,在Sentinel-1/2图像上学习语义表示,在GeoBench分类和分割任务上取得优于强基线的性能。
Comments 19 pages
空中VLA模型能协作吗?基于CARLA-Air的闭环空地协调评估
AI总结 本文通过构建CARLA-Air仿真环境,评估空中视觉-语言-动作模型在空地协作任务中的表现,发现当前模型难以将单智能体能力转化为稳定协作行为,并指出零样本协作需要伙伴状态显式感知、低延迟动作协调和团队目标对齐三个关键组件。
Comments Code at https://github.com/louiszengCN/CarlaAir
AdaptR1:基于强化学习的自适应交错思考在多跳问答中的应用
AI总结 提出AdaptR1框架,通过强化学习动态分配每步推理预算,减少多跳问答中的过度思考,在保持性能的同时显著降低推理成本。
STEP:学习渐进时间序列的结构化嵌入
AI总结 提出一种自监督对比学习方法,通过构建具有固定正交原型向量的低维流形几何结构,实现渐进时间序列的端状态预测、多步预测和可解释相位分离。
组合合成:通过原子分解与重组扩展代码RLVR
AI总结 提出原子分解与重组(ADR)框架,通过将代码任务分解为原子元素并受控重组,生成新颖且具有挑战性的可验证代码任务,以解决RLVR训练数据稀缺和扩展性问题,实验表明在多个下游领域显著提升代码能力。
Comments Work in progress
LVSA:长视频扩散的无训练稀疏注意力
AI总结 提出一种无需训练、模型无关的块稀疏注意力方法LVSA,通过结构化窗口模式与旋转全局锚点结合,在降低长视频扩散推理计算成本的同时消除固定网格偏差,支持超训练时域的视频生成。
Comments 10 pages, 5 figures, 4 tables. Code: https://github.com/JiusiServe/LongVideoSparseAttention
LLMs 对中文零代词的了解程度如何?
AI总结 通过一系列语言学动机任务(识别、指称性分类、指称类型分类、消解和翻译),系统评估了大型语言模型处理中文零代词的能力,发现当前LLMs在零代词处理上仍面临巨大挑战,尤其在识别和指称性分类等上游任务上表现不佳。
AnchorSteer: 自发现概念注入用于结构保持的音乐编辑
AI总结 提出AnchorSteer框架,通过结构锚定与自发现语义注入解耦语义-结构纠缠,实现高保真结构保持下的显著语义变换。
Comments Accepted by the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026)
基于最佳臂识别的多模态函数贝叶斯优化信任区域选择
AI总结 提出一种结合最佳臂识别与信任区域贝叶斯优化的轨迹感知框架,通过预测局部优化器最终性能并逐步淘汰次优候选,加速多模态函数全局优化。
Comments 19 pages, 13 figures
通过代码演化学习求解与优化
AI总结 提出CHECKMATE工具,利用形式规范确保解的正确性并通过自然语言描述指导代码演化,自动生成算法,在配置与调度问题上超越最先进求解器。
Comments Preprint of a paper accepted to IJCAI26
重新思考基于任务对齐的结构-方向性建模的高效裂缝分割
AI总结 将裂缝分割视为稀疏结构恢复问题,提出RIFT模型,通过轻量多尺度融合保留局部证据、聚合方向连续性,在16项指标上达到最优或并列最优。
使用强化学习控制工业能源系统的挑战
AI总结 本文以热力供暖网络为例,研究强化学习在真实工业能源系统部署中的挑战,包括部分可观测性、动作空间设计、奖励设计及仿真到现实的差距,并基于实际部署发现强化学习虽能实现运行稳定性但存在性能差距。
Comments Submitted to Finding the Frame Workshop at RLC 2026
视觉信息在视觉-语言-动作模型驾驶行为中是否起决定性作用?
AI总结 本文提出结构化多级视觉扰动框架,系统分析VLA驾驶模型对视觉信息的依赖程度,揭示依赖模式随评估方式变化且在不同抽象层次上不均匀。
UniRTL:统一代码和图以实现稳健的RTL表示学习
AI总结 提出UniRTL多模态预训练框架,通过互掩码建模和分层训练策略联合利用RTL代码与控制数据流图,实现细粒度对齐,在性能预测和代码检索任务上优于现有方法。
Comments Forty-Third International Conference on Machine Learning (ICML 2026)
多臂贝叶斯老虎机中的退火Softmax贪婪算法
AI总结 本文研究退火Softmax贪婪算法在多臂贝叶斯伯努利老虎机中的贝叶斯遗憾,证明在先验满足线性上尾条件(β=1的β正则性)时,算法达到接近最优的贝叶斯遗憾率,并与RLVR方法形成结构类比。
SlotMemory: 面向流式长视频生成的以对象为中心的KV记忆
AI总结 提出SlotMemory,一种以对象为中心的键值记忆机制,通过将变换器的键值流形分解为离散语义槽,实现实体级持久性和提示感知检索,在60秒交互叙事中动态一致性相对提升22.8%。