DOT-MoE: Differentiable Optimal Transport for MoEfication
DOT-MoE:用于MoE化的可微最优传输
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出DOT-MoE框架,通过可微最优传输将密集层分解为专家,联合学习神经元分配和路由策略,在减少50%活跃参数的同时保留90%原始性能。
Comments Accepted at ICML 2026
DOT-MoE:用于MoE化的可微最优传输
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出DOT-MoE框架,通过可微最优传输将密集层分解为专家,联合学习神经元分配和路由策略,在减少50%活跃参数的同时保留90%原始性能。
Comments Accepted at ICML 2026
量化能量下限:基于sbsim的SAC HVAC控制中的直接测量与回放缓冲区偏差
发表机构 * Shanghai Jiao Tong University College of Smart Energy(上海交通大学智能能源学院)
AI总结 通过最小动作实验直接测量SAC HVAC控制中的能量下限,发现回放缓冲区初始化是次优性的主要来源,消除后可将成本降至接近下限。
Comments 5 pages, 3 figures, 2 tables. Presented at AI-DEEDS 2026 Workshop, ACM Sustainability Week, Banff, Canada (non-archival)
门控滤波器而非消息:预传播图神经网络中的节点-通道混合
发表机构 * School of Electrical and Computer Engineering, Cornell University(康奈尔大学电气与计算机工程学院)
AI总结 针对预传播图神经网络中复杂跳聚合器性能不佳的问题,提出FilterMoE模型,通过3D门控张量联合路由节点和通道上的可学习切比雪夫滤波器专家,在11个同质和异质基准测试中平均提升1.53个测试分数。
通过几何对齐恢复文本到图像蒸馏中的初始噪声敏感性
发表机构 * Huazhong University of Science and Technology(华中科技大学)
AI总结 提出几何感知蒸馏(GAD)框架,通过匹配雅可比-向量积来对齐教师和学生模型的局部功能行为,从而恢复文本到图像蒸馏中丢失的初始噪声敏感性,提升下游噪声驱动控制任务的性能。
Comments ICML 2026
手语生成中的条件坍塌:诊断与缩放论证
发表机构 * George Mason University(乔治·马歇尔大学)
AI总结 本文通过提出三个独立评估层级(初始姿态条件、输出多样性、目标忠实度)并利用冻结运动自编码器的潜在表示计算成对距离比,诊断手语生成模型中的条件坍塌问题,并论证句子级配对数据集规模是瓶颈。
MobEvolve:用于可解释人类移动性生成的智能体自进化启发式系统
发表机构 * The Hong Kong Polytechnic University(香港理工大学) ; McGill University(麦吉尔大学) ; MIT(麻省理工学院) ; Tsinghua University(清华大学) ; Autorité régionale de transport métropolitain(大都会交通地区管理局) ; Université de Montréal(蒙特利尔大学) ; Mila – Quebec AI Institute(魁北克人工智能研究所)
AI总结 提出MobEvolve,首个智能体自进化启发式框架,通过LLM代理迭代演化内部逻辑,在保持可解释性和推理效率的同时,在个体轨迹保真度、群体分布对齐和行为合理性上超越现有方法。
CanonCGT:基于参考的颜色分级通过规范枢轴表示
发表机构 * Korea University(韩国大学) ; The Catholic University of Korea(韩国天主教大学)
AI总结 提出一种基于规范枢轴的两阶段框架CanonCGT,通过去除内在色调偏差并匹配参考风格,实现稳定、真实的颜色分级。
Comments CVPR 2026 accepted
Pave-GRPO:通过原则性平均速度分解超越瞬时引导
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Shanghai Jiao Tong University(上海交通大学) ; Fudan University(复旦大学) ; Harbin Institute of Technology(哈尔滨工业大学) ; Beihang University(北京航空航天大学) ; Shanghai AI Laboratory(上海人工智能实验室)
AI总结 提出Pave-GRPO方法,通过原则性平均速度分解将粗粒度过渡分解为细粒度子轨迹,在不增加生成成本的情况下将奖励反馈传播到更多中间步骤,实现更全面的偏好对齐。
Comments 8 pages,5 figures
AlphaToken: 在LLM后训练中解耦适应性与稳定性的路径感知响应令牌估值
发表机构 * Hangzhou Institute for Advanced Study, University of Chinese Academy of Sciences(中国科学院大学杭州高等研究院)
AI总结 提出AlphaToken框架,通过解耦适应性(促进目标任务学习)和稳定性(保持预训练能力)并引入路径感知机制,利用Fisher漂移代理和Ghost点积扩展实现高效令牌估值,从而在微调和偏好优化中屏蔽低价值令牌,提升后训练性能并缓解灾难性遗忘。
IMWM:直觉模型补充世界模型用于潜在规划
发表机构 * Beihang University(北航) ; Shenzhen University of Advanced Technology(深圳先进技术大学)
AI总结 针对基于潜在世界模型的规划中搜索瓶颈问题,提出IMWM框架,通过直觉模型与三个轻量组件协作,在四个像素级任务上显著提升成功率。
基于参考引导深度压缩VAE的流式说话人肖像视频实时生成
发表机构 * Microsoft Research(微软研究院) ; Microsoft AI(微软人工智能)
AI总结 提出一种结合因果视频VAE和自回归潜在去噪模型的流式说话人肖像视频生成框架,通过参考图像引导实现实时高质量生成。
Comments CVPR 2026 (Highlight) Camera ready
EvoPool: 面向标签高效专业监督的进化式程序化标注
发表机构 * Oregon State University(俄勒冈州立大学) ; University of Wisconsin–Madison(威斯康星大学麦迪逊分校)
AI总结 提出进化多智能体框架EvoPool,通过程序化标注器迭代进化与投票聚合,在低标注成本下显著提升专业领域监督性能。
Comments 39 pages, 7 figures. Code: https://github.com/tianyi0216/EvoPool
图灵模式用于多媒体:反应-扩散多模态融合用于语言引导的视频时刻检索
发表机构 * Nanyang Technological University(南洋理工大学) ; National University of Singapore(新加坡国立大学)
AI总结 提出基于反应-扩散过程的多模态融合框架RDMF,通过模拟生物模式形成机制实现视频与文本的动态对齐,用于视频时刻检索与高亮检测。
Comments Published in ACM MM 2025. Address some typos
LVLMs中的自改进小目标定位
发表机构 * University of Georgia(佐治亚大学)
AI总结 利用LVLMs内部注意力模式,通过轻量级IoU回归器或无需训练的注意力熵选择器,从多个候选框中选出最佳框,实现小目标定位的自改进。
Comments 29 Pages, 15 Figures
重新审视知识编辑中的涟漪效应:通过压力感知联合邻域优化
发表机构 * Hangzhou Institute for Advanced Study, University of Chinese Academy of Sciences(杭州高等研究院,中国科学院大学)
AI总结 针对大语言模型单次编辑引发的涟漪效应,提出联合邻域优化框架,通过压力感知协调和语义预执行门控联合优化可编辑侧与保留侧的耦合压力,在RippleEdits上传播与保留指标提升至少7.0%。
利用语义和像素表示进行超低比特率图像压缩
发表机构 * National Key Laboratory of Human-Machine Hybrid Augmented Intelligence, Institute of Artificial Intelligence and Robotics, Xi’an Jiaotong University(人机混合增强智能国家重点实验室,人工智能与机器人研究院,西安交通大学) ; School of Information and Telecommunication, Xi’an Jiaotong University(信息与电信学院,西安交通大学) ; Department of Computer Science and Software Engineering, The University of Western Australia(计算机科学与软件工程系,西澳大学)
AI总结 提出SPRDiff扩散压缩方法,通过三重编码器架构和失真感知重建模块,在超低比特率下同时保持语义一致性和像素级保真度,实现率-失真-感知权衡最优。
使用PDE模型为点云视频表示学习铺平道路
发表机构 * Department of Computer Science, Aberystwyth University(阿伯里斯يث大学计算机科学系) ; Department of Automation, Beijing National Research Center for Information Science and Technology, Tsinghua University(自动化系、北京信息科学与技术国家研究中心、清华大学) ; Department of Electrical Engineering, Surrey University(Surrey大学电子工程系)
AI总结 提出MotionPDE方法,通过将时空相关性学习建模为可解的偏微分方程(PDE),并利用对比学习结构优化,作为即插即用模块提升点云视频表示学习性能。
Comments Accepted by IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI) in 2026
EIVE: 面向检测Transformer的端到端实例特定视觉解释
发表机构 * Institute of Intelligent Information Processing, Shenzhen University(智能信息处理研究院,深圳大学) ; Guangdong Provincial Key Laboratory of Intelligent Information Processing, Shenzhen University(广东省智能信息处理重点实验室,深圳大学) ; Shenzhen Key Laboratory of Modern Communications and Information Processing, Shenzhen University(深圳现代通信与信息处理重点实验室,深圳大学)
AI总结 提出EIVE框架,通过重新公式化解码器交叉注意力为实例级特征归因路径,直接生成实例级显著性图,无需梯度计算或输入扰动,高效解释DETR类检测器。
Comments 17 pages, 11 figures
RoboTrustBench:机器人操作视频世界模型的可信度基准测试
发表机构 * Singapore Management University(新加坡国立管理学院) ; Fudan University(复旦大学) ; Princeton University(普林斯顿大学)
AI总结 针对视频世界模型在机器人操作中的可信度问题,提出RoboTrustBench基准,包含正常、约束敏感、反事实和对抗四种场景,通过专家验证的指令-图像对和六维评估协议,发现当前模型在约束推理、反事实基础、物理交互和不安全指令抑制方面存在不足。
Comments Project: https://huiqiongli.github.io/RoboTrustBench/
TRON:面向视觉推理强化学习的目标化规则可验证在线环境
发表机构 * University of Georgia(佐治亚大学)
AI总结 提出TRON在线环境框架,通过可控生成-验证程序产生无限训练实例,支持视觉推理强化学习,在多个多模态基准上提升性能。
Comments 27 pages, 8 figures
不确定性校准的扩散用于可靠的3D分子图生成
发表机构 * State University of New York at Stony Brook(纽约州立大学石溪分校)
AI总结 针对扩散模型在3D分子图生成中因认知不确定性导致采样质量下降的问题,提出不确定性校准扩散方法(UCD),通过校准反向扩散过程来补偿认知不确定性,在多个基准上取得最优性能。
TLG: 通过源标注重建和类别目标推理实现视频问答的时间逻辑基础
发表机构 * The Ohio State University(俄亥俄州立大学)
AI总结 提出TLG三阶段系统,通过重建动作时间线、解析问题为时间逻辑程序并确定性执行,结合强视觉语言模型和前沿推理模型,将视频问答准确率从46.9%提升至71.37%。
面向街景新视角合成的有效多传感器条件控制
发表机构 * Stanford Univerity(斯坦福大学) ; NVIDIA
AI总结 提出StreetNVS视频扩散框架,通过参考增强相机注意力模块和相对射线级位置编码联合利用LiDAR、环视图像和相机位姿,实现稀疏LiDAR条件下的高质量街景新视角合成。
识别LLM中高置信度的社会偏见以构建可信的对话辅导代理
发表机构 * University of Hawaii at Manoa(夏威夷大学马诺亚分校)
AI总结 本研究通过生成对话数据集,评估大型语言模型在辅导场景中检测社会偏见的能力,发现模型在对话上下文中比基准测试更难检测偏见,且对错误判断过度自信,影响推理和反馈。
Comments Accepted for AIED 2026
FLAME:物理引导的神经算子用于高光谱图像中星载甲烷检测
发表机构 * KAIST(韩国科学技术院)
AI总结 提出FLAME,一种将甲烷吸收物理直接嵌入架构的物理引导神经算子,在星载甲烷检测中实现最高精度,像素级假阳性率降低近3倍,参数最少且满足星载硬件延迟预算。
可变形维纳滤波器用于未来视频编码
发表机构 * National Engineering Research Center of Visual Technology, School of Computer Science, Peking University(视觉技术国家工程研究中心,北京大学计算机科学学院) ; Core Media Technology, Disney Streaming(核心媒体技术,迪士尼流媒体) ; Wangxuan Institute of Computer Technology, Peking University(王萱计算机技术研究所,北京大学) ; Information Technology R&D Innovation Center of Peking University(北京大学信息技术研发创新中心) ; Peng Cheng Laboratory, Shenzhen(鹏城实验室,深圳)
AI总结 提出一种结合局部与非局部特征的可变形维纳滤波器(DWF),通过监督训练和自适应融合实现高效环路滤波,在VVC标准上平均节省1.16%~2.67%的码率。
Comments This paper has been published in IEEE Transactions on Image Processing
RobustModelMaker: 将Bootstrap稳定性选择与防泄漏嵌套交叉验证相结合的科学机器学习
发表机构 * School of Computing, Australian National University(计算学院,澳大利亚国立大学)
AI总结 针对小到中等规模科学数据集,提出RobustModelMaker框架,通过结合bootstrap稳定性选择与严格嵌套交叉验证,在防止数据泄漏的同时提供稳定性测试的特征子集和性能估计,在预测得分和选择稳定性上优于多种替代方法。
Comments 19 pages, 2 figure plates, 8 tables
层级语义增强导航:面向视觉语言导航的最优传输与图驱动推理
发表机构 * School of Software Engineering, Huazhong University of Science and Technology(华中科技大学软件学院) ; Interdisciplinary Graduate Programme, Nanyang Technological University, Singapore(新加坡南洋理工大学交叉学科研究生项目) ; University College London(伦敦大学学院)
AI总结 提出层级语义增强导航框架,通过动态层级语义场景图、基于最优传输的拓扑规划器与图感知强化学习策略,解决连续环境中的视觉语言导航难题,实现最优性能。
Comments Published in NeurIPS 2025, address some typos
MomentKV:消除长上下文推理中KV缓存驱逐的方向差距
发表机构 * George Washington University(乔治·华盛顿大学) ; Princeton University(普林斯顿大学)
AI总结 针对长上下文推理中KV缓存驱逐导致输出退化的问题,提出MomentKV方法,通过维护驱逐令牌集的矩统计量(计数、键均值、值均值和值-键协方差)来识别与累积摘要对齐的令牌,并在推理时提供驱逐注意力输出的一阶近似,实现选择性驱逐与精确校正的相互增强。
GJDNet: 通过联合解缠学习实现鲁棒图神经网络对抗攻击
发表机构 * School of Computer Science and Technology, Chongqing University of Posts and Telecommunications(重庆邮电大学计算机科学与技术学院) ; School of Cyber Security and Information Law, Chongqing University of Posts and Telecommunications(重庆邮电大学网络安全与信息法学院) ; Computational Communication Research Center, Beijing Normal University(北京师范大学计算通信研究中心) ; School of Journalism and Communication, Beijing Normal University(北京师范大学新闻传播学院) ; School of Computer Science and Engineering, University of Electronic Science and Technology of China(电子科技大学计算机科学与工程学院)
AI总结 提出GJDNet框架,通过联合解缠节点表示和决策空间,并采用球形决策边界,增强图神经网络在不同图同配性下的鲁棒性。