Demystifying Pipeline Parallelism: First Theory for PipeDream
揭秘流水线并行:PipeDream 的首个理论
发表机构 * KAUST(卡斯土尼亚大学)
AI总结 本文通过引入随机化 PipeDream (RPD) 抽象,首次为 PipeDream 风格方法提供了非凸收敛保证,并分析了其稳态延迟与阶段数的缩放关系,同时与 LocalSGD 进行了比较。
Comments 40 pages, 4 figures
揭秘流水线并行:PipeDream 的首个理论
发表机构 * KAUST(卡斯土尼亚大学)
AI总结 本文通过引入随机化 PipeDream (RPD) 抽象,首次为 PipeDream 风格方法提供了非凸收敛保证,并分析了其稳态延迟与阶段数的缩放关系,同时与 LocalSGD 进行了比较。
Comments 40 pages, 4 figures
HiSE:一种用于异构图神经网络的轻量级层次语义解释器
发表机构 * School of Artificial Intelligence, Jilin University(吉林大学人工智能学院) ; Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出HiSE,一种轻量级特征导向的可解释模型,通过层次语义建模(语义级LASSO稀疏特征学习和跨语义级KL散度自适应融合)实现高保真、低计算开销的异构图神经网络解释。
纹理驱动视觉学习中的低频捷径
发表机构 * Harvard University(哈佛大学) ; Kempner Institute(凯姆纳研究所)
AI总结 本文分析了纹理驱动领域中神经网络依赖低频成分作为捷径的现象,提出通过裁剪低频成分来消除捷径,从而提升分布内准确率和鲁棒性。
TrAction: 基于稀疏轨迹的动作识别
发表机构 * Institute of Computer Science and Campus Institute Data Science, University Göttingen(计算机科学研究所和校园数据科学学院,哥廷根大学) ; Max Planck Institute for Dynamics and Self-Organization(动态与自组织Max Planck研究所)
AI总结 提出使用稀疏点轨迹作为输入模态,结合掩码轨迹预训练的Transformer架构,在降低计算成本的同时实现高效动作识别,并证明轨迹特征与外观特征互补。
分析超连接中的流坍缩:从诊断到缓解
发表机构 * MIRAI ; BRAIn Lab ; Yandex Research ; Innopolis University
AI总结 本文通过细粒度诊断发现超连接中的多流残差连接存在流坍缩现象,即信号集中于主导流,并通过打破初始化对称性缓解该问题以提升性能。
PersistGS: 4D高斯溅射中物体持久性的可微物理
发表机构 * University of Waterloo(滑铁卢大学)
AI总结 提出PersistGS方法,通过将可微刚体模拟与3D高斯溅射耦合,在物体被遮挡期间利用物理规律预测其SE(3)轨迹,从而恢复物体持久性,并引入质心轮廓损失降低轨迹误差。
Comments Accepted in IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2026 Workshop on Generative 3D Reconstruction
Journal ref Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2026, pp. 4687-4696
Human2Humanoid: 面向人形机器人的物理感知跨形态运动重定向
发表机构 * Institute of Humanoid Robots, Department of Precision Machinery and Precision Instrumentation, University of Science and Technology of China(人形机器人研究院,精密机械与精密仪器系,中国科学技术大学)
AI总结 提出Human2Humanoid无监督运动重定向框架,利用CycleGAN和骨架感知图卷积网络处理未配对数据,通过形态不变末端执行器一致性损失和物理感知可行性约束,实现从人体运动到人形机器人的高保真重定向。
Comments Project page: https://huangtc233.github.io/human2humanoid_website/
混合模态双人脸-发型检索
发表机构 * Vietnam National University, Ho Chi Minh City, Vietnam(越南国家大学,胡志明市,越南) ; University of Information Technology, VNU-HCM, Ho Chi Minh City, Vietnam(信息技术大学,VNU-HCM,胡志明市,越南)
AI总结 提出混合模态双参考检索任务DFHR,通过解耦身份与发型特征并融合多模态嵌入,实现跨模态的身份感知与属性可控检索。
StepFinder:多智能体系统中故障归因的时间语义框架
发表机构 * Peking University(北京大学)
AI总结 提出StepFinder框架,通过将执行日志编码为时间语义序列并利用时序建模与注意力模块,高效准确地定位多智能体系统中的故障根因步骤。
Comments 12 pages, 5 figures. Accepted by KDD 2026
重新思考张量分解在训练后大语言模型压缩中的作用
发表机构 * University of Florida(佛罗里达大学) ; National Research University Higher School of Economics(俄罗斯国家研究大学——莫斯科经济学院)
AI总结 本文系统评估了张量分解在稠密和MoE架构上的训练后压缩效果,通过实证与理论分析揭示了其与LLM异构表示之间的根本性不匹配,从而界定了其实际限制和在规模化部署中的可行角色。
DMF:对话式AI代理的确定性记忆框架
发表机构 * Roma Tre University(罗马三大学)
AI总结 提出一种CPU优先的确定性记忆框架DMF,通过经典NLP分析、向量几何和数学评分替代生成式记忆压缩,实现零令牌成本且与Mem0相当的准确性。
Comments 21 pages, 3 figures
拓扑感知的高斯图修复用于鲁棒图神经网络
发表机构 * Computing Science/Financial Computing and Data Analytics Group, Tampere University(计算科学/金融计算与数据分析组,塔尔皮奥大学)
AI总结 提出拓扑感知高斯修复(TAGR)框架,通过自适应高斯核构建稀疏特征邻域图并结合拓扑感知残差校正,在不改变网络架构的情况下提升图神经网络在噪声边和缺失边场景下的鲁棒性。
什么使得交互轨迹对训练终端代理有效?
发表机构 * The University of Hong Kong(香港大学) ; Huawei Technologies(华为技术有限公司) ; Nanyang Technological University(南洋理工大学)
AI总结 本文通过Terminal-Lego流水线研究交互轨迹的教学效能,发现低分代理(DeepSeek-V3.2)的轨迹比高分代理(Claude Opus 4.6)更能提升学生泛化能力,归因于环境接地监督(EGS),并展示了极佳的数据效率。
和弦序列分析中的调性简约性:结合调制代价与调性词汇
发表机构 * LIP6, Sorbonne Université, Paris, France(LIP6,索邦大学,巴黎,法国) ; Ynosound, Paris, France(Ynosound,巴黎,法国)
AI总结 提出调性简约性方法,通过字典序最小化调制次数和不同调性数量,结合动态规划与固定24调性空间,在和弦序列分析中减少调性词汇并保持调制最优。
Comments 20 pages, 1 figure
KVarN: 方差归一化的KV缓存量化减轻推理任务中的误差累积
发表机构 * Huawei(华为)
AI总结 提出KVarN,一种无校准的KV缓存量化方法,通过Hadamard旋转和双尺度方差归一化减少自回归解码中的量化误差累积,在2位精度下达到生成基准测试的最新水平。
PRISM: 通过自组织专家专业化协同视觉基础模型
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出PRISM框架,采用双流混合专家(MoE)架构,通过两阶段范式(先解构专家知识使其专业化,再动态重组为任务特定路径)解决视觉基础模型集成中的负迁移问题,在PASCAL-Context和NYUD-v2上达到新最优。
Comments Accepted to ICML 2026
大型语言模型对自己的回答过度自信
发表机构 * Johannes Gutenberg University Mainz(莱茵河畔明斯特约翰·古腾堡大学) ; University of Colorado Boulder(科罗拉多大学波德分校)
AI总结 研究指令微调与聊天模板导致的大型语言模型校准偏差,发现“所有权偏见”使模型对自己的回答自信度高出26%,并提出通过将模型回答伪装为用户输入来降低过度自信。
Comments Accepted to ACL 2026 Findings
CP-Agent: 化学扰动下细胞形态学轮廓的上下文感知多模态推理
发表机构 * Department of Electrical and Computer Engineering, The University of Hong Kong(香港大学电子与计算机工程系) ; School of Computing and Data Science, The University of Hong Kong(香港大学计算与数据科学学院) ; School of Biomedical Engineering, The University of Hong Kong(香港大学生物医学工程学院) ; Nvidia AI Technology Center(NVIDIA人工智能技术中心) ; Advanced Biomedical Instrumentation Centre(先进生物医学仪器中心)
AI总结 提出CP-Agent,一种基于上下文感知对齐模块CP-CLIP的多模态大语言模型,用于生成药物扰动下细胞形态变化的可解释机制性解释,实现高精度处理与机制区分(最大F1分数0.896),并整合工具使用与推理生成结构化报告以加速药物发现。
Comments ICLR 2026
PHAF-瞬间个性化手部化身
发表机构 * Samsung R&D Institue(三星研发机构)
AI总结 提出PHAF方法,从两张图像(手背和手掌)快速生成个性化逼真手部化身,通过语义引导网格对齐和密集纹理提取,结合视图修复网络,实现高质量多视角渲染,纹理生成速度比现有方法快30倍。
统一多任务框架实现可解释的胸部X光片分析
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出IMT-CXR框架,通过统一Transformer架构模拟放射科医生诊断流程,实现疾病识别、属性表征和可追溯报告生成,在十个基准上表现优异,且临床评估中66%的AI报告达到或超越原始报告。
Enginuity:工程图纸视觉语言理解的数据集与基准
发表机构 * Predii ; Oak Ridge National Laboratory(橡树岭国家实验室) ; Independent Researcher(独立研究员)
AI总结 针对工程图纸领域缺乏公开基准的问题,提出首个开放数据集Enginuity,通过结构化零件表提取和自由形式视觉问答两项任务评估前沿VLM,揭示零件识别与描述保真度之间的系统性差距。
面向科学图像效用与可升级性的表征
发表机构 * TongJi University(同济大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 针对AI生成内容对科学图像完整性的威胁,提出SIU²A框架,通过效用(错误检测与修正可行性)和可升级性(修正质量)两个维度评估科学图像,并构建基准数据集揭示当前多模态系统在科学错误评估与忠实修正方面的显著局限。
选择性令牌级密码学编辑用于大型语言模型的隐私保护临床部署
发表机构 * MedVisAI Lab, Singapore(新加坡MedVisAI实验室) ; Ruijin Hospital, Shanghai Jiao Tong University School of Medicine, China(中国上海交通大学医学院瑞金医院) ; Lee Kong Chian School of Medicine, Nanyang Technological University, Singapore(新加坡南洋理工大学Lee Kong Chian医学院)
AI总结 提出HERALD框架,通过令牌级密码学编辑仅加密敏感令牌,在保护隐私的同时保持下游模型效用,在分类和医疗问答任务上接近明文性能。
Comments 33 pages, 8 figures, 26 tables
Transformer建模计数器语言中栈表示的因果证据
发表机构 * Birla Institute of Technology and Science, Pilani(比拉理工学院和科学学院,皮兰)
AI总结 通过线性探针和消融实验,证明Transformer在计数器语言任务中学习的栈表示对其性能具有因果必要性。
Comments 8 pages, 8 figures
OpenEAI-Platform: 一个开源具身人工智能硬件-软件统一平台
发表机构 * Shanghai Innovation Institute(上海创新研究院) ; Huazhong University of Science and Technology(华中科技大学) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 提出OpenEAI-Platform,集成低成本6+1自由度机械臂和可复现VLA模型,通过开源设计和两阶段训练在真实操作任务中超越商业臂,性能媲美大规模预训练基线。
当模型合并破坏路由:MoE的无训练校准
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对MoE架构中模型合并导致的路由崩溃问题,提出基于二阶曲率的无训练校准方法HARC,通过闭式解和共轭梯度法高效重对齐路由器,显著提升数学推理和代码生成性能。
通过混合零空间控制实现直线路径跟踪的极端运动生成
发表机构 * Graduate School of Engineering Science, The University of Osaka, Japan(大阪大学工学研究科)
AI总结 提出一种混合控制器,结合强化学习策略和模型控制,在关节极限附近切换,以最大化机械臂沿预定轨迹的笛卡尔路径长度,在7自由度Franka FR3上平均延长27%的路径长度。
先抓取后规划与失败归因:一种用于精确且可泛化机器人操作的闭环两阶段框架
发表机构 * School of Computer Science and Engineering, Southeast University, China(东南大学计算机科学与工程学院)
AI总结 提出GTP-FA框架,通过任务导向的两阶段抓取-规划流程和失败归因模型,在抓取和规划模块中分别注入任务先验和风险惩罚以及针对高风险初始状态进行数据收集和微调,显著提升机器人操作任务的成功率。
Comments 32 pages, project page: https://sites.google.com/view/gtp-fa/
链接预测还是预测失灵:知识图谱嵌入中不稳定的种子
发表机构 * Université Côte d’Azur, Inria, CNRS, I3S, France(法国埃克塞特大学、法国国家信息与自动化研究所、法国国家科学研究中心、I3S研究所)
AI总结 本文系统分析了多种知识图谱嵌入模型在链接预测中的稳定性,发现高性能模型在三元组预测和嵌入空间上存在显著不稳定性,且随机种子、超参数等因素独立引发同等程度的不稳定,投票机制仅能有限提升稳定性。
Comments Paper accepted at ESWC 2026 (https://2026.eswc-conferences.org)
EntSQL:一个将Text-to-SQL置于长上下文企业知识中的基准
发表机构 * HKUST (GZ)(香港科技大学(广州)) ; Alibaba Group(阿里巴巴集团) ; Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ)(广东人工智能与数字经济实验室(深圳))
AI总结 提出EntSQL基准,通过包含1066个跨五个业务领域的中英文对齐示例,评估LLM在长上下文企业文档中基于私有业务知识生成SQL的能力,最佳系统仅达15.9%准确率。