Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning
平衡推理器:学习吸引子使推理可扩展
AI总结 本文提出平衡推理器(EqR),通过学习任务条件的吸引子来实现可扩展推理,该方法在测试时无需外部验证器或任务特定先验,通过增加深度和广度实现推理能力的提升,从而在Sudoku-Extreme上将准确率从2.6%提升至超过99%。
Comments ICML 2026
平衡推理器:学习吸引子使推理可扩展
AI总结 本文提出平衡推理器(EqR),通过学习任务条件的吸引子来实现可扩展推理,该方法在测试时无需外部验证器或任务特定先验,通过增加深度和广度实现推理能力的提升,从而在Sudoku-Extreme上将准确率从2.6%提升至超过99%。
Comments ICML 2026
量化超参数迁移与嵌入层学习率的重要性
AI总结 本文研究了超参数迁移的量化方法,通过三种指标评估超参数迁移的质量,发现Maximal Update(μP)参数化在训练中通过最大化嵌入层学习率提升了超参数迁移质量,而权重衰减虽改善了缩放定律拟合,但会降低外推鲁棒性。
Comments 10+28 pages, 5+17 figures
EvoStruct: 通过蛋白质语言模型适应桥接进化和结构先验以进行抗体CDR设计
AI总结 本文提出EvoStruct方法,通过蛋白质语言模型适应桥接进化和结构先验,解决抗体CDR设计中的词汇崩溃问题,提升了氨基酸恢复率和降低困惑度。
通过固定点迭代实现离散扩散图像生成器的一步蒸馏
AI总结 本文提出了一种名为Fixed-Point Distillation (FPD)的端到端框架,通过部分破坏学生模型的一步草稿并用单个教师步骤进行细化,构建局部修正目标。该方法将离散标记提升为连续特征,并应用多带宽漂移损失,迭代累积这些修正。通过直通估计器将连续梯度回传到学生日志it,同时可选地引入无条件对抗目标以增强感知现实。在类别和文本条件生成上的评估验证了该框架的有效性,FPD在单步推理中实现了竞争性的视觉保真度和结构对齐,缩小了与多步教师之间的差距,同时优于现有离散蒸馏基线。
DeepWeb-Bench: 一个要求大规模跨源证据和长周期推导的深度研究基准
AI总结 本文提出DeepWeb-Bench基准,通过要求大规模证据收集、跨源验证和长周期推导,评估前沿语言模型在深度研究任务中的能力,揭示检索并非瓶颈,强弱模型失败方式不同,且模型在不同领域表现出专业性。
Comments Work in Progress. 27 pages, 10 figures, 4 tables. Project page: https://sixiongxie1001-dot.github.io/deep-research-benchmark2.0
AiraXiv:一个面向人类和AI科学家的AI驱动的开放获取平台
AI总结 本文提出AiraXiv平台,通过AI驱动的开放预印本、AI增强的分析与评审以及读者反馈,解决传统学术出版系统在AI时代面临的研究产出增长和可扩展性挑战。
WikiVQABench: 一个基于维基百科和维基数据的知识引导视觉问答基准
AI总结 本文提出WikiVQABench,一个结合维基百科图片、文章描述和维基数据结构化知识的知识引导视觉问答基准,通过大规模语言模型生成候选多选题,并由人工审核确保事实正确性和视觉-文本一致性,评估多种视觉-语言模型在知识密集型推理中的性能。
基于潜在动态的全身动画 avatar
AI总结 本文提出了一种基于潜在动态的全身动画 avatar 方法,通过引入 transformer 解码器和动态残差潜在变量,实现了更精确的动态模拟,提高了动画质量。
Comments Supplementary video: https://youtu.be/xjnr3YM0yIE
关系预测任务是否需要固定模式图?关系深度学习中的全分辨率图结构学习
AI总结 本文提出了一种全分辨率且可优化的图结构学习框架FROG,用于关系深度学习,将关系结构学习建模为可学习的表角色建模问题,允许表作为节点和边在信息传递中发挥作用,并设计了基于角色的信息传递机制,以捕捉关系语义,同时通过功能依赖约束确保语义一致性,实验表明该方法在多个下游任务中优于现有方法。
Comments Accepted by the Forty-third International Conference on Machine Learning (ICML2026)
你只需要最小的RLVR训练:通过秩-1轨迹来扩展LLMs
AI总结 本文研究了通过秩-1轨迹扩展LLMs的方法,发现RLVR参数轨迹具有极低的秩和高度可预测性,并提出RELEX方法,通过简单的线性回归在无需训练模型的情况下实现高效的超量扩展。
Comments preprint. Code: https://github.com/weizhepei/RELEX
DelTA: 一种用于可验证奖励强化学习的判别性token信用分配
AI总结 本文提出DelTA方法,通过估计token系数来增强特定侧的token梯度方向,从而改进可验证奖励强化学习中的token概率更新,提升了模型在数学基准测试中的性能。
StreamGVE: 无需训练的视频编辑通过少步流式视频生成
AI总结 本文提出StreamGVE,一种基于噪声到数据视角的视频编辑方法,通过引入双分支快速采样和自注意力桥接以及交叉注意力接地/增强,实现了高效的视频编辑,能够在少步设置中优于现有方法。
Comments Project Page: https://dsl-lab.github.io/StreamGVE/
利用大语言模型进行语法适应:关于元模型-语法共演的研究
AI总结 本文研究了如何利用大语言模型自动适应语法,通过学习先前版本的语法适应来实现自动适应,同时探讨了在复杂语法场景下的优势与局限性。
Mem-$π$: 通过学习何时以及生成什么来实现自适应记忆
AI总结 Mem-$π$ 通过学习在何时以及生成什么来实现自适应记忆,利用专门的语言或视觉-语言模型生成上下文特定的指导,从而在多种代理任务中优于基于检索和先前RL优化的记忆基线。
Comments Work in progress
一种基于激活函数的加权最小二乘GNSS定位机器学习框架
AI总结 本文提出了一种基于激活函数的加权最小二乘GNSS定位机器学习框架,通过使用信号质量指标作为训练特征,利用集成学习算法识别低质量信号,并通过激活函数将机器学习预测的分数转换为适当的权重以提高定位精度。
HITL-D: 有人参与的扩散辅助共享控制
AI总结 本文提出HITL-D框架,通过结合扩散策略和人类控制,提升多步骤、插入和精细操作任务的用户表现,减少 joystick 控制轴数量,降低认知负荷,并在多任务用户研究中显著提高任务完成速度和用户满意度。
Comments Accepted for presentation at ICRA 2026
注意仿真到现实的差距并像科学家一样思考
AI总结 本文研究了在仿真和现实之间如何补充实验以减少价值差距,提出了Fisher-SEP方法,并通过两个案例研究展示了其应用。
通过可解释的评分标准嵌入缓解标签偏差
AI总结 本文提出通过可解释的评分标准嵌入来缓解标签偏差问题,通过理论和实验证明该方法在合理条件下能减少标签偏差并提升群体质量评估。
ProtoPathway: 为多模态癌症生存预测设计的生物结构化原型-路径融合
AI总结 本文提出ProtoPathway框架,通过统一全切片成像和转录组学,利用编码器生成生物基础的表示,以提升癌症生存预测的生物可解释性和计算效率。
Comments Currently under peer review
神经网络的近似理论:旧与新
AI总结 本文综述了神经网络近似理论的发展,包括传统单隐层网络的密度结果、量化误差界限以及深度-宽度权衡,还探讨了Kolmogorov-Arnold网络等新架构的理论性质。
Comments 31 pages, 4 figures
TempGlitch: 评估视觉-语言模型在游戏视频中检测时间故障的能力
AI总结 本文提出TempGlitch基准测试,用于评估视觉-语言模型在游戏视频中检测时间故障的能力,发现现有模型在处理时间故障时表现不佳,且更密集的帧采样和更大的模型尺寸并不能有效解决这些问题。
torchtune: 一种基于PyTorch的后训练库
AI总结 本文介绍了torchtune,一种基于PyTorch的后训练库,旨在简化大语言模型的后训练生命周期,提供高效的微调、实验和部署流程,通过模块化和可扩展性提升性能和灵活性。
Comments 14 pages
ReMATF: 基于循环的运动自适应多尺度湍流抑制用于动态场景
AI总结 本文提出ReMATF,一种轻量级循环框架,通过仅使用两帧恢复视频,同时保持空间细节和时间稳定性,有效抑制湍流并提升视频质量。
高斯sheaf神经网络
AI总结 本文提出高斯sheaf神经网络(GSNNs),通过将高斯分布的均值和协方差矩阵作为节点特征,解决传统GNN在处理概率分布特征时的不足,提出新的拉普拉斯算子并进行实验验证。
通过辅助条件分支进行乐器文生成
AI总结 本文研究了在无外部预训练的情况下,通过控制数据和预训练来隔离有效设计选择的问题,发现去除辅助分支的模型在多个评估指标上表现较差,而增加DiT深度只能小幅恢复性能,表明辅助分支可能在训练时起到架构锚定作用。
Comments ICME 2026 Grand Challenge on Academic Text-to-Music Generation
roto 2.0:机器人触觉奥林匹克
AI总结 本文提出roto 2.0,一个基于触觉的强化学习基准,旨在通过四种不同的机器人形态(16-DOF到24-DOF)标准化触觉强化学习,专注于端到端的'盲'操作,仅使用本体感觉和触觉传感,不使用状态信息或蒸馏。研究展示了显著的性能提升,盲控代理在10秒内完成13次保定球旋转,比当前最先进的速度快了一个数量级。通过开源环境和经过充分调优的基线,降低了进入门槛,使研究人员能够优先考虑基本算法挑战而非繁琐的强化学习调优。
Comments Accepted to 7th ViTac Workshop, ICRA 2026
多项式时间鲁棒多类线性分类下的高斯边缘分布
AI总结 研究在高斯分布下多类线性分类器的无偏学习任务,提出了一种多项式时间鲁棒学习算法,解决了多类分类中误差保证的问题,特别是在k≥3的情况下。
PALS: 为混合专家模型的功率感知LLM服务
AI总结 本文提出PALS,一种功率感知的LLM服务运行时,通过将GPU功率上限作为可控制的参数与软件参数如批大小联合优化,提升能效并减少在功率限制下的服务质量违规。
Comments 13 pages, 10 figures
自适应信号复苏:用于稀疏视觉网络的通道级后剪枝修复
AI总结 本文提出了一种无需训练的通道级修复方法ASR,用于解决高稀疏度下因后剪枝修复粒度不匹配导致的精度下降问题,通过估计每个输出通道的方差匹配修正并结合数据驱动的收缩规则,提升稀疏视觉网络的性能。
HiRes: 反应条件推荐的可检查先例记忆
AI总结 HiRes通过结合图编码器、变换感知交叉注意力、多流反应融合和k-NN检索层,实现了反应条件推荐的高准确率和可解释性,其在催化剂、溶剂和试剂的Top-1准确率分别达到0.929、0.534和0.530,优于现有方法。