Evaluating Relational Reasoning in LLMs with REL
使用REL评估大语言模型中的关系推理能力
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文通过关系复杂度(RC)定义推理难度,构建涵盖代数、化学和生物学的生成式基准REL,发现前沿大语言模型在RC增加时性能持续下降,表明模型在高元关系绑定上存在固有局限。
Comments ICML 2026
使用REL评估大语言模型中的关系推理能力
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文通过关系复杂度(RC)定义推理难度,构建涵盖代数、化学和生物学的生成式基准REL,发现前沿大语言模型在RC增加时性能持续下降,表明模型在高元关系绑定上存在固有局限。
Comments ICML 2026
MAVEN-T:用于实时多智能体轨迹预测的强化异构蒸馏
发表机构 * School of Mathematical Sciences, Shanghai Jiao Tong University(上海交通大学数学科学学院) ; Bio-X Institutes, Key Laboratory for the Genetics of Developmental and Neuropsychiatric Disorders, Shanghai Jiao Tong University(上海交通大学Bio-X研究院、发育与神经精神疾病遗传学重点实验室) ; Shanghai Key Laboratory of Psychotic Disorders, Brain Science and Technology Research Center, Shanghai Jiao Tong University(上海精神疾病重点实验室、脑科学与技术研究中心,上海交通大学)
AI总结 提出MAVEN-T框架,通过高容量教师模型和紧凑学生模型的异构蒸馏,结合强化学习优化,实现实时多智能体轨迹预测,在多个数据集上达到高精度与低延迟。
深度ReLU分类中梯度下降泛化的最优速率
发表机构 * School of Mathematical Sciences, Zhejiang University(浙江大学数学科学学院) ; Department of Mathematics, The University of Hong Kong(香港大学数学系) ; School of mathematics and statistics, University of Sydney(悉尼大学数学与统计学学院)
AI总结 针对深度ReLU网络,通过权衡优化与泛化误差,在NTK可分离假设下证明了梯度下降的泛化误差率为~O(L^6/(nγ^2)),与SVM最优率仅差深度相关因子,关键技术是控制参考模型附近的激活模式以得到更紧的Rademacher复杂度界。
Comments Published in NeurIPS 2025
PDE的流学习器:迈向科学计算的物理到物理范式
发表机构 * The University of Alabama(阿拉巴马大学) ; University of Pittsburgh(匹兹堡大学)
AI总结 本文提出流学习器(flow learners)范式,通过参数化传输向量场并积分生成轨迹,将PDE求解从状态预测转向物理上允许的未来传输建模,实现连续时间预测、不确定性量化及物理感知求解器设计。
PRISM: 重新思考大气散射重建作为真实世界去雾的统一理解与恢复模型
发表机构 * Tsinghua University(清华大学) ; Duke University(杜克大学) ; CUHK(香港中文大学) ; HKUST(香港理工大学) ; HKUST(GZ)(香港理工大学(广州))
AI总结 提出基于近端散射大气重建(PSAR)的物理结构化框架,结合在线非均匀雾合成和选择性自蒸馏适应(SSDA)方案,实现真实世界图像去雾的统一理解与恢复。
Comments 21 Pages, 8 Figures, 7 Tables
多语言大模型中冲突信息下的语言偏见
发表机构 * Stockholm University(斯德哥尔摩大学) ; RISE Research Institutes of Sweden(瑞典RISE研究机构)
AI总结 本研究通过扩展“干草堆中的冲突针”范式至多语言环境,评估了不同规模的多语言大模型在回答问题时对冲突信息中不同语言的偏好,发现模型普遍存在语言偏见,尤其是对俄语的普遍偏见和对中文的偏好,且提示语言与信息语言匹配时更受青睐。
MPM:用于高效视觉Transformer的互结对合并
发表机构 * LARIS University of Angers(安格尔大学LARIS实验室) ; UMR INRAe-IRHS Angers, France(法国安格尔INRAe-IRHS UMR)
AI总结 提出无训练、无参数的互结对合并(MPM)模块,通过余弦空间互近邻配对与平均,记录合并图用于解码器前基于收集的重建,在语义分割中实现端到端加速,且精度损失小。
Comments Accepted to CVPR 2026 (Findings)
Journal ref Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Findings, 2026, pp. 2998-3008
估计Atari游戏中中央、周边和时间视觉对人类决策的贡献
发表机构 * Department of Advanced Interdisciplinary Studies, The University of Tokyo(东京大学先进跨学科研究系) ; Research Center for Advanced Science and Technology, The University of Tokyo(东京大学先进科学与技术研究中心)
AI总结 通过控制消融框架分析Atari游戏中的眼动数据,发现周边视觉信息对人类决策贡献最大,而注视信息和过去状态信息贡献较小。
ArrowFlow:排列空间中的层次化机器学习
发表机构 * Department of Artificial Intelligence(人工智能系) ; Adana Science and Technology University(阿达纳科学技术大学)
AI总结 提出ArrowFlow架构,在排列空间中通过排序滤波器和置换矩阵累积实现无浮点参数的层次化排序表示学习,并利用社会选择公理违反作为归纳偏置,实验表明在多个基准上具有竞争力且具备噪声鲁棒性、隐私保护等特性。
VOIC:可见-遮挡联合引导的3D语义场景补全
发表机构 * Research Institute of Trustworthy Autonomous Systems, Southern University of Science and Technology(可信自主系统研究院,南方科技大学) ; Department of Computer Science and Engineering, Southern University of Science and Technology(计算机科学与工程系,南方科技大学) ; School of Computer Science, University of Nottingham Ningbo China(宁波大学计算机学院) ; Department of Electronic and Information Engineering, Changchun University(电子与信息工程学院,长春大学)
AI总结 提出VOIC网络,通过解耦可见区域感知与遮挡区域推理,利用离线可见区域标签提取策略和双解码器框架,在SemanticKITTI和SSCBench-KITTI360上实现最先进的3D语义场景补全性能。
Cryo-Bench:面向冰冻圈应用的基础模型基准测试
发表机构 * Center for Sustainability and the Global Environment (SAGE), University of Wisconsin–Madison(可持续性与全球环境中心(SAGE),威斯康星大学麦迪逊分校) ; Portsmouth AI and Data Science Centre (PAIDS), School of Computing, University of Portsmouth(波特茅斯人工智能与数据科学中心(PAIDS),计算学院,波特茅斯大学) ; ESA, ESRIN, φ \varphi -lab, Frascati(欧洲航天局(ESA),欧洲空间研究中心(ESRIN),φ实验室,弗拉斯卡蒂)
AI总结 提出Cryo-Bench基准,评估14个地理基础模型在冰冻圈关键组件(如冰川、冰湖、海冰等)上的性能,发现UNet在冻结编码器下平均mIoU最高(66.38),而全微调结合学习率调整可提升性能12.77%。
低分辨率编辑足以实现高分辨率编辑
发表机构 * ECE & IPAI, Seoul National University(电子与信息物理学院及首尔国立大学IPAI) ; University of Wisconsin-Madison(威斯康星大学麦迪逊分校)
AI总结 本文提出一种测试时优化框架,通过分块优化、细节迁移和同步策略,实现高分辨率图像编辑。
Comments CVPR 2026. Project website: https://hleephilip.github.io/ScaleEdit
像病理学家一样:组织感知的全切片图像推理
发表机构 * Stony Brook University(石英溪大学) ; Mayo Clinic(梅奥诊所) ; Harvard Medical School(哈佛医学院) ; Stanford University(斯坦福大学)
AI总结 提出一种问题引导、组织感知的粗到细检索框架HistoSelect,通过识别相关组织区域并选择最具信息量的补丁,在减少70%视觉标记的同时提升病理问答准确性。
Comments 14 pages, 8 figures. Accepted by CVPR'26
结构线索能否拯救LLM?评估大规模文档流中的语言模型
发表机构 * Boston University(波士顿大学) ; Korea University(韩国大学)
AI总结 本文提出StreamBench基准,通过主题聚类、时序问答和摘要任务评估语言模型在混合多事件的文档流中的表现,发现结构线索能提升聚类和时序QA性能,但时序推理仍是挑战。
Comments KDD 2026
SJD-PAC:通过主动草稿和自适应延续加速推测性雅可比解码
发表机构 * Peking University(北京大学) ; Huawei Technologies(华为技术)
AI总结 提出SJD-PAC框架,通过主动草稿策略和自适应延续机制提升推测性雅可比解码的接受率,实现无损加速文本到图像合成。
Comments CVPR 2026
PAND:面向提示的邻域蒸馏用于轻量级细粒度视觉分类
发表机构 * arXiv
AI总结 提出PAND框架,通过提示感知语义校准和邻域感知结构蒸馏,将大型视觉语言模型知识迁移至轻量网络,在细粒度分类任务上超越现有方法。
Comments Accepted by ICIP2026
PubTables-v2: 一个新的用于全页和多页表格提取的大规模数据集
发表机构 * Kensho Technologies(Kensho技术公司)
AI总结 针对全页和多页表格提取任务缺乏标注数据的问题,本文创建了大规模数据集PubTables-v2,并评估了当前前沿模型与小模型在不同上下文级别任务上的性能差异。
Comments 28 pages, separated POTATR to its own paper, added frontier model results
LoCAtion: 用于高动态范围视频重建的长时间协同注意力框架
发表机构 * School of Automation, Hangzhou Dianzi University(杭州电子科技大学自动化学院) ; Department of Computer Science, City University of Hong Kong(香港城市大学计算机科学系)
AI总结 提出LoCAtion框架,通过解耦对齐与融合、采用协同注意力机制和全局序列求解器,实现无需显式对齐的高动态范围视频重建,在视觉质量和时间稳定性上达到最优。
学习扩散语言模型的去掩码策略
发表机构 * Apple(苹果公司) ; University of Amsterdam(阿姆斯特丹大学) ; Massachusetts Institute of Technology(麻省理工学院)
AI总结 针对扩散语言模型中的去掩码采样问题,提出基于强化学习训练轻量级策略,以替代手动调优的启发式方法,在保持性能的同时提升鲁棒性。
Comments V4: Accepted as an oral spotlight at ICML 2026
Ref-DGS: 反射性双高斯泼溅
发表机构 * Chongqing University(重庆大学) ; MAIS, Institute of Automation, Chinese Academy of Sciences and UCAS(自动化研究所,中国科学院,UCAS) ; King Abdullah University of Science and Technology (KAUST)(卡塔尔科学与技术大学)
AI总结 提出Ref-DGS框架,通过双高斯场景表示和物理感知的镜面自适应混合着色器,在高效光栅化管线中解耦表面重建与镜面反射,实现反射场景的SOTA新视图合成且训练速度远快于基于光线的方法。
Comments Project page: https://njfan.github.io/Ref-DGS/
迈向因果市场模拟器
发表机构 * National University of Singapore(新加坡国立大学) ; Veracruz Mexico(墨西哥韦拉克鲁斯)
AI总结 提出一种结合变分自编码器与结构因果模型的时间序列神经因果模型VAE(TNCM-VAE),用于生成保留时间依赖和因果关系的反事实金融时间序列,在合成数据上实现低至0.03-0.10的L1距离。
Comments ICAIF 2025 Workshop on Rethinking Financial Time-Series
X-RAY: 通过形式化与校准探针映射大语言模型推理能力
发表机构 * National University of Singapore(新加坡国立大学)
AI总结 提出X-RAY系统,利用形式化工具生成结构可控的校准探针,通过分析约束交互、推理深度和解空间几何等属性,揭示LLM在约束细化与解空间重构下的推理不对称性。
Comments Accepted by KDD 2026
WaterSIC: 信息论(近乎)最优的线性层量化
发表机构 * University of Illinois at Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Stanford University(斯坦福大学) ; University of California, Berkeley(加州大学伯克利分校) ; University of Texas at Austin(德克萨斯大学奥斯汀分校)
AI总结 针对密集线性层低精度量化问题,提出WaterSIC算法,通过为权重矩阵不同列分配不同量化率,实现与信息论极限仅0.255比特的差距,并在Llama和Qwen系列大语言模型上达到1-4比特量化的最优性能。
为什么线性RNN更易于并行化?
发表机构 * GitHub
AI总结 本文通过将RNN类型与标准复杂度类紧密关联,揭示了线性RNN(LRNN)因可视为对数深度算术电路而易于并行化,而非线性RNN因能解决L-完全问题而存在并行化障碍。
Comments To appear at ICML 2026
Buzz, Choose, Forget: 一种类蜂决策的元老虎机框架
发表机构 * University of Toulouse, IRIT(图卢兹大学,IRIT) ; University of Toulouse, CBI(图卢兹大学,CBI) ; Regalia Team, INRIA University of Toulouse, France(Regalia团队,法国国家信息与自动化研究所图卢兹大学)
AI总结 提出基于多臂老虎机的序列模仿学习模型MAYA,通过时间窗口τ模拟蜜蜂有限记忆,在真实、模拟和补充数据集上优于基线模型,并具备可解释性和轨迹推断能力。
在线强化学习中延迟观测的极小化最优策略
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; UC Berkeley(加州大学伯克利分校)
AI总结 针对延迟状态观测的强化学习问题,提出结合增广方法和上置信界算法的策略,在表格型MDP上达到极小化最优遗憾界。
Comments ICML camera ready version
scBatchProx:异质性批次组成下稳定细胞类型可区分性的联邦启发式精炼
发表机构 * National Institute of Health (NIH)(国家卫生研究院)
AI总结 提出scBatchProx,一种轻量级后处理方法,通过联邦学习启发的优化和保守正则化,稳定单细胞潜在嵌入,提升异质批次下的细胞类型分类性能。
从审核到调解:LLMs能否充当在线论战中的调解员?
发表机构 * Arizona State University(亚利桑那州立大学) ; Loyola University Chicago(芝加哥洛约拉大学)
AI总结 本研究探索大型语言模型(LLMs)能否超越内容审核,作为调解员通过判断对话公平性和情感动态并生成共情缓和信息来化解在线冲突,实验表明API模型在推理和干预一致性上优于开源模型。
Comments Accepted by PAKDD 2026 special session on Data Science: Foundations and Applications
MuLoCo: Muon 是 DiLoCo 的实用内部优化器
发表机构 * FAIR at Meta(Meta 的 FAIR 部门) ; Mila ; Université de Montréal(蒙特利尔大学) ; Concordia University(康科迪亚大学)
AI总结 本文提出 MuLoCo,将 Muon 作为 DiLoCo 的内部优化器,通过产生方向更准确的伪梯度,在多个工作节点下提升大语言模型训练性能,并兼容量化、流式处理和长同步间隔。
KnapSpec: 通过自适应层选择作为背包问题的自推测解码
发表机构 * KAIST(韩国科学技术院)
AI总结 提出KnapSpec,一种无需训练的框架,将草稿模型选择重新表述为背包问题,通过解耦注意力与MLP层并建模其硬件特定延迟,使用并行动态规划算法自适应确定最优草稿配置,实现令牌吞吐量最大化。
Comments Accepted to ICML 2026