What are the Right Symmetries for Formal Theorem Proving?
正式定理推理中应有的对称性是什么?
发表机构 * University of Oxford(牛津大学) ; KAIST(韩国科学技术院) ; TU Wien(维也纳技术大学) ; AITHYRA
AI总结 本文探讨了正式定理推理中应尊重的对称性,提出了基于范畴论的重写范畴框架,用于形式化证明等价性和成功不变性,并通过测试时方法改进了LLM基定理证明器的鲁棒性和性能。
正式定理推理中应有的对称性是什么?
发表机构 * University of Oxford(牛津大学) ; KAIST(韩国科学技术院) ; TU Wien(维也纳技术大学) ; AITHYRA
AI总结 本文探讨了正式定理推理中应尊重的对称性,提出了基于范畴论的重写范畴框架,用于形式化证明等价性和成功不变性,并通过测试时方法改进了LLM基定理证明器的鲁棒性和性能。
D3Seg: 依赖感知的扩散模型用于缺失模态的脑肿瘤分割
发表机构 * The University of Western Australia(西澳大学) ; The University of Melbourne(墨尔本大学)
AI总结 本文提出D3Seg模型,通过多跳模态图融合、轻量扩散插补机制和概率空间决策细化,解决缺失MRI模态下的脑肿瘤分割问题,提升分割性能并保持计算效率。
没有比现在更严峻的挑战:鲁棒的气候模拟需要分布外泛化
发表机构 * Applied AI Lab University of Oxford, UK(应用人工智能实验室,牛津大学,英国) ; Atmospheric, Oceanic and Planetary Physics University of Oxford, UK(大气、海洋和行星物理,牛津大学,英国)
AI总结 本文研究了气候模拟中分布外泛化的重要性,提出了一种新的评估框架,通过季节变化来测试模拟器的鲁棒性,并展示了物理驱动的分解方法如何在不显著牺牲分布内性能的情况下提升分布外性能。
Comments 36 pages, 12 figures
IdioLink: 超越词语的语义检索:在隐喻和直述表达之间
发表机构 * Data Science Institute, Reichman University(雷赫曼大学数据科学学院) ; Efi Arazi School of Computer Science, Reichman University(雷赫曼大学埃菲·阿拉兹计算机科学学院) ; Vrije Universiteit Amsterdam(阿姆斯特丹自由大学)
AI总结 本文提出IdioLink检索基准,旨在测试模型能否将隐喻表达与直述或改写形式的概念等价意义联系起来,揭示当前模型在隐喻语义检索中的不足。
为高维预测研究的数据驱动设计开发可解释的AI
发表机构 * School of Engineering, University of Edinburgh(爱丁堡大学工程学院) ; Causality in Healthcare AI Hub (CHAI)(医疗因果AI枢纽) ; Advanced Care Research Centre, Usher School of Population Health Sciences, University of Edinburgh(先进护理研究中心,乌瑟人口健康科学学院,爱丁堡大学) ; Centre for Medical Informatics, Usher School of Population Health Sciences, University of Edinburgh(医学信息学中心,乌瑟人口健康科学学院,爱丁堡大学)
AI总结 本文提出了一种可解释的AI推荐系统,通过数据驱动的方法改进现有可解释统计模型的预测性能,主要贡献是通过可解释AI技术提供三种推荐类型以提高模型的预测能力和透明度。
Comments 41 pages, 7 figures
评估大型语言模型作为实时战略代理:提供商性能、混合分解及时间风险游戏中的操作差距
发表机构 * Gemini ; OpenAI ; Kimi
AI总结 本文研究了大型语言模型在实时策略环境中的表现,发现其性能受目标跟踪、执行转换、成本和运行时可靠性等因素影响,支持将LLM作为受限制工作流中的组件进行评估,而非孤立的基准测试对象。
Comments 13 pages, 7 figures. Code and tracked notes: https://github.com/hcekne/risk-game . Public runtime artifact index: https://github.com/hcekne/risk-game/blob/main/docs/article-plans/public_experiment_artifacts.md
REACH:从房间角落估计手部姿态
发表机构 * Graduate School of Informatics, Kyoto University(京都大学信息学研究科) ; RIKEN(理化学研究所) ; Kyoto Institute of Technology(京都工业大学)
AI总结 本文提出了一种新的3D手部姿态估计器,能够从远处(通常是从房间角落的固定摄像头)在极低分辨率且频繁遮挡的视图中准确恢复人的手部形状和姿态。核心方法是充分利用手部与身体的协调性、时间序列变化以及多视角观测,通过一种新的基于Transformer的模型实现,利用视图令牌之间的相关性建模手部和身体的配置,并以自回归方式利用时间协调性。同时引入了一个名为REACH的新型数据集,用于训练和测试方法。REACH是首个大规模的手部姿态数据集,记录了50名参与者在多种日常活动中的准确手部运动。通过大量实验,包括与现有方法的比较研究,证明了我们的模型REACH-Net在远距离3D手部姿态估计上取得了高度准确的结果。这些结果拓展了3D手部姿态估计的视野,尤其在“野外”连续人类行为分析方面。
GHI: 图ormer over Conditioned Hypergraph Incidence 用于基于方面的情感分析
发表机构 * Qiqihar University(齐齐哈尔大学)
AI总结 本文提出GHI框架,通过构建基于双分拓扑的 incidence 结构推理层,实现对基于方面的情感分析任务中不同结构信号的统一处理,实验表明GHI在多个标准基准上优于现有方法,且在参数较少的情况下表现优异。
Comments 15 pages, 8 figures, 7 tables
变换器能生成多少种不同的输出?
发表机构 * Department of Mathematics, National University of Singapore, Singapore, 117543(新加坡国立大学数学系) ; School of Computing, National University of Singapore, Singapore, 117543(新加坡国立大学计算学院) ; Aix Marseille Univ, CNRS, I2M, Marseille, France(法国马赛大学、国家科学研究中心、I2M研究所) ; Department of Electrical and Computer Engineering, National University of Singapore(新加坡国立大学电子与计算机工程系)
AI总结 研究如何利用变换器架构中的少量特性来准确预测其能生成的不同序列数量,包括定性和定量分析,并提供基于提示长度的上限,实验证明在不同架构和模型大小下该上限紧致于10倍以内。分析还解释了之前在简单序列任务(如复制和填塞)中观察到的变换器经验性失败现象。
Comments ICML 2026 Spotlight
Transformer能否在回溯搜索中学习验证?
发表机构 * Yin Jun Phua (corresponding author) Institute of Science Tokyo, 2-12-1 Ookayama, Meguro-ku, Tokyo 152-8550, Japan Tony Ribeiro Centrale Nantes, CNRS, Laboratoire des Sciences du Num\'erique de Nantes, LS2N, UMR 6004, F-44000 Nantes, France National Institute of Informatics, 2-1-2 Hitotsubashi, Chiyoda-ku, Tokyo 101-8430, Japan Steelous Protocol, 8-20-32, Ginza, Chuo-ku, Tokyo 104-0061, Japan Tuan Nguyen Hanoi University of Science ; Technology, No. 1 Dai Co Viet, Hai Ba Trung, Ha Noi, Vietnam Katsumi Inoue National Institute of Informatics, 2-1-2 Hitotsubashi, Chiyoda-ku, Tokyo 101-8430, Japan
AI总结 本文研究了Transformer在回溯搜索中的验证能力,指出传统方法在处理轨迹数据时存在散列检索和历史纠缠问题,并提出局部化和选择性状态注意力(SSA)来解决这些问题,通过实验验证了SSA在3-SAT、图着色、Blocks World和回溯解析等任务中的有效性。
SGR-Bench: 对状态门控检索的搜索代理基准测试
发表机构 * Peking University(北京大学) ; Beijing University of Technology(北京理工大学)
AI总结 本文提出SGR-Bench,一个用于评估状态门控检索能力的基准数据集,包含100个专家 curated 任务,通过对比显式和隐式指导方法,揭示了搜索代理在处理状态门控检索任务时的主要挑战。
Comments Work in Progress. 23 pages, 7 figures, preprint
生存或崩溃:自我博弈强化学习中数据门控与奖励基础的不对称作用
发表机构 * University of California, Santa Barbara(加州大学圣巴巴拉分校) ; Cisco Research(思科研究)
AI总结 本文研究了自我博弈强化学习中数据门控和奖励基础的不对称作用,发现数据门控是维持稳定的关键因素,而奖励信号在门控移除后无法单独保证稳定性,揭示了'基础提出者悖论'。
迈向定量信心评估的组合语义:在保证论证中
发表机构 * Luxoft GmbH(卢克斯oft GmbH) ; Robert Bosch GmbH(罗伯特·博世有限公司)
AI总结 本文提出了一种组合语义,用于在保证论证中进行定量信心评估,通过将论证元素表示为主观逻辑意见,并将元素间的关系映射到主观逻辑运算符,从而实现信心的传播。
Comments Accepted to the 21st European Dependable Computing Conference (EDCC 2026), Canterbury, UK
Journal ref Proceedings of the 21st European Dependable Computing Conference (EDCC 2026)
CLORE:面向推理效率的内容级优化
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Northwestern University(西北大学) ; University of North Carolina, Chapel Hill(北卡罗来纳大学教堂山分校) ; University of Pittsburgh(匹兹堡大学)
AI总结 本文提出CLORE框架,通过编辑正确在线轨迹来提升大语言模型的推理效率,通过外部增强模型删除冗余、不可读或无关内容,同时保留最终答案,并结合辅助参考-free DPO目标和标准策略梯度训练优化增强-原始对,实验表明CLORE在五个数学推理基准上提升了准确性和效率的平衡,并与GRPO、DAPO、Training Efficient和ThinkPrune兼容。
Comments 9 pages, 9 figures
GALAR-TemporalNet v2: 基于解剖引导的双分支时间分类方法,结合双向Mamba和双图GCN用于视频胶囊内镜
发表机构 * School of Computer Science and Engineering, Kyungpook National University(韩国庆北国立大学计算机科学与工程学院)
AI总结 该研究针对视频胶囊内镜中同时定位8个解剖区域和检测9种病理发现的多标签时间分类问题,提出GALAR-TemporalNet v2模型,通过结合窗口自注意力、双图GCN和双向Mamba解决类别不平衡、长程时间依赖和病理-解剖纠缠问题,最终在RARE-VISION测试集上取得更高的mAP指标。
Comments 7 pages, 2 figures. Post-competition preprint for the ICPR 2026 RARE-VISION Challenge
技能编织:通过模块化技能包实现高效的LLM改进
发表机构 * Harbin Institute of Technology, Shenzhen, China(哈尔滨工业大学(深圳)) ; The Hong Kong Polytechnic University(香港理工大学) ; Huawei Technologies Co., Ltd.(华为技术有限公司) ; Shanghai Jiaotong University(上海交通大学)
AI总结 本研究提出SkillWeave框架,通过模块化技能包使LLM在固定内存预算下实现领域专业化,通过SkillZip压缩技术实现高效部署,实验表明其在多任务和代理基准上表现优异,速度提升达4倍。
Comments Accepted by ACL2026
阿拉伯女性社会赋权与福祉的受众参与:一个十年语料库
发表机构 * Northwestern University in Qatar(卡塔尔西北大学) ; Hamad bin Khalifa University(哈利法大学)
AI总结 本文提出阿拉伯女性与社会语料库,包含2013至2024年间252,487条阿拉伯语Facebook公开帖子,涵盖女性赋权和社会福祉主题,通过自动化流程处理后,为阿拉伯方言的性别话语、社会改革和情感参与的大规模分析提供了数据支持。
对低资源语言农业文档中有效文本嵌入的分块策略评估
发表机构 * Department of Big Data, Chungbuk National University, Cheongju-si, South Korea(大数据系, Chungbuk国立大学,韩国Cheongju市) ; Department of Computer Science, Chungbuk National University, Cheongju-si, South Korea(计算机科学系, Chungbuk国立大学,韩国Cheongju市) ; BigDataLabs Co., Ltd. Department of Management Information Systems, Chungbuk National University, South Korea(BigDataLabs公司 管理信息系, Chungbuk国立大学,韩国)
AI总结 本研究比较了四种文本分块方法在Khmer农业文档中的性能,通过检索增强生成(RAG)框架评估分块策略对密集检索优化的影响,发现基于字符的递归分块方法在低资源语言中表现最佳。
Comments 11 pages, 1 figure
嵌入空间中的结构保留作为基准性能预测因子
发表机构 * TurkuNLP, University of Turku, Finland(图尔库大学TurkuNLP实验室,图尔库大学,芬兰) ; ELLIS Institute Finland(芬兰ELLIS研究所)
AI总结 本文研究了高表现嵌入模型在嵌入空间中的一致性组织方式,通过评估25种现代嵌入模型在五个MTEB任务上的表现,发现最近邻重叠和独立成分分析(ICA)中成对文本实例的幅度差异与任务性能高度相关,揭示了嵌入任务在线性度和局部信息保留依赖性方面的差异。
通过文本指导实现零样本时间动作定位
发表机构 * University of Trento(特伦托大学) ; Fondazione Bruno Kessler(布鲁诺·凯瑟勒基金会)
AI总结 本文提出TEGU方法,通过利用大规模语言模型和结构化文本提取的丰富文本信息,解决零样本时间动作定位中因缺乏训练监督导致的细粒度动作分类困难问题,实验表明该方法在THUMOS14和ActivityNet-v1.3数据集上优于现有方法。
Comments Accepted to FG 2026
OSS: 2024-2025 开放缝合技能基于视觉的评估挑战
发表机构 * Department of Translational Surgical Oncology, National Center for Tumor Diseases (NCT/UCC) Dresden(转化外科肿瘤学部,肿瘤疾病国家中心(NCT/UCC)德累斯顿) ; The Centre for Tactile Internet with Human-in-the-Loop (CeTI), TUD Dresden University of Technology(具有人环路触觉互联网中心(CeTI),德累斯顿技术大学) ; Department of Oral and Maxillofacial Surgery, University Hospital RWTH Aachen(口腔和颌面外科部,亚琛大学医院) ; Center for Tooth-, Mouth- and Jaw Medicine, University Göttingen(牙科、口科和颌科医学中心,哥廷根大学) ; Institute of Medical Informatics, University Hospital RWTH Aachen(医学信息学研究所,亚琛大学医院) ; Faculty of Medicine and University Hospital Carl Gustav Carus, TUD Dresden University of Technology(医学系和卡尔·戈斯塔·卡鲁斯大学医院,德累斯顿技术大学) ; German Cancer Research Center (DKFZ)(德国癌症研究中心(DKFZ)) ; Muroran Institute of Technology(牟然技术学院) ; Niigata University of Health and Welfare(北九州市保健福利大学) ; Konica Minolta, Inc.(柯尼卡美能达公司) ; Jmees, Inc.(Jmees公司) ; Department of Computer Science and Engineering, The Hong Kong University of Science and Technology(计算机科学与工程部,香港科学与技术大学) ; Center Algoritmi/LASI, University of Minho(算法中心/ALASI,米尼奥大学) ; Life and Health Sciences Research Institute (ICVS), School of Medicine, University of Minho(生命与健康科学研究院(ICVS),医学院,米尼奥大学) ; ICVS/3B's - PT Government Associate Laboratory(ICVS/3B's - PT政府附属实验室) ; Institute for AI in Medicine (IKIM), University Medicine Essen(医学人工智能研究所(IKIM),埃森大学医学部) ; The Faculty of Data and Decisions Science, Technion - Israel Institute of Technology(数据与决策科学系,技术学院-以色列理工学院) ; UCL Hawkes Institute, University College London(UCL Hawkes研究所,伦敦大学学院) ; School of Computing, Queen's University(计算学院,皇后大学) ; Department of Transdisciplinary Medicine, Seoul National University Hospital(跨学科医学部,首尔国立大学医院) ; Interdisciplinary Program in Medical Informatics, Seoul National University(医学信息学跨学科项目,首尔国立大学) ; Department of Clinical Medical Sciences, Seoul National University(临床医学科学部,首尔国立大学) ; Institute of Convergence Medicine with Innovative Technology, Seoul National University Hospital(融合医学与创新技术研究所,首尔国立大学医院) ; Department of Surgery, Seoul National University College of Medicine and Seoul National University Hospital(外科部,首尔国立大学医学院和首尔国立大学医院)
AI总结 本文提出OSS挑战,旨在通过基于视觉的评估方法提升开放手术技能训练,通过挑战数据集和多任务评估,评估不同方法在开放手术技能评估中的表现,揭示视频评估的潜力与限制。
Comments Stefanie Speidel and Behrus Hinrichs-Puladi jointly supervised this work. Submitted to MEDIA
思维图增强:由强化学习驱动的LLM自适应提示方法
发表机构 * School of Engineering and Computer Science(工程与计算机科学学院) ; Bern University of Applied Sciences(伯恩应用科学大学)
AI总结 本文提出Reinforced Graph of Thoughts (RGoT),通过强化学习自动生成适应任务复杂度的思维图结构,提升大型语言模型的提示效果。
Comments 26 pages (including appendix), 16 figures
通过图表示学习实现超高清图像质量评估
发表机构 * 1 School of Information ; Communication Engineering, Communication University of China, Beijing 100024, China 2 College of Engineering, Northeastern University, Silicon Valley, San Jose, CA 95113, USA 3 JancsiLab, JancsiTech, Hongkong 999077, China 4 Center of Information \& Network Technology, Beijing Normal University, Beijing 100875, China
AI总结 本文提出了一种图表示学习框架UHD-GCN-BIQA,通过显式建模采样图像区域的结构依赖关系来改进超高清图像的盲质量评估,实现了高效的高质量图像质量预测。
带梯度预测自适应的带状凸优化
发表机构 * Department of Mathematics, National University of Singapore, Singapore(新加坡国立大学数学系) ; Department of Computer Science and Engineering, Indian Institute of Technology Delhi, India(印度理工学院德里分校计算机科学与工程系) ; Department of Electrical and Computer Engineering, National University of Singapore, Singapore(新加坡国立大学电子与计算机工程系)
AI总结 本文研究了在预测自适应方式下,乐观梯度预测能否改进最坏情况下的后悔保证。提出了一种双点反馈设置下的两种点方差减少乐观梯度下降算法,该算法的梯度估计器方差与预测误差相关,从而得到O(√(dE[S_T]))的后悔界,并建立了信息论下界,证明了该算法在预测自适应后悔上的最优性。
无需姿态,无问题:从未姿态多视角视频中馈送动态高斯
发表机构 * Politecnico di Milano(米兰理工大学) ; ETH Zürich(苏黎世联邦理工学院) ; ETH AI Center(苏黎世联邦理工学院人工智能中心)
AI总结 本文提出NoPo4D,一种首个无需姿态的馈送式系统,能够处理动态内容、多视角输入和未知相机姿态,通过速度分解和双向运动编码提升性能,优于现有方法。
在部分可观察环境中学习统一的风险图
发表机构 * Fudan University(复旦大学) ; Tongji University(同济大学)
AI总结 本文提出了一种统一的风险图建模与学习框架,用于部分可观察环境中的自动驾驶,通过时空建模整合交通流风险和碰撞风险,以更精细地评估遮挡引起的危险,并引入扩散基场景生成框架来解决遮挡交互场景稀缺的问题,实验表明该方法在Waymo Open Motion Dataset上显著优于现有方法。
Comments Published in IEEE Robotics and Automation Letters
从顺序节点到GPU批处理:并行分支限界法用于最优k-稀疏广义线性模型
发表机构 * Jacobs Technion-Cornell Institute, Cornell Tech and Technion–IIT(雅各布斯技术学院-康奈尔学院,康奈尔科技与技术学院)
AI总结 本文提出了一种CPU-GPU框架,通过批量处理GPU上的分支限界节点,显著加速了大规模优化问题的求解,特别是在具有离散变量、组合结构和非线性目标的优化问题中,如验证卡数约束下的最优广义线性模型解。
事件-照明协同低光照图像增强与高分辨率现实数据集
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 本文提出EIC-LIE框架,通过事件-照明协同模块和照明感知事件滤波器,解决低光照图像增强中HDR信息整合不足和现实噪声敏感问题,并构建首个高分辨率现实事件数据集,实验证明其在多个数据集上优于现有方法。
增强多模态大语言模型以用于安全关键驾驶视频分析
发表机构 * Verizon Connect
AI总结 本研究通过融合降采样视频帧与同步高频 telemetry 数据及专用计算机视觉模型的语义信息,提升多模态大语言模型在安全关键驾驶场景中的感知与推理能力,从而更准确地识别和描述现实驾驶中的安全关键事件。
Comments Accepted at the 2026 IEEE International Conference on Intelligent Transportation Systems (ITSC 2026)
IKNO:无限阶核神经算子
发表机构 * Nanyang Technological University(南洋理工大学) ; Centre for Frontier AI Research(CFAR), Agency for Science, Technology and Research (A*STAR)(前沿人工智能研究中心(CFAR),科技研究局(A*STAR))
AI总结 本文提出IKNO,一种通过无限阶核积分构建的神经算子,解决了传统模型因依赖一阶核积分而限制表达能力的问题,通过两种互补的构造方法实现了高效的全局信息聚合,并在多个基准数据集上取得了SOTA精度。