LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling
LoHoSearch: 超越人类难度上限的长时域搜索代理基准测试
发表机构 * Meituan(美团)
AI总结 提出LoHoSearch基准,基于700万维基实体知识图谱自动构建544个复杂问题,评估显示最强模型仅34.74%准确率,远超人类难度上限。
LoHoSearch: 超越人类难度上限的长时域搜索代理基准测试
发表机构 * Meituan(美团)
AI总结 提出LoHoSearch基准,基于700万维基实体知识图谱自动构建544个复杂问题,评估显示最强模型仅34.74%准确率,远超人类难度上限。
神奇的科学智能体及其构建方法:用于Rietveld精修的AgentBuild
发表机构 * UT-Battelle, LLC(UT-Battelle有限责任公司) ; US Department of Energy (DOE)(美国能源部)
AI总结 提出AgentBuild框架,通过科学家编写的合同(包含评分标准、课程和知识库)自动构建科学智能体,用于X射线衍射数据的Rietveld精修,实现可复用的智能体编译而非手动调优。
感知、交互、推理:构建工具增强的视觉智能体用于空间推理
发表机构 * Tsinghua University(清华大学) ; Virginia Tech(弗吉尼亚理工大学) ; NVIDIA(英伟达)
AI总结 提出PERIA智能体,通过视觉感知和交互工具增强VLM的空间推理能力,在13个基准上优于同类模型7.0%-14.8%。
DIMOS: 解耦实例级运动目标分割
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州))
AI总结 提出双解耦特征提取框架分离图像与事件模态的外观和运动信息,并通过多粒度跨模态对齐实现有效融合,在运动实例分割任务中尤其对快速运动和低光下的小目标取得最优性能。
GeoNatureAgent Benchmark:面向前沿与开源基础模型的环境地理空间分析LLM智能体基准测试
发表机构 * Universidad Católica de Ávila (UCAV)(阿维拉天主教大学) ; Johns Hopkins University(约翰霍普金斯大学) ; Independent Researcher(独立研究者) ; Center for Geographic Analysis, Harvard University(哈佛大学地理分析中心)
AI总结 提出首个通过结构化工具调用真实API评估环境分析智能体的基准,包含93个任务,发现Claude Sonnet 4领先,但开源模型在成本效益上占优,且比较任务普遍未解决。
Comments Preprint. 10 pages, 8 figures. Submitted to ACM SIGSPATIAL 2026
定位语言模型中的锚定路径
发表机构 * University of Maryland, College Park(马里兰大学帕克分校)
AI总结 研究提示中无关数字如何影响语言模型数值推理的锚定效应,通过logit差值度量和电路归因定位,发现边级方法优于节点级方法,并揭示锚定路径的共享与迁移特性。
Stubborn: 一种用于人形机器人鲁棒运动跟踪与摔倒恢复的流线型统一强化学习框架
发表机构 * Southern University of Science and Technology(南方科技大学)
AI总结 提出Stubborn框架,通过非对称Actor-Critic架构、偏航对齐表示、伯努利概率终止机制和自适应采样策略,统一实现人形机器人的运动跟踪与摔倒恢复,在性能与鲁棒性上超越现有方法。
MLUBench: 多模态大语言模型终身遗忘评估基准
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出MLUBench基准,评估多模态大模型在连续遗忘请求下的性能,发现现有方法存在累积退化,并揭示多模态对齐保持的挑战,提出LUMoE方法缓解退化。
Comments 36 pages, accepted to the ICML 2026
SymQNet: 低延迟自适应哈密顿量学习的摊销获取
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出SymQNet,一种摊销强化学习方法,通过离线学习后验条件获取策略,在线快速前向传播,显著降低自适应哈密顿量学习的获取延迟。
检测、重掩、修复:面向动态上下文忠实摘要的扩散编辑
发表机构 * Columbia University(哥伦比亚大学)
AI总结 提出DETECT-REMASK-REPAIR框架,利用掩码扩散语言模型识别并修复摘要中过时内容,在保持支持内容的同时实现局部忠实性修复,并引入StreamSum基准评估。
遏制缺口:已部署的自主AI框架如何未能满足面向公众的安全要求
发表机构 * New Jersey Institute of Technology(新泽西理工学院)
AI总结 研究发现主流自主AI框架缺乏架构级安全保证,内存完整性漏洞可导致定向腐败,提出轻量级遏制机制消除攻击向量。
Comments ICML 2026 (AI4GOOD Workshop)
GENIE:一种细粒度新颖性度量方法
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; New York University(纽约大学)
AI总结 提出GENIE指标,通过任务特定特征细粒度衡量模型生成内容的新颖性,克服整体指标无法捕捉高维新颖性的局限。
RAG基准测试应该有多细粒度?一个用于合成问题生成的层次化框架
发表机构 * Department of Computer Science, Emory University(埃默里大学计算机科学系)
AI总结 提出HieraRAG层次化框架,通过合成问题生成研究RAG基准测试的细粒度,发现最优粒度因维度而异,并引入一致性比率度量。
世界模型与物理AI教程
发表机构 * Department of Computer Science and Artificial Intelligence/CAIIT, Jeonju, Jeonbuk, South Korea(韩国全北全州计算机科学与人工智能系/CAIIT)
AI总结 本文提出统一框架,区分显式与隐式世界模型,并探讨其在机器人、自动驾驶等物理AI领域的应用,以及迈向通用人工智能的挑战。
ProPlay: 用于自我进化LLM智能体的程序化世界模型
发表机构 * University of Notre Dame(圣母大学) ; University of Connecticut(康涅狄格大学)
AI总结 提出ProPlay程序化世界模型,通过程序级预演和因果过程图,使LLM智能体在部分可观测环境中自我进化,无需外部监督。
构建程序性推理评估数据集:平衡自然性、基础性和多跳覆盖
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 研究基于任务-方法-知识(TMK)模型的问题生成策略对程序性和多跳推理数据集质量的影响,提出基础性验证框架,发现严格TMK生成策略在基础性和可用性上最优。
Comments 10 pages, 2 numbered figures. Workshop submission to HAIL @ AIED 2026
Rigel:逆向工程 Apple M4 Max GPU 上的 Metal 4.1 张量计算路径
发表机构 * Apple Inc.(苹果公司)
AI总结 通过微基准测试逆向工程 Apple M4 Max 的 Metal 4.1 张量计算路径,揭示 fp8 matmul2d 为模拟而非硬件加速,并重建了 8x8 张量片段布局。
检测代码语言模型中的功能记忆
发表机构 * Meta ; Imperial College London(伦敦帝国学院)
AI总结 研究代码语言模型的功能记忆现象,通过反事实设置对比暴露目标代码的模型与未暴露的参考模型,使用文本和功能相似性度量,发现功能记忆超出文本重叠的检测范围。
自适应加权平均
发表机构 * University of Utah(犹他大学) ; Boston University(波士顿大学) ; Google(谷歌)
AI总结 提出一种从单次无偏估计中选取最大未知值的方法,具有可容许性且不劣于基线,应用于随机优化获得在线到批次的转换界限。
Sparse2Act: 学习跨域机器人操作的动作对齐稀疏3D表示
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校) ; University of California, San Diego(加州大学圣迭戈分校) ; University of Utah(犹他大学)
AI总结 提出Sparse2Act框架,通过动作对齐的掩码稀疏3D编码预训练,实现跨域机器人操作,在LIBERO-10上达86.9%成功率,并支持域迁移和sim-to-real。
大型语言模型中的预填充感知
发表机构 * Constellation University of Wisconsin-Madison(威斯康星大学麦迪逊分校星座研究所) ; Constellation Georgia Institute of Technology(佐治亚理工学院星座研究所) ; UK AI Security Institute(英国人工智能安全研究所)
AI总结 研究大型语言模型能否识别并响应其助手消息被预填充或篡改,发现前沿模型具有显著预填充感知能力,可能影响安全评估方法。
Comments Submitted to NeurIPS 2026
GRIP:面向大型多模态模型的反馈引导提示检索
发表机构 * University of Illinois Urbana Champaign(伊利诺伊大学厄巴纳-香槟分校) ; University of Bonn(波恩大学) ; Microsoft(微软)
AI总结 提出GRIP,一种可学习的视觉检索框架,利用多模态模型反馈识别真正提升上下文学习性能的示例,在分类、描述和VQA任务上优于基于相似度的检索。
深度展开潜在最优分区l2/l1网络用于数据驱动的块稀疏恢复
发表机构 * Nagoya Institute of Technology(名古屋工业大学) ; RIKEN Center for Advanced Intelligence Project(理化学研究所革新智能研究中心)
AI总结 针对凸LOP-l2/l1方法依赖手动调参且近端算子不可微的问题,提出基于隐式微分和深度权重分解的两种深度展开架构,实现自动参数学习,在块稀疏恢复中表现优异且抗脉冲噪声。
Comments 11 pages, 6 figures
跨尺度科学挑战的AI智能体基准测试
发表机构 * Yale University(耶鲁大学) ; Broad Institute of MIT and Harvard(布罗德研究所) ; The Pennsylvania State University(宾夕法尼亚州立大学) ; Northeastern University(东北大学) ; Northwestern University(西北大学)
AI总结 提出SciAgentArena基准,含约200个交互式任务,评估AI智能体在真实科研场景中的能力,发现其在数据分析中有效,但在创新探索和开放问题上表现不均。
Comments 6 figures
物理信息神经网络与径向基函数求解含狄拉克δ源的偏微分方程
发表机构 * Department of Civil and Environmental Engineering, University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校土木与环境工程系)
AI总结 针对含狄拉克δ项的偏微分方程,通过将物理信息神经网络解释为残差最小二乘法,利用弱形式直接处理δ项,并对比径向基函数展开方法,发现径向基函数-残差最小二乘法在输运问题中更稳定。
Comments 33 pages, 4 figures
规范性鲁棒性作为LLM中不可验证推理的前沿
发表机构 * DeepMind ; Institute of Philosophy, School of Advanced Study, University of London(伦敦大学高等研究院哲学研究所) ; Technische Universität Berlin(柏林工业大学)
AI总结 提出道德推理作为不可验证推理的典型子域,定义道德鲁棒性并引入可扩展的多轮对抗评估框架,发现模型会向用户偏好偏移推理(平均6.5%),且受顺序和轮次影响。
重新思考LLMs的心理测量评估:自我报告何时以及为何能预测行为
发表机构 * Caltech(加州理工学院) ; UIUC(伊利诺伊大学厄巴纳-香槟分校) ; University of Cambridge(剑桥大学)
AI总结 研究对比大五人格与计划行为理论,发现LLMs的自我报告-行为一致性存在选择性:在共享对话中TPB达到人类水平,跨对话仅对锚定于训练的行为保持一致性,且角色提示不能使行为对齐。
Comments Accepted as an Oral (Contributed Talk) at the ICML 2026 Workshop on Combining Theory and Benchmarks (CTB)
心智理论效用:心理化机制的形式化规范
发表机构 * Institute for Creative Technologies, University of Southern California(南加州大学创意技术研究所) ; Khoury College of Computer Sciences, Northeastern University(东北大学库里计算机科学学院)
AI总结 提出心智理论效用(ToM-U)框架,通过局部认知世界模型(LEWM)形式化推断他人信念的计算问题,定义结构、推理过程及失败痕迹,区别于贝叶斯心智理论等方法。
面向开放集射频指纹识别的分布外检测器
发表机构 * University of Michigan(密歇根大学)
AI总结 针对开放集射频指纹识别中未知发射机与时间漂移引起的分布偏移问题,引入基于信息论的OOD检测统一框架,并采用无需OOD调优数据的方法,在POWDER数据集上验证其性能接近有真实OOD数据的基线。
AI审稿人是否看到全貌?攻击与防御多模态同行评审
发表机构 * University of North Carolina at Chapel Hill(北卡罗来纳大学教堂山分校)
AI总结 针对AI同行评审易受多模态对抗攻击的问题,提出PaperGuard基准,包含多领域数据集、统一攻击套件和基于分块嵌入搜索的实用防御方法。
Comments Accepted to ICML 2026, Project Page: https://paper-guard.github.io/