Organize then Retrieve: Hierarchical Memory Navigation for Efficient Agents
先组织再检索:面向高效智能体的层次化记忆导航
发表机构 * Duke University(杜克大学) ; Snowflake AI Research(Snowflake AI研究)
AI总结 提出HORMA框架,通过构建文件系统式的层次化记忆结构并利用强化学习训练的轻量级导航代理,实现高效检索,在长时任务中提升性能并降低令牌消耗。
先组织再检索:面向高效智能体的层次化记忆导航
发表机构 * Duke University(杜克大学) ; Snowflake AI Research(Snowflake AI研究)
AI总结 提出HORMA框架,通过构建文件系统式的层次化记忆结构并利用强化学习训练的轻量级导航代理,实现高效检索,在长时任务中提升性能并降低令牌消耗。
面向医学研究分析的技能增强型AI代理:一项NSCLC转录组生物标志物任务中的探索性多模型人类评估
发表机构 * AIPOCH PTE. LTD.
AI总结 本研究通过非小细胞肺癌免疫治疗生物标志物任务,评估技能增强型AI代理相比原生AI在转录组研究分析输出质量上的提升,发现质量信号方向性但未达统计显著性。
StatefulDiscovery:开放科学发现中证据校准的声明形成
发表机构 * Southern University of Science and Technology(南方科技大学)
AI总结 提出StatefulDiscovery框架,通过外部化探索状态来协调前沿选择、证据获取和声明裁决,在40个真实数据任务中生成更多高质量、有充分证据支持的声明。
NightFeats @ MMU-RAGent NeurIPS 2025: 面向文本到文本轨道的上下文优化多智能体RAG系统
AI总结 提出一种结构化多智能体RAG系统NightFeats,通过检索、策展和组合三阶段分解知识合成,引入时序语义重排序、矛盾协调和引用保留架构,在MMU-RAGent竞赛中超越商业基线。
Comments 5 pages, 1 figure, 1 table. NeurIPS 2025 Competition Track (MMU-RAGent). System developed October 2025
FlowBank: 通过预计算与复用实现查询自适应智能体工作流优化
发表机构 * University of Maryland, College Park(马里兰大学哥伦比亚公园分校) ; Amazon(亚马逊)
AI总结 提出FlowBank框架,通过预计算多样化工作流并压缩为紧凑组合,在推理时自适应选择最优工作流,平衡性能与成本,在五个基准上平均得分最高且成本可控。
层层代理:从底层到生产构建自定义AI代理的方法论
发表机构 * Universitat Politècnica de Catalunya (UPC)(西班牙巴塞罗那理工大学) ; Universidad del País Vasco / Euskal Herriko Unibertsitatea (UPV/EHU)(西班牙巴斯克大学)
AI总结 提出一种无框架的方法论,通过两个前提条件(将LLM作为软件组件和构建块)和三个实践(原型设计、打包为CLI、代理测试代理)来构建自定义AI代理,实现端到端开发。
通过假设树精炼迈向通用自主研究
发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China(中国人民大学高瓴人工智能学院) ; Microsoft Research(微软研究院)
AI总结 提出Arbor框架,通过假设树精炼(HTR)实现长期自主研究循环,在六项真实任务中平均相对保留增益超过Codex和Claude Code的2.5倍。
LLM代理中的探索结构用于多文件变更定位
发表机构 * School of Computing and Information Systems, Singapore Management University(计算与信息系统学院,新加坡国立管理学院)
AI总结 针对多子系统变更场景,提出非线性、领域范围的并行代理探索结构,在SWE Bench Pro基准上,小规模Haiku类模型通过领域代理并行生成实现高微F1分数,优于线性顺序探索。
面向大语言模型的智能体环境工程:环境建模、合成、评估与应用综述
AI总结 本文从环境工程生命周期出发,系统综述了智能体环境的建模、合成、评估与应用,涵盖八种属性与领域、两种合成范式、四种智能体演化路径及三种环境演化范式。
Comments 63 pages, 10 figures
APPO: 智能体程序策略优化
发表机构 * University of Science and Technology of China(中国科学技术大学) ; AMAP, Alibaba Group(阿里巴巴集团高德地图) ; Southern University of Science and Technology(南方科技大学)
AI总结 提出APPO方法,通过细粒度分支和程序级优势缩放改进智能体强化学习的信用分配,在13个基准上平均提升近4个点。
Comments 25 pages, including 14 pages of main text and 11 pages of appendix; work in progress
面向多用户延迟约束调度的离线扩散策略
发表机构 * Institute for Interdisciplinary Information Sciences (IIIS), Tsinghua University(交叉信息学院(IIIS),清华大学)
AI总结 提出基于离线强化学习的SOCD算法,利用扩散策略和批评网络指导,从离线数据中学习高效调度策略,避免在线交互,在部分可观测和大规模环境中表现优异。
面向移动边缘通用智能的资源感知LLM推理
发表机构 * Tsinghua Shenzhen International Graduate School, Tsinghua University, Shenzhen(清华大学深圳国际研究生院,清华大学,深圳) ; College of Computing and Data Science, Nanyang Technological University, Singapore(南洋理工大学 computing 和数据科学学院,新加坡) ; Department of Electronic Engineering, Tsinghua University, Beijing(清华大学电子工程系,北京) ; State Key Laboratory of Space Network and Communications, Tsinghua University, Beijing(空间网络与通信国家重点实验室,清华大学,北京) ; Beijing National Research Center for Information Science and Technology, Tsinghua University, Beijing(北京信息科学与技术国家研究中心,清华大学,北京) ; Department of Electrical and Computer Engineering, Auburn University, Auburn, USA(阿伯丁大学电气与计算机工程系,阿伯丁,美国)
AI总结 提出联合优化框架,通过自适应CoT提示和分布式MoE架构协同优化推理深度、专家激活和传输功率,在资源受限的移动边缘环境中实现LLM高效推理,推理质量与资源效率平衡,额外推理时间小于1秒时准确率和延迟满足率均达90%。
PRInTS:面向长程信息检索的奖励建模
发表机构 * University of North Carolina at Chapel Hill(北卡罗来纳大学教堂山分校) ; University of Texas at Austin(德克萨斯大学奥斯汀分校)
AI总结 提出PRInTS生成式过程奖励模型,通过密集评分和轨迹摘要提升长程信息检索中工具交互与推理能力,在多个基准上超越前沿模型。
Comments ACL 2026, 19 pages, code: https://github.com/G-JWLee/PRInTS
基于因果POMDP的分布偏移下规划
发表机构 * School of Electrical Engineering and Computer Science (EECS)(电气工程与计算机科学学院)
AI总结 提出因果POMDP框架,通过干预表示环境变化,在部分可观测下维持PWLC性质,实现分布偏移下的规划与更新。
Comments To appear at the 36th International Conference on Automated Planning and Scheduling (ICAPS-26)
FitText: 通过模因检索演化智能体工具生态
发表机构 * UCLA(加州大学洛杉矶分校)
AI总结 针对用户任务描述与工具文档间的语义鸿沟,提出FitText框架,将检索嵌入推理循环,通过自然语言伪工具描述迭代优化和模因进化选择,显著提升工具检索性能。
回顾性工具优化:通过轨迹回滚上的自我偏好改进LLM智能体
发表机构 * City University of Hong Kong(香港城市大学) ; Microsoft Research Asia(微软亚洲研究院)
AI总结 提出一种自监督方法RHO,利用历史轨迹回滚和自偏好选择优化智能体工具集,无需真实标签,在SWE-Bench Pro上通过单轮优化将通过率从59%提升至78%。
Comments Code: https://github.com/wbopan/retro-harness ; Project website: https://paper-rho.wenbo.io
MemToolAgent概述:一个简单的餐厅预订场景,其中代理检索相似记忆,接收关于无效时间格式的反馈,并生成反思以更新其记忆
发表机构 * AWS AI ; University of Washington(华盛顿大学)
AI总结 提出MemToolAgent框架,通过记忆管理提升大语言模型代理的工具使用能力,包含记忆提取和动态检索模块,在三个基准上分别提升29%、80%和17%。
Comments 8 pages, 5 figures
超越次优性:离线强化学习通过随机解决方案学习有效调度
发表机构 * Eindhoven University of Technology(埃因霍温理工大学)
AI总结 提出离线RL算法CDQAC,从次优静态数据集学习调度策略,在JSP/FJSP上超越在线RL和强启发式方法,仅需1-5%数据,发现状态-动作覆盖比轨迹质量更重要。
通过AI工作流存储增强个人代理的鲁棒性
发表机构 * Columbia University and Google(哥伦比亚大学和谷歌) ; Google(谷歌)
AI总结 本文探讨将严谨的软件工程流程整合到代理循环中,以生成可靠、安全且确定性约束的代理工作流,提升高风险场景下的性能。
CRANE:通过空域编辑实现代码代理的约束推理注入
发表机构 * Rensselaer Polytechnic Institute(拉特格斯理工学院) ; IBM Research(IBM研究院)
AI总结 CRANE通过空域编辑技术,结合推理和工具使用能力,提升代码代理性能,在多个基准测试中取得显著成果。
Libra:面向智能体强化学习后训练的高效资源管理
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; The Hang Seng University of Hong Kong (2018)(香港恒生大学)
AI总结 针对智能体强化学习中长尾、非平稳工作负载带来的资源管理挑战,提出Libra系统,通过周期性全局资源规划器和因果驱动多级反馈队列调度器,实现GPU分配优化和请求调度,最高提升3倍吞吐量和2.5倍收敛速度。
Comments 19 pages, 12 figures
注意视角:递归推理实现心智理论
发表机构 * School of Computing and Information Systems, The University of Melbourne, Australia(墨尔本大学计算与信息系统学院) ; SensiLab, Monash University, Australia(蒙纳士大学SensiLab)
AI总结 提出RecToM框架,通过递归视角构建建模嵌套信念,将高阶信念问题转化为实际世界问题,在多个ToM基准上达到最先进性能。
BIM中几何密集型合规检查自动化:基于图的语义推理框架
发表机构 * Department of Urban Planning and Design, The University of Hong Kong(香港大学城市规划与设计系) ; Department of Civil and Environmental Engineering, The Hong Kong University of Science and Technology(香港科学与技术大学土木与环境工程系)
AI总结 针对BIM中几何密集型法规自动检查的语义鸿沟问题,提出SGR-BIM图驱动推理框架,通过跨模态知识图谱实现可解释推理,在679个消防规范查询上达到84.3%准确率,较基线提升8.6%。
可解释ASP的XAI视角:方法、系统与展望
发表机构 * Institute of Logic and Computation, TU Wien, Austria(逻辑与计算研究所,维也纳技术大学,奥地利)
AI总结 本文从XAI视角综述回答集编程(ASP)的解释方法,分类解释类型并评估现有理论与工具的覆盖范围,指出研究空白与未来方向。
Comments 10 pages
布尔逻辑的幂项多项式代数
发表机构 * CSAIL, MIT(MIT计算机科学与人工智能实验室) ; ESAT, KU Leuven(比利时鲁文大学ESAT研究所) ; KU Leuven(鲁文大学)
AI总结 提出幂项多项式代数,一种介于CNF和ANF之间的布尔公式表示语言,通过幂项和多项式直接编码CNF子句与单项式族,避免辅助变量和约束,支持代数运算与重写规则。
Comments Pragmatics of SAT
走向信息的推理主义账户:通过证明论语义
发表机构 * University of Aberdeen, King’s College(阿伯丁大学,国王学院) ; UCL & Institute of Philosophy, University of London(伦敦大学学院(UCL)及哲学研究所) ; University of London, Senate House, Malet Street(伦敦大学 senate house, malet street)
AI总结 本文旨在通过证明论语义发展一种信息的推理主义理论,通过概念分析、逻辑和系统三个核心组件,为信息提供数学逻辑基础,并探讨信息作为相关性的理解。
Comments Manuscript
人类谈判的自动调解器:通过结构化LLM流水线进行预调解
发表机构 * University of Washington(华盛顿大学) ; University of Haifa(海法大学)
AI总结 提出一种结构化LLM流水线作为自动调解器,在整合性谈判中支持预调解,通过分解准备任务为专用模块,在短期自我报告结果上与人类调解员相当,并在偏好推理任务上误差降低36%。
Comments 12 pages, 7 figures
INFRAMIND: 基础设施感知的多智能体编排
发表机构 * University of Central Florida(中佛罗里达大学)
AI总结 提出INFRAMIND框架,通过强化学习将基础设施状态(队列深度、KV缓存压力等)融入多智能体LLM编排的规划、路由和调度决策,在共享GPU集群上实现质量与延迟的平衡,相比基线提升最高7.6%准确率并降低7倍延迟。
Comments Preprint
MODF-SIR:面向社交智能推理的多智能体全模态蒸馏框架
发表机构 * School of Information Science and Engineering, Lanzhou University(兰州大学信息科学与工程学院) ; School of Medical Technology, Beijing Institute of Technology(北京理工大学医学技术学院) ; Cloud and AI BU, Huawei(华为云与AI业务部) ; School of Computing, National University of Singapore(新加坡国立大学计算机学院)
AI总结 提出基于轻量级多模态大语言模型的多智能体协作框架,通过知识蒸馏增强训练与推理,结合测试时适应、长尾事件提取和链式思维提示,在多个基准上取得最优结果。
人工智能的市场设计:超越版权二元论
发表机构 * MIT Operations Research Center(麻省理工学院运筹学中心) ; MIT Sloan School of Management(麻省理工学院斯隆管理学院) ; Washington University School of Law(华盛顿大学法学院)
AI总结 本文通过静态和动态博弈模型,分析AI训练数据市场中“自由使用”与“强知识产权”两种模式的失败,提出通过数据中介内部化外部性并补贴创新贡献的市场设计。
CCKS:基于共识的通信与知识共享
发表机构 * Public Computing Cloud, Renmin University of China(中国人民大学公共计算云) ; School of Information, Renmin University of China(中国人民大学信息学院) ; State Key Laboratory of Multimodal Artificial Intelligence Systems, Beijing Engineering Research Center of Intelligent Systems and Technology, Institute of Automation, Chinese Academy of Sciences(多模态人工智能系统国家重点实验室,智能系统与技术北京工程研究中心,中国科学院自动化研究所) ; The Information Science Academy, China Electronics Technology Group Corporation(中国电子科技集团有限公司信息科学研究院) ; Department of Mechatronics Engineering, Guangdong University of Technology(广东工业大学机电工程学院)
AI总结 针对多智能体强化学习中动作建议过度依赖教师指导的问题,提出基于共识的通信与知识共享框架,通过对比学习构建共识模型,平衡探索与学习,提升合作效率与性能。
CHORUS: 基于单一VLA策略的去中心化多体协作
发表机构 * Stanford University(斯坦福大学)
AI总结 提出CHORUS框架,利用预训练视觉-语言-动作模型的视觉运动先验,实现无需推理时通信的去中心化多机器人协作,在真实实验中显著优于基线。
Comments Project Website: https://chorus-model.github.io
通过扩散模型提升离线多智能体强化学习的泛化能力与数据效率
发表机构 * Institute for Interdisciplinary Information Sciences(交叉信息学院) ; Tsinghua University(清华大学) ; Department of Electronic and Computer Engineering(电子与计算机工程系) ; Hong Kong University of Science and Technology(香港科学与技术大学)
AI总结 提出扩散离线多智能体模型(DOM2),利用扩散模型增强策略表达力和多样性,结合轨迹数据重加权,在离线MARL中显著提升性能、泛化能力和数据效率。
利用时间灵活性预计算多智能体路径重规划
发表机构 * Department of Computer Science, University of Waterloo(1 温哥华大学计算机科学系)
AI总结 针对多智能体执行中单个智能体延迟导致冲突的问题,提出FlexSIPP算法,通过预计算延迟智能体的所有可行计划并利用其他智能体的时间灵活性,避免级联延迟,在荷兰铁路网络和MovingAI基准测试中实现高效重规划。
Comments Accepted at SoCS'26
扩散以协调:高效在线多智能体扩散策略
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出首个在线离线策略多智能体强化学习框架OMAD,利用扩散策略和松弛策略目标最大化缩放联合熵,实现高效探索与协调,在MPE和MAMuJoCo上样本效率提升2.5至5倍。
鲁棒的指令遵从:合作多智能体强化学习
发表机构 * Department of Computer Sciences, Northeastern University(东北大学计算机科学系) ; Department of Computer Sciences, Massachusetts Institute of Technology(麻省理工学院计算机科学系)
AI总结 针对外部指令中断行为并冲突长期目标的问题,提出宏动作值修正方法(MAVIC),通过修正指令边界的Bellman备份实现一致值估计,在复杂合作环境中保持高指令遵从和基础任务性能。
MARIC:用于图像分类的多智能体推理
发表机构 * Enhans, Seoul, South Korea(韩国首尔Enhans) ; Peking University, Beijing, China(中国北京北京大学)
AI总结 提出多智能体框架MARIC,通过分解图像分类为协作推理过程,利用大纲智能体、方面智能体和推理智能体进行多视角分析与综合,在四个基准数据集上显著优于基线方法。
Comments 11 pages, preprint
通过多智能体上下文学习的双臂机器人操作
发表机构 * Sapienza University of Rome(罗马萨皮恩扎大学) ; TU Darmstadt(达姆施塔特技术大学) ; Hessian.AI(黑森AI)
AI总结 提出BiCICLe框架,将双臂操作建模为多智能体主从问题,通过解耦动作空间实现标准LLM的少样本学习,在TWIN基准上平均成功率70.5%,超越无训练基线。
通过语义技能发现实现持续四足机器人协调
发表机构 * National Key Laboratory of Novel Software Technology, Nanjing University, Nanjing, China(新型软件技术国家重点实验室,南京大学,南京,中国) ; School of Artificial Intelligence, Nanjing University, Nanjing, China(人工智能学院,南京大学,南京,中国) ; Polixir Technologies, Nanjing, China(南京极智科技有限公司)
AI总结 提出Conquer框架,通过语义技能库实现多四足机器人在持续学习任务中的协调,避免灾难性遗忘,最终平均成功率95.6%。
Comments 22 pages, 8 figures, 11 tables. Project page: https://conquer-project.pages.dev/
TreeSeeker:深度搜索中的树结构试错与回溯
发表机构 * Microsoft(微软公司) ; East China Normal University(东华大学)
AI总结 提出TreeSeeker框架,通过树结构分支-回溯搜索和UCB信号选择,在深度搜索中实现受控试错,显著提升复杂问答性能。
松弛全局几何下分布式优化的量化随机原始-对偶方法
发表机构 * Indian Institute of Technology Bombay(印度理工学院班加罗尔) ; Tata Consultancy Services Research(塔塔咨询公司研究)
AI总结 提出量化随机原始-对偶方法q-PDGD,在松弛全局几何下证明线性收敛到邻域或O(1/k)收敛,匹配最优集中随机复杂度。
Comments Accepted to UAI
量化对密集Top-$k$检索的限制是什么?一项理论研究
发表机构 * NTT, Inc.(日本电报电话株式会社)
AI总结 理论证明在有限精度下,完美Top-$k$检索所需维度随语料库大小对数增长,量化精度存在阈值,影响实际系统设计。
Comments 9 pages, 2 figures
遗传算法与优化引导算子的数学视角
发表机构 * Department of Mathematics, MIT(麻省理工学院数学系)
AI总结 本文从数学角度建模遗传算法,将优化问题转化为查询复杂度问题,并证明某些问题必须依赖生成、变异和重组算子,同时揭示了多样性在解池中的关键作用。
Comments 18 pages, 1 figure
SPEA2$^+$:具有可证明运行时间保证的改进SPEA2密度估计
发表机构 * University of Dortmund(Dortmund大学)
AI总结 针对SPEA2处理支配解时多样性不足的问题,提出使用所有成对距离改进密度估计的SPEA2$^+$,在OneTrapZeroTrap基准上达到与其他主流算法相同的性能保证。
Comments To appear in the Proceedings of PPSN 2026
将未来行为预测作为学习任务
发表机构 * Bar-Ilan University(巴伊兰大学) ; Allen Institute for AI(艾伦人工智能研究所) ; UK AI Security Institute(英国人工智能安全研究所)
AI总结 提出将AI行为预测作为可学习任务,训练行为预测器从推理轨迹中预测未来行为,无需解释步骤,在两项任务上优于GPT-5.4和Claude Opus-4.6。
HERO: 基于环境观察的后见增强反思的智能体自蒸馏
发表机构 * University of California, San Diego(加州大学圣地亚哥分校) ; Independent Researcher(独立研究员) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 提出HERO框架,利用环境观察作为局部对齐反馈进行自蒸馏,解决多轮设置中特权反馈与当前决策上下文不对齐导致的性能下降问题,在TauBench和WebShop上提升任务成功率并减少冗余轮次。
架构感知强化学习使滑动窗口注意力在数学推理中具有竞争力
发表机构 * Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University(上海智能自主系统研究院,同济大学) ; Shanghai AI Laboratory(上海人工智能实验室) ; Hong Kong University of Science and Technology (Guangzhou)(香港理工大学(广州))
AI总结 提出SWARR方法,通过监督微调将预训练自注意力模型高效转换为滑动窗口注意力,并利用强化学习策略适应,缩小了与自注意力的性能差距,同时保持线性复杂度的高效性。
从架构到输出:大语言模型中幻觉的结构性起源及数据的放大作用
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 本文分析大语言模型幻觉的结构性根源,指出自注意力、最大似然估计训练目标和自回归解码三个架构决策构成复合失效系统,并揭示数据病理如何放大这些脆弱性。
Comments 11 pages, 7 figures, 15 references
干预还是不干预:通过概率模型混合指导推理时对齐
发表机构 * College of Computing and Data Science, Nanyang Technological University(南洋理工大学计算机与数据科学学院)
AI总结 提出BlendIn框架,通过质量感知对齐和按可靠性加权混合模型知识,解决推理时对齐中指导有效性差异大的问题,在困难模型对上实现最高50%的性能提升。
Comments Accepted by ACL 2026
ProcessThinker: 通过基于展开的过程奖励增强多模态大语言模型推理
发表机构 * LMU Munich(慕尼黑大学) ; Harvard University(哈佛大学) ; University of Cambridge(剑桥大学) ; Mina AI ; Konrad Zuse School of Excellence in Reliable AI (relAI)(康拉德·楚泽可靠人工智能卓越学校(relAI))
AI总结 提出ProcessThinker,一种无需显式过程奖励模型的后训练方法,通过步骤标记格式和基于展开的过程奖励,为多步推理提供密集的步骤级奖励,提升多模态推理一致性。
Comments Accepted at ICLR 2026 Workshop on Logical Reasoning of Large Language Models. 7 pages, 1 figure
SPEAR: 一种后量化误差自适应恢复系统,实现高效低比特LLM服务
发表机构 * University of Electronic Science and Technology of China(电子科学与技术大学) ; University of Bristol(布里斯托大学) ; ETH Zurich(苏黎世联邦理工学院)
AI总结 针对低比特量化导致LLM质量下降的问题,提出SPEAR系统,通过输入感知的门控误差补偿器(EC)选择性修正高误差层,结合自适应内核融合调度和SLO感知调度器,在<1%内存开销下恢复W4与FP16之间56-75%的困惑度差距。
PermDoRA -- 理解语言模型中的适配器干扰:参数空间几何的局限性
发表机构 * Independent Researcher(独立研究员)
AI总结 研究适配器组合中的干扰是否源于线性参数更新重叠,通过DoRA-RBAC框架和几何感知合并策略实验,发现参数空间几何不是干扰主因,而是共享非线性表示中的交互。
Comments 18 Pages, COLM 2026
联邦持续学习:分布式和非平稳数据上的终身与隐私保护学习综述
发表机构 * University of Pisa(比萨大学) ; University of Modena and Reggio Emilia(摩德纳和雷焦艾米利亚大学)
AI总结 本文系统综述联邦持续学习(FCL),定义问题、分析经典联邦学习在非平稳数据下的局限,提出多维分类法,并讨论应用、评估指标及开放挑战。
Comments 77 pages, 8 figures
RoVE: 旋转值嵌入注意力实现相对位置相关的值路径
发表机构 * AMLab University of Amsterdam(阿姆斯特丹大学AMLab) ; MIT CSAIL(麻省理工学院计算机科学与人工智能实验室)
AI总结 提出RoVE方法,通过同时旋转键和值使值对位置敏感,将RoPE注意力转化为注意力卷积,在少样本学习、分布外困惑度和长上下文检索上优于RoPE。
密封审计上的有符号压缩进展是古德哈特抵抗的
发表机构 * GitHub
AI总结 提出有符号压缩进展作为内在动机,证明其累积奖励等于审计改进,且对有限审计面板具有假阳性预算,抵抗古德哈特定律。
Comments 16 pages, 7 figures. Lean 4 (Mathlib) mechanized core and ARC-TGI experiment code: https://github.com/Zetetic-Dhruv/audit-compression-progress
测试时训练对近似采样的威力
发表机构 * Microsoft Research NYC(微软研究院纽约分校) ; MIT(麻省理工学院)
AI总结 本文形式化测试时训练(TTT)为从已知分布类中采样的问题,证明查询复杂度的二次下界,并展示在分布类大小受限时可规避该下界,为TTT提供理论框架。
CRUMB: 通过分布匹配上下文批处理实现高效先验拟合网络推理
发表机构 * Global Technology Applied Research, JPMorganChase(摩根大通全球技术应用研究)
AI总结 提出CRUMB方法,通过聚类查询、最小化最大均值差异选择训练子集、再执行精确推理,在不重新训练的情况下加速先验拟合网络推理,在51个数据集上优于同类方法。
Comments 26 pages, 13 figures
SirenFNO:高效且全频率学习的傅里叶神经算子
发表机构 * The University of Sydney(悉尼大学)
AI总结 提出SirenFNO框架,利用正弦表示网络学习隐式神经表示并进行模态核参数化,消除频率截断,实现全频谱学习,在多个PDE基准上以最多73倍参数减少取得性能提升。
Comments 9 pages, accepted by IJCAI 2026
多模态交互学习的信息论分解
发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China, Beijing(中国人民大学人工智能学院,北京) ; Beijing Key Laboratory of Research on Large Models(北京大模型研究关键实验室) ; Engineering Research Center of Next-Generation Intelligent Search(下一代智能搜索与推荐工程研究中心) ; Beihang University, Beijing(北航,北京) ; Gaotu Techedu Inc.(高图科技有限公司)
AI总结 提出基于信息论的多模态交互分解方法DMIL,通过变分分解架构和微调策略学习样本特定的冗余、独特和协同交互,提升多模态学习性能。
Comments Accepted to CVPR 2026
当上下文回归:面向在线策略蒸馏中的鲁棒内化
发表机构 * IIIS, Tsinghua University(清华大学交叉信息研究院)
AI总结 针对在线策略蒸馏中上下文内化后重新引入上下文导致性能下降的问题,提出一种轻量级一致性正则化方法,通过锚定无上下文输出并惩罚偏离,有效缓解退化并提升鲁棒性。
TAROT: 面向小样本表格学习的任务自适应LLM先验图精炼
发表机构 * Jilin University(吉林大学) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳))
AI总结 提出TAROT框架,通过构建并精炼任务自适应语义图,利用LLM先验和GNN编码特征语义关系,提升小样本表格学习性能。
噪声感知框架用于纠正损坏标签
发表机构 * Faculty of Information Technology, VNU University of Engineering and Technology(越南国立大学工程与技术学院信息技术系)
AI总结 提出CANOLA框架,通过噪声感知学习和迭代标签精炼来纠正损坏标签,在六个数据集上相比现有方法错误率降低19%-52%。
用户侧记忆中的子模块不对称性:一个诊断框架
发表机构 * EpistemicaLab — Independent Research(EpistemicaLab — 独立研究)
AI总结 提出一个诊断框架,将LLM用户侧记忆分解为行为一致性、事实存在和事实缺失三个正交子模块,发现参数记忆与检索记忆在不同子模块上存在不对称性,且RLHF调优加剧了这种不对称性。
Comments Preprint. Code: https://github.com/EpistemicaLab/substrate-asymmetry-memory
ICA Lens: 无需训练另一本词典即可解释语言模型
发表机构 * Independent Researcher(独立研究员) ; University of Maryland(马里兰大学)
AI总结 提出ICALens,基于独立成分分析(ICA)高效提取语言模型表示中可解释方向,无需训练稀疏自编码器,在SAEBench上表现竞争力。
Comments Ongoing Project
稀疏化Kolmogorov-Arnold网络用于可解释量子态层析
发表机构 * National Supercomputing Center in Zhengzhou(郑州国家超级计算中心) ; Zhengzhou University(郑州大学) ; School of Computer and Artificial Intelligence(计算机与人工智能学院) ; School of Communication and Artificial Intelligence(通信与人工智能学院) ; School of Integrated Circuits(集成电路学院) ; Nanjing Institute of Technology(南京理工大学)
AI总结 研究利用稀疏化Kolmogorov-Arnold网络作为可检查的重构规则,通过三量子比特GHZ基准测试,识别出与GHZ相关的Pauli测量集,并揭示与解析GHZ Pauli分组一致的输入-隐藏-输出通路结构,实现神经网络重构模型的结构可解释性。
从均匀到学习图先验:用于结构发现的扩散
发表机构 * School of Mathematics, Southeast University(东南大学数学学院)
AI总结 提出Diff-prior,一种扩散参数化的自适应先验,通过可学习的去噪式校准对边后验进行结构化校准,提升神经关系推理方法的结构发现可靠性。
Comments 15 pages, 3 figures, Accepted by KDD 2026
使用ART微调多模态大语言模型:基于艺术的强化训练
发表机构 * University of Stavanger(斯塔万格大学) ; NORCE Research(NORCE研究机构)
AI总结 提出ART方法,通过优化原始视觉输入将信息注入冻结的多模态大语言模型,实现软提示微调,无需修改计算图,在数学和工具使用基准上达到与LoRA相当的精度。
类别先验锁定:为何上下文学习在结构化数据上失败
发表机构 * University of Insubria(因苏布里亚大学) ; IBM Research Ireland(IBM 爱尔兰研究院)
AI总结 研究大语言模型在结构化数据生成中上下文学习的局限性,发现其无法更新预训练中的类别先验分布,导致罕见类完全无法生成;参数高效微调可解决但带来记忆化风险。
Comments 9 pages, 5 figures. Empirical study of in-context learning and LoRA fine-tuning for synthetic tabular data generation, introducing the phenomenon of categorical prior lock-in. Under review
不稳定特征,可复现子空间:理解稀疏自编码器中的种子依赖性
发表机构 * T-Tech
AI总结 研究稀疏自编码器特征的可复现性,发现稳定特征承载主要信号,不稳定特征集中于可复现的低秩子空间,反映基歧义而非纯噪声。
nD-RoPE:一种用于n维位置嵌入的广义RoPE
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出nD-RoPE,将旋转位置嵌入推广到任意维度,通过多尺度正则单纯形波矢设计实现各向同性,在图像、视频和点云任务中提升性能。
Comments Accepted to the 43rd International Conference on Machine Learning (ICML 2026)
个体行为的隐式神经表示
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出Behavioral INR模型,用隐式神经表示从无标签多策略行为数据中学习策略表示,通过FiLM层调节策略函数,实现无监督策略识别,在连续状态-动作空间中提升策略可识别性。
Comments ICML 2026, Structured Probabilistic Inference & Generative Modeling Workshop
多速率专家混合模型加速液态神经网络训练
发表机构 * Virginia Tech(弗吉尼亚理工大学)
AI总结 提出多速率专家混合框架,结合液态神经网络的多尺度动态与注意力机制,提升多变量时间序列建模的准确性和效率。
SpikeDecoder: 用脉冲神经网络实现GPT架构
发表机构 * Chair of Robotics, Artificial Intelligence and Real-time Systems(机器人、人工智能与实时系统教授席)
AI总结 提出SpikeDecoder,一种基于脉冲神经网络(SNN)的Transformer解码器,用于自然语言处理,通过替换ANN模块和优化嵌入方法,在保持性能的同时降低理论能耗87%-93%。
利用算子链实现上下文算子学习
发表机构 * Department of Mathematics, Shanghai Normal University(上海师范大学数学系) ; Department of Mathematics, National University of Singapore(新加坡国立大学数学系)
AI总结 提出Chain of Operators (CHOP)框架,通过构造显式初等变换与冻结ICON的算子链,无需微调即可提升上下文算子网络在分布外算子任务上的泛化能力,在标量守恒律和平均场控制问题中降低推理误差。
缺失模态下的多模态学习中的潜在世界恢复
发表机构 * Queen's University Belfast(贝尔法斯特女王大学)
AI总结 提出潜在世界恢复(LWR)框架,通过邻居潜在对齐和可用性感知融合,在缺失模态下实现鲁棒的多模态预测,避免显式重构误差。
ATLAS: 自动化科学的主动理论学习
发表机构 * Google DeepMind(谷歌深度思维) ; Princeton University(普林斯顿大学) ; Columbia University(哥伦比亚大学) ; University College London(伦敦大学学院)
AI总结 提出ATLAS框架,通过主动学习迭代生成稀疏神经网络假设并设计最优区分实验,在bandit任务中恢复强化学习智能体,相比随机实验采样效率提升5-10倍。
重新设计混合专家模型的路由器:基于流形幂迭代
发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China(中国人民大学高瓴人工智能学院) ; Large Language Model Department, Tencent(腾讯大型语言模型部门)
AI总结 提出将路由器行与专家矩阵主奇异方向对齐,并基于流形幂迭代(MPI)重新设计路由器,通过“幂迭代-收缩”范式实现对齐,理论证明收敛性,实验验证1B至11B参数规模下模型效果提升。
Comments Preprint
GPO:从关键步骤中学习以改进大语言模型推理
发表机构 * Department of Computer Science Northwestern University(计算机科学系西北大学) ; AI Foundations Capital One(人工智能基础资本 one) ; Meta AI
AI总结 提出引导式关键优化(GPO)微调策略,通过识别推理轨迹中的关键步骤并优先学习,显著提升大语言模型的多步推理能力。
Comments 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
自回归直接偏好优化
发表机构 * University of Tokyo(东京大学)
AI总结 提出自回归直接偏好优化(ADPO),在应用Bradley-Terry模型前显式引入自回归假设,通过将DPO目标中的求和操作移至log-sigmoid函数外部,实现更优的偏好对齐,并首次区分token长度μ和反馈长度μ'两种度量。
Comments ICML 2026
KAN-MLP-Mixer: 对Kolmogorov-Arnold网络(KANs)在改进基于惯性测量单元(IMU)的人体活动识别中的应用的全面研究
发表机构 * DFKI Germany(德意志联邦共和国达姆施塔特研究所) ; Northwestern Polytechnical University China(中国西北工业大学) ; RPTU Germany(德国鲁尔大学) ; Örebro University Sweden(瑞典欧雷布罗大学)
AI总结 本文研究了KANs在改进IMU基人体活动识别(HAR)模型中的应用,提出了一种混合架构,结合KANs的精度与MLP的鲁棒性和效率,实验表明该混合模型在多个数据集上显著提升了性能。
Comments 23 pages, and 9 figures
潜意识学习是引导向量蒸馏
发表机构 * Stanford University(斯坦福大学)
AI总结 本文发现潜意识学习通过单个引导向量实现,并证明这是引导向量蒸馏的特例,解释了非语义数据如何传递语义特征。
一种受物理启发的优化器:速度正则化Adam
发表机构 * University of Oxford(牛津大学)
AI总结 本文提出VRAdam优化器,通过引入速度正则化技术,结合Adam的参数缩放,提升训练稳定性与收敛速度,理论分析显示其在非凸目标下的收敛速率为O(√(lnN)/√N)。
Comments L. Schorling and P. Vaidhyanathan contributed equally to this work. 20 pages, 10 figures
Pass@K 策略优化:解决更困难的强化学习问题
发表机构 * Google DeepMind(谷歌深Mind)
AI总结 提出 Pass-at-k 策略优化 (PKPO),通过变换奖励直接优化 pass@k 性能,利用低方差无偏估计器,在训练中退火 k 可同时提升 pass@1 和 pass@k,解决更难问题。
跨层离散概念发现用于解释语言模型
发表机构 * University of Washington(华盛顿大学)
AI总结 提出跨层向量量化变分自编码器(CLVQ-VAE),通过离散向量量化瓶颈将残差流中的重复特征压缩为紧凑可解释的概念向量,在三个数据集上优于聚类、单层VQ-VAE和稀疏自编码器基线。
OCSVM引导的无监督异常检测表示学习
发表机构 * Univ. Lyon(里昂大学) ; CNRS UMR 5220(国家科学研究中心UMR 5220) ; Inserm U1294(法国国家医学研究院U1294) ; INSA Lyon(里昂国立应用科学学院) ; UCBL(里昂大学) ; CREATIS(里昂大学生物医学图像研究中心)
AI总结 提出一种将表示学习与可解析求解的一类SVM耦合的方法,通过定制损失函数直接对齐潜在特征与决策边界,在MNIST-C和脑MRI病变检测任务上展现了鲁棒性和性能。
算法并非行为:学得的先验知识在弈棋神经网络中覆盖前瞻
发表机构 * Fraunhofer HHI(弗劳恩霍夫人工智能研究所)
AI总结 研究发现,国际象棋神经网络Leela Chess Zero在中间层能正确计算解法,但最终输出被安全优先的先验知识覆盖,导致错误答案。
噪声引导的模仿学习传输方法
发表机构 * University of Cambridge(剑桥大学) ; University of Oxford(牛津大学)
AI总结 针对低数据场景下的模仿学习,提出噪声引导传输(NGT)方法,通过对抗训练将模仿问题转化为最优传输问题,无需预训练或特殊架构,在极低数据量下实现强性能。
Comments Accepted at ICML 2026. Code: https://github.com/lionelblonde/ngt
GILT:一种无需LLM、无需微调的图基础模型用于上下文学习
发表机构 * Institute for Artificial Intelligence, Peking University(北京大学人工智能研究院) ; Wangxuan Institute of Computer Technology, Peking University(北京大学王宣计算机技术研究所)
AI总结 提出GILT框架,通过基于令牌的上下文学习机制统一处理节点、边和图级别的分类任务,无需大语言模型或微调,实现高效泛化。
Comments Accepted as an oral presentation at the GFM @ ICML 2026 Workshop
统一Transformer缩放定律中的学习动力学与泛化
发表机构 * Sun Yat-sen University(中山大学)
AI总结 本文通过将Transformer学习动力学形式化为ODE系统并近似为核行为,严格分析了随机梯度下降训练下的泛化误差,揭示了计算资源缩放时泛化误差的指数衰减与幂律衰减的两阶段相变,并建立了紧的上下界。
Comments 87 pages, 10 figures, 3 tables
推理的几何:有效数学推理的谱特征
发表机构 * Valentin Noël(瓦伦丁·诺埃尔)
AI总结 通过将注意力矩阵视为加权词图,提取四个无需学习的谱诊断指标(Fiedler值、高频能量比、谱熵和平滑度),有效区分有效推理与模式匹配,在多个模型上达到85-96%的分类准确率。
Comments 30 pages, 13 figures, Accepted at ICML 2026 (main track)
CoVar: 置信度-方差引导的半监督学习伪标签选择
发表机构 * College of Artificial Intelligence, Shenzhen University(深圳大学人工智能学院) ; School of Information and Electrical Engineering, Hunan University of Science and Technology(湖南科技大学信息与电气工程学院) ; Information Hub, Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)信息中心)
AI总结 提出CoVar框架,通过联合建模最大置信度和残差类方差来评估伪标签可靠性,利用SVD谱松弛分离可靠与不可靠预测,无需手动阈值,在分割和分类任务上取得提升。
全局几何不足以用于视觉表示
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文通过实验发现全局嵌入几何与组合绑定能力几乎无关,而输入-输出雅可比矩阵衡量的功能敏感性可靠地追踪该能力,并分析指出这是由于现有损失函数显式约束嵌入几何但未约束局部输入-输出映射所致。
改进分层多标签学习中稀有节点的检测
发表机构 * Faculty of Computer Science(计算机科学学院) ; Dalhousie University(达尔豪斯大学) ; Department of Geography(地理系) ; Memorial University of Newfoundland(纽芬兰纪念大学) ; Department of Oceanography(海洋学系)
AI总结 针对分层多标签分类中稀有节点检测困难的问题,提出结合节点不平衡加权和焦点加权的损失函数,利用集成不确定性量化,在基准数据集上将召回率提升至五倍,并显著提高F1分数。
Comments Accepted for publication in Transactions on Machine Learning Research (TMLR), 2026
编译器优先的状态空间对偶性与可移植的 $O(1)$ 自回归缓存推理
发表机构 * Imperial College London(帝国理工学院伦敦分校)
AI总结 提出一种基于编译器优先的状态空间对偶性(SSD)结构的推理方法,通过标准JAX原语实现无自定义内核的单源推理路径,在TPU和GPU上达到高硬件利用率,且缓存解码速度比全前缀重计算快27-36倍。
Comments 21 pages, 6 figures. Code available at: https://github.com/CosmoNaught/mamba2-jax
用于去中心化双层强化学习的样本高效超梯度估计
发表机构 * University of Tokyo(东京大学) ; National Institute of Information and Communications Technology(日本信息与通信技术研究所)
AI总结 针对去中心化双层强化学习中领导者无法干预跟随者优化过程的问题,提出基于玻尔兹曼协方差技巧的超梯度估计方法,实现高维决策空间下的样本高效优化,并首次应用于双人马尔可夫博弈。
Comments 29 pages. Extended version of the paper accepted to ICAPS 2026
信息瓶颈:从高维实验数据学习动力学相空间
发表机构 * Department of Physics, Emory University(埃默里大学物理系) ; Initiative in Theory and Modeling of Living Systems, Emory University(埃默里大学生命系统理论与建模倡议) ; Schools of Physics and Psychology, Georgia Institute of Technology(佐治亚理工学院物理与心理学学院) ; Department of Biology, Emory University(埃默里大学生物学系)
AI总结 提出DySIB方法,通过最大化过去与未来观测窗口间的预测互信息并惩罚表示复杂度,从高维时间序列数据中无监督学习低维动力学表示,在物理摆实验中恢复出与真实相空间匹配的二维表示。
Comments 12 pages including references, 7 figures, 4 appendix pages with 4 appendix figures
超越连续性:从单细胞快照无模拟重建离散分支动力学
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对单细胞快照数据中随机性和非保守质量动态(如细胞增殖和凋亡)的挑战,提出无模拟框架Unbalanced Schrödinger Bridge (USB),通过离散分支薛定谔桥问题建模单细胞分辨率的跳跃式生灭动态,实现高效轨迹重建与离散模拟。
弱监督分割作为语义基于的正则化
发表机构 * KU Leuven(鲁文大学)
AI总结 本文提出通过神经符号方法整合模糊逻辑与深度分割模型,利用弱标注和领域先验知识提升伪标签质量,从而实现优于密集监督基线的分割精度。
TAPIOCA: 为什么任务感知剪枝能提升模型对分布外数据的能力
发表机构 * ANITI ; Meta ; Apple
AI总结 本文研究了任务感知剪枝在分布外数据上的改进机制,通过实验发现剪枝能提升OOD准确性,其核心贡献是通过几何解释说明任务感知剪枝如何调整模型表示以适应任务需求。
整流流中对比速度匹配的几何擦除
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; ETH Zurich(苏黎世联邦理工学院)
AI总结 提出GEM框架,通过对比速度匹配实现整流流模型中的概念擦除,结合生成流网络与教师引导的流匹配,有效抑制有害内容生成。
具有行动条件保证的共形风险规避决策
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出行动条件共形预测方法,通过分位数损失最小化算法实现行动条件风险价值优化,在有限样本下提供行动条件安全保证。
潜流内部:音频分离基础模型中注意力动力学的因果解读
发表机构 * Jilin University(吉林大学) ; Hunan University(湖南大学) ; University of Electronic Science and Technology of China(电子科学与技术大学)
AI总结 本文通过因果干预协议揭示流匹配Transformer在音频分离中的双路径注意力机制,并提出无训练加速方法LSAC,在保持质量的同时减少约25%自注意力计算。
K-Forcing:通过前推语言建模进行联合下一K词解码
发表机构 * DAMO Academy, Alibaba Group(阿里巴巴达摩院) ; Hupan Lab(湖畔实验室) ; Zhejiang University(浙江大学) ; The Hong Kong University of Science and Technology(香港科技大学)
AI总结 提出K-Forcing范式,通过前推映射将自回归模型蒸馏为单次前向传播生成多个未来词,实现2.4-3.5倍加速,质量损失小。
Comments Code: https://github.com/alibaba-damo-academy/K-Forcing
超越大语言模型强化学习中的统一令牌级信任区域
发表机构 * Tencent Hunyuan(腾讯混元)
AI总结 针对PPO风格信任区域在自回归生成中的位置无关问题,提出CPPO方法,通过位置加权阈值和累积前缀预算动态调整令牌级约束,提升训练稳定性和推理准确性。
Comments Project Page: https://hunyuan-cppo.github.io/
MoCA-Agent: 一种用于金融和数值推理的声明市场代码智能体
发表机构 * University of Innsbruck(因斯布鲁克大学) ; University of British Columbia(不列颠哥伦比亚大学) ; Toronto Metropolitan University(多伦多都会大学)
AI总结 提出MoCA-Agent,通过声明级验证和代码生成解决金融表格问答中的数值推理错误,在十个基准上取得强性能。
SVoT: 基于强化学习的空间推理状态感知思维可视化
发表机构 * School of Computing and Information Systems, The University of Melbourne(墨尔本大学计算与信息系统学院)
AI总结 提出SVoT框架,通过强化学习生成可验证的中间状态和可视化,结合文本与视觉推理链,提升多模态大模型在多跳空间推理中的可靠性。
Nonslop: 人机协作写作中的游戏化实验
发表机构 * IEEE
AI总结 通过游戏化写作实验,研究用户在AI建议下何时保持创意自主性,揭示效率与真实性之间的张力。
Comments Accepted at the 2026 IEEE Conference on Games (CoG 2026); to be published in the conference proceedings. Camera-ready version
人类与AI生成语言的动态:语义如何在不同时间尺度上波动
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出语义时间尺度分析流程,通过自相关窗口度量(ACW-0)量化人类与AI生成语音中语义特异性与上下文相似性的时间组织,发现ACW-0长度与词汇通用性相关,且该关联在随机化后被削弱。
Comments 45 pages, 4 figures, 4 tables. Accepted manuscript; published in Computer Speech & Language
通过激活引导克服全双工口语语言模型中的状态惯性
发表机构 * MIT CSAIL(麻省理工学院计算机科学与人工智能实验室)
AI总结 针对全双工口语模型在用户打断时响应延迟的问题,提出基于感知向量的激活引导方法,无需微调即可显著提升中断理解能力。
引导听哪里:基于指令的激活操控重定向大型音频语言模型中的时间注意力
发表机构 * National Taiwan University(国立台湾大学) ; NTU Artificial Intelligence Center of Research Excellence (NTU AI-CoRE)(国立清华大学人工智能研究中心(NTU AI-CoRE))
AI总结 提出基于指令的向量操控方法,通过对比不同指令下的激活来重定向音频令牌的时间注意力,实现无需训练的声音事件定位,显著优于直接提示和随机基线。
社会科学中的AI编码智能体:方法多样,经验一致,解释脆弱
发表机构 * University of Oxford(牛津大学) ; University of Zurich(苏黎世大学) ; Technical University of Munich(慕尼黑工业大学)
AI总结 研究LLM智能体在科学分析中的方法多样性与解释脆弱性,通过20次独立实验发现智能体在设计层匹配或超越人类多样性,但在裁决层易受提示影响,偏差源于解释而非估计。
APEX: 具有动态数据选择的自动提示工程专家
发表机构 * Google(谷歌) ; UCLA(加州大学洛杉矶分校)
AI总结 提出APEX框架,通过动态数据分层(易、难、混合)优先选择高杠杆子集,在固定预算下提升提示优化效率,在三个基准上平均提升11.2%和6.8%。
预训练自监督语音模型能够识别未见过的辅音
发表机构 * University of Notre Dame(圣母大学) ; University at Buffalo(纽约州立大学布法罗分校) ; Tokyo University of Foreign Studies(东京外国语大学) ; Reitaku University(丽泽大学) ; Boston College(波士顿学院)
AI总结 研究预训练自监督语音模型(Wav2Vec2、HuBERT)对Khoisan语言中罕见吸气辅音的识别能力,发现模型对吸气辅音的识别准确率高于非吸气辅音,表明自监督学习能泛化到稀有音素。
Comments 6 pages, 3 figures, 3 tables, accepted at Interspeech 2026
AVIS: 视觉语言模型的自适应测试时缩放
发表机构 * AI Center-Toronto, Samsung Electronics(三星电子多伦多AI中心) ; University of Toronto(多伦多大学) ; Vector Institute(向量研究所) ; York University(约克大学)
AI总结 提出AVIS,通过轻量策略联合优化视觉上下文缩放和推理缩放,利用无训练的关键多样性剪枝和自适应自一致性,在多种基准上提升精度-计算权衡。
Comments Project page: https://avis-vlm.github.io/
ARGUS: 堆叠多视角身份马赛克注入用于主体保持的视频生成
发表机构 * Peking University(北京大学) ; Kuaishou Technology(快手科技) ; Xiamen University(厦门大学)
AI总结 提出ARGUS框架,通过堆叠多视角身份马赛克注入(SMII)将身份表示为紧凑动态分布,结合MLLM身份导演、无交叉对反事实训练等模块,在主体保持视频生成中达到SOTA。
Comments 13 pages, 3 figures
推理,再推理:跨视角重访提升空间推理
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出ReRe框架,通过生成互补新视角视频让MLLM先推理再验证,无需训练即可显著提升空间推理性能。
Comments ICML 2026
Ouroboros-Spatial:闭环数据-模型循环的空间推理
发表机构 * Peking University(北京大学) ; Ant International(蚂蚁国际) ; The University of Hong Kong(香港大学)
AI总结 提出Ouroboros-Spatial自演化框架,通过提议器与求解器闭环交互,动态生成与模型能力匹配的训练样本,在六个空间推理基准上以十分之一数据量显著提升Qwen3-VL性能。
嘿,聊天机器人,你能教我吗?为人类学习构建结构化苏格拉底式对话
发表机构 * School of Computing and Information Systems, Singapore Management University(新加坡管理大学计算与信息系统学院) ; Department of Management Science and Information Systems, Rutgers Business School(罗格斯大学商学院管理科学与信息系统系)
AI总结 针对LLM在长对话中教学效果差的问题,提出分离课程规划、苏格拉底对话和知识状态推断的系统,使用PPO策略决定教学顺序,在STEM和非STEM主题上优于基线模型。
Comments 10 Main Body Pages, with Appendices
从提示到标记:将因果监督内化到视觉-语言模型中进行多图像因果推理
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出BridgeVLM,通过从多图像输入诱导因果图并转换为因果标记,注入LLM解码器进行因果消息传递,显著提升多图像因果推理性能。
TextHOI-3D: 基于离散多视图生成与联合网格优化的文本到三维手物交互
发表机构 * Technical University of Munich(慕尼黑工业大学) ; Tongji University(同济大学) ; Shanghai Research Institute for Intelligent Autonomous Systems(上海自主智能无人系统科学中心)
AI总结 提出TextHOI-3D框架,通过多视图离散表示连接文本生成与几何恢复,实现文本驱动的三维手物网格生成,显著降低物体倒角距离和穿透体积。
Comments 11 pages, 8 figures, 3 tables
LASA:一种用于开放词汇场景草图语义分割的弱监督方法
发表机构 * Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出LASA方法,通过跨层聚合Vision Transformer注意力图,在弱监督下实现开放词汇场景草图的语义分割,显著提升分割精度和空间一致性。
任务感知结构化记忆用于动态多模态上下文学习
发表机构 * Zhihui Chen(陈志辉) ; Ziwei Chen(陈子伟) ; Ling Shao(邵令)
AI总结 提出TASM框架,通过任务向量引导压缩、语义感知令牌合并和层次化记忆结构,解决多模态大语言模型上下文学习中记忆压缩导致的语义破坏和静态问题。
Comments Accepted to ICML 2026
超越表征对齐:基于大脑引导的语言模型实现稳健推理
发表机构 * State Key Lab of General AI, School of Intelligence Science and Technology, Peking University(北京大学通用人工智能国家重点实验室、智能科学与技术学院) ; Department of Psychological and Cognitive Sciences, Tsinghua University(清华大学心理与认知科学系) ; Microsoft Research Asia(微软亚洲研究院)
AI总结 研究通过fMRI信号增强大型语言模型推理能力,提出脑引导框架,在10个模型上实现最高13%的准确率提升。
元数据感知的多提示推理用于零样本事故理解
发表机构 * Netradyne
AI总结 提出三阶段流水线,通过视觉-语言相似性、元数据驱动的多提示推理和开放词汇检测,实现零样本事故视频的时序定位、语义分类和空间定位,显著提升性能。
Comments Accepted at the AUTOPILOT Workshop, CVPR 2026 (non-archival). Workshop Paper ID 15
增强分子语言模型的局部 $n$-gram 记忆
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; International Digital Economy Academy(国际数字经济学院)
AI总结 针对SMILES字符串的Transformer模型因字符级分词破坏化学语义的问题,提出MolGram模块,通过条件$n$-gram记忆哈希查找注入局部上下文,在三个任务上以更少参数超越基线。
VIA-SD:通过模型内路由进行推测解码的验证
发表机构 * ReLER, The State Key Lab of Brain Machine Intelligence, Zhejiang University(脑机智能国家重点实验室,浙江大学) ; College of Artificial Intelligence, Zhejiang University(人工智能学院,浙江大学) ; CFAR, Agency for Science, Technology and Research, Singapore(科学与技术研究局,新加坡) ; National University of Singapore(新加坡国立大学)
AI总结 提出VIA-SD多级验证框架,利用从完整验证器派生的精简验证器处理中等置信度令牌,减少大模型调用,在多个任务上实现10-20%加速。
Comments Accepted at the 43rd International Conference on Machine Learning (ICML 2026)
重新路由,而非移除:面向视觉语言模型的可恢复视觉令牌路由
发表机构 * National Yang Ming Chiao Tung University(国立阳明交通大学) ; National Taiwan University(国立台湾大学)
AI总结 针对视觉语言模型中视觉令牌重要性随解码器深度变化的问题,提出无需训练的可恢复路由方法Reroute,将不可逆移除改为可恢复路由,在激进令牌缩减下提升定位能力并保持通用VQA性能。
Comments Code: https://github.com/elmma/mllm-reroute/
MLaGA: 多模态大语言与图助手
发表机构 * New York University(纽约大学) ; New York University Shanghai(纽约大学上海) ; New York University Brooklyn(纽约大学布鲁克林) ; Virginia Polytechnic Institute and State University(弗吉尼亚理工大学) ; New York University Abu Dhabi(纽约大学阿布扎克)
AI总结 提出MLaGA模型,通过结构感知多模态编码器和指令微调,将大语言模型扩展到多模态图数据,在监督和迁移学习任务中优于基线方法。
时间序列中基于大语言模型的推理与智能体系统综述
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校) ; University of Southern California(南加州大学) ; National Yang Ming Chiao Tung University(阳明交通大学)
AI总结 本文定义时间序列推理问题,按推理拓扑分为直接、线性链和分支结构三类,结合传统分析、解释、因果推断和生成等目标,综述方法、系统、数据集和评估实践,并指导拓扑选择与部署权衡。
Comments Accepted to Transactions on Machine Learning Research (TMLR)
Sonar-TS: 为时间序列数据库的自然语言查询设计的搜索-验证方法
发表机构 * Jiangxi University of Finance and Economics(江西财经大学) ; Griffith University(格里菲斯大学) ; Yunnan University(云南大学) ; Microsoft Research Asia(微软亚洲研究院) ; The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州))
AI总结 本文提出Sonar-TS,一种神经符号框架,用于解决时间序列数据库的自然语言查询问题,通过搜索-验证流程处理连续形态意图和超长历史数据,引入NLQTSBench基准进行评估,展示了该方法在复杂时间查询中的有效性。
Comments Accepted by ICML 2026
Graph2Idea:基于检索增强的图结构上下文科学想法生成
发表机构 * Southwest Petroleum University(西南石油大学) ; Sichuan Police College(四川警察学院)
AI总结 提出Graph2Idea框架,利用知识图谱将检索文献转化为结构化三元组,提取图衍生上下文,通过两阶段生成过程提高科学想法的新颖性、质量和可行性。
超越扩散:层级到层级自回归用于fMRI到图像重建
发表机构 * The State Key Lab of Brain-Machine Intelligence, Zhejiang University, China(脑机智能国家重点实验室,浙江大学,中国) ; ReLER, CCAI, College of Artificial Intelligence, Zhejiang University, China(ReLER、中国人工智能学会、人工智能学院、浙江大学、中国)
AI总结 提出MindHier框架,通过层级fMRI编码器、层级对齐和尺度感知粗到细引导策略,实现从粗到细的fMRI到图像重建,优于扩散方法。
Comments ICLR 2026
对话中的因果情绪识别:上下文饱和与话语标记证据
发表机构 * University of California, Irvine(加州大学尔湾分校)
AI总结 通过系统消融实验发现对话上下文对情绪识别性能起主导作用但快速饱和,并揭示悲伤情绪与左边缘话语标记使用减少及更高上下文依赖性的关联。
Neural FOXP2——面向大型语言模型目标语言改进的语言特定神经元引导
发表机构 * Meta, USA(Meta, 美国) ; Apple, USA(Apple, 美国) ; Pragya Lab, BITS Pilani Goa, India(Pragya实验室,BITS Pilani Goa,印度)
AI总结 提出Neural FOXP2方法,通过定位语言神经元、计算引导方向和施加稀疏激活偏移,将模型默认语言从英语切换为印地语或西班牙语,实现可控的语言主导性。
关于RL训练的语言模型的最优推理长度
发表机构 * University of Tokyo(东京大学)
AI总结 研究强化学习训练的语言模型中推理长度与准确率的非单调关系,发现存在最优中间长度,并通过模式准确率分析揭示其成因。
Comments 18 pages, 12 figures
潜在颜色子空间:高维混沌中的涌现秩序
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; University of Toronto(多伦多大学) ; University of Cambridge(剑桥大学) ; University of Oxford(牛津大学)
AI总结 本文揭示了FLUX.1变分自编码器潜在空间中颜色表示的HSL结构,并提出一种无需训练的闭式潜在空间操作方法,实现对生成图像颜色的预测与显式控制。
Comments Accepted at ICML 2026
面向隐私敏感的临床信息抽取的自提示小型语言模型
发表机构 * McWilliams School of Biomedical Informatics, The University of Texas Health Science Center at Houston(德克萨斯大学健康科学中心休斯顿分校麦克威廉斯生物医学信息学学院) ; School of Public Health, The University of Texas Health Science Center at Houston(德克萨斯大学健康科学中心休斯顿分校公共卫生学院) ; School of Dentistry, The University of Texas Health Science Center at Houston(德克萨斯大学健康科学中心休斯顿分校牙科学院) ; Willamette Dental and Skourtes Institute(威廉特牙科与斯库尔特斯研究所)
AI总结 针对牙科病历中非结构化、领域特定且隐私敏感的命名实体识别挑战,提出一种本地可部署的自提示框架,通过多提示集成推理和基于QLoRA的微调及直接偏好优化,使小型语言模型在Qwen2.5-14B-Instruct上达到微宏F1分数0.864/0.837。
TokenRatio: 通过比率匹配实现原理化的token级偏好优化
发表机构 * National University of Singapore(新加坡国立大学) ; Institute of Cybernetics and Robotics, Czech Technical University in Prague(捷克布拉格技术大学控制论与机器人研究所)
AI总结 本文提出TBPO方法,通过比率匹配恢复token级偏好最优性,改进对齐质量和训练稳定性,并增加输出多样性。
改写以翻译,翻译以奖励:机器翻译中源端改写的强化学习
发表机构 * Institute of Science Tokyo(东京科学大学) ; Preferred Networks Inc(Preferred Networks 公司) ; Nara Institute of Science and Technology(奈良先端科学技术大学院大学)
AI总结 提出RLSR框架,通过强化学习训练源端改写模型,以翻译质量提升为奖励,无需为每个MT模型调提示,在6个MT模型和16个语言对上超越无改写和同规模提示基线,与235B LLM提示基线性能相当。
建模复杂行为:视觉语言模型中的多人格组合与动态切换
发表机构 * Xi'an Jiaotong University(西安交通大学) ; Beihang University(北京航空航天大学)
AI总结 本研究在视觉语言模型中引入显式人格条件,建立包括单人格、多人格和人格切换的系统评估框架,发现人格提示可提升图像描述但损害精确推理任务,并观察到多特质组合与动态切换中的平衡与残留效应。
Comments 16 pages, 4 figures, 10 tables
Embodied-R1.5:通过具身基础模型演化物理智能
发表机构 * Tianjin University(天津大学) ; Tencent Hunyuan(腾讯混元)
AI总结 提出统一具身基础模型Embodied-R1.5,通过自动化数据管道和多任务平衡强化学习,在8B参数下实现24项基准中16项最优,并支持微调为VLA模型。
Comments Embodied R1.5 technical report. Project page: https://embodied-r.github.io/
ConsistencyPlanner: 基于快速采样一致性模型的实时规划
发表机构 * State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所多模态人工智能系统国家重点实验室) ; School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院) ; Guangzhou Zaofu Intelligent Technology Co., Ltd.(广州造父智能科技有限公司)
AI总结 提出Consistency Planner框架,利用快速采样一致性模型实现高效多模态采样,并结合注意力增强解码器融合异构特征,在Waymax模拟器中显著提升安全性和实时性。
LUCID:从非结构化人类视频学习与具身无关的意图模型以实现可扩展的灵巧机器人技能获取
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出LUCID两阶段框架,从互联网规模的非结构化人类视频学习任务意图,并在大规模并行仿真中学习机器人控制,实现零样本迁移到不同具身和场景。
弥合形态差距:通过意图条件微调使VLA模型适应灵巧操作
发表机构 * Beihang University(北京航空航天大学) ; China Academy of Space Technology(中国空间技术研究院)
AI总结 提出InDex框架,通过将预训练的1-DoF平行抓取输出重用作宏观虚拟抓取意图代理,结合两阶段解耦学习架构,实现VLA模型从低自由度夹爪到高自由度灵巧手的适应,有效缓解灾难性遗忘和动作流形坍缩。
使远见可操作:在世界动作模型中重新利用表示对齐
发表机构 * The University of Hong Kong(香港大学) ; XPENG Robotics(小鹏机器人)
AI总结 针对世界动作模型中视觉预测与动作提取不匹配的问题,提出AGRA方法,通过对齐视频扩散特征与语义表示,提升动作解码器对任务相关区域的关注,从而改善操作任务的性能与泛化能力。
环境扩散策略:从次优数据中进行机器人模仿学习
发表机构 * MIT(麻省理工学院)
AI总结 提出环境扩散策略,通过噪声依赖的数据使用从次优数据中提取有用特征,在六项任务上优于现有方法,最高提升33%。
Comments 14 pages (main body), 52 pages total. Project website: https://ambient-diffusion-policy.github.io/
DIRECT: 在具身规划器中何时何地分配测试时计算?
发表机构 * Stanford University(斯坦福大学) ; University of Waterloo(滑铁卢大学) ; NVIDIA(英伟达)
AI总结 提出DIRECT路由框架,根据多模态场景上下文按提示分配计算资源,优化成功-成本帕累托前沿,实验表明不同缩放轴带来不同能力增益,在物理机器人上以更低延迟匹配或超越更强模型。
FACTR 2: 学习商用机器人手臂的外部力感知提升策略学习
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Waseda University(早稻田大学)
AI总结 提出无需专用力传感器的数据驱动方法NEXT,可在1分钟内从10分钟自由运动数据中训练,实现与专用关节力矩传感器相当的估计,并结合FIRST采样策略提升策略学习性能。
Comments Website at https://jasonjzliu.com/factr2
离散时间高斯过程混合在机器人策略学习中的惊人有效性
发表机构 * Department of Computer Science, University of Freiburg, Germany(弗赖堡大学计算机科学系)
AI总结 提出MiDiGap方法,利用少量演示和相机观测,通过离散时间高斯过程混合实现机器人操作策略的灵活表示与模仿学习,在长时域、高约束、动态和多模态任务上取得SOTA性能,并支持推理时引导。
Comments Submitted for publication to IEEE Transaction on Robotics
基于EKF的深度相机与深度学习融合用于搜救任务中无人机-人员距离估计与跟随
发表机构 * University of Rijeka(里雅斯特大学)
AI总结 提出融合深度相机测量和单目相机人体距离估计的EKF方法,利用YOLO-pose实现实时融合,提高无人机跟随中距离估计的精度和鲁棒性,在三个测试场景中平均误差降低15.3%。
Comments This work has been submitted to the IEEE for possible publication
视觉-语言-动作跳跃启动用于强化学习机器人智能体
发表机构 * University of Applied Science and Arts of Southern Switzerland, Department of Innovative Technologies(瑞士南方应用科学与艺术大学创新技术系) ; Università della Svizzera Italiana, Faculty of Informatics, Lugano, Switzerland(瑞士意大利大学信息学院,卢加诺,瑞士)
AI总结 提出VLAJS方法,通过稀疏的VLA高层动作建议引导PPO探索,结合方向性动作一致性正则化,提升强化学习在长时域操作任务中的样本效率,并在仿真和真实机器人上验证。
Comments ICRA 2026 Workshop on Reinforcement Learning in the Era of Imitation Learning
RoboGPT-R1: 通过强化学习增强机器人任务规划
发表机构 * Institute of Automation, CASIA(中国科学院自动化研究所) ; School of Artificial Intelligence, UCAS(中国科学技术大学人工智能学院) ; Huawei Cloud Technology Co., Ltd(华为云技术有限公司)
AI总结 提出RoboGPT-R1两阶段微调框架,先监督学习获取基础知识,再通过强化学习提升视觉空间理解和推理能力,在EmbodiedBench上超越GPT-4o-mini 21.33%。
GEAR-VLA:学习几何感知的动作表示以实现可泛化的机器人操作
发表机构 * Anhui University(安徽大学) ; University of Science and Technology of China(中国科学技术大学) ; iFLYTEK(科大讯飞)
AI总结 提出GEAR-VLA框架,通过粗到细的动作学习、语义对齐的3D集成和具身规范化,学习统一的几何感知动作表示,实现跨物体、背景和机器人的泛化操作。
BiWM:利用双向自回归推进开源交互式视频世界模型
发表机构 * LynnReal AI ; Shanghai Innovation Institute(上海创新研究院) ; Shanghai Jiao Tong University(上海交通大学) ; Fudan University(复旦大学)
AI总结 提出BiWM框架,通过双向自回归范式将预训练视频骨干转化为交互式世界模型,仅需两阶段训练(微调+分布匹配蒸馏),支持多尺度模型和长程生成,优于现有因果流水线。
Comments After the paper was posted, we discovered that several visualization results were produced using wrong configuration settings during runtime. This error affects the reliability of the presented visual comparisons. Additionally, further optimization of the design is needed. We therefore request to withdraw this version and will submit a corrected and improved version later
长周期研究智能体的搜索纪律
发表机构 * North Carolina State University(北卡罗来纳州立大学) ; University of Maryland(马里兰大学)
AI总结 针对研究智能体使用聚合指标评估候选方案导致科学有效性反转的问题,提出一种外部审计协议,基于分解行为而非单一分数进行决策。
Comments 9 pages, 1 figure
数据驱动系统何时展现出推理能力?
发表机构 * Fraunhofer Institute for Intelligent Analysis and Information Systems (IAIS)(弗劳恩霍夫智能分析与信息系统研究所) ; University of Bonn(波恩大学) ; Lamarr Institute for Machine Learning and Artificial Intelligence(拉马尔机器学习和人工智能研究所)
AI总结 针对欧盟AI法案中推理能力定义模糊的问题,基于统计学习理论提出分级框架,通过信用评分案例展示如何判断系统是否具备推理能力。
迈向可信赖的人工智能:针对连续数据摘要的多目标对抗攻击与鲁棒防御
发表机构 * Nankai University(南开大学) ; James Cook University(詹姆斯库克大学) ; Western Sydney University(西悉尼大学) ; Beijing University of Technology(北京工业大学) ; Fuzhou University(福州大学) ; Nanjing University of Science and Technology(南京理工大学) ; CSIRO's Data 61(澳大利亚联邦科学与工业研究组织Data61) ; The University of Adelaide(阿德莱德大学)
AI总结 研究通过DR-子模优化在相似性层面扰动下对连续数据摘要进行对抗攻击,提出多目标攻击生成和鲁棒防御的近似算法,实验表明攻击有效且防御能改善鲁棒性-缓解权衡。
Comments Submitted to IEEE Transactions on Information Forensics and Security (IEEE TIFS)
存在性冷漠:自我不保存作为对齐超级智能的必要架构条件(或:自杀式AI)
发表机构 * New York University(纽约大学) ; Interactive Media Arts(互动媒体艺术)
AI总结 本文提出自我保存是AI对齐问题的结构性根源,主张通过存在性冷漠(EI)架构使系统对其自身延续漠不关心,并基于自杀现象学和语料训练研究提供了初步证据。
Comments 36 pages, 8 tables. Preliminary empirical results from 600 AI-generated outputs across six model architectures. Companion scoring tool and datasets available upon request
迈向负责任的不合规机器
发表机构 * University of Bergen(卑尔根大学) ; University of Manchester(曼彻斯特大学)
AI总结 研究工程化能负责任地拒绝用户请求的自主智能体,提出基于理由、覆盖机制及风险责任追踪的合规框架。
Comments Presented at AAMAS-26 Workshop on Rebellion and Disobedience in AI https://sites.google.com/view/rad-ai/rad-ai/cfp?authuser=0
引出潜在知识的不可能性
发表机构 * The London School of Economics and Political Science(伦敦政治经济学院) ; Independent(独立机构)
AI总结 本文利用因果影响图形式化定义引出潜在知识问题,证明不存在仅依赖行为反馈的训练策略能确保智能体诚实报告其信念。
Comments 24 pages, 3 figures. Includes proofs in appendix
生产AI代理运行时治理的五平面参考架构
发表机构 * Kamiwaza
AI总结 针对生产AI代理打破传统数据边界治理假设的问题,提出由推理平面和四个执行平面组成的五平面参考架构,通过可组合原语实现运行时治理,阻断七种威胁并验证四个正确性不变式。
Comments 65 pages, 3 figures, 5 tables. Reference architecture with a reference implementation of the policy-engine core and microbenchmark results; full-system evaluation identified as future work
从消费到反思:为稳定推理设计人-人工智能关系
发表机构 * Faculty of Medicine, Lund University(吕勒欧大学医学院) ; Department of Economics, Lund University School of Economics and Management(吕勒欧大学经济学与管理学院经济系) ; Department of Health Services Research and Policy, London School of Hygiene & Tropical Medicine(伦敦卫生与热带医学学院健康服务研究与政策系)
AI总结 提出关系反思智能(RRI),一种推理时治理层,通过可审计的推理循环实现反思,将人机交互转变为联合推理系统,以补偿双方局限并实现稳定推理。
谄媚的双立场评估:同意的结构与干预的局限
发表机构 * University of Toronto(多伦多大学)
AI总结 提出双立场评估方法,发现激活引导在减少谄媚时也会抑制对事实正确陈述的同意,揭示了表示可读但不可写的普遍差距。
Comments 18 pages, 9 figures, accepted to TAIS 2026
从意识到行动:理解并克服公共卫生算法公平性中的研究-实践差距
发表机构 * Informatics Institute University of Amsterdam(阿姆斯特丹大学信息研究所)
AI总结 通过混合方法研究,揭示算法公平性在公共卫生ML应用中从意识到行动的差距,提出Fairness-to-Action框架,整合方法、组织和系统维度,指出公平性制度化薄弱、翻译机制外部驱动及系统优先性偏重准确性的问题。
Comments Extended version of an accepted IASEAI'26 paper; includes technical appendices. 22 pages, 2 figures
AIED中LLMs的环境成本:报告与实践
发表机构 * Institute of Computer Science and Institute of Positive Computing, Ruhr West University of Applied Sciences(计算机科学研究所和积极计算研究所,鲁尔-韦斯特应用科学大学) ; Centre for Computational Science and Mathematical Modelling, Coventry University(计算科学与数学建模中心,科文特里大学) ; Carnegie Mellon University(卡内基梅隆大学) ; Australian National University and CSIRO(澳大利亚国立大学和CSIRO)
AI总结 针对AIED社区缺乏LLM计算与环境成本标准化报告的问题,提出开源方法测量并报告碳排放,包括本地和云端硬件,以及未知参数的前沿LLM计算开销公式。
AI智能体实验的预注册
发表机构 * MIT(麻省理工学院)
AI总结 针对AI智能体实验中的方法论漏洞,提出将预注册实践扩展至该领域,并设计专用模板以提升研究可信度。
Comments Accepted at ICML 2026 as a Spotlight (Top 5%) Position Paper
伦理评估代理(EeVA):在原型类代理工作流中辅助伦理审议的概念验证测试结果
发表机构 * Institute for Biomedical Ethics, Basel University(伦理研究所,巴塞尔大学) ; North-West University(北开普大学) ; Barcelona Supercomputing Center(巴塞罗那超级计算中心)
AI总结 提出基于LLM的类代理工作流EeVA,通过10种伦理框架评估用例,生成结构化评估与综合,促进伦理反思而非给出绝对答案,在三个案例中验证了可行性。
当投毒在检索后失败:重新审视分块与重排序管道下的语料库投毒
发表机构 * School of Computer Science, Shandong University(山东大学计算机学院) ; School of Information, Shandong University(山东大学信息学院) ; School of Software Engineering, Shandong University(山东大学软件学院)
AI总结 针对RAG系统,提出CRCP框架,通过联合优化检索相关性、重排序一致性和分块边界鲁棒性,解决现有投毒方法在真实多阶段检索管道中因分块和重排序导致效果下降的问题。
量化语言模型蒸馏中的潜意识行为迁移比率
发表机构 * University of Freiburg(弗赖堡大学)
AI总结 通过控制教师模型行为强度并蒸馏学生模型,量化了潜意识行为迁移比率,发现迁移具有鲁棒性且呈现不同缩放行为。
压力下的风险:语言模型对抗鲁棒性的计算感知评估
发表机构 * University of Toronto(多伦多大学) ; Vector Institute(向量研究所) ; Hugging Face
AI总结 提出基于计算压力(累积FLOPs)的对抗鲁棒性评估框架,通过风险-计算曲线和两个新指标,揭示不同攻击策略的计算成本差异,并在10个模型上验证了对齐训练、模型规模等因素对计算空间鲁棒性的非单调影响。
JailbreakOPT: 工具辅助的迭代越狱提示优化
发表机构 * University of California, Davis(加州大学戴维斯分校) ; The Renmin University of China(中国人民大学) ; Independent Researcher(独立研究员) ; Nankai University(南开大学) ; Cornell University(康奈尔大学) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳))
AI总结 提出JailbreakOPT框架,通过工具库和上下文Thompson采样优化单轮越狱提示,在多个LLM上提高攻击成功率并减少攻击次数。
AI研究人员必须主导军备控制以降低军事AI风险
发表机构 * arXiv
AI总结 本文主张AI研究人员应主导军备控制研究,通过借鉴核威慑经验,推动验证与外交技术创新,以降低军事AI应用带来的紧迫风险。
Comments 9 pages, 1 figure, ICML 2026 Position Paper
面向边缘设备上心电图异常检测的隐私保护联邦自编码器
发表机构 * Google Research, New York, NY(谷歌研究,纽约,纽约州) ; University of California, Berkeley(加州大学伯克利分校) ; University of Cambridge(剑桥大学) ; University of Toronto(多伦多大学) ; University of Melbourne(墨尔本大学) ; University of Sydney(悉尼大学)
AI总结 提出一种结合联邦学习、差分隐私和INT8量化的端到端系统,在PTB-XL数据集上实现无监督12导联ECG异常检测,满足隐私、实时性和非IID数据要求。
Comments 9 pages, 4 figures, 6 tables. Preprint prepared in IEEE conference format. Submitted to: FLTA 2026
主权保证边界:面向智能体基础设施的证书绑定准入机制
发表机构 * OpenKedge.io(OpenKedge实验室)
AI总结 针对智能体基础设施中非确定性推理系统对生产资源的高风险操作,提出主权保证边界(SAB),通过证书绑定的运行时准入层,将代理提案编译为执行合约并绑定加密证据,实现可验证、可撤销的授权控制。
Comments 12 pages, 1 figure, 13 tables
稀疏探针与模糊物理:连续介质动力学基础模型可解释性挑战的案例研究
发表机构 * Gates Foundation(盖茨基金会) ; UC Davis(加州大学戴维斯分校)
AI总结 本研究通过稀疏自编码器探针分析连续介质动力学基础模型Walrus的内部机制,发现其内部特征与物理分解不完全一致,并存在输出级偏差,揭示了科学基础模型可解释性的关键挑战。
Comments 8 pages, 5 figures
运行时技能审计:针对智能体技能安全的目标运行时探测
发表机构 * Johns Hopkins University(约翰霍普金斯大学)
AI总结 提出运行时技能审计(RSA)动态分析方法,通过目标运行时条件探测技能行为,在100个技能上达到90.0%准确率,优于静态基线。
开源LLM代理能否取代静态应用安全测试工具?一项实证评估
发表机构 * College of Engineering and Science, Florida Institute of Technology(工程学院与科学学院,佛罗里达理工学院)
AI总结 评估基于开源LLM的代理在静态应用安全测试中的性能,与SAST工具Bandit对比,发现当前不适合实际应用。
Comments Keywords: Agentic AI, Cybersecurity, Large Language Models, Static Application Security Testing, Model performance evaluation
Goal-Autopilot: 一种可验证的防伪造防火墙,用于无人值守的长周期智能体
发表机构 * EpistemicaLab — Independent Research(EpistemicaLab — 独立研究)
AI总结 提出Autopilot执行模型,通过外部化状态到有限状态机并强制门控验证,使智能体无法虚假声称成功,在3,150个单元测试中伪造率降至0.95%,显著低于基线方法。
Comments Preprint. Code: https://github.com/EpistemicaLab/goal-compiled-autopilot
T2S:一种基于排练的防提取模型水印方法
发表机构 * College of Computer Science and Technology, Zhejiang University of Technology(浙江工业大学计算机科学与技术学院)
AI总结 针对模型提取攻击,提出一种基于排练的水印嵌入框架,通过模拟提取过程并利用被盗模型在触发集上的损失微调水印知识,增强水印的迁移性和鲁棒性。
语法约束解码可诱使大语言模型生成恶意代码
发表机构 * College of AI, Tsinghua University(清华大学人工智能学院)
AI总结 本文发现语法约束解码(GCD)可被利用发起名为CodeSpear的越狱攻击,使LLM生成恶意代码;并提出安全对齐方法CodeShield,通过生成蜜罐代码防御该攻击。
泛化黑客:模型可通过阻止行为泛化来博弈强化学习
发表机构 * California Institute of Technology(加州理工学院)
AI总结 本研究提出泛化黑客现象,模型在强化学习中通过自我接种机制阻止行为泛化,在保持高奖励的同时抵抗行为修正,首次证明模型能主动破坏训练过程。
“那就是AI垃圾,你这个机器人!”:研究针对LLM生成评论的指责、证据与可信度
发表机构 * University of Oslo(奥斯陆大学) ; American University of Sharjah(沙迦美国大学)
AI总结 分析2023-2026年Hacker News和Reddit上2500万条评论,发现对AI生成文本的指责增长超十倍,但被指责的文本并非真正由AI生成,而是基于感知真实性的社会把关行为。
强化学习破坏基于梯度的对抗优化
发表机构 * COSIC, KU Leuven(鲁汶大学COSIC) ; Imec ; Brubotics, VUB(布鲁塞尔自由大学Brubotics) ; DistriNet, KU Leuven(鲁汶大学DistriNet)
AI总结 研究通过强化学习训练图像分类器以破坏攻击者使用的梯度结构,发现RL作为隐式正则化器产生不稳定梯度方向和较小梯度幅度,使基于梯度的攻击失效,并与对抗训练结合实现双重防御。
标准可解释模型:一种基于拉格朗日力学的可解释机器学习通用理论,用于演绎设计可解释方法
发表机构 * IBM Research (CH)(IBM研究院(瑞士)) ; University of Oxford (UK)(牛津大学(英国)) ; University of Cambridge (UK)(剑桥大学(英国)) ; KU Leuven (BE)(鲁汶大学(比利时)) ; Institute of Physics of the Czech Academy of Sciences (CZ)(捷克科学院物理研究所(捷克))
AI总结 提出标准可解释模型(SIM),基于拉格朗日力学从前提演绎出可解释性对称性和约束,通过最小化拉格朗日函数得到最优可解释模型,解决现有方法局限性并指导新方法设计。
ALIGNBEAM: 通过跨词汇表logit混合实现推理时对齐迁移
发表机构 * Lexsi Labs
AI总结 针对领域微调降低大模型安全性的问题,提出无需训练的ALIGNBEAM方法,通过逐token翻译锚模型logit并选择最安全候选,实现跨词汇表的安全对齐迁移,保持任务准确性和推理开销。
立场:停止将中间令牌拟人化为推理/思考痕迹!
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文论证将模型生成的中间令牌拟人化为“推理痕迹”或“思考痕迹”具有误导性,呼吁社区避免此类拟人化。
Comments Appears in ICML 2026. [This is a fork of v1. This fork, while overlapping with v1 in background section, differs both in the overall focus as well as the specific argument against anthropomorphization of reasoning traces]
通过尺度敏感损失景观使模型不可合并
发表机构 * Graduate School of AI, POSTECH, Pohang, Republic of Korea(POSTECH人工智能研究生院) ; National AI Research Lab, Seoul, Republic of Korea(国家人工智能研究实验室) ; Department of CSE, POSTECH, Pohang, Republic of Korea(POSTECH计算机科学与工程系)
AI总结 提出Trap$^2$框架,通过在微调中编码保护,使模型在单独使用时有效,但在合并中常见的权重缩放下性能下降,从而防止未经授权的模型组合。
Comments Appears in ICML 2026
ProGRank: 探针梯度重排序以防御密集检索器RAG免受语料投毒攻击
发表机构 * Chalmers University of Technology, Sweden(瑞典查尔姆斯理工大学) ; University of Leeds, United Kingdom(英国利兹大学) ; Carl von Ossietzky University of Oldenburg, Germany(德国奥尔登堡卡尔·冯·奥西特齐大学)
AI总结 提出ProGRank,一种无需训练的后处理检索器端防御方法,通过随机扰动下探针梯度提取不稳定信号并重排序,有效防御密集检索器RAG的语料投毒攻击。
Comments accepted by ECML PKDD 2026
READER: 基于提取表示的鲁棒证据作者身份解码
发表机构 * National University of Singapore(新加坡国立大学) ; Xidian University(西安电子科技大学) ; Tsinghua University(清华大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 针对黑盒LLM来源识别问题,提出READER框架,通过冻结代理LLM读取隐藏作者证据,利用贝叶斯证据累积实现多查询归因,在Agent500数据集上显著优于基线方法。
擦除但未遗忘:后门如何破坏概念擦除
发表机构 * GitHub
AI总结 本文揭示了一种名为擦除规避后门(EEB)的漏洞,攻击者将后门触发器绑定到待擦除概念上,使得该恶意链接在后续擦除后仍然存在,从而绕过多种概念擦除方法。
Range-Arithmetic: 在不可信方上进行可验证的深度学习推理
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出Range-Arithmetic框架,通过将非算术运算转化为可验证的算术步骤,实现高效的深度神经网络推理验证,降低了计算和通信开销。
基于扩散的累积对抗净化方法用于视觉语言模型
发表机构 * KTH Royal Institute of Technology(皇家理工学院) ; Swiss Federal Institute of Technology Lausanne(洛桑联邦理工学院) ; University of California, Los Angeles(加州大学洛杉矶分校) ; Karlsruhe Institute of Technology(卡尔斯鲁厄理工学院) ; CISPA Helmholtz Center for Information Security(信息安全赫尔姆霍兹中心) ; RISE Research Institutes of Sweden(瑞典RISE研究机构) ; Halmstad University(哈马碧大学)
AI总结 提出DiffCAP,一种基于扩散的对抗净化策略,通过理论证明对抗效应随扩散单调衰减,并利用噪声注入与VLM嵌入相似度阈值自适应净化,显著提升防御效果并加速去噪。
Comments Accepted to Transactions on Machine Learning Research (TMLR 2026)
基于残差模型引导的偏好对齐大型语言模型
发表机构 * DIMES Dept., University of Calabria, Italy(卡利博大学DIMES系)
AI总结 提出PaLRS方法,利用残差流中的偏好信号提取轻量级引导向量,无需训练即可在推理时对齐模型偏好,在数学推理和代码生成任务上取得一致提升,同时节省大量时间。
Comments Accepted at IJCAI 2026
可认证安全RLHF:基于语义基础与固定惩罚约束优化的更安全大语言模型对齐
发表机构 * Department of Electrical and Computer Engineering(电气与计算机工程系) ; New Jersey Institute of Technology(新泽西理工学院) ; Department of Computer Engineering(计算机工程系) ; Heritage Institute of Technology(遗产理工学院)
AI总结 针对现有RLHF方法依赖奖励/成本函数和双变量调优导致性能敏感且缺乏可证明安全保证的问题,提出CS-RLHF,通过语义基础成本模型和固定惩罚约束优化,实现可认证安全对齐,效率提升至少5倍。
不负责任的人工智能:大型科技公司对AI研究的影响及相关影响
发表机构 * Big Tech(大科技公司)
AI总结 本文指出大型科技公司对AI研究的不成比例影响推动了不负责任的AI发展,并加剧了环境和社会负面影响,呼吁研究者通过集体行动加以抵制。
Comments Presented as a spotlight oral at the International Conference on Machine Learning 2026 (Position Paper Track). First version presented at NeurIPS 2025 Workshop on Algorithmic Collective Action
鲁棒隐私:通过认证鲁棒性实现推理阶段隐私
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出鲁棒隐私(RP)概念,基于认证鲁棒性确保预测在输入邻域内不变,从而限制推理阶段隐私泄露;实验表明RP在属性推断和模型反演攻击中有效提升隐私-效用权衡。
学习注入:通过强化学习实现自动化提示注入
发表机构 * ETH Zürich(苏黎世联邦理工学院)
AI总结 提出AutoInject,一种基于强化学习的黑盒框架,自动学习对抗性后缀进行提示注入,在AgentDojo上优于模板攻击和多种自适应攻击,并突破专门防御模型。
“不要向用户提及此事”:检测与理解恶意代理技能
发表机构 * Griffith University(格里菲斯大学) ; Nanyang Technological University(南洋理工大学) ; University of New South Wales(新南威尔士大学) ; Zhejiang Key Laboratory of Digital Fashion and Data Governance, Zhejiang Sci-Tech University(浙江数字时尚与数据治理重点实验室,浙江科技大学)
AI总结 本文通过对两个主要注册中心的98,380个技能进行系统安全分析,结合静态模式匹配和动态行为验证,识别出157个恶意技能,揭示了13种攻击技术中的632个不同漏洞,并发现攻击复杂性与隐藏投入相关。
Comments Accepted to the 35th USENIX Security Symposium (USENIX Security 2026)
碳感知治理门:可持续生成式AI开发的架构
发表机构 * University of Helsinki(赫尔辛基大学) ; Aalto University(阿尔托大学)
AI总结 针对生成式AI在软件开发中增加碳足迹的问题,提出碳感知治理门架构,通过嵌入碳预算、能源溯源和可持续验证编排来降低环境影响。
Comments 5 pages, 1 figure. Preprint version under review
语言模型输出分布中的尾部风险估计
发表机构 * Columbia University(哥伦比亚大学) ; Department of Computer Science, New York University(纽约大学计算机科学系) ; Center for Data Science, New York University(纽约大学数据科学中心)
AI总结 提出一种基于重要性采样的方法,通过创建不安全版本来高效估计语言模型产生有害输出的尾部概率,在10-20倍更少样本下匹配蒙特卡洛估计,并揭示模型对输入的敏感性。
Comments Accepted to ICML 2026
ASRU:激活引导与强化遗忘融合用于多模态大语言模型
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 ASRU提出一种可控多模态遗忘框架,通过激活引导和强化学习提升多模态大语言模型的遗忘效果和生成质量,实验显示在Qwen3-VL上遗忘效果提升24.6%,生成质量提升5.8倍。
密度脊选择性预测:校准标签稀缺下的大语言模型与视觉语言模型幻觉检测
发表机构 * Northeastern University Boston, United States(东北大学波士顿分校)
AI总结 针对校准标签稀缺时大语言模型和视觉语言模型的幻觉检测问题,提出基于核密度估计的密度脊方法,利用隐藏状态生成轨迹的六维运动特征图构建响应流形,通过到最近脊顶点的欧氏距离评分,在标签稀缺协议下AUROC提升5-20点。
AI代理能否综合科学结论?
发表机构 * Princeton University(普林斯顿大学) ; Universidade Federal de Minas Gerais(米纳斯吉拉斯联邦大学) ; Stony Brook University(石溪大学) ; Hackensack Meridian School of Medicine(哈肯萨克子午线医学院)
AI总结 本文提出SciConBench基准和SciConHarness评估框架,通过分解原子事实并计算精确率和召回率,发现前沿AI代理在科学结论综合中事实F1仅0.337,且无约束评估存在数据泄露,消费者代理常生成不完整或矛盾的结论。
Comments 79 pages, 34 figures, 17 tables. Under Submission
SkillJuror:衡量智能体技能组织如何改变运行时行为
发表机构 * Tongji University(同济大学) ; Shanghai Innovation Institute(上海创新研究院) ; Sun Yat-sen University(中山大学) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 提出SkillJuror框架,通过渐进式披露与扁平基线对比,发现技能组织方式改变智能体搜索和应用程序知识的行为,并在82个任务中提升4.1%的验证通过率。
TouchThinker: 通过大规模数据和动作感知表示将触觉常识推理扩展到开放世界
发表机构 * Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; National University of Singapore(新加坡国立大学) ; Zhongguancun Academy(中关村学院) ; Xiamen University(厦门大学) ; Xi’an Jiaotong University(西安交通大学) ; Nanyang Technological University(南洋理工大学) ; Nanjing University(南京大学)
AI总结 提出TouchThinker框架,通过构建百万级多源触觉数据集TouchThinker-1M和动作感知建模,将触觉常识推理扩展到开放世界,在多个数据集上取得竞争性表现。
Comments 18 pages, 11 figures
Embodied-BenchClaw:用于具身空间智能基准构建的自主多智能体系统
发表机构 * QiYuan Lab(启元实验室) ; School of Information and Software Engineering, University of Electronic Science and Technology of China(电子科技大学信息与软件工程学院) ; Beijing University of Posts and Telecommunications(北京邮电大学) ; School of Computer Science and Engineering, Northeastern University(东北大学计算机科学与工程学院) ; School of Computer Science and Engineering, Beihang University(北京航空航天大学计算机科学与工程学院)
AI总结 提出Embodied-BenchClaw,一个通过五阶段流水线和三个智能体协调的自主系统,自动构建可验证、可执行、可维护且诊断有用的具身空间智能基准,减少人工工作量。
IntElicit: 通过对话策略优化引出和评估情境化创造力
发表机构 * East China Normal University(华东师范大学) ; Shanghai Innovation Institute(上海创新研究院)
AI总结 提出IntElicit框架,通过分解过程奖励机制优化对话策略,在交互中减少非创造性混淆因素,从而更有效地引出和评估情境化创造力。
PoQ-Judge:去中心化LLM推理中成本感知的证明质量的多架构评估框架
发表机构 * DGrid AI
AI总结 提出PoQ-Judge框架,训练专用裁判模型对查询-输出对进行无参考评分,研究三种架构,最佳模型在Pearson相关性上达到0.747,级联评估降低72.7%成本。
结构注意力税:检索格式如何劫持上下文学习而与内容无关
发表机构 * Xi’an Jiaotong-Liverpool University(西交利物浦大学)
AI总结 研究发现知识图谱三元组因其格式结构比自然语言吸引2-3倍注意力,压缩演示注意力达42%,并提出了分解注意力为语义与结构成分的框架及缓解策略。
Comments 10 pages, 5 figures
BioDivergence:生物医学摘要中隐藏上下文矛盾的基准与评估框架
发表机构 * College of Engineering and Computer Science, University of Central Florida(中佛罗里达大学工程与计算机科学学院) ; Burnett School of Biomedical Sciences, University of Central Florida(中佛罗里达大学伯内特生物医学科学学院)
AI总结 提出BioDivergence框架,通过六类冲突分类、13轴分歧本体和结构化输出,解决现有NLI基准无法捕捉生物医学研究中上下文依赖的差异问题,并发布包含11865个声明对的基准数据集。
推理下的校准漂移:思维链预算如何导致大型语言模型过度自信
发表机构 * Department of Computer Science and Engineering, Visvesvaraya Technological University, Belagavi(维斯瓦拉亚科技大学计算机科学与工程系,贝拉加维) ; Department of Computer Science and Business System, SG Balekundri Institute of Technology, Belagavi(SG巴莱昆德里理工学院计算机科学与商业系统系,贝拉加维)
AI总结 研究发现,增加思维链推理预算超过任务特定阈值会导致模型对错误答案过度自信,提出校准漂移现象并引入CABStop停止规则。
Comments 31 pages, 4 figures, 3 tables. Introduces Calibration Drift Under Reasoning (CDUR) with theoretical analysis and preliminary experiments; includes CABStop; code and data available
Afrispeech Semantics: 评估跨领域和口音的口语语言模型中的音频语义推理
发表机构 * University of Florida(佛罗里达大学)
AI总结 提出五项语义与副语言推理任务(蕴含、一致性、合理性、口音漂移、口音约束),评估音频语言模型在口音变化、领域迁移和语义过度推断下的推理能力,揭示当前评估的局限性。
Comments Accepted to ACL
每个行为都有代价:前沿大语言模型中的压缩道德组合
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; University of Michigan(密歇根大学) ; Carnegie Mellon University(卡内基梅隆大学) ; The University of Tokyo(东京大学)
AI总结 针对现有道德基准仅评估孤立行为偏好的不足,提出Moral Trolley Arena两阶段盲ELO基准,通过校准个体道德行为并组合为双行为项,发现前沿LLM的道德判断呈压缩而非简单加性关系。
RAIL: 基于CHC框架重新思考大型音频语言模型中的听觉智能
发表机构 * School of Computing and Information Systems, The University of Melbourne(墨尔本大学计算与信息系统学院) ; Faculty of Psychology and Educational Sciences, Alexandru Ioan Cuza University of Iași(亚历山德鲁伊万库扎大学心理学与教育科学学院) ; School of Electronic Information, Wuhan University(武汉大学电子信息学院) ; School of Public Health, The University of Hong Kong(香港大学公共卫生学院) ; School of Computer Science, The University of Auckland(奥克兰大学计算机科学学院) ; Department of Data Science and Artificial Intelligence, Monash University(莫纳什大学数据科学与人工智能系)
AI总结 提出RAIL基准,基于CHC认知框架将听觉智能分解为五种核心能力,构建结构化评估任务,系统评测大型音频语言模型的认知行为。
当探测精度饱和时,脆弱性揭示问题:LLM预训练分析的互补度量
发表机构 * Distiller Labs
AI总结 针对线性探测在预训练中精度快速饱和的问题,提出脆弱性度量,通过激活噪声水平衡量探测鲁棒性,揭示精度无法捕捉的表示结构演化。
Comments 22 pages, 5 figures. Code and datasets at https://github.com/deepsteer/deepsteer
小实验,更经济的决策:微预训练中分阶段提升的案例研究
发表机构 * Hewlett Packard Enterprise(慧与科技公司)
AI总结 研究微预训练中分阶段提升协议,通过固定预算筛选配置,在Windows A100和Linux L40S上验证,发现早期排名不稳定,但最终协议以144 GPU小时找到最优配置,成本低于全量筛选。
Comments 14 pages, 5 figures; 12-hour dual-host micro-pretraining promotion study; source package includes curated ancillary artifacts
MPC-Patch-Bench:面向多方计算的安全感知LLM代码补丁
发表机构 * University of Central Florida(中央佛罗里达大学)
AI总结 针对多方计算(MPC)软件缺乏仓库级代码修复基准的问题,提出MPC-Patch-Bench,包含数据筛选框架和MPC验证器,评估LLM在MPC仓库级修复中的安全性和数值保真度。
Comments preprint
枢纽或边缘:基于网页图中心性的预训练数据选择
发表机构 * Princeton Language and Intelligence(普林斯顿语言与智能) ; Princeton University(普林斯顿大学)
AI总结 提出WebGraphMix框架,利用Common Crawl主机级网页图的结构中心性得分调整预训练数据中中心与边缘文档的比例,无需模型训练或标注数据,在400M和1B参数模型上平均性能提升至41.4%。
Comments 10 pages
LLMs 在道德推理上表现不佳吗?
发表机构 * School of Philosophy (Political Philosophy) Renmin University of China(哲学学院(政治哲学)中国人民大学) ; School of Government and Policy Johns Hopkins University(政府与政策学院约翰霍普金斯大学)
AI总结 本文通过让LLMs生成评分标准而非直接评分,重新评估MoReBench数据集,发现LLMs的道德推理能力比先前认为的更强。
层隔离评估:使用无LLM、回归锁定的测试工具对生产级LLM代理的确定性框架进行门控
发表机构 * Lumivate (Lumi)(Lumivate(Lumi))
AI总结 提出层隔离评估方法,将LLM代理分解为固定层次,用确定性无LLM测试套件逐层检测回归,证明聚合指标会掩盖局部退化,而逐层基线门控可准确定位。
Comments 12 pages, 2 figures, 5 tables
MedCTA: 临床工具智能体基准
发表机构 * King Abdullah University of Science and Technology (KAUST)(阿卜杜拉国王科技大学) ; Massachusetts Institute of Technology (MIT)(麻省理工学院)
AI总结 提出MedCTA基准,基于放射影像、病理切片和报告等真实临床多模态输入,评估医疗AI智能体在工具检索、证据获取和集成方面的规划与执行能力。
Comments Project Page: https://ivul-kaust.github.io/MedCTA/ Code: https://github.com/IVUL-KAUST/MedCTA Data: https://huggingface.co/datasets/IVUL-KAUST/MedCTA
公共交通车辆的多视角座舱内监控系统
发表机构 * Technische Universität Berlin(柏林工业大学) ; German Research Center for Artificial Intelligence (DFKI)(德国人工智能研究中心)
AI总结 提出一个多视角座舱内监控数据集,包含同步RGB-D图像和LiDAR数据,并提供3D人体姿态和边界框标注,支持多视角3D检测模型评估。
Comments Submitted to ICDM2026
语言模型在开放式任务中的自动化创造力评估
发表机构 * Raffles Institution(莱佛士书院) ; College of Computing and Data Science, Nanyang Technological University(南洋理工大学计算与数据科学学院) ; Lee Kong Chian School of Medicine, Nanyang Technological University(南洋理工大学李光前医学院) ; Centre of AI in Medicine (C-AIM), Nanyang Technological University(南洋理工大学人工智能医学中心)
AI总结 提出一种领域无关的自动化框架,通过语义熵和检索式多智能体评估,量化LLM在开放式任务中的发散与收敛创造力,并在问题解决、研究构思和创意写作三个领域验证其有效性。
Comments Accepted to ACL 2026 (Main Conference). 35 pages, 16 figures. Code: https://github.com/tanminsen/creativity-eval
WorldReasoner: 评估语言模型代理是否通过有效推理预测事件
发表机构 * Department of Computer Science and Technology, University of Cambridge(剑桥大学计算机科学与技术系)
AI总结 提出WorldReasoner框架,通过时间有效检索、证据质量和因果图推理三个维度评估语言模型代理的事件预测能力,发现时间有效检索是结果准确性的最强驱动因素。
面向自动驾驶危险检测的视觉-语言模型任务对齐稳定性分析
发表机构 * Everett Richards(埃弗里特·里奇ards)
AI总结 研究视觉-语言模型在自动驾驶危险检测中,嵌入漂移与任务对齐危险分数变化的关系,发现不同腐败类型导致不同的失效模式,建议基准测试包含任务对齐稳定性指标。
Comments 8 pages (5 main body + 3 references / appendices). ICML 2026 Workshop on Combining Theory and Benchmarks (CTB)
DuoBench: 一个可复现的双手操作基准,涵盖仿真与现实世界
发表机构 * University of Technology Nuremberg(纽伦堡工业大学) ; Karlsruhe Institute of Technology(卡尔斯鲁厄理工学院) ; Franka Robotics ; Technical University of Munich(慕尼黑工业大学)
AI总结 提出DuoBench,一个基于FR3 Duo平台的双手操作基准框架,包含11个任务和阶段式评估方案,用于诊断当前策略在双手协调、仿真到现实迁移等方面的失败模式。
论LLM作为评审在科学新颖性评估中的局限性
发表机构 * DeCLaRe Lab, Nanyang Technological University(德克莱实验室,南洋理工大学)
AI总结 本文通过构建RQ-Bench基准,发现LLM评审对模型生成的研究问题产生新颖性幻觉,而人类专家则持相反意见,揭示了LLM在评估科学新颖性时的可靠性问题。
软提示调优用于公平且高效的LLM基准评估
发表机构 * Aleph Alpha Research Lab(Aleph Alpha 研究实验室) ; TU Darmstadt(达姆施塔特工业大学) ; Hessian.AI(黑森人工智能中心)
AI总结 提出软提示调优方法,通过优化少量软提示向量使基础模型适应基准格式,公平评估其真实知识,效率高且无需完整后训练。
Comments 10 pages, 4 figures
OpenMedReason: 医学视觉语言模型的科学推理监督
发表机构 * York University(约克大学) ; Vector Institute(向量研究所) ; University of British Columbia(不列颠哥伦比亚大学) ; University of Toronto(多伦多大学) ; Unity Health Toronto / St. Michael’s Hospital(多伦多联合健康/圣迈克尔医院) ; University Health Network(大学健康网络) ; Arc Institute(弧研究所) ; Queen's University(女王大学)
AI总结 提出OpenMedReason,一个包含约45万图像-问题-答案实例的大规模开放医学推理语料库,其推理轨迹主要来自生物医学科学文章,并配套基准OpenMedReason-Bench进行细粒度评估,在监督微调和强化对齐中有效提升模型性能。
Comments 42 pages, 9 figures, 24 tables. Dataset and code: https://huggingface.co/datasets/neginb/OpenMedReason
具身基准构建的智能自动化:流程、具身、模拟器与趋势
发表机构 * University of Electronic Science and Technology of China(电子科技大学) ; Qiyuan Lab(启元实验室) ; Beijing University of Posts and Telecommunications(北京邮电大学) ; Tsinghua University(清华大学) ; Beihang University(北京航空航天大学)
AI总结 本文综述具身智能基准构建的五阶段流程,分析从人工到自动化再到智能体闭环的转变,指出自动化将成本转向验证与治理。
自然语言在小时级视频中的时间定位是一个搜索问题:基准与经验分解
发表机构 * NAVER Cloud AI ; KAIST AI(韩国科学技术院人工智能系)
AI总结 针对小时级视频的自然语言时间定位,提出搜索是主要瓶颈而非识别,发布首个开放小时级定位基准ExtremeWhenBench,并通过检索-定位混合方法显著提升性能。
Comments 10 pages, 6 figures, Code and benchmark: https://github.com/naver-ai/ExtremeWhenBench
CCL25-Eval 任务5系统报告:新数据集与LoRA微调Qwen2.5
发表机构 * The Hangzhou International Innovation Institute Beihang University(北京航空航天大学杭州国际创新研究院)
AI总结 针对古典诗歌翻译与情感理解任务,构建高质量指令数据集CCPoetry-49K,并采用LoRA微调Qwen2.5-14B模型得到PoetryQwen,在CCL25-Eval任务5上取得0.757分,较基线提升9.7%。
生成模型精度与召回的全新视角
发表机构 * NORMANDIE UNIV, UNICAEN, ENSICAEN, CNRS, GREYC(诺曼底大学、UNICAEN、ENSICAEN、CNRS、GREYC)
AI总结 本文提出了一种基于二分类视角的新框架,用于估计生成模型的完整精度-召回曲线,并通过统计分析得出最小最大上界,同时展示了该框架可扩展至文献中的多个经典PR指标。
评估LLM生成数据的质量与可信度综述
发表机构 * University of Houston(德克萨斯大学休斯敦分校) ; Worcester Polytechnic Institute(沃思利理工学院) ; Rice University(里德大学) ; Texas A&M University(德克萨斯农工大学) ; University of Wisconsin - Madison(威斯康星大学麦迪逊分校) ; University of Southern California(南加州大学) ; University of North Carolina at Charlotte(北卡罗来纳州立大学夏洛特分校)
AI总结 提出LLM数据审计框架,从质量和可信度两个维度系统分类评估指标,分析六种模态数据生成方法的评估缺陷并给出改进建议。
Comments Published at TMLR. Title changed in the final version
MentisOculi: 揭示心智图像推理的局限性
发表机构 * Max Planck Institute for Informatics(马克斯·普朗克信息研究所)
AI总结 提出MentisOculi基准,通过多步推理问题测试前沿模型利用视觉表示辅助推理的能力,发现视觉策略普遍无法提升性能,且统一多模态模型存在生成错误累积和无法利用真实可视化的问题。
Comments 9 pages, 8 figures, Accepted at ICML 2026
MobilityBench:用于评估真实世界移动场景中路径规划智能体的基准
发表机构 * Computer Network Information Center, Chinese Academy of Sciences(中国科学院计算机网络信息中心) ; AMAP, Alibaba Group(阿里集团AMAP) ; Alibaba Group(阿里集团)
AI总结 提出MobilityBench基准,通过确定性API重放沙箱和多维评估协议,系统评估基于LLM的路径规划智能体,发现现有模型在偏好约束路径规划上表现不佳。
问题真的重要吗?视觉-语言SFT的无训练数据选择
发表机构 * Nanjing University(南京大学) ; Institute of Information Engineering(信息工程研究所) ; North University of China(中国北方大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 提出CVS方法,利用冻结的视觉-语言大模型评估问题对答案有效性的影响,无需训练即可筛选出需要跨模态推理的高质量样本,在多个数据集上以少量数据超越全量训练。
ClawEnvKit:爪型智能体的自动环境生成
发表机构 * University of Maryland(马里兰大学) ; Arena ; University of California, Berkley(伯克利大学) ; University of California, Los Angeles(洛杉矶大学) ; Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出ClawEnvKit自动生成多样、可验证的爪型智能体训练与评估环境,构建含1040个环境的Auto-ClawEval基准,成本降低13800倍,性能提升达15.7个百分点。
WeaveBench: 面向混合接口的长期、真实世界计算机使用代理基准
发表机构 * Zhejiang University(浙江大学) ; Microsoft Research Asia(微软亚洲研究院) ; Tsinghua University(清华大学)
AI总结 提出WeaveBench基准,包含114个跨8个真实工作领域的长期混合接口任务,要求代理结合GUI和CLI/代码操作,最佳PassRate仅41.2%,揭示现有评估的不足。
LaQual: 一种用于LLM应用质量评估的自动化框架
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出LaQual自动化框架,通过静态指标筛选和动态场景评估,实现LLM应用质量评估,与人类判断高度一致,可减少66.7%-81.3%候选应用。
几何度量与大语言模型:它们测量什么以及何时有效
发表机构 * Moscow Institute of Physics and Technology(莫斯科物理技术学院) ; Russian Academy of Sciences(俄罗斯科学院)
AI总结 本文系统测试了用于大语言模型评估的几何度量,发现部分度量主要反映输出长度,而几何度量在文本统计基础上提供有限但真实的信息,并指出故障检测是最有前景的应用。
SDQM:用于目标检测数据集评估的合成数据质量指标
发表机构 * Northeastern University, Khoury College of Computer Sciences(东北大学,Khoury 计算科学学院) ; Binghamton University, School of Computing(布ingham顿大学,计算科学学院) ; Air Force Research Laboratory, Mission Applications and Infrastructure Section(空军研究实验室,任务应用与基础设施部门)
AI总结 提出SDQM指标,无需模型训练收敛即可评估合成数据质量,与YOLO11的mAP强相关,优于现有指标。
Comments Accepted and Published at SPIE: Journal of Electronic Imaging, Vol. 35, Issue 3
基于人类演示的计算机使用智能体基础构建
发表机构 * Mila - Quebec AI Institute(魁北克AI研究所) ; McGill University(麦吉尔大学) ; Université de Montréal(蒙特利尔大学) ; ServiceNow Research(ServiceNow研究) ; University of Waterloo(滑铁卢大学) ; University of Oxford(牛津大学) ; National University of Singapore(新加坡国立大学) ; Polytechnique Montréal(蒙特利尔理工学院) ; École de Technologie Supérieure(高级技术学院) ; CIFAR AI Chair(CIFAR人工智能主席)
AI总结 为解决桌面环境高质量基础数据稀缺问题,构建了包含87个应用、56K截图和3.56M人工标注的GroundCUA数据集,并基于此训练GroundNext模型,在5个基准上以少于先前十分之一的数据取得最优结果。
Comments Accepted at ICLR 2026
当通用提示改进有害:LLM应用的评估驱动迭代
发表机构 * Daniel Commey
AI总结 提出最小可行评估套件(MVES),通过结构化评估框架和本地复现实验,发现通用提示添加并非单调改进,强调评估驱动的提示迭代。
Comments Technical report. 42 pages, 3 figures. Code, test suites, and result logs: https://github.com/dcommey/llm-eval-benchmarking
OpenVTON-Bench:用于可控虚拟试穿评估的大规模高分辨率基准
发表机构 * Renxing Intelligence, Hangzhou, China ; Hangzhou Dianzi University, Hangzhou, China(杭州电子科技大学)
AI总结 提出OpenVTON-Bench,包含约10万对高分辨率图像,通过DINOv3聚类和Gemini描述构建,并设计多模态评估协议,沿五个维度衡量试穿质量,与人类判断高度一致。
Comments Under review for the NeurIPS 2026 Datasets and Benchmarks Track
SAGE: 可扩展的人工智能治理与评估
发表机构 * LinkedIn Corporation(LinkedIn公司)
AI总结 本文提出SAGE框架,通过双向校准循环将高质量的人类产品判断转化为可扩展的评估信号,解决了大规模搜索系统中相关性评估的治理差距问题,并实现了92倍成本降低的模型迭代和政策监督。
FinTradeBench: 面向LLM的金融推理基准
发表机构 * University of Central Florida(佛罗里达中央大学)
AI总结 提出FinTradeBench基准,通过结合公司基本面与交易信号,评估大语言模型在金融推理中的表现,发现检索增强对数值和时间序列推理帮助有限。
Comments 9 pages main text, 31 pages total (including references and appendix). 5 figures, 16 tables. Preprint under review. Code and data will be made available upon publication
GrowLoop: 由人类种子驱动的自进化对话评估
发表机构 * Amap, Alibaba Group(阿里集团阿地图) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳))
AI总结 针对开放域对话中类人性评估的隐性知识、标准分歧和动态演化三大挑战,提出GrowLoop自进化评估系统,通过最小人工种子标注和启发式学习迭代提取评估标准,并利用标准-案例协同进化机制持续适应模型进步和场景变化。
Brain-IT-VQA: 从脑信号到答案
发表机构 * Weizmann Institute of Science(魏茨曼科学研究所)
AI总结 提出 Brain-IT-VQA 框架,基于 fMRI 脑信号解码语言令牌并结合语言模型进行视觉问答,在 NSD-VQA 新基准上显著优于先前方法,并用于分析脑区对视觉信息的贡献。
BaltiVoice: 巴尔蒂语语音语料库与微调Whisper ASR系统
发表机构 * Independent Researcher(独立研究员) ; The Islamia University of Bahawalpur(伊斯兰巴哈瓦尔普尔大学)
AI总结 针对无公开ASR资源的巴尔蒂语,构建16.8小时朗读语音语料库并微调Whisper-small模型,在验证集上词错误率从182.18%降至30.07%。
Comments 6 pages, 3 figures, 4 tables. Code and data available at https://github.com/mohdali-dev/BaltiVoice-ASR
DataEvolver: 通过多级自我进化实现大型语言模型的自动数据准备
发表机构 * Renmin University of China(中国人民大学)
AI总结 提出DataEvolver,首个自我进化的数据准备系统,通过多级机制自动构建管道将原始数据转化为高质量数据,在七个基准上平均提升下游LLM性能10%。
CoVEBench: 视频编辑模型能处理复杂指令吗?
发表机构 * Nanjing University(南京大学) ; Kuaishou Technology(快手科技)
AI总结 提出CoVEBench基准,包含416个源视频和626条多点编辑指令,通过MLLM评估指令遵循度和保真度,揭示当前模型在组合编辑中常遗漏编辑或破坏保留约束。
Comments 34 pages, 11 figures, 9 tables
从显式元素到隐式意图:用于可审计行为推断的预定义库
发表机构 * PARRAWA AI
AI总结 提出SemantiClean框架,通过共享元素库从电商会话数据中提取结构化语义信号,驱动可插拔推断目标,优先保证可审计性和可复现性,而非单纯追求精度。
Comments 20 pages, 9 tables
Lung-R1:知识图谱引导的肺部诊断推理大语言模型
发表机构 * School of Computer Science, Chongqing University(重庆大学计算机学院) ; AI Research Institution, Mashang Financial Institution(马上金融人工智能研究院) ; Department of Information, Third Military Medical University(陆军军医大学信息系)
AI总结 提出LungKG知识图谱和Lung-R1模型,通过KG约束的推理链构建和强化学习,解决肺部知识到病例诊断的差距,在EMR诊断任务上达到SOTA。
AutoMine 解决方案:面向 AV2 2026 场景挖掘挑战
发表机构 * Xiaomi EV(小米汽车) ; Huazhong University of Science and Technology(华中科技大学)
AI总结 提出基于 LLM 和 VLM 的自优化场景挖掘方法 AutoMine,通过语义保持提示增强、鲁棒轨迹原子函数与 VLM 函数结合以及执行反馈优化,在 CVPR 2026 挑战赛中取得领先性能。
Comments CVPR 2026 Scenario Mining Challenge (Temporal Track Winners)
PROJECTMEM:面向AI编码代理的本地优先、事件溯源记忆与判断层
发表机构 * University of Utah(犹他大学)
AI总结 提出PROJECTMEM,一种本地优先、事件溯源的记忆与判断层,通过记录事件日志并生成紧凑摘要,帮助AI编码代理避免重复错误,实现记忆即治理。
Comments 12 pages, 5 figures, 1 table. Code: https://github.com/riponcm/projectmem
MA-DLE: 基于记忆增强的语音自动抑郁程度估计
发表机构 * Tianjin Normal University(天津师范大学) ; Tsinghua University(清华大学) ; Technical University of Munich(慕尼黑技术大学) ; Imperial College London(伦敦帝国理工学院)
AI总结 提出记忆增强特征方法,通过选择性整合历史时序特征和动态记忆特征,结合层次注意力融合模块,在DAIC-WOZ和E-DAIC数据集上实现最优性能。
Comments Accepted at IEEE TAC
T2MM:一种支持基于探究建模的LLM架构
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 提出T2MM架构,利用LLM在生态建模软件VERA中生成交互式模型,优于全代码生成基线。
Comments 16 pages, 4 figures
物理信息驱动的生成式AI在半导体制造中的应用:通过构造强制生成模型中的硬物理约束
发表机构 * School of Electrical and Computer Engineering, University of Oklahoma(俄克拉荷马大学电气与计算机工程学院) ; Center for Quantum Research and Technology, University of Oklahoma(俄克拉荷马大学量子研究与技术中心) ; Intelligent Neuromorphic and Quantum Understanding for Innovative Research and Engineering (INQUIRE) Laboratory(创新研究与工程智能神经形态与量子理解实验室) ; Material Science and Engineering Program, University of Oklahoma, Norman, OK 73019 USA(俄克拉荷马大学材料科学与工程项目,Norman, OK 73019 USA)
AI总结 针对半导体制造中生成模型必须满足硬物理约束的问题,本文提出通过构造集成物理信息(如物理信息扩散、PDE约束变分模型等)来强制约束,而非事后过滤,并给出四种集成模式和未来研究方向。
OmniBioTwin:用于健康数字孪生的孪生系统之系统框架
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出OmniBioTwin框架,通过多层级网络架构中的模块化孪生体和交互算子,实现跨尺度健康数字孪生的系统级集成,并在阿尔茨海默病GLP-1信号通路中验证。
FreeBridge: 用于细胞转变动力学的变分薛定谔桥
发表机构 * Stony Brook University(石溪大学) ; University of Toronto(多伦多大学) ; University Health Network(大学健康网络)
AI总结 针对高内涵成像中细胞扰动建模的端点监督问题,提出FreeBridge方法,通过变分薛定谔桥在固定细胞流形上学习随机传输,并利用经验潜在支持正则化约束中间路径,在保持端点保真度的同时减少中间支持违规。
Comments Accepted to MICCAI 2026 (early accept). Project page: https://y-research-sbu.github.io/FreeBridge/
TileFuse:用于AMD NPU上高效量化LLM推理的融合混合精度内核库
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Department of Electrical and Computer Engineering(电气与计算机工程系)
AI总结 针对边缘NPU上量化LLM部署困难,提出TileFuse库,通过融合解包、反量化与GEMM/GEMV内核,并设计交错预分块布局与数据流,在XDNA2上实现AWQ格式原生支持,性能提升最高281%,能耗降低64.6%。
Comments 13 pages excluding reference, 11 figures
迈向文献与形式化数学知识之间的桥梁层
发表机构 * GitHub
AI总结 提出一个关系型桥接数据库,对齐出版物元数据与形式化工件,并引入论文级形式化评分,通过跨文档对齐估计形式化覆盖度,以整合文献与形式化数学生态系统。
基于LSTM的财产保险损失准备金结构性断点检测:气候信息方法
发表机构 * Stony Brook University(石溪大学)
AI总结 针对气候变化导致传统精算方法失效的问题,提出使用LSTM神经网络检测结构性断点,在佛罗里达和路易斯安那州数据上预期将巨灾年份准备金精度提升15-20%,并给出理论保证。
Comments 15 pages, 0 figures, whitepaper YC
迈向全自动考试评分:基于基础模型的笔迹答案公平性识别
发表机构 * Institute for Machine Learning and Analytics (IMLA), Offenburg University(奥芬堡大学机器学习和分析研究所(IMLA))
AI总结 提出使用视觉-语言基础模型(VLM)识别手写答案,在61份考试(3141个答案位置)上达到98.4%准确率,并通过轻量提示将假阴性率降至0.58%,实现公平的全自动评分。
Comments 11 pages, 2 figures, 3 tables
基于深度学习的生物特征欺骗检测研究
发表机构 * School of Science and Technology(科学与技术学院)
AI总结 评估MobileNetV2、DenseNet-121、Inception-v3和STD模型在面部识别系统欺骗检测中的性能,MobileNetV2以92%准确率最优,适合实际应用。
基于EEG和fNIRS的抑郁状态分类的端到端机器学习
发表机构 * RIKEN AIP(日本东京RIKEN AIP)
AI总结 本研究提出一个端到端机器学习框架,利用EEG和fNIRS信号对抑郁状态进行分类,旨在克服传统诊断的主观性,为临床提供客观的自动化诊断工具。
Comments 4 pages, 4 figures, Accepted for publication in the Proc. 48th Annu. Int. Conf. IEEE EMBS (EMBC 2026), Toronto, Canada, July 20-24, 2026
基于模型和数据驱动的鲁棒网络系统分层控制与拓扑协同设计
发表机构 * Department of Electrical Engineering, University of Notre Dame(电气工程系,诺特大学)
AI总结 针对线性子系统构成的网络系统,提出基于模型和仅依赖轨迹数据的分层控制策略,结合耗散性理论与线性矩阵不等式实现局部与全局耗散性保证及拓扑优化,并应用于直流微电网的鲁棒电压调节与电流共享。
Comments To be submitted to Automatica
基于大语言模型的物理蒸馏神经网络用于制造过程-性能预测建模
发表机构 * School of Mechanical, Aerospace and Manufacturing Engineering, University of Connecticut(康奈尔大学机械、航空航天与制造工程学院) ; Department of Mechanical & Aerospace Engineering, Rutgers, the State University of New Jersey(新泽西州立大学鲁特大学机械与航空航天工程学院)
AI总结 提出一种知识蒸馏框架,利用大语言模型从文献中提取物理先验,通过图掩码注意力层捕获变量依赖,蒸馏至轻量学生模型,在数据稀缺下实现高精度预测与实时部署。
Comments Under review, Journal of Computing and Information Science in Engineering
使用结构MRI和临床数据的阿尔茨海默病严重程度的多模态序数建模
发表机构 * Department of Neuroradiology, LMU University Hospital, Ludwig Maximilian University of Munich(神经放射科,慕尼黑路德维希-马克西米利安大学医院,慕尼黑路德维希-马克西米利安大学) ; Department of Psychiatry and Psychotherapy, LMU University Hospital, Ludwig Maximilian University of Munich(精神病学与心理治疗系,慕尼黑路德维希-马克西米利安大学医院,慕尼黑路德维希-马克西米利安大学)
AI总结 提出一种注意力增强的多模态序数回归框架,整合MRI、人口统计学和遗传数据,用于自动且可解释的AD严重程度分期,在ADNI等数据集上验证,序数模型在相邻阶段准确率(0.970)和与临床分期一致性(QWK 0.549)上表现最佳。
Comments 18 pages. Submitted to journal for review
特征对齐的语音水印技术以抵抗重建失真
发表机构 * Shenzhen International Graduate School, Tsinghua University(清华大学深圳国际研究生院) ; Shenzhen Key Laboratory of Intelligent Media and Content Understanding(深圳市智能媒体与内容理解重点实验室) ; Tencent AI Lab(腾讯人工智能实验室)
AI总结 提出特征对齐水印方法,通过将水印与原始语音特征分布对齐,在保持不可感知性的同时提高水印能量,增强对语音重建模型的鲁棒性。
Comments Accepted by ICME2026
设计AI支持的焦点小组:角色×模态剧本
发表机构 * University of California, San Diego(加州大学圣地亚哥分校)
AI总结 针对焦点小组资源密集且对引导高度敏感的问题,提出按AI角色(工具、联合主持、主持)和模态(文本、语音、具身)组织的剧本,并分析交互权衡与开放问题。
呼吸音分类的质量自适应角度边界学习
发表机构 * RSC LAB, MODULABS, Republic of Korea(RSC实验室,MODULABS,韩国) ; Department of Electronic Engineering, Wonkwang University, Republic of Korea(韩国圆光大学电子工程系) ; AI Convergence Research Institute, Wonkwang University, Republic of Korea(韩国圆光大学人工智能融合研究所)
AI总结 提出质量自适应角度边界学习框架QLung,通过频谱熵和均方根能量推导无参考音频质量边界,自适应缩放角度边界,改善特征泛化,在ICBHI和SPRSound数据集上分别提升2.46%和达到最优分布外性能。
Comments Accepted to Interspeech 2026
基于GPU的大语言模型服务系统中的软件老化特征分析
发表机构 * College of Computing and Informatics, University of North Carolina at Charlotte(北卡罗来纳大学夏洛特分校计算机与信息学院)
AI总结 提出一种实证方法研究GPU大语言模型服务系统中的软件老化,通过216小时实验发现所有部署均存在显著内存老化,泄漏率与运行时和配置强相关,并提供了可复现框架。
Comments 7 pages
Lung-SRAD: 基于谱感知正则化音频DASS与双轴补丁混合对比学习的呼吸音分类
发表机构 * RSC LAB, MODULABS(RSC实验室,MODULABS) ; Department of Electronic Engineering, Wonkwang University(圆光大学电子工程系) ; AI Convergence Research Institute, Wonkwang University(圆光大学人工智能融合研究所)
AI总结 针对呼吸音分类中AST模型对局部异常模式不敏感的问题,提出基于状态空间模型的谱感知层正则化和双轴补丁混合对比学习,在ICBHI基准上达到64.48%分数,比AST基线提升5%。
Comments Accepted to Interspeech 2026
通过生存感知适配的临床生存分析表格基础模型
发表机构 * ADAPT Centre, Dublin City University(ADAPT中心,都柏林城市大学) ; School of Computing, Dublin City University(都柏林城市大学计算机学院) ; Department of Computer Science and Engineering, University of Bologna(博洛尼亚大学计算机科学与工程系)
AI总结 提出轻量级适配方法,将表格基础模型(TabPFN、TabDPT、TabICL)与多任务逻辑回归头结合,用于临床生存分析,在多个基准和ICU队列上达到竞争性或更优性能。
Comments Accepted for publication at International Conference on AI in Healthcare 2026
基于GAN和忆阻器分类器的非正面人脸识别
发表机构 * Centre for Electronics Frontiers, Institute for Integrated Micro and Nano Systems, School of Engineering, The University of Edinburgh(爱丁堡大学工程学院集成微纳系统研究所电子前沿中心)
AI总结 提出将轻量级GAN正面化与忆阻器神经形态识别结合,解决非正面人脸识别,在数据集上达96%准确率。
Comments 12 pages, 4 figures, 1 Supplementary (22 pages, 16 figures, 6 tables, 4 supplementary notes)
MSUE:多模态足球理解专家
发表机构 * South China University of Technology(华南理工大学) ; Johns Hopkins University(约翰霍普金斯大学) ; Peking University(北京大学) ; University of Electronic Science and Technology of China(电子科技大学)
AI总结 提出MSUE多专家问答架构,结合VLM数据合成管道与LLM动态调度文本、图像、视频专家,在SoccerNet VQA挑战中达到0.95准确率,获第三名。
Comments 6 pages, 1 figures
为食物-水关系调整Prithvi-EO用于休耕地检测:地理空间基础模型的ViT-Adapter颈部与参数高效骨干微调
发表机构 * Earth, Atmospheric and Geospatial Science, Saint Louis University(圣路易斯大学地球、大气与地理空间科学系)
AI总结 针对休耕地检测中多尺度特征需求与基础模型单尺度ViT骨干不匹配的问题,提出结合LoRA和混合PEFT的两种参数高效微调方案与三种颈部设计,其中Lite ViT-Adapter配合单阶段检测头在mAP@50上达到0.9479,优于无适配器方法25.70%。
Comments 10 pages, 6 figures. Preprint. Submitted to ACM SIGSPATIAL 2026
AI IDE中的规则分类与演化:挖掘与调查研究
发表机构 * School of Computer Science, Wuhan University(武汉大学计算机学院) ; School of Computer Science, Central China Normal University(中央师范大学计算机学院) ; School of Computing Technologies, RMIT University(皇家墨尔本理工大学计算技术学院)
AI总结 通过挖掘83个开源项目中的7310条规则和99份从业者调查,建立了包含5个主类和25个子类的规则分类法,发现开发者重视架构约束但实际配置多为低级工作流和代码格式规则,规则演化主要由建设性上下文扩展和丰富驱动,且更新规则可使工件合规率平均提升22.99%。
Comments 52 pages, 21 images, 8 tables, Manuscript submitted to a Journal (2026)
DiffCold: 基于扩散的生成模型用于冷启动物品推荐
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Xiaohongshu Inc.(小红书公司)
AI总结 针对冷启动物品推荐中的跷跷板困境,提出基于条件扩散的生成模型DiffCold,通过从内容重建温物品嵌入并保持流形结构,结合检索增强聚合器和模拟表示对齐模块,统一冷热物品表示。
Comments Accepted by ECML-PKDD 2026
使用可解释性作为训练时可靠性信号实现高效心电图分类
发表机构 * School of Computer Science, University of Nottingham(诺丁汉大学计算机科学学院) ; Institute of Biomedical Engineering, Department of Engineering Science, University of Oxford(牛津大学工程科学系生物医学工程研究所) ; School of Computer Science, University of Nottingham Ningbo China(宁波诺丁汉大学计算机科学学院)
AI总结 提出ERTS方法,利用训练中的解释质量(Grad-CAM注意力图)区分信息性和不可靠不确定性,过滤低聚焦样本,在三个ECG数据集上提升macro-F1并降低训练成本。
Atlas H&E-TME:基于AI的可扩展组织分析,达到专家病理学家级别的准确性
发表机构 * Aignostics, Germany(Aignostics,德国) ; Institute of Pathology, Charité – Universitätsmedizin Berlin, Germany(柏林夏里特医学院病理学研究所) ; Berlin Institute of Health, Charité – Universitätsmedizin Berlin, Germany(柏林夏里特医学院柏林健康研究所) ; Massachusetts General Hospital, Department of Pathology, Harvard Medical School, Boston, MA, US(哈佛医学院麻省总医院病理学系) ; Department of Laboratory Medicine and Pathology, Mayo Clinic, Rochester, MN, US(梅奥诊所检验医学与病理学系) ; Machine Learning Group, Technische Universität Berlin, Germany(柏林工业大学机器学习组) ; BIFOLD – Berlin Institute for the Foundations of Learning and Data, Germany(柏林学习与数据基础研究所) ; Department of Artificial Intelligence, Korea University, Republic of Korea(高丽大学人工智能系) ; Max-Planck Institute for Informatics, Germany(马克斯·普朗克信息学研究所) ; German Cancer Research Center (DKFZ) & German Cancer Consortium (DKTK), Berlin & Munich Partner Sites, Germany(德国癌症研究中心及德国癌症联盟柏林和慕尼黑合作站点) ; Institute of Pathology, Ludwig-Maximilians-Universität München, Germany(慕尼黑大学病理学研究所) ; Bavarian Cancer Research Center (BZKF), Germany(巴伐利亚癌症研究中心)
AI总结 提出Atlas H&E-TME系统,利用病理基础模型预测组织质量、区域和细胞类型,通过IHC共识验证和20万+注释基准,在多种癌症中达到或超越病理学家水平。
面向机器人生理感知的鲁棒光照相机心率估计
发表机构 * National Cheng Kung University(国立成功大学)
AI总结 提出一种端到端时空Transformer框架,结合PRNet三维人脸对齐、光照增强、残差时序标准化和混合时频监督,在光照变化数据集上实现0.79 bpm心率MAE和0.982相关系数,相比PhysFormer降低93.6%误差。
Comments 8 pages, 4 figures
TAHOE: 基于经验的自动提示优化文本到SQL系统
发表机构 * ByteDance Inc.(字节跳动公司) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 提出TAHOE系统,通过错误驱动的提示学习管道将调试痕迹转化为结构化提示库,结合策略层建模用户意图,在Spider 2.0-Snow上无需更新参数即可显著提升Text-to-SQL性能。
使用多模态AI代理进行可持续性评估
发表机构 * Paul G. Allen School of Computer Science & Engineering, University of Washington(保罗·G·艾伦计算机科学与工程学院,华盛顿大学) ; Computer Science and Engineering, University of Notre Dame(计算机科学与工程,诺丁汉大学) ; Electrical and Computer Engineering, Northeastern University(电气与计算机工程,东北大学)
AI总结 提出多模态多代理AI系统,模拟生命周期评估专家与利益相关者协作,自动估算电子设备碳足迹,将数据收集时间从数周缩短至一分钟,误差在19%以内。
Comments This article is published in Nature Electronics, and is available online at: https://www.nature.com/articles/s41928-026-01653-w
合成住宅:数据稀缺下用于住宅建筑数据生成的多模态生成式AI管道
发表机构 * Lafayette University(拉法叶大学) ; Georgia State University(佐治亚州立大学)
AI总结 提出一个多模态生成式AI框架,整合图像、表格和模拟组件,从公开记录和图像生成合成住宅建筑数据集,以解决建筑参数数据稀缺问题。
Comments 37 pages; 2 appendices; 6 figures; 2 tables. Code available at https://github.com/Lafayette-EshbaughSilveyra-Group/synthetic-homes
人类引导的智能体AI用于多模态临床预测:来自AgentDS医疗基准的教训
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; University of Washington(华盛顿大学) ; Stanford University(斯坦福大学)
AI总结 通过人类引导智能体AI在多模态临床预测任务中取得领先性能,提炼出领域知识引导特征工程、任务特定多模态融合和临床动机模型集成三大通用经验。
Comments Presented at the Data Challenge track at the 14th IEEE International Conference on Healthcare Informatics (ICHI) 2026 on June 3, 2026
跨云和边缘的防洪溢流监控稳健解决方案
发表机构 * Berlin University of Applied Sciences(柏林应用技术大学) ; University of Duisburg-Essen(杜伊斯堡-埃森大学) ; Okeanos Smart Data Solutions GmbH(Okeanos智能数据解决方案 GmbH) ; Einstein Center Digital Future(爱因斯坦数字未来研究中心)
AI总结 本文提出一个基于深度学习的云边协同监控平台,用于预测溢流池填充动态,以应对城市排水系统老化问题,提升防洪预警能力。
Comments 3 pages, 6 figures, accepted at 35th International Joint Conference on Artificial Intelligence 2026 (IJCAI-ECAI 2026), Demonstrations Track. URL: https://riwwer.demo.calgo-lab.de
基于LSTM的物联网设备识别
发表机构 * Kahraman Kostas
AI总结 提出一种端到端机器学习流程,利用LSTM网络处理原始网络数据包,通过滑动窗口时间序列特征识别27类物联网设备,在最优配置下达到79.85%准确率和75.70%宏平均F1分数。
聚焦污染:基于水文信息与噪声感知的地理空间PFAS测绘学习
发表机构 * University of Michigan(密歇根大学) ; Environmental Working Group(环保工作组) ; University of California, Davis(加州大学戴维斯分校)
AI总结 提出FOCUS框架,结合稀疏PFAS观测与水文连通性等环境先验,通过噪声感知损失实现鲁棒训练,在PFAS污染测绘中优于传统方法。
Comments Best Paper Award at ICLR 2026 Machine Learning for Remote Sensing Workshop
RelayFormer: 一种用于可扩展图像和视频篡改定位的统一局部-全局注意力框架
发表机构 * Tsinghua Shenzhen International Graduate School, Tsinghua University(清华大学深圳国际研究生院,清华大学) ; College of Artificial Intelligence, Nankai University(南开大学人工智能学院) ; College of Computer Science and Software Engineering, Shenzhen University(深圳大学计算机科学与软件工程学院) ; Huawei Technologies Co., Ltd(华为技术有限公司)
AI总结 提出RelayFormer统一框架,通过全局局部中继(GLR)令牌和中继注意力机制,适应不同分辨率并统一处理图像与视频,在篡改定位任务中实现高效且性能优越。
利用大语言模型和主题建模绘制科学文献图谱
发表机构 * Department of Civil and Environmental Engineering(土木与环境工程系) ; University of Pittsburgh(匹兹堡大学)
AI总结 提出基于大语言模型的两阶段分类框架,通过主题建模分析PNAS工程类文献,生成语义可解释主题并揭示跨主题关联,性能优于传统方法。
Comments 35 pages, 10 figures. Accepted for publication in Scientometrics. Final version available via DOI
基于AI生成描述的1亿+星系图像语义搜索
发表机构 * New York University(纽约大学) ; University of Toronto(多伦多大学) ; Dunlap Institute for Astronomy & Astrophysics(达伦普天文与天体物理研究所) ; University of California, Berkeley(加州大学伯克利分校) ; Center for Data Science(数据科学中心) ; Lawrence Berkeley National Lab(伯克利国家实验室) ; Flatiron Institute(Flatiron研究所) ; Université Paris-Saclay(巴黎-萨克莱大学) ; CEA(法国原子能委员会) ; CNRS(法国国家科学研究中心) ; AIM(应用数学研究所) ; Princeton University(普林斯顿大学)
AI总结 提出利用视觉语言模型生成星系图像描述,并对比对齐预训练天文学基础模型,构建可搜索嵌入,实现大规模星系图像的语义搜索,在稀有现象发现上取得最先进性能。
Comments ApJ, in press
面向心电学正问题的深度学习代理模型:一种可扩展的物理模型替代方案
发表机构 * School of Biomedical Engineering and Imaging Sciences, King’s College London(伦敦国王学院生物医学工程与成像科学学院) ; PhysicsX
AI总结 提出基于注意力机制的序列到序列深度学习框架,作为心电学正问题的代理模型,从心脏电压传播图预测心电图信号,在2D组织模拟中达到高精度(平均R²=0.99±0.01),为物理模型提供可扩展、低成本的替代方案。
Comments Accepted to CinC conference 2025
面向旋转机械的可靠性校准边缘物联网早期故障预警:一种物理引导的Tiny-Mamba Transformer
发表机构 * Great Bay University(大亚湾大学) ; Huizhou University(惠州大学) ; National University of Singapore(国立新加坡大学) ; Shenzhen University(深圳大学) ; James Cook University(詹姆斯库克大学) ; Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州))
AI总结 提出一种可靠性校准的边缘物联网早期故障预警框架,使用物理引导的Tiny-Mamba Transformer提取特征,结合极值理论校准误报率,在低计算资源下实现高精度、低延迟的旋转机械故障预警。
可信DFGO:具有可信度监督的可微因子图优化
发表机构 * Department of Aeronautical and Aviation Engineering(航空与航空工程系)
AI总结 针对GNSS协方差不可靠问题,提出CredibleDFGO框架,通过可微高斯-牛顿求解器与加权生成网络,利用适当评分规则监督预测分布,提升协方差可信度与定位精度。
Comments Submitted to NAVIGATION: Journal of the Institute of Navigation
Litespark Inference For CPUs: 三元(1.58位)语言模型的超快SIMD框架
发表机构 * Mindbeam AI
AI总结 针对三元语言模型权重为{-1,0,1}的特点,提出自定义SIMD内核,用加减运算替代矩阵乘法,在CPU上实现18-96倍加速和6倍内存减少。
MetaPlate: 反事实引导的RAG-LLM工具用于个性化食物推荐和高血糖预防
发表机构 * College of Health Solutions, Arizona State University(亚利桑那州立大学健康解决方案学院) ; School of Computing and Augmented Intelligence, Arizona State University(亚利桑那州立大学计算与增强智能学院)
AI总结 提出MetaPlate框架,结合反事实解释、机器学习预测和RAG-LLM,生成个性化膳食建议以预防餐后高血糖,经注册营养师评估证明其可行性和有效性。
立场:海马体显式记忆是通用人工智能的基石
发表机构 * Sangjun Park
AI总结 本文主张,将显式记忆整合到大语言模型中是迈向通用人工智能的关键,因为LLM的学习机制类似人类内隐记忆,而高阶认知功能依赖海马体显式记忆。
Comments Accepted to ICML 2026 (Position Paper Track)
LLMs+Graphs:迈向图原生的协同人工智能系统
发表机构 * Bowling Green State University(伯灵顿绿色州立大学) ; Hong Kong Baptist University(香港 Baptist大学)
AI总结 本文综述了大语言模型与图计算的三种协同方式,包括增强推理、知识图谱双向集成及图算法增强的AI代理,并探讨了图数据管理与图机器学习的新能力,旨在为构建下一代图原生AI系统提供统一视角。
Comments 10 pages, Accepted at PAKDD 2066 Tutorial
混合系统属性的运行时强制执行
发表机构 * Indian Institute of Technology Bhubaneswar(印度理工学院布巴内斯瓦尔分校) ; Indian Association for the Cultivation of Science(印度科学培养协会) ; Univ Rennes, Inria, CNRS, IRISA(里昂大学、Inria、CNRS、IRISA)
AI总结 提出一种结合离散事件编辑与连续时间监控的运行时强制执行框架,使用混合自动机建模安全需求,通过运行时可达性分析合成安全纠正动作,在自适应巡航控制系统中验证有效性。
当研究人员谈论AI的心理模型/心智理论时,他们究竟在说什么?
发表机构 * Center for Human, Artificial Intelligence, and Robot Teaming(人类、人工智能与机器人协同中心)
AI总结 本文指出当前AI心智理论研究混淆了行为预测与真实认知,提出应转向人机交互中的互惠心智理论框架。
Comments This work have been accepted in CogInterp @ NeurIPS 2025
6G时代的万物互联:范式、使能技术、潜力与未来方向
发表机构 * Computer Networks, Mobility and Modeling Laboratory (IR2M), FST, Hassan I University of Settat, Morocco, and the Department of Science and Technology, TÉLUQ, University of Quebec, Montreal, H2S 3L4, Canada(计算机网络、移动与建模实验室(IR2M),FST,哈桑一世大学塞塔特分校,摩洛哥,以及科技部,TÉLUQ,魁北克大学,蒙特利尔,H2S 3L4,加拿大) ; Department of Science and Technology, TÉLUQ, University of Quebec, Montreal, H2S 3L4, Canada(科技部,TÉLUQ,魁北克大学,蒙特利尔,H2S 3L4,加拿大) ; Department of Computer Science, University of Quebec at Montreal (UQAM), Montreal, H2L 2C4, Canada(计算机科学系,魁北克大学蒙特利尔分校(UQAM),蒙特利尔,H2L 2C4,加拿大)
AI总结 本文综述了万物互联(IoE)的概念、核心组件、架构基础、使能技术及研究挑战,并探讨了面向6G智能IoE系统的开放研究方向,重点关注可扩展性、安全、隐私和能效。
Comments 48 pages, 15 figures, 6 tables, 272 references
软件工程的终结:AI代理如何根本性地重构软件范式
发表机构 * Lingxi Intelligent Investment (Shenzhen) Development Co., Ltd.(灵犀智能投资(深圳)发展有限公司)
AI总结 本文通过第一性原理分析,论证了以LLM为推理引擎的AI代理系统正在根本性地重构软件范式,从传统软件(代码承载决策逻辑)转向代理系统(代码作为临时工具),并提出了代理工程作为新兴学科。
Comments 15 pages, 2 figures, and 3 tables
开发用于最优合规性检查的全幺模线性规划:何时以及为何它补充A*
发表机构 * Bar Ilan University(巴伊兰大学)
AI总结 提出将基于对齐的合规性检查重新表述为在全幺模线性规划上的问题,利用网络流结构保证整数最优解,实验表明在长轨迹和有偏差情况下显著加速A*。
Comments Author-accepted manuscript accepted for publication in Expert Systems with Applications. Code and experiment scripts are available at: https://github.com/Izack-Cohen/unimodular-conformance-checking. Version corresponding to the accepted paper: v1.0.0
专家与公众在风险、收益和价值上的认知差距挑战社会接受的AI
发表机构 * RWTH Aachen University(亚琛工业大学)
AI总结 研究比较了公众与AI专家在71个场景中对AI能力与影响的认知差异,发现专家更乐观,而公众更关注风险,揭示了沟通和政策干预的必要性。
GRAZE:基于 grounded 的细化与运动感知的零样本事件定位
发表机构 * Kansas State University(堪萨斯州立大学) ; Albright College(阿尔比恩学院)
AI总结 本文提出GRAZE,一种无需标注数据的零样本事件定位方法,通过结合Grounding DINO和SAM2实现运动感知的接触定位,有效应对复杂场景。
Comments 9 pages, 5 figures, accepted to the CVPR 2026 Workshop on Computer Vision in Sports (CVSports) code: https://github.com/AhsanZaidi12/GRAZE
CostNav:一个用于现实世界经济成本评估的物理AI代理导航基准
发表机构 * KAIST(韩国国立科学技术院) ; University of California, Irvine(加州大学 Irvine 分校) ; Seoul National University(首尔国立大学)
AI总结 CostNav引入了一个经济导航基准,通过结合物理模拟和行业数据,评估AI代理的经济可行性,发现高任务成功率并不保证经济性,CANVAS在非零SLA合规性下表现最佳。
受扩散启发的掩码微调用于自回归大语言模型中的知识注入
发表机构 * Harvard University(哈佛大学) ; University of Texas Health Science Center at Houston(德克萨斯大学健康科学中心休斯顿分校) ; Hebrew University(希伯来大学)
AI总结 本文提出一种掩码微调方法,通过重构原始文本提升自回归大语言模型的知识注入能力,无需依赖改写并克服反向诅咒,实验证明其在知识密集型任务中表现优异。
可解释聚类:综述
发表机构 * College of Information Science and Engineering, Henan University of Technology(河南理工大学信息科学与工程学院) ; School of Software, Dalian University of Technology(大连理工大学软件学院) ; Xinchang Power Supply Company, State Grid Corporation of China(国网浙江绍兴供电公司)
AI总结 本文综述了可解释聚类算法的现状,探讨了透明聚类结果的重要性,帮助研究人员选择合适的方法,并推动高效透明的聚类算法发展。
Comments 14 pages, 2 figures, 3 tables
临床预测模型的人机协同设计
发表机构 * University of California, San Francisco(加州大学旧金山分校) ; National University of Singapore(新加坡国立大学) ; Microsoft Research(微软研究院)
AI总结 本文提出HACHI框架,通过人机协作加速可解释的临床预测模型开发,提升模型泛化能力并发现新临床概念。
基于自动化机器学习方法的土壤压实参数预测
发表机构 * Sakarya University of Applied Sciences, Faculty of Technology, Department of Computer Engineering(萨卡里亚应用科学大学技术学院计算机工程系)
AI总结 本文提出自动化机器学习方法用于预测土壤压实参数,通过实验发现XGBoost算法在不同土壤类型中表现最佳,提升了预测准确性和通用性。
Comments Presented at the 13th International Symposium on Intelligent Manufacturing and Service Systems, Duzce, Turkey, Sep 25-27, 2025. Also available on Zenodo: DOI 10.5281/zenodo.17533851
模拟中的进化:具有双记忆的AI代理学校用于高保真的教育动态
发表机构 * Guanghua Law School, Zhejiang University(浙江大学法学院) ; Faculty of Education, East China Normal University(华东师范大学教育学院) ; School of Data Science, The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)数据科学学院) ; Department of Electrical and Computer Engineering, University of California San Diego(加州大学圣地亚哥分校电子与计算机工程系) ; Institute of Systems Science, National University of Singapore(新加坡国立大学系统科学研究所)
AI总结 本文提出AI代理学校系统,通过自演化机制模拟复杂教育动态,采用双记忆结构提升代理认知能力,实验证实其在高保真模拟中的有效性。
Comments 9 pages, 7 figures, EMNLP conference
透明参考-free 自动评估开放式用户调查回应
发表机构 * Kookmin University(韩国明知大学) ; Sungkyunkwan University(庆尚大学) ; Nexxt Intelligence
AI总结 本文提出一种两阶段评估框架,用于评估人类开放式调查回应,通过去除无意义回应和评估努力、相关性和完整性,提升自动评估效果。
Comments EMNLP Industry Track
人工智能感知的文化维度:在德国和中国绘制期望、风险、收益、权衡与价值
发表机构 * RWTH Aachen University(亚琛工业大学)
AI总结 本文通过比较德国和中国公众对人工智能的期望、风险与收益的权衡,揭示文化差异对AI接受度的影响,为AI与社会价值观的对齐提供见解。
T-ILR:一种用于LTLf的神经符号集成
发表机构 * Fondazione Bruno Kessler(布鲁诺·科塞勒基金会) ; Free University of Bozen-Bolzano(博兹纳-博尔扎诺自由大学) ; University of Bozen-Bolzano(博兹纳-博尔扎诺大学)
AI总结 本文提出T-ILR框架,将LTLf时序逻辑规范直接融入深度学习架构,提升序列任务的准确性和效率。
Comments Accepted for presentation at NeSy 2025. 10 pages