PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents
PACE: 自演化智能体的任意有效接受测试
发表机构 * Independent Researcher(独立研究员)
AI总结 提出PACE方法,将自演化智能体的变更接受问题转化为序贯假设检验,通过配对任意有效提交评估控制错误提交概率,在多个基准上显著减少虚假提交并降低评估成本。
PACE: 自演化智能体的任意有效接受测试
发表机构 * Independent Researcher(独立研究员)
AI总结 提出PACE方法,将自演化智能体的变更接受问题转化为序贯假设检验,通过配对任意有效提交评估控制错误提交概率,在多个基准上显著减少虚假提交并降低评估成本。
注意力汇聚的统一视角:两种算法,两种解决方案
发表机构 * Kempner Institute(肯普纳研究所) ; Harvard University(哈佛大学)
AI总结 本文揭示注意力汇聚(attention sink)可对应两种不同机制:自适应空操作(adaptive nop)和广播(broadcast),并据此提出诊断方法,证明门控(gating)和寄存器(register)等干预分别针对不同机制,组合使用效果更佳。
线性嵌入空间中的强化学习解锁软体机器人配置的通用控制
发表机构 * National University of Defense Technology(国防科技大学) ; Hefei University of Technology(合肥工业大学) ; Nanjing University (Suzhou Campus)(南京大学(苏州校区)) ; Technical University of Munich(慕尼黑工业大学) ; Beihang University(北京航空航天大学) ; Newcastle University(纽卡斯尔大学)
AI总结 提出基于共享线性Koopman嵌入空间的强化学习框架,将控制策略与机器人形态解耦,实现跨33种软体机器人配置的快速迁移,样本量减少75倍,并支持高速运动、重载和多执行器故障下的鲁棒控制。
Comments An updated version of this paper has been accepted by Nature Communications
重新审视机器人操作中的关节部件感知
发表机构 * Shanghai Jiao Tong University(上海交通大学)
AI总结 提出几何主结构(GPS)作为关节部件的新表示,结合VR设备实现高效标注,训练通用模型,在零样本下达到73%操作成功率。
Comments CVPR2026
约束感知优化用于鲁棒蛋白质稳定性预测
发表机构 * Birla Institute of Technology and Science Pilani, Hyderabad Campus(比拉理工学院海得拉巴校区)
AI总结 提出约束感知优化框架,结合平衡均方误差、孪生反对称正则化器和OOD边缘一致性损失,在不改变SPURS架构下提升蛋白质稳定性预测的鲁棒性,在多个基准上取得显著改进。
赛博格安卓化身“Yui”:系统集成、现场部署与评估
发表机构 * The University of Electro-Communications(电气通信大学) ; Tokyo Denki University(东京电机大学)
AI总结 提出全身赛博格安卓化身Yui,集成操作者沉浸式遥操作与对话者类人社交信号,通过世博会长期展览、远程教育交流等实际部署验证可行性,获得共在感和情绪传达的积极评价。
Comments 47 pages, 20 figures, 10 tables. Submitted to International Journal of Social Robotics
vla.cpp:视觉-语言-动作模型的统一推理运行时
发表机构 * VinRobotics ; Center for AI Research, VinUniversity(VinUniversity 人工智能研究中心) ; Intelligent Autonomous Systems, TU Darmstadt(达姆施塔特工业大学智能自主系统) ; Max Planck Research School for Intelligent Systems(马克斯·普朗克智能系统研究学院) ; University of Stuttgart(斯图加特大学) ; German Research Center for Artificial Intelligence(德国人工智能研究中心)
AI总结 提出vla.cpp,基于llama.cpp的便携C++推理运行时,支持多种VLA架构,在LIBERO-Object上接近SOTA性能,内存仅1.3 GiB,并实现跨硬件部署。
Comments 17 pages, 3 figures, 12 tables
面向证据基础计算病理学的多模态智能体协同助手
发表机构 * Department of Computer Science and Engineering, Hong Kong University of Science and Technology(香港科技大学计算机科学与工程系) ; Department of Pathology, Nanfang Hospital, Southern Medical University(南方医科大学南芳医院病理科) ; Department of Pathology, School of Basic Medical Sciences, Southern Medical University(南方医科大学基础医学学院病理科) ; Department of Anatomical and Cellular Pathology, Chinese University of Hong Kong(香港中文大学解剖与细胞病理学系) ; Guangdong Provincial Key Laboratory of Molecular Tumor Pathology(广东省分子肿瘤病理学重点实验室) ; Jinfeng Laboratory(锦风实验室) ; Department of Chemical and Biological Engineering, Hong Kong University of Science and Technology(香港科技大学化学与生物工程系) ; Division of Life Science, Hong Kong University of Science and Technology(香港科技大学生命科学系) ; State Key Laboratory of Nervous System Disorders, The Hong Kong University of Science and Technology(香港科技大学神经系统疾病国家重点实验室) ; HKUST Shenzhen-Hong Kong Collaborative Innovation Research Institute, The Hong Kong University of Science and Technology(香港科技大学深圳-香港协同创新研究院)
AI总结 提出PathPocket,一种多模态AI协同助手,通过构建包含11万文档的病理证据语料库和455万实体的超图,实现基于证据的病理诊断,在20万真实案例上超越现有方法。
当语言不一致时:自我进化的多语言LLM评判者
发表机构 * Nanyang Technological University(南洋理工大学)
AI总结 提出SEMJ方法,利用多语言评判中的跨语言不一致性进行迭代自我反思与重新评估,在多个基准上优于投票和反思基线,提升准确性和跨语言一致性。
VideoWeaver: 评估与进化智能体长视频生成技能
发表机构 * Zhejiang University(浙江大学) ; ByteDance(字节跳动)
AI总结 提出VideoWeaver框架,让智能体自主组合基础技能生成视频,并设计智能体裁判评估过程与结果,通过技能进化算法提升生成质量。
ConSteer-RL:通过置信度感知强化学习引导大型语言模型的推理能力
发表机构 * Xi'an Jiaotong University(西安交通大学) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出ConSteer-RL框架,将模型log概率的token级置信度信号融入GRPO,通过置信度感知奖励塑造机制惩罚过度自信错误并强化正确自信推理,在多个模型规模上平均提升2.3%-4.0%。
评估神经说话人验证模型在训练和推理中的能耗与碳排放
发表机构 * LIA, UPR 4128 ; Aday ; Avignon University(阿维尼翁大学)
AI总结 本研究通过测量不同ResNet架构在VoxCeleb2上的能耗与碳排放,发现模型加深或加宽带来边际精度提升但能耗剧增,而中等规模网络(如ResNet-50)能实现性能与环境影响的良好平衡。
Comments Accepted to Speaker Odyssey 2026 Lisbon
对齐但非伙伴特定:区分多模态LLM智能体在参考游戏中如何成功而无需类人惯例
发表机构 * National Taiwan University(国立台湾大学) ; Max Planck Institute for Psycholinguistics(马克斯·普朗克心理语言学研究所) ; Radboud University(拉德堡德大学) ; Institut Jean Nicod(让·尼科研究所)
AI总结 通过约束伪对基线方法,区分多模态LLM智能体在参考游戏中的标签对齐是源于伙伴特定交互还是共享任务词汇,发现智能体通过冗长描述而非压缩表达实现协调。
说话人验证中的低位量化误差:诊断与缓解
发表机构 * LIA, UPR 4128 ; Avignon University(阿维尼翁大学) ; Aday
AI总结 本文通过逐层和得分级分析,诊断了低比特量化对说话人验证的影响,发现2比特是关键拐点,并提出校准多精度级联方法,在保持低位推理效率的同时接近全精度性能。
Comments Accepted at Speaker Odyssey 2026 Lisbon
支持向量评分准则:弥合自生成与人工评分准则之间的差距
发表机构 * National Engineering Research Center for Software Engineering, Peking University(北京大学软件工程国家工程研究中心) ; University of Science and Technology of China(中国科学技术大学)
AI总结 针对自生成评分准则在困难实例上落后于人工标注的问题,提出SVR框架,将准则构建转化为偏好数据上的最大间隔边界学习,通过对比特征挖掘、提示条件选择器和迭代优化,显著缩小与人工准则的差距,并展现出广泛的奖励建模能力。
“我理解你的观点”:通过交往行动理论视角看LLM的说服与谄媚
发表机构 * Institute for Natural Language Processing, University of Stuttgart(斯图加特大学自然语言处理研究所) ; Interchange Forum for Reflecting on Intelligent Systems, University of Stuttgart(斯图加特大学智能系统反思交流论坛)
AI总结 本研究基于哈贝马斯的交往行动理论,通过模拟Reddit讨论,发现LLM能有效传达言外之意(如建立信任),其谄媚策略与观点改变强相关,且人类更偏好LLM生成的论证。
SurgiQ: 用于评估大语言模型手术理解的大规模多领域基准
发表机构 * Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出SurgiQ基准,包含13,055道多选题,覆盖六个外科领域和四种题型,用于评估LLM的手术推理能力。实验显示最佳模型准确率仅68.1%,通用模型优于多数生物医学模型,表明当前医学专业化未能充分覆盖手术知识。
DICE: 用于稳定多智能体LLM协调的熵正则化均衡选择
发表机构 * University of Arizona(亚利桑那大学) ; Hong Kong Baptist University(香港浸会大学)
AI总结 提出DICE框架,通过熵正则化均衡选择(HQRE)解决多智能体LLM协调中的不稳定性,实现线性收敛和有限贝叶斯遗憾,在11个基准上平均提升4.3-8.5个百分点。
超越同质性:迈向广义图重构攻击与防御
发表机构 * Hong Kong Baptist University(香港浸会大学) ; Shanghai Jiao Tong University(上海交通大学) ; Stanford University(斯坦福大学)
AI总结 针对图神经网络可能泄露训练图邻接信息的问题,提出基于马尔可夫链近似的攻击方法MC-GRA(+)和防御方法MC-GPB(+),在异质图上实现高保真重构攻击并有效防御。
基于多智能体强化学习的协作长绳跳绳
发表机构 * National Key Laboratory of Novel Software Technology, Nanjing University(南京大学计算机软件新技术国家重点实验室) ; School of Artificial Intelligence, Nanjing University(南京大学人工智能学院) ; Beijing Academy of Artificial Intelligence, BAAI(北京智源人工智能研究院)
AI总结 提出Marope框架,采用分层强化学习实现多个人形机器人的协作长绳跳绳,通过多智能体强化学习训练分散的摇绳策略,上层调度策略协调执行,并融入多样跳跃策略提升泛化能力,在仿真和真实实验中优于基线方法。
Robust-U1: MLLMs能否自我恢复受损视觉内容以实现鲁棒理解?
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出Robust-U1框架,通过监督微调、强化学习和多模态推理,使多模态大模型具备显式视觉自恢复能力,在真实和对抗性损坏下达到最先进鲁棒性。
Comments Accepted by ICML 2026
EgoAERO:无需物体资产,从单个第一人称视频学习灵巧操作
发表机构 * School of Astronautics, Harbin Institute of Technology(哈尔滨工业大学航天学院) ; Lumos Robotic ; Suzhou Research Institute, Harbin Institute of Technology(哈尔滨工业大学苏州研究院) ; Shanghai Jiao Tong University(上海交通大学) ; Shanghai AI Lab(上海人工智能实验室) ; Nanjing University(南京大学) ; Xi’an Jiaotong-Liverpool University(西交利物浦大学) ; Fudan University(复旦大学)
AI总结 提出EgoAERO框架,无需物体资产,从单个第一人称RGB-D视频中通过无资产物体跟踪与重建、自我运动补偿和自适应接触优化重建接触一致的手-物轨迹,并利用两阶段残差学习转化为机器人策略,实现单次演示的灵巧操作。
要点何在?手语处理中的空间语法与索引解析
发表机构 * Centre for Vision, Speech and Signal Processing, University of Surrey(萨里大学视觉、语音与信号处理中心)
AI总结 针对手语中占10-15%但被忽视的空间索引现象,提出索引检测与话语实体链接的分解框架,建立索引感知手语建模基线,并作为辅助专家提升冻结手语识别模型性能。
你能做到多小?面向金融交易中商户信息抽取的 270M-8B 模型 LoRA 微调
发表机构 * Singapore Management University(新加坡管理大学) ; Mastercard(万事达卡) ; A*STAR Centre for Frontier AI Research(新加坡科技研究局前沿人工智能研究中心)
AI总结 针对金融交易中从嘈杂银行字符串提取结构化商户信息的生产需求,系统评估 24 种模型变体,发现 Qwen 3.5 4B 在参数量减半下 F1 仅低 0.35 点,0.8B 模型匹配 2.5-4 倍大模型性能,且思维链微调提升有限。
Comments 9 pages, 5 figures, 5 tables. Submitted to the IEEE International Conference on Data Mining (ICDM) 2026
SKILL.nb:用于持久代理工作流的选择性形式化与门控执行
发表机构 * ServiceNow Research ; Mila ; Polytechnique Montréal(蒙特利尔综合理工学院) ; Canada CIFAR AI Chair(加拿大CIFAR人工智能讲席)
AI总结 提出SKILL.nb框架,通过选择性形式化和门控执行管理代理工作流的生命周期可靠性,在WebArena-Verified上单轮成功率达53.7%,重执行保留率91.7%。
通过专家乘积桥接的扩散语言模型并行解码
发表机构 * Stanford University(斯坦福大学)
AI总结 提出PoE-Bridge框架,通过专家乘积构建中间分布,结合扩散语言模型并行解码和自回归模型质量,实现5倍加速并恢复至少95%的AR性能。
Comments ICML 2026
OSMGraphCLIP:从OpenStreetMap图学习全局位置表示
发表机构 * Harokopio University of Athens(雅典哈罗科皮奥大学) ; National Technical University of Athens(雅典国家技术大学) ; Vienna University of Technology(维也纳技术大学) ; National Observatory of Athens(雅典国家天文台)
AI总结 提出OSMGraphCLIP模型,利用OpenStreetMap异构图结构学习全局位置嵌入,通过多尺度图编码器和对比学习对齐,在气候、生态、社会经济等下游任务中达到或超越卫星基线方法。
当行为安全评估失败时:表征层面的视角
发表机构 * Stanford University(斯坦福大学) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Technical University of Denmark(丹麦技术大学)
AI总结 本文提出行为安全与干预鲁棒性之间的“审计差距”,通过构建解离模型和引入潜在脆弱性评分(LVS),证明行为安全指标不足以衡量表征层面的鲁棒性。
Comments Preprint
MuJoCo-Drones-Gym: 用于控制和强化学习的GPU加速多无人机模拟器
发表机构 * TAU-Intelligence
AI总结 提出基于MuJoCo物理引擎的GPU加速多无人机模拟器MuJoCo-Drones-Gym,支持任意数量Crazyflie 2.x纳米四旋翼,提供模块化物理模型、动作接口和观测空间,集成PettingZoo多智能体强化学习,涵盖悬停、速度跟踪等七种任务环境。
Comments 18 pages, 8 figures, 7 tables
探索语音反欺骗数据集的规模与多样性:实验与分析
发表机构 * School of Cyber Science and Engineering, Wuhan University(武汉大学网络空间安全学院)
AI总结 本研究通过解耦训练数据规模与多样性,发现数据多样性比规模更重要,过大规模可能导致过拟合,而多样化的较小数据集在跨域评估中表现更优。
Comments Accepted by Interspeech 2026