How AI Agents Reshape Knowledge Work: Autonomy, Efficiency, and Scope
AI代理如何重塑知识工作:自主性、效率与范围
发表机构 * Harvard Business School(哈佛商学院) ; Perplexity AI
AI总结 基于Perplexity产品数据,研究发现AI代理通过端到端任务执行,将自主工作时间从33秒提升至26分钟,完成时间缩短87%,成本降低94%,并扩展了工作范围与认知层次。
AI代理如何重塑知识工作:自主性、效率与范围
发表机构 * Harvard Business School(哈佛商学院) ; Perplexity AI
AI总结 基于Perplexity产品数据,研究发现AI代理通过端到端任务执行,将自主工作时间从33秒提升至26分钟,完成时间缩短87%,成本降低94%,并扩展了工作范围与认知层次。
Skill-3D:面向智能体3D空间推理的场景感知技能进化
发表机构 * Zhejiang University(浙江大学) ; University of Technology Sydney(技术悉尼大学) ; OPPO Research Institute(OPPO研究院)
AI总结 提出Skill-3D框架,通过场景记忆和技能库的协同进化,使智能体根据场景自适应选择工具,显著提升3D空间推理中工具使用的正确性和充分性。
一种双参数Weibull框架用于变压器权重分布诊断
发表机构 * Independent Researcher(独立研究者)
AI总结 本文提出了一种基于Weibull分布的双参数框架,用于分析Transformer中元素权重幅度分布,通过实验发现不同模块的k值分布特征,并揭示了训练过程中lambda参数的变化规律。
Comments 27 pages, 14 figures. Companion library npm-weibull-py and benchmark database available at https://github.com/tiexinding/NPM-Weibull-public
RoboNaldo:通过运动引导课程强化学习实现精准、稳定且强力的人形足球射门
发表机构 * The University of Hong Kong(香港大学) ; The Chinese University of Hong Kong(香港中文大学) ; Archon Robotics
AI总结 提出三阶段运动引导课程强化学习框架RoboNaldo,从单一人踢参考逐步优化射门性能,在仿真中射门误差降低48.6%、速度提升2.96倍,真实机器人上3米外平均射门误差0.73-0.86米,触球后球速达13.10米/秒。
Workflow-GYM:面向真实世界专业领域的长周期计算机使用代理任务评估
发表机构 * ByteDance Seed(字节跳动Seed) ; M-A-P ; Humanlaya
AI总结 提出Workflow-GYM基准,评估AI代理在专业软件中执行长周期、高价值工作流的能力,发现最强模型成功率仅略超30%,揭示当前代理在长周期工作流一致性方面的严重不足。
位置、类型、原因与重要性:面向文本到图像反馈的结构化缺陷定位
发表机构 * Tsinghua University(清华大学) ; Kolors Team, Kuaishou Technology(快手科技Kolors团队) ; University of British Columbia(不列颠哥伦比亚大学) ; Vector Institute(向量研究所) ; South China Normal University(华南师范大学)
AI总结 提出结构化缺陷定位(SDG)方法,将文本到图像生成中的缺陷诊断建模为结构化集合预测,通过构建SDG-30K数据集和SDG-Eval评估协议,并利用视觉语言模型作为检测器,结合BoxFlow-GRPO将预测的缺陷集合转化为空间奖励以改进扩散模型对齐。
Comments 25 pages, 9 figures
GenAutoML: 面向时间序列分析的动态架构生成与优化的智能体框架
发表机构 * Paul Wurth S.A.(保罗·沃思公司) ; Otto-von-Guericke University(奥托·冯·格里克大学) ; Technical University of Munich(慕尼黑技术大学)
AI总结 提出GenAutoML框架,利用大语言模型作为神经架构师,通过沙盒反射循环和签名感知运行时自动生成并优化时间序列预测与异常检测的神经网络架构,引入动态可逆实例归一化提升非平稳条件下的鲁棒性。
Comments 26 pages, 17 figures, 12 tables. Under review
Agents' Last Exam
发表机构 * arXiv
AI总结 针对AI系统在专业领域缺乏经济性部署的问题,提出Agents' Last Exam (ALE)基准,通过250+专家协作构建覆盖13个行业集群55个子领域的1000+长期真实经济任务,当前最难层级平均通过率仅2.6%。
Comments Project website: https://agents-last-exam.org Code: https://github.com/rdi-berkeley/agents-last-exam
主动推理是一种什么类型的推理?
发表机构 * Department of Electrical Engineering(电气工程系) ; Eindhoven University of Technology(埃因霍温理工大学) ; Eindhoven, the Netherlands(荷兰埃因霍温) ; Lazy Dynamics ; Utrecht, the Netherlands(荷兰乌得勒支)
AI总结 本文通过变分自由能框架将主动推理中的期望自由能最小化分解为熵校正项和规划校正项,揭示了其推理本质,并在网格世界实验中验证了不同校正项的作用。
Parthenon Law: 一种自我进化的法律智能体框架
发表机构 * tapntell.ai
AI总结 本文提出Parthenon框架,通过分解模型、工具、知识等组件并引入反泄漏学习循环,使法律领域的大语言模型智能体能够从经验中自我进化,显著提升法律事务处理性能。
GENEB:为什么基因组模型难以比较
发表机构 * GitHub ; arXiv
AI总结 针对基因组基础模型评估碎片化的问题,提出GENEB基准,通过统一探测协议在100项任务上比较40个模型,揭示模型排名不稳定、规模收益有限等关键发现。
Comments change first page figure, fix model sizes, add more consistency
语音大模型推理中的实体绑定失败:诊断与思维链干预
发表机构 * School of Data Science, The Chinese University of Hong Kong, Shenzhen, China(1 数据科学学院,香港中文大学(深圳)) ; ByteDance, China(2 字节跳动,中国)
AI总结 本文通过诊断语音大模型在逻辑推理中的实体绑定失败问题,提出实体感知思维链方法,显著提升推理准确率。
Comments INTERSPEECH 2026
通过部分分解注意力的空间基础概念瓶颈模型
发表机构 * Vector Institute(向量研究所)
AI总结 提出一种部分分解的概念瓶颈模型,通过空间先验约束注意力,在细粒度识别中实现可解释性并提升定位精度。
Comments Updated results with GobalAttention Tokens
大型语言模型中的事实性观点能否被编辑(操纵)?
发表机构 * The Pennsylvania State University(宾夕法尼亚州立大学)
AI总结 提出FOE基准测试,评估当前知识编辑技术对事实性观点(如公众人物立场)的操纵能力,并发现其仅能实现表面修改,无法保持观点与证据的一致性;进而提出自生成证据对齐方法实现观点-证据对齐。
Comments Accepted to the ACL 2026 Main Conference
基于插入生成的变分学习
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出插入过程(IP)模型,通过排列变分推断联合学习插入位置、内容和终止条件,支持变长生成并提升非自回归序列建模质量。
Goal2Pixel: 将目标锚定到像素以实现视觉语言导航
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出Goal2Pixel范式,通过将连续环境中的视觉语言导航(VLN-CE)重新定义为可导航像素锚定,利用图像平面作为统一空间接口,预测可见导航像素并反投影为3D航点,结合可见性感知关键帧记忆和坐标感知辅助损失,在减少VLM调用次数的同时实现竞争性性能。
Comments 8 pages
通过傅里叶变换和Volterra级数重新审视神经过程
发表机构 * University of Cambridge(剑桥大学)
AI总结 本文利用Volterra展开和集合傅里叶卷积,提出了两种新的条件神经过程模型,解决了现有平移等变神经过程在可解释性和计算效率上的局限性。
以交互为中心的智能:将交互作为共创AI和人机系统中的主要分析单元
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Co-Creative AI Consulting(协同人工智能咨询)
AI总结 本文提出以交互作为主要分析单元,通过分布式认知、具身认知等理论,论证智能涌现于交互动态而非孤立计算,并引入交互中心智能框架。
三角形泼溅SLAM
发表机构 * Software Performance Optimisation Group(软件性能优化组) ; Department of Computing(计算部门)
AI总结 提出首个使用可微三角形作为3D地图表示的密集RGB-D SLAM系统,通过在线可微渲染实现跟踪与建图,并支持实时网格转换与编辑。
Comments 26 pages, 11 figures
基于神经受控微分方程的通用时间序列生成
发表机构 * Heidelberg Institute for Theoretical Studies(海德堡理论研究所) ; IAR, Karlsruhe Institute of Technology(卡尔斯鲁厄技术大学IAR部门) ; Max Planck Institute for Polymer Research(马克斯·普朗克聚合物研究所) ; IWR, Heidelberg University(海德堡大学IWR部门) ; Dept. of Computer Science, University of Toronto(多伦多大学计算机科学系) ; Mathematical Institute, University of Oxford(牛津大学数学研究所) ; Vector Institute, Toronto, Canada(多伦多向量研究所)
AI总结 本文证明结构化线性受控微分方程(SLiCEs)是通用时间序列生成器,并提出生成式SLiCEs(G-SLiCEs)用于路径空间上的流匹配,在概率预测和下流任务中表现优异,尤其适用于不规则网格。
计划,而非摆姿势:基于文本对齐的BFM的长复合运动生成
发表机构 * AvaCapo ; Potsdam University(波茨坦大学) ; Applied AI Institute(应用人工智能研究所) ; Computational Imaging Lab(计算成像实验室) ; AXXX ; Innopolis University(因诺波利斯大学)
AI总结 提出Text2BFM框架,通过将自然语言与预训练行为基础模型对齐,在潜在策略空间中实现长复合运动生成,无需端到端运动生成器。
FedBiCross: 医学图像上的个性化一次性联邦学习
发表机构 * School of Computer Science and Engineering, Northwestern Polytechnical University, China(西北工业大学计算机科学与工程学院) ; School of Science and Technology, Hong Kong Metropolitan University, Hong Kong(香港 Metropolitan 大学科学与技术学院) ; Department of Computer Science, Hong Kong Baptist University, Hong Kong(香港 Baptist 大学计算机科学系)
AI总结 提出FedBiCross框架,通过聚类、双层跨簇优化和个性化蒸馏解决非独立同分布数据下一次性联邦学习中知识蒸馏效果差的问题,在四个医学图像数据集上优于现有方法。
Comments Accepted by BlockSys 2026. This version of the contribution has been accepted for publication, after peer review (when applicable) but is not the Version of Record and does not reflect post-acceptance improvements, or any corrections
用于Transformer修补和机制可解释性的连续深度场论
发表机构 * Universidade de Vigo(维戈大学) ; Independent Researcher(独立研究员)
AI总结 本文提出场论框架,将残差流视为深度-标记场,通过局部源插入、灵敏度场预测、经验格林函数响应和伴随变分问题来组织和预测Transformer激活修补干预,并在GPT-2风格自回归Transformer中验证了前向响应理论。
FinSTaR:面向时间序列推理模型的金融推理
发表机构 * LG AI Research(LG人工智能研究)
AI总结 针对时间序列推理模型在金融领域的失效问题,提出基于2x2能力分类法的FinSTaR模型,通过Compute-in-CoT和Scenario-Aware CoT策略在FinTSR-Bench基准上达到78.9%平均准确率。
Comments KDD Workshop on SciSoc Agents & LLMs 2026
基于SMPL骨架的拉班运动描述子的暗示性运动外观不变检测
发表机构 * Sogang University(ソガン大学)
AI总结 提出一种仅基于SMPL骨架轨迹和拉班运动分析描述子的运动分类流程,用于检测暗示性和露骨动作,在四个层级上实现57.3%的四分类准确率。
Comments 5 pages, 2 figures, 3 tables. Extended version of a poster accepted to SIGGRAPH 2026
熵梯度反转:迈向大型推理模型的内部机制
发表机构 * National University of Singapore(新加坡国立大学) ; Renmin University of China(中国人民大学) ; Shanghai Jiao Tong University(上海交通大学) ; Nanyang Technological University(南洋理工大学)
AI总结 本文发现大型推理模型中令牌熵与logit梯度之间的稳健负相关(熵梯度反转),并提出相关性正则化组策略优化(CorR-PO)将其嵌入强化学习奖励正则化,从而提升推理性能。
Comments The authors are withdrawing this manuscript due to fundamental inaccuracies in the institutional affiliations and administrative attributions provided at the time of submission. As this version cannot be validated under the correct institutional framework, the authors request its formal withdrawal from the repository. No immediate replacement is intended
更多上下文、更大模型还是道德知识?政治文本中施瓦茨价值观检测的系统研究
发表机构 * PRHLT Research Center, Universitat Politècnica de València, Spain(巴塞罗那理工大学研究中心,西班牙 Valencia理工大学) ; School of Science, Engineering and Design, Universidad Europea de Valencia, Spain(Valencia欧洲大学科学、工程与设计学院,西班牙) ; Valencian Graduate School and Research Network of Artificial Intelligence (ValgrAI)(瓦伦西亚人工智能研究生学院与研究网络(ValgrAI))
AI总结 本研究系统比较了上下文范围、检索增强道德知识和模型规模对政治文本中施瓦茨价值观检测的影响,发现全文档上下文和检索知识对监督编码器有效,但对零样本大语言模型帮助有限,且模型扩展不保证性能提升。
Comments Code: https://github.com/VictorMYeste/human-value-detection-context-rag, best model: https://huggingface.co/VictorYeste/value-context-rag-deberta-v3-base-doc-rag, 18 pages, 3 figures
VDE Bench: 评估图像编辑模型对视觉文档进行修改的能力
发表机构 * UCAS(中国科学院大学) ; CASIA(中国科学院自动化研究所) ; Tencent(腾讯) ; CMU(卡内基梅隆大学) ; WashU(华盛顿大学) ; SJTU(上海交通大学) ; XDU(北京理工大学)
AI总结 本文提出VDE Bench,一个专门评估图像编辑模型在双语中文-英文和复杂视觉文档编辑任务性能的基准,通过高质量数据集和新的评估框架,系统量化了文本修改的准确性。
ShapeBench: 一种可扩展的基准和诊断套件,用于气动形状优化的标准化评估
发表机构 * Stanford University(斯坦福大学) ; Spinoza Labs(斯皮诺扎实验室)
AI总结 本文提出ShapeBench,一个开源的气动形状优化基准,提供统一的API,涵盖103个任务和八个形状类别,通过验证的代理模型和高保真CFD流程进行系统分析,展示了不同形状类别和问题形式中优化器排名的显著差异,强调了需要更通用方法的必要性。
多令牌残差预测
发表机构 * New York University(纽约大学) ; New York University Shanghai(纽约大学上海) ; Nos Research(Nos研究) ; Modal
AI总结 本文提出了一种轻量级模块Multi-token Residual Prediction,通过利用去噪过程中相邻步骤的logit分布相似性,在单次骨干网络前向传播中实现依赖感知的多令牌去噪,从而在成本较低的情况下提高去噪效率。