arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

AI Agent

智能体、工具调用、规划、工作流、多智能体和自主任务执行。

今日/当前日期收录 13 信号源:cs.AI, cs.CL, cs.LG, cs.SE
2606.18448 2026-06-18 cs.CL 新提交 专题 95

VISUALSKILL: Multimodal Skills for Computer-Use Agents

VISUALSKILL:面向计算机使用智能体的多模态技能

Ziyan Jiang, Li An, Yujian Liu, Jiabao Ji, Qiucheng Wu, Jacob Andreas, Yang Zhang, Shiyu Chang

专题命中 软件智能体 :面向计算机使用智能体的多模态技能库

AI总结 提出VISUALSKILL分层多模态技能库,通过结合文档与UI探索构建,使智能体在CUA基准上平均得分提升15.3点,且多模态优于纯文本技能。

2606.19319 2026-06-18 cs.MA cs.AI cs.DB 新提交 专题 90

Data Intelligence Agents: Interpreting, Modeling, and Querying Enterprise Data via Autonomous Coding Agents

数据智能代理:通过自主编码代理解释、建模和查询企业数据

Anoushka Vyas, Aarushi Dhanuka, Sina Khoshfetrat Pakazad, Henrik Ohlsson

专题命中 软件智能体 :自主编码代理处理企业数据集成

AI总结 提出Data Intelligence Agents (DIA)系统,由三个自主编码代理组成,通过执行、验证和修复工件来压缩数据集成工作流,在七个SQL基准测试中达到或超越最佳结果。

2606.18890 2026-06-18 cs.AI 新提交 专题 90

Skill-Guided Continuation Distillation for GUI Agents

面向GUI代理的技能引导延续蒸馏

Zhimin Fan, Hongwei Yu, Yeqing Shen, Haolong Yan, Guozhen Peng, Tianhao Peng, Yudong Zhang, Xiaowen Zhang, Kaijun Tan, Zheng Ge, Xiangyu Zhang, Daxin Jiang

专题命中 软件智能体 :技能引导蒸馏提升GUI Agent成功率

AI总结 提出技能引导延续蒸馏(SGCD)框架,通过技能引导策略生成成功延续轨迹,弥补专家轨迹中未覆盖的状态监督缺失,在OSWorld-Verified上将三个基础模型成功率从30%左右提升至50%以上。

2606.01139 2026-06-18 cs.AI 版本更新 专题 90

SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision

SkillRevise: 通过轨迹条件技能修订改进LLM撰写的智能体技能

Yuxuan Liu, Zhaochen Su, Lingyun Xie, Yuhao Zhang, Qing Zong, Jiahe Guo, Zhongwei Xie, Yiyan Ji, Yauwai Yim, Hongyu Luo, Xiyu Ren, Ruan Chenyu, Haoran Li, Yangqiu Song

专题命中 软件智能体 :智能体技能迭代优化,提升LLM agent成功率

AI总结 提出SkillRevise框架,通过执行证据诊断、修复原则检索和执行锚定编辑,迭代优化初始技能,在SkillsBench上将基础智能体成功率从36.05%提升至61.63%,并展现跨模型迁移性。

Comments 15 pages, 4 figures

2604.06367 2026-06-18 cs.CR cs.AI cs.LG 版本更新 专题 90

WebSP-Eval: Evaluating Web Agents on Website Security and Privacy Tasks

WebSP-Eval:在网站安全与隐私任务上评估网络代理

Guruprasad Viswanathan Ramesh, Asmit Nayak, Basieem Siddique, Kassem Fawaz

专题命中 软件智能体 :评估Web Agent在安全隐私任务上的表现

AI总结 提出WebSP-Eval框架,通过200个任务实例和自动化评估器,测试多模态大模型在网站安全与隐私任务上的表现,发现状态UI元素(如开关)导致超过45%的任务失败。

Comments Accepted at PETS 2026. Project Page: https://wiscprivacy.com/webspeval/

2606.18976 2026-06-18 cs.SE cs.AI 新提交 专题 85

CAPRA: Scaling Feedback on Software Architecture Deliverables with a Multi-Agent LLM System

CAPRA: 使用多智能体LLM系统对软件架构交付物进行反馈扩展

Marco Becattini, Niccolò Caselli, Matteo Minin, Roberto Verdecchia, Enrico Vicario

专题命中 软件智能体 :多智能体LLM系统自动生成软件架构反馈。

AI总结 提出CAPRA多智能体LLM系统,通过多模态文档提取、确定性证据锚定和一致性管理,自动生成软件架构交付物的个性化LaTeX反馈,在10份学生报告中满足88.8%的评估标准。

Comments Accepted for publication at the 38th International Conference on Software Engineering Education and Training

2606.18728 2026-06-18 cs.CL 新提交 专题 85

LegalWorld: A Life-Cycle Interactive Environment for Legal Agents

LegalWorld: 法律智能体的生命周期交互环境

Songhan Zuo, Shengbin Yue, Tao Chiang, Guanying Li, Yun Song, Xuanjing Huang, Zhongyu Wei

专题命中 软件智能体 :法律智能体生命周期交互环境。

AI总结 提出LegalWorld,一个将中国民事诉讼建模为五阶段因果链的生命周期交互环境,基于75309对判决书构建,并评估多智能体在连续诉讼中的能力差异。

2606.18671 2026-06-18 cs.HC 新提交 专题 85

HANSEL: Extracting Breadcrumbs from Web Agent Trajectories for Interactive Verification

HANSEL: 从Web智能体轨迹中提取面包屑用于交互式验证

Yujin Zhang, Daye Nam

专题命中 软件智能体 :Web智能体轨迹提取证据用于验证

AI总结 提出HANSEL系统,从AI智能体轨迹中提取可交互验证的证据,减少用户审查负担,在基准测试中达到83.7%精确率和88.9%召回率,用户研究显示显著降低任务完成时间和感知努力。

Comments 13 pages, 6 figures

2606.16000 2026-06-18 cs.CL cs.LG 新提交 专题 85

GRACE-DS: a Guarded Reward-guided Agent Correction Environment in Data Science

GRACE-DS:数据科学中的受保护奖励引导智能体修正环境

Aleksandr Tsymbalov, Danis Zaripov, Artem Epifanov, Anastasiya Palienko

专题命中 软件智能体 :评估LLM驱动的AutoML智能体环境

AI总结 提出GRACE-DS,一个用于评估LLM驱动的AutoML智能体在部署前性能的隔离环境,通过隐藏的可执行验证器衡量预测性能、泄漏避免、可重复性等指标,实验证明其灵活迭代交互模式优于基线方法。

2606.13681 2026-06-18 cs.CL 新提交 专题 85

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

EvoArena: 追踪记忆演化以构建动态环境中的鲁棒LLM智能体

Jundong Xu, Qingchuan Li, Jiaying Wu, Yihuai Lan, Shuyue Stella Li, Huichi Zhou, Bowen Jiang, Lei Wang, Jun Wang, Anh Tuan Luu, Caiming Xiong, Hae Won Park, Bryan Hooi, Zhiyuan Hu

专题命中 软件智能体 :动态环境中LLM智能体的记忆演化基准

AI总结 提出EvoArena基准套件模拟终端、软件和社交领域的渐进环境变化,并设计基于补丁的记忆范式EvoMem记录结构化更新历史,使智能体能通过记忆变化推理环境演化,实验表明当前智能体在动态环境中表现不佳,EvoMem可稳定提升性能。

2606.18294 2026-06-18 physics.ins-det nucl-ex physics.app-ph 新提交 专题 80

Vision AI Agent for Continuous Material Monitoring of LEGEND-1000 LoFi Reentrant Tube

用于LEGEND-1000 LoFi回旋管连续材料监测的视觉AI智能体

Sonata Simonaitis-Boyd, Soonhong Lee, Lauren N. O'Brien, Brandon T. Turner, Ralph Massarczyk, Steven R. Elliott, Aobo Li, Alexander F. Leder

专题命中 软件智能体 :LangChain智能体流水线,自动材料监测

AI总结 提出基于LangChain和Claude Haiku 4.5的视觉AI智能体流水线,通过SAM2分割和混合OCR验证从静水压测试视频中自动提取OFHC铜圆柱的直径和应变,计算屈服强度并与模拟对比。

Comments 27 pages, 8 figures, 5 tables, submitted to PRX Intelligence

2606.15828 2026-06-18 cs.SE 新提交 专题 80

Configuration Smells in AGENTS.md Files: Common Mistakes in Configuring Coding Agents

AGENTS.md 文件中的配置异味:配置编码代理的常见错误

Helio Victor F. dos Santos, Vitor Costa, Joao Eduardo Montandon, Luciana Lourdes Silva, Marco Tulio Valente

专题命中 软件智能体 :编码代理配置问题,属于AI Agent

AI总结 本文首次系统化编码代理配置文件(AGENTS.md/CLAUDE.md)的异味,通过灰文献综述和仓库挖掘识别出六种异味,并在100个开源仓库中验证其普遍性,其中Lint Leakage最常见(62%)。

2606.18619 2026-06-18 cs.CR cs.AI cs.SE 新提交 专题 70

Code-Augur: Agentic Vulnerability Detection via Specification Inference

Code-Augur:通过规约推断的智能体漏洞检测

Zhengxiong Luo, Mehtab Zafar, Dylan Wolff, Abhik Roychoudhury

专题命中 软件智能体 :自主LLM智能体进行漏洞审计

AI总结 提出安全规约优先范式,通过显式化智能体假设并运行时反证,结合引导式模糊测试提升漏洞检测能力,在真实项目中比现有智能体检测更多漏洞。