AI 大模型
AI Agent
智能体、工具调用、规划、工作流、多智能体和自主任务执行。
SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision
SkillRevise: 通过轨迹条件技能修订改进LLM撰写的智能体技能
专题命中 软件智能体 :智能体技能迭代优化,提升LLM agent成功率
AI总结 提出SkillRevise框架,通过执行证据诊断、修复原则检索和执行锚定编辑,迭代优化初始技能,在SkillsBench上将基础智能体成功率从36.05%提升至61.63%,并展现跨模型迁移性。
Comments 15 pages, 4 figures
WebSP-Eval: Evaluating Web Agents on Website Security and Privacy Tasks
WebSP-Eval:在网站安全与隐私任务上评估网络代理
专题命中 软件智能体 :评估Web Agent在安全隐私任务上的表现
AI总结 提出WebSP-Eval框架,通过200个任务实例和自动化评估器,测试多模态大模型在网站安全与隐私任务上的表现,发现状态UI元素(如开关)导致超过45%的任务失败。
Comments Accepted at PETS 2026. Project Page: https://wiscprivacy.com/webspeval/
CAPRA: Scaling Feedback on Software Architecture Deliverables with a Multi-Agent LLM System
CAPRA: 使用多智能体LLM系统对软件架构交付物进行反馈扩展
专题命中 软件智能体 :多智能体LLM系统自动生成软件架构反馈。
AI总结 提出CAPRA多智能体LLM系统,通过多模态文档提取、确定性证据锚定和一致性管理,自动生成软件架构交付物的个性化LaTeX反馈,在10份学生报告中满足88.8%的评估标准。
Comments Accepted for publication at the 38th International Conference on Software Engineering Education and Training
Vision AI Agent for Continuous Material Monitoring of LEGEND-1000 LoFi Reentrant Tube
用于LEGEND-1000 LoFi回旋管连续材料监测的视觉AI智能体
专题命中 软件智能体 :LangChain智能体流水线,自动材料监测
AI总结 提出基于LangChain和Claude Haiku 4.5的视觉AI智能体流水线,通过SAM2分割和混合OCR验证从静水压测试视频中自动提取OFHC铜圆柱的直径和应变,计算屈服强度并与模拟对比。
Comments 27 pages, 8 figures, 5 tables, submitted to PRX Intelligence