arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

代码大模型 / AI 编程

代码生成、软件工程智能体、程序修复、测试生成和开发者工具。

今日/当前日期收录 7 信号源:cs.SE, cs.CL, cs.AI, cs.LG, cs.PL
2606.20512 2026-06-19 cs.SE cs.LG 新提交 专题 90

Probe-and-Refine Tuning of Repository Guidance for Coding Agents

代码代理的仓库指导的探测与精炼调优

Asa Shepard, Jeannie Albrecht

专题命中 软件智能体 :提出编码代理仓库指导的探测与精炼调优

AI总结 提出探测与精炼调优方法,通过合成bug修复探测迭代诊断和修补仓库指导文件,在SWE-bench Verified上以Qwen3.5-35B-A3B模型达到33.0%解决率,优于静态知识库的28.3%和无指导基线的25.5%。

2606.20243 2026-06-19 cs.SE cs.MA 新提交 专题 90

Phoenix: Safe GitHub Issue Resolution via Multi-Agent LLMs

Phoenix: 通过多智能体LLM实现安全的GitHub问题解决

Kipngeno Koech, Muhammad Adam, Baimam Boukar Jean Jacques, Joao Barros

专题命中 软件智能体 :多智能体LLM系统解决GitHub问题

AI总结 提出多智能体LLM系统Phoenix,通过六个专业智能体和七层安全控制,在SWE-bench Lite子集上达到75%的解决率,并在真实问题中保持100%正确性。

2606.19380 2026-06-19 cs.SE cs.LG 新提交 专题 90

AgentArmor: A Framework, Evaluation, \& Mitigation of Coding Agent Failures

AgentArmor:编码代理失败的框架、评估与缓解

Kenneth Ge, Andre Assis

专题命中 软件智能体 :研究编码代理的失败模式并提出缓解框架。

AI总结 提出AgentArmor框架,通过系统提示增强、命令分类器、三振政策等机制,缓解编码代理因规范不足、能力错误和工具错误导致的失败,显著提升安全性。

2606.14066 2026-06-19 cs.SE 新提交 专题 90

FastContext: Training Efficient Repository Explorer for Coding Agents

FastContext: 为编码智能体训练高效的仓库探索器

Shaoqiu Zhang, Maoquan Wang, Yuling Shi, Yuhang Wang, Xiaodong Gu, Yongqiang Yao, Tori Gong, Sheng Chen, Rao Fu, Anisha Agarwal, Spandan Grag, Gabriel Ryan, Colin Merkel, Yufan Huang, Shengyu Fu

专题命中 软件智能体 :编码智能体仓库探索器

AI总结 提出专用探索子智能体FastContext,通过并行工具调用和专注上下文生成,分离仓库探索与问题解决,在SWE-bench等任务上提升修复率达5.5%,降低编码智能体token消耗达60%。

Comments 34 pages, 7 figures

2606.19616 2026-06-19 cs.SE cs.AI cs.MA 新提交 专题 80

Before the Pull Request: Mining Multi-Agent Coordination

在拉取请求之前:挖掘多智能体协调

Dipankar Sarkar

专题命中 软件智能体 :提出grite协调基板,减少多编码智能体冲突。

AI总结 针对自主编码智能体在拉取请求中协调不足的问题,提出基于git的协调基板grite,通过事件日志减少重复和冲突工作,提升吞吐量,并自动恢复多种故障模式。

Comments 9 pages, 2 tables. LNCS format. Code, dataset, and mining toolkit: https://github.com/neul-labs/grite

2512.00560 2026-06-19 cs.SE 版本更新 专题 80

SAGE: Semantic-Aware Gray-Box Game Regression Testing with Large Language Models

SAGE: 基于语义的灰盒游戏回归测试与大型语言模型

Jinyu Cai, Jialong Li, Nianyu Li, Zhenyu Mao, Mingyue Zhang, Kenji Tei

专题命中 软件智能体 :利用LLM引导强化学习自动生成游戏测试套件。

AI总结 提出SAGE框架,利用LLM引导强化学习自动生成测试套件,通过语义多目标优化精简测试,并基于更新日志语义分析优先排序,在Overcooked Plus和Minecraft中实现高效回归测试。

Comments This paper has been accepted by Automated Software Engineering journal

2606.20487 2026-06-19 cs.CL 新提交 专题 70

Beyond Global Replanning: Hierarchical Recovery for Cross-Device Agent Systems

超越全局重规划:跨设备智能体系统的分层恢复

Shu Yao, Yuhua Luo, Qian Long, Jingru Fan, Zhuoyuan Yu, Yuheng Wang, Lin Wu, Yufan Dang, Huatao Li, Chen Qian

专题命中 软件智能体 :涉及API-CLI-GUI执行和失败恢复

AI总结 提出分层重规划框架H-RePlan,通过统一API-CLI-GUI执行和跨层失败抽象,区分设备本地策略恢复与全局重规划,在HeraBench基准上显著提升跨设备任务完成率和指令遵循度。