代码大模型 / AI 编程

2606.20517 2026-06-19 cs.AI cs.PL 新提交专题 95

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Multi-LCB: 将 LiveCodeBench 扩展到多种编程语言

Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

专题命中代码评测：提出跨语言代码生成基准Multi-LCB，评估LLM代码能力

AI总结提出 Multi-LCB 基准，将 LiveCodeBench 的 Python 任务扩展到 12 种编程语言，评估 LLM 跨语言代码生成能力，发现 Python 过拟合和语言特定污染等问题。

Comments ICLR 2026

URL PDF HTML

2606.19830 2026-06-19 cs.SE cs.CL 新提交专题 90

JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

JAMER：专业游戏引擎上的项目级代码框架数据集与基准测试

Jianwen Sun, Chuanhao Li, Zizhen Li, Yukang Feng, Fanrui Zhang, Yifei Huang, Yu Dai, Kaipeng Zhang

专题命中代码评测：项目级游戏代码框架数据集和基准，评估代码生成模型。

AI总结提出首个基于专业游戏引擎的项目级代码框架数据集JamSet和基准JamBench，通过设计确定性验证流程，从24万仓库中筛选出8133个已验证项目，评估9个前沿模型发现项目规模增大时能力急剧下降。

URL PDF HTML

2606.20502 2026-06-19 cs.CR cs.AI cs.SE 新提交专题 85

Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software

无理解的校准：诊断微调大语言模型在系统软件漏洞检测中的局限性

Arastoo Zibaeirad, Marco Vieira

专题命中代码评测：评估LLM在系统软件漏洞检测中的能力

AI总结提出CWE-Trace框架，通过834个Linux内核样本和两个诊断指标（DFI和HDD）评估LLM漏洞检测能力，发现数据污染无实质帮助，微调仅改变输出阈值而非决策策略，模型缺乏真正的安全推理能力。

URL PDF HTML

2606.19613 2026-06-19 cs.SE cs.AI 新提交专题 85

StaminaBench: Stress-Testing Coding Agents over 100 Interaction Turns

StaminaBench: 对编码智能体进行100轮交互的压力测试

Vlad Sobal, Shuo Yang, Yuting Zhang, Wei Xia, Stefano Soatto

专题命中代码评测：提出StaminaBench压力测试编码智能体耐力。

AI总结提出StaminaBench基准，通过100轮连续变更请求测试编码智能体的耐力，发现所有模型在5-6轮内失败，而测试反馈和重试机制可将通过轮数提升12倍。

URL PDF HTML

2606.19388 2026-06-19 cs.SE cs.CL cs.HC 新提交专题 85

Beyond the GUI Paradigm: Do Mobile Agents Need the Phone Screen?

超越GUI范式：移动代理是否需要手机屏幕？

Li Gu, Zihuan Jiang, Linqiang Guo, Zhixiang Chi, Ziqiang Wang, Huan Liu, Yuanhao Yu, Tse-Hsun Chen, Yang Wang

专题命中代码评测：评估编码代理在移动平台上的表现。

AI总结本文挑战移动代理的GUI主导范式，提出CLI应同等重要，通过实验证明CLI代理在AndroidWorld和MobileWorld上超越GUI基线，并引入CLI-Advantage任务套件展示其优势。

URL PDF HTML

2606.06747 2026-06-19 cs.SE 新提交专题 85

Tensor Algebraic Property Skeletons: Amplifying Property-Based Testing for AI Compilers

张量代数性质骨架：增强AI编译器的基于性质的测试

Yuxin Qiu, Ben Limpanukorn, Seongmin Lee, Jiyuan Wang, Qian Zhang, Miryung Kim

专题命中代码评测：LLM生成性质测试，检测AI编译器语义漂移

AI总结提出Propilot框架，利用LLM将张量代数知识表示为可复用的性质骨架，自动生成可执行的基于性质的测试，以检测AI编译器中的语义漂移。

Comments v2 adds citations and fixes some typos

URL PDF HTML

2606.20436 2026-06-19 cs.CR cs.AI 新提交专题 80

Multi-View Decompilation for LLM-Based Malware Classification

基于LLM的恶意软件分类的多视角反编译

Bercan Turkmen, Vyas Raina

专题命中代码评测：使用LLM对反编译代码进行恶意软件分类

AI总结提出多反编译器视角提升LLM恶意软件分类性能，通过Ghidra和RetDec的互补伪C代码提高召回率和F1分数。

URL PDF HTML

2606.20146 2026-06-19 cs.AI 新提交专题 80

BIM-Edit: Benchmarking Large Language Models for IFC-Based Building Information Modeling

BIM-Edit：基于IFC的建筑信息模型的大语言模型基准测试

Bharathi Kannan Nithyanantham, Clemens Kujat, Tobias Sesterhenn, Stefan Telgmann, Jörn Plönnigs, Stefan Lüdtke, Christian Bartelt

专题命中代码评测：评估LLM在建筑信息模型编辑上的基准。

AI总结提出BIM-Edit基准，评估大语言模型在IFC格式建筑信息模型上的自然语言编辑能力，涵盖324个任务，最佳模型平均得分仅49.5%，揭示当前能力与工程需求间的差距。

URL PDF HTML

2606.20128 2026-06-19 cs.SE cs.DC cs.LG 新提交专题 80

The Correctness Illusion in LLM-Generated GPU Kernels

LLM生成的GPU内核中的正确性错觉

Dipankar Sarkar

专题命中代码评测：评估LLM生成GPU内核的正确性。

AI总结通过高精度CPU参考和操作模式感知的模糊测试，发现现有基准测试中基于固定形状的allclose检查无法检测LLM风格的转录错误，提出一种新协议并验证其有效性。

Comments 10 pages, 2 figures, LNCS format. Companion papers to follow on arXiv next week; IDs will be added in a v2 replace

URL PDF HTML

2606.19710 2026-06-19 cs.CL cs.AI 新提交专题 80

FineREX: Fine-Tuned NER-RE for Human Smuggling Knowledge Graphs

FineREX: 面向人口走私知识图谱的微调NER-RE

Elijah Feldman, Dipak Meher, Carlotta Domeniconi

专题命中代码评测：微调LLM用于知识图谱构建中的NER和RE。

AI总结提出FineREX，一个基于微调LLM的流水线，用于从法律文档中提取实体和关系构建知识图谱，在F1分数上分别提升15.50%和31.46%，并减少50%处理时间。

Comments Code available at https://github.com/ElijahFeldman7/FineREX

URL PDF HTML

2606.20134 2026-06-19 cs.LO cs.PL 新提交专题 70

An MSO Framework for Weak-Memory Verification and Robustness

弱内存验证与鲁棒性的MSO框架

Giovanna Kobus Conrado, Andreas Pavlogiannis

专题命中代码评测：弱内存验证与鲁棒性的MSO框架。

AI总结本文研究单子二阶逻辑作为弱内存元理论，证明顺序一致性执行有界树宽而TSO无界，展示多种模型可MSO公理化，并引入读自鲁棒性概念，实现统一验证算法。

Comments Accepted at CONCUR 2026

URL PDF HTML

2606.20512 2026-06-19 cs.SE cs.LG 新提交专题 90

Probe-and-Refine Tuning of Repository Guidance for Coding Agents

代码代理的仓库指导的探测与精炼调优

Asa Shepard, Jeannie Albrecht

专题命中软件智能体：提出编码代理仓库指导的探测与精炼调优

AI总结提出探测与精炼调优方法，通过合成bug修复探测迭代诊断和修补仓库指导文件，在SWE-bench Verified上以Qwen3.5-35B-A3B模型达到33.0%解决率，优于静态知识库的28.3%和无指导基线的25.5%。

URL PDF HTML

2606.20243 2026-06-19 cs.SE cs.MA 新提交专题 90

Phoenix: Safe GitHub Issue Resolution via Multi-Agent LLMs

Phoenix: 通过多智能体LLM实现安全的GitHub问题解决

Kipngeno Koech, Muhammad Adam, Baimam Boukar Jean Jacques, Joao Barros

专题命中软件智能体：多智能体LLM系统解决GitHub问题

AI总结提出多智能体LLM系统Phoenix，通过六个专业智能体和七层安全控制，在SWE-bench Lite子集上达到75%的解决率，并在真实问题中保持100%正确性。

URL PDF HTML

2606.19380 2026-06-19 cs.SE cs.LG 新提交专题 90

AgentArmor: A Framework, Evaluation, \& Mitigation of Coding Agent Failures

AgentArmor：编码代理失败的框架、评估与缓解

Kenneth Ge, Andre Assis

专题命中软件智能体：研究编码代理的失败模式并提出缓解框架。

AI总结提出AgentArmor框架，通过系统提示增强、命令分类器、三振政策等机制，缓解编码代理因规范不足、能力错误和工具错误导致的失败，显著提升安全性。

URL PDF HTML

2606.14066 2026-06-19 cs.SE 新提交专题 90

FastContext: Training Efficient Repository Explorer for Coding Agents

FastContext: 为编码智能体训练高效的仓库探索器

Shaoqiu Zhang, Maoquan Wang, Yuling Shi, Yuhang Wang, Xiaodong Gu, Yongqiang Yao, Tori Gong, Sheng Chen, Rao Fu, Anisha Agarwal, Spandan Grag, Gabriel Ryan, Colin Merkel, Yufan Huang, Shengyu Fu

专题命中软件智能体：编码智能体仓库探索器

AI总结提出专用探索子智能体FastContext，通过并行工具调用和专注上下文生成，分离仓库探索与问题解决，在SWE-bench等任务上提升修复率达5.5%，降低编码智能体token消耗达60%。

Comments 34 pages, 7 figures

URL PDF HTML

2606.19616 2026-06-19 cs.SE cs.AI cs.MA 新提交专题 80

Before the Pull Request: Mining Multi-Agent Coordination

在拉取请求之前：挖掘多智能体协调

Dipankar Sarkar

专题命中软件智能体：提出grite协调基板，减少多编码智能体冲突。

AI总结针对自主编码智能体在拉取请求中协调不足的问题，提出基于git的协调基板grite，通过事件日志减少重复和冲突工作，提升吞吐量，并自动恢复多种故障模式。

Comments 9 pages, 2 tables. LNCS format. Code, dataset, and mining toolkit: https://github.com/neul-labs/grite

URL PDF HTML

2606.20487 2026-06-19 cs.CL 新提交专题 70

Beyond Global Replanning: Hierarchical Recovery for Cross-Device Agent Systems

超越全局重规划：跨设备智能体系统的分层恢复

Shu Yao, Yuhua Luo, Qian Long, Jingru Fan, Zhuoyuan Yu, Yuheng Wang, Lin Wu, Yufan Dang, Huatao Li, Chen Qian

专题命中软件智能体：涉及API-CLI-GUI执行和失败恢复

AI总结提出分层重规划框架H-RePlan，通过统一API-CLI-GUI执行和跨层失败抽象，区分设备本地策略恢复与全局重规划，在HeraBench基准上显著提升跨设备任务完成率和指令遵循度。

URL PDF HTML

2606.20158 2026-06-19 cs.SE 新提交专题 90

N-Version Programming with Coding Agents

使用编码代理的N版本编程

Javier Ron, Benoit Baudry, Martin Monperrus

专题命中代码生成：使用编码代理生成实现，评估多样性对故障模式的影响。

AI总结本文在当代AI编码代理背景下重新审视N版本编程，通过Knight-Leveson实验评估代理系统、模型和实现语言的多样性对故障模式的影响，发现常见模式故障，但多数投票三版本单元显著降低故障数，证明该策略的工程实用性。

URL PDF HTML

2606.19988 2026-06-19 cs.SE 新提交专题 90

Repository-Level Solidity Code Generation with Large Language Models: From Prompting to Fine-Tuning

基于大语言模型的仓库级Solidity代码生成：从提示到微调

Shi Chen, Rongcun Wang, Yuan Tian, Xiaoyuan Xie, Wei Song, Rubing Huang

专题命中代码生成：评估LLM在Solidity代码生成中的表现

AI总结提出SolidityBench基准和SolidityScore指标，评估多种LLM方法在仓库级Solidity代码生成中的表现，发现监督微调最有效。

Comments 33 pages

URL PDF HTML

2606.19387 2026-06-19 cs.SE cs.AI 新提交专题 90

Interpretable and Verifiable Hardware Generation with LLM-Driven Stepwise Refinement

可解释且可验证的硬件生成：基于LLM驱动的逐步细化

You Li, Samuel Mandell, David Z. Pan

专题命中代码生成：利用LLM生成RTL硬件代码，结合形式化方法。

AI总结提出结合LLM创造力与形式化方法可解释性的硬件生成框架，通过迭代应用变换规则将设计规范转换为正确性有保证的RTL程序。

URL PDF HTML

2606.19347 2026-06-19 cs.CL cs.AI cs.PL 新提交专题 90

How LLMs Fail and Generalize in RTL Coding for Hardware Design?

LLM在硬件设计的RTL编码中如何失败与泛化？

Guan-Ting Liu, Chao-Han Huck Yang, Chenhui Deng, Zhongzhi Yu, Brucek Khailany, Yu-Chiang Frank Wang

专题命中代码生成：分析LLM在RTL编码中的失败与泛化

AI总结提出基于问题可解性的错误分类法，揭示LLM在RTL编码中受限于预训练知识，对齐技术仅教会编译，而推理能力才是关键瓶颈。

Comments Preview, under submission for EMNLP 2026

URL PDF HTML

2606.20373 2026-06-19 cs.SE cs.AI 新提交专题 85

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

AutoPass：基于证据的LLM智能体用于编译器性能调优

Zepeng Li, Jie Ren, Zhanyong Tang, Jie Zheng, Zheng Wang

专题命中代码生成：LLM生成编译选项优化代码性能

AI总结提出AutoPass多智能体框架，通过查询编译器内部状态和中间表示，利用运行时反馈迭代优化编译选项，无需训练即可提升性能，在x86-64和ARM64上分别实现1.043倍和1.117倍加速。

URL PDF HTML

2606.19814 2026-06-19 cs.SE 新提交专题 85

CoRaCommit: A VS Code Extension for Commit Message Generation with Exemplar Retrieval

CoRaCommit: 一种基于范例检索的提交消息生成的 VS Code 扩展

Chaoran Cai, Bo Xiong, Chong Wang, Lulu He, Peng Liang

专题命中代码生成：VS Code扩展，利用检索范例生成提交消息。

AI总结提出 CoRaCommit VS Code 扩展，通过检索相似提交范例作为提示上下文、并行调用多个大语言模型生成候选消息并基于用户反馈动态推荐，在 ApacheCM 数据集上优于现有扩展。

Comments 17 pages, 6 images, 3 tables, Manuscript submitted to a Journal (2026)

URL PDF HTML

2606.11537 2026-06-19 cs.AI cs.CE 新提交专题 85

MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning

MoCA-Agent: 一种用于金融和数值推理的声明市场代码智能体

Abdelrahman Abdallah, AbdelRahim A. Elmadany, Sameh Al Natour, Hasan Cavusoglu, Adam Jatowt, Muhammad Abdul-Mageed

专题命中代码生成：系统生成可执行Python程序解决表格问答

AI总结提出MoCA-Agent，通过声明级验证和代码生成解决金融表格问答中的数值推理错误，在十个基准上取得强性能。

URL PDF HTML

2606.20173 2026-06-19 cs.SE 新提交专题 80

Qiskit Code Migration with LLMs

使用大语言模型进行Qiskit代码迁移

Jose Manuel Suarez, Luis Mariano Bibbo, Joaquin Bogado, Alenandro Fernandez

专题命中代码生成：LLM+RAG自动迁移Qiskit代码。

AI总结针对量子软件开发套件版本演进导致的代码维护问题，提出结合大语言模型与检索增强生成（RAG）的混合方法，利用自动生成的迁移场景分类体系引导模型，实现Qiskit代码跨版本自动迁移，有效减少幻觉并提升迁移建议质量。

URL PDF HTML

2606.19474 2026-06-19 cs.CR cs.AI cs.SE 新提交专题 80

Secure Coding Drift in LLM-Assisted Post-Quantum Cryptography Development: A Gamified Fix

LLM辅助后量子密码开发中的安全编码漂移：一种游戏化修复方案

R. D. N. Shakya, C. P. Wijesiriwardana, S. M. Vidanagamachchi, Nalin A. G. Arachchilage

专题命中代码生成：研究LLM辅助后量子密码开发中的安全编码漂移。

AI总结提出LLM辅助PQC开发中的安全编码漂移模型，通过游戏化框架将LLM转变为主动安全协作者，以缓解长期依赖LLM导致的安全退化。

Comments Accepted for 2026 SIGIR Workshop on Vulnerabilities in Generative Systems for Information Retrieval track

URL PDF HTML

2606.19644 2026-06-19 cs.SE 新提交专题 75

Prompt Quality and Pull Request Outcomes: A Stage-Based Empirical Study of LLM-Assisted Development

提示质量与拉取请求结果：基于阶段的LLM辅助开发实证研究

Richard Sserunjogi, Daniel Ogenrwot, John Businge

专题命中代码生成：研究提示质量对LLM辅助代码生成和PR结果的影响。

AI总结通过分析265个开发者与ChatGPT的交互，研究提示结构（上下文、具体性、验证）对LLM辅助开发中代码生成、采纳和集成深度的影响，发现不同维度在不同阶段有不同作用。

Comments 48 pages, 2 figures

URL PDF HTML

2606.19725 2026-06-19 cs.SE cs.AI cs.MA 新提交专题 90

Library-Aware Doubles and Iterative Repair for Large Language Model-Generated Unit Tests in OpenSIL Firmware

面向OpenSIL固件中大语言模型生成的单元测试的库感知双打与迭代修复

Ma Toan Bach, Yuchi Zheng, Haingo Razafindranto, Tanvir Alam, Aric Leather, Ranveer Sandhu, Jitesh Arora

专题命中测试生成：LLM引导的多智能体自动化单元测试生成与修复。

AI总结针对OpenSIL固件单元测试因构建约束易失败的问题，提出LLM引导的多智能体自动化测试生成与迭代修复流程，在76个函数中73个生成可编译测试，行覆盖率达98.8%。

Comments 20 pages, 10 figures

URL PDF HTML

2606.19149 2026-06-19 cs.CR cs.LG 新提交专题 85

OpenAnt: LLM-Powered Vulnerability Discovery Through Code Decomposition, Adversarial Verification, and Dynamic Testing

OpenAnt：通过代码分解、对抗性验证和动态测试实现LLM驱动的漏洞发现

Nahum Korda, Gadi Evron

专题命中程序修复：LLM驱动漏洞发现，属于程序修复

AI总结提出OpenAnt系统，结合静态分析与LLM推理，通过代码分解、对抗性验证和动态测试三阶段流水线，在降低误报率的同时发现未知漏洞。

URL PDF HTML

2506.16136 2026-06-19 cs.SE 专题 85

Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Fixing

视觉即修复：基于多模态大语言模型的视觉软件问题修复

Kai Huang, Jian Zhang, Xiaofei Xie, Chunyang Chen

专题命中程序修复：多模态LLM修复视觉软件问题，属于程序修复。

AI总结本文提出GUIRepair方法，通过多模态推理解决视觉软件问题，结合图像到代码和代码到图像的组件提升故障理解和修复验证。

Journal ref 2025 40th IEEE/ACM International Conference on Automated Software Engineering (ASE)

URL PDF HTML

1. 代码评测 11 篇

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software

StaminaBench: Stress-Testing Coding Agents over 100 Interaction Turns

Beyond the GUI Paradigm: Do Mobile Agents Need the Phone Screen?

Tensor Algebraic Property Skeletons: Amplifying Property-Based Testing for AI Compilers

Multi-View Decompilation for LLM-Based Malware Classification

BIM-Edit: Benchmarking Large Language Models for IFC-Based Building Information Modeling

The Correctness Illusion in LLM-Generated GPU Kernels

FineREX: Fine-Tuned NER-RE for Human Smuggling Knowledge Graphs

An MSO Framework for Weak-Memory Verification and Robustness

2. 软件智能体 6 篇

Probe-and-Refine Tuning of Repository Guidance for Coding Agents

Phoenix: Safe GitHub Issue Resolution via Multi-Agent LLMs

AgentArmor: A Framework, Evaluation, \& Mitigation of Coding Agent Failures

FastContext: Training Efficient Repository Explorer for Coding Agents

Before the Pull Request: Mining Multi-Agent Coordination

Beyond Global Replanning: Hierarchical Recovery for Cross-Device Agent Systems

3. 代码生成 10 篇

N-Version Programming with Coding Agents

Repository-Level Solidity Code Generation with Large Language Models: From Prompting to Fine-Tuning

Interpretable and Verifiable Hardware Generation with LLM-Driven Stepwise Refinement

How LLMs Fail and Generalize in RTL Coding for Hardware Design?

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

CoRaCommit: A VS Code Extension for Commit Message Generation with Exemplar Retrieval

MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning

Qiskit Code Migration with LLMs

Secure Coding Drift in LLM-Assisted Post-Quantum Cryptography Development: A Gamified Fix

Prompt Quality and Pull Request Outcomes: A Stage-Based Empirical Study of LLM-Assisted Development

4. 测试生成 1 篇

Library-Aware Doubles and Iterative Repair for Large Language Model-Generated Unit Tests in OpenSIL Firmware

5. 程序修复 2 篇

OpenAnt: LLM-Powered Vulnerability Discovery Through Code Decomposition, Adversarial Verification, and Dynamic Testing

Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Fixing