代码大模型 / AI 编程

2606.06133 2026-06-18 cs.SE cs.AI cs.LG cs.LO 版本更新专题 90

TLA-Prover: Verifiable TLA+ Specification Synthesis via Preference-Optimized Low-Rank Adaptation

TLA-Prover: 通过偏好优化低秩适配实现可验证的 TLA+ 规范合成

Eric Spencer, Arslan Bisharat, Brian Ortiz, Khushboo Bhadauria, TaiNing Wang, George K. Thiruvathukal, Konstantin Laufer, Mohammed Abuhamad

专题命中代码生成：TLA+形式化规范合成，偏好优化提升通过率

AI总结提出 TLA-Prover 模型，结合监督微调和基于修复的组相对策略优化，在 TLC 模型检查器上实现 TLA+ 规范合成，Gold/Diamond 级别通过率达 30%，约为未调优基线的 3.5 倍。

Comments 12 pages, 5 tables, 3 figures. Accepted at the 21st International Conference on Software Technologies (ICSOFT 2026)

URL PDF HTML

2511.00802 2026-06-18 cs.SE cs.CL cs.LG 版本更新专题 85

GrowthHacker: Automated Off-Policy Evaluation Optimization Using Code-Modifying LLM Agents

GrowthHacker: 使用代码修改型LLM代理的自动离线策略评估优化

Jie JW Wu, Ayanda Patrick Herlihy, Ahmad Saleem Mirza, Ali Afoud, Fatemeh Fard

专题命中代码生成：利用LLM代理自动修改代码优化离线策略评估。

AI总结提出GrowthHacker基准，利用LLM代理自动迭代修改代码以优化离线策略评估（OPE）实现，在Open Bandit Pipeline和Scope-RL上评估多种框架，证明基于LLM的代理可作为自动增长黑客持续改进OPE系统。

Comments Accepted for publication in ACM Transactions on Software Engineering and Methodology (TOSEM), 2026

URL PDF HTML

2602.02690 2026-06-18 cs.SE 版本更新专题 90

Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All

超越LLM截止日期：一个面向所有人的实时内核崩溃修复基准

Chenxi Huang, Alex Mathai, Feiyang Yu, Aleksandr Nogikh, Petros Maniatis, Franjo Ivančić, Eugene Wu, Kostis Kaffes, Junfeng Yang, Baishakhi Ray

专题命中软件智能体：LLM代理修复内核崩溃，评估框架

AI总结提出Live-kBench和kEnv框架，用于持续评估LLM代理修复新发现的Linux内核崩溃，实验显示代理在截止日期前修复率高出25%，但仅20%的补丁与开发者修复匹配。

URL PDF HTML

2411.19099 2026-06-18 cs.SE 版本更新专题 85

Enhancing Software Maintenance: A Learning to Rank Approach for Co-changed Method Identification

增强软件维护：一种用于共变方法识别的学习排序方法

Yiping Jia, Safwat Hassan, Ying Zou

专题命中软件智能体：学习排序方法识别共变方法，辅助软件维护

AI总结提出一种学习排序方法，结合源代码特征和变更历史，在拉取请求级别预测并排序共变方法，实验表明随机森林模型在NDCG@5上优于其他模型2.5-12.8%，并超过基线方法4.7-537.5%。

URL PDF HTML

2602.06774 2026-06-18 cs.AI 版本更新专题 85

Towards Understanding What State Space Models Learn About Code

理解状态空间模型在代码中学到了什么

Jiali Wu, Abhinav Anand, Shweta Verma, Mira Mezini

专题命中代码评测：SSM代码理解机制分析

AI总结本文首次系统分析状态空间模型（SSM）在代码理解中的学习机制，发现SSM在预训练时比Transformer更有效捕获语法和语义结构，但微调时会遗忘某些关系，并提出SSM-Interpret框架和架构改进，将NLCodeSearch的MRR提升高达6。

URL PDF HTML

2604.00730 2026-06-18 cs.CY cs.AI cs.LG cs.SE 版本更新专题 75

A CEFR-Inspired Classification Framework with Fuzzy C-Means To Automate Assessment of Programming Skills in Scratch

基于CEFR启发的模糊C均值分类框架：自动化评估Scratch编程技能

Ricardo Hidalgo-Aragón, Jesús M. González-Barahona, Gregorio Robles

专题命中代码评测：模糊C均值聚类评估Scratch编程技能

AI总结提出一种基于CEFR的Scratch项目评估框架，使用模糊C均值聚类对200万+项目分级，识别B2瓶颈并引入分类确定性指标以平衡自动反馈与人工审核。

Comments Best Paper Award CSEDU 2026 -Minor change FPC fix-

URL PDF HTML

2602.15149 2026-06-18 cs.CE cs.NA math.NA 版本更新专题 60

SoliDualSPHysics: An extension of DualSPHysics for solid mechanics with hyperelasticity, plasticity, and fracture

SoliDualSPHysics：一种用于固体力学的DualSPHysics扩展，支持超弹性、塑性及断裂

Mohammad Naqib Rahimi, George Moutsanidis

专题命中其他AI编程：开源软件扩展，涉及代码但非AI编程核心

AI总结本文提出SoliDualSPHysics，一种基于SPH的开源软件，扩展DualSPHysics以模拟超弹性、有限应变塑性及脆性断裂行为，采用总拉格朗日格式，支持动态加载下的裂纹萌生与扩展，验证了其准确性和可扩展性。

URL PDF HTML

1. 代码生成 2 篇

TLA-Prover: Verifiable TLA+ Specification Synthesis via Preference-Optimized Low-Rank Adaptation

GrowthHacker: Automated Off-Policy Evaluation Optimization Using Code-Modifying LLM Agents

2. 软件智能体 2 篇

Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All

Enhancing Software Maintenance: A Learning to Rank Approach for Co-changed Method Identification

3. 代码评测 2 篇

Towards Understanding What State Space Models Learn About Code

A CEFR-Inspired Classification Framework with Fuzzy C-Means To Automate Assessment of Programming Skills in Scratch

4. 其他AI编程 1 篇

SoliDualSPHysics: An extension of DualSPHysics for solid mechanics with hyperelasticity, plasticity, and fracture