代码大模型 / AI 编程

2606.01338 2026-06-19 cs.CL 版本更新专题 80

Benchmarking Local LLMs for Natural-Language-to-SQL Querying in Biopharmaceutical Manufacturing: An Empirical Benchmark on Consumer-Grade Hardware

在生物制药制造中本地LLM的自然语言到SQL查询基准测试：消费级硬件上的实证基准

Sagar Bhetwal, Rajan Bastakoti, Nirajan Acharya, Gaurav Kumar Gupta, Ambika Baniya Bhandari

专题命中代码生成：评估本地LLM在生物制药制造中的NL2SQL性能。

AI总结本研究评估了四种本地部署的开源大语言模型在生物制药制造数据库上的自然语言到SQL生成性能，发现代码调优的通用模型优于领域特定模型，但当前性能仍需人工监督。

URL PDF HTML

2606.19644 2026-06-19 cs.SE 新提交专题 75

Prompt Quality and Pull Request Outcomes: A Stage-Based Empirical Study of LLM-Assisted Development

提示质量与拉取请求结果：基于阶段的LLM辅助开发实证研究

Richard Sserunjogi, Daniel Ogenrwot, John Businge

专题命中代码生成：研究提示质量对LLM辅助代码生成和PR结果的影响。

AI总结通过分析265个开发者与ChatGPT的交互，研究提示结构（上下文、具体性、验证）对LLM辅助开发中代码生成、采纳和集成深度的影响，发现不同维度在不同阶段有不同作用。

Comments 48 pages, 2 figures

URL PDF HTML

2606.20072 2026-06-19 cs.CL 新提交专题 70

Source-Grounded Data Generation for Text-to-JSON Learning

基于源数据的文本到JSON学习数据生成

Sunghee Ahn, Guijin Son, Youngjae Yu

专题命中代码生成：文本到JSON数据生成

AI总结提出STAGE方法，利用电子表格作为源数据，通过LLM生成报告和JSON模式，并验证真实值，显著提升文本到JSON任务的训练数据质量。

Comments Preprint

URL PDF HTML

2606.19419 2026-06-19 cs.RO cs.AI 新提交专题 65

Playful Agentic Robot Learning

趣味性具身机器人学习

Junyi Zhang, Jiaxin Ge, Hanjun Yoo, Letian Fu, Zihan Yang, Yaowei Liu, Raj Saravanan, Shaofeng Yin, Justin Yu, Dantong Niu, Zirui Wang, Roei Herzig, Ken Goldberg, Yutong Bai, David M. Chan, Ion Stoica, Angjoo Kanazawa, Jiahui Lei, Haiwen Feng, Trevor Darrell

专题命中代码生成：机器人编码智能体生成可执行代码策略。

AI总结提出RATs框架，让机器人通过自主探索学习可复用技能，在LIBERO-PRO和MolmoSpaces上分别提升20.6和17.0个百分点。

Comments Project page: https://playful-rats.github.io/

URL PDF HTML

2606.05017 2026-06-19 cs.AR cs.MS 版本更新专题 60

GoldenFloat: A Phi-Derived Static-Split Floating-Point Family from GF4 to GF256 with a Lucas-Exact Integer Identity

GoldenFloat: 从GF4到GF256的基于Phi的静态拆分浮点系列及其Lucas精确整数恒等式

Dmitrii Vasilev

专题命中代码生成：提出GoldenFloat浮点系列RTL生成器。

AI总结提出一种由单一闭式规则生成的静态拆分浮点系列GoldenFloat，并给出多宽度RTL生成器、Lucas精确累加器路径和FPGA编解码器三个具体实现。

Comments 20 pages, single-file LaTeX, ASCII source. v2: peer-anchor updates. Adds Sarnoff P3109 (arXiv:2606.04028), AMD MXFP4 silicon (arXiv:2605.09825), NVIDIA GB10 NVFP4 measurement, companion catalog (arXiv:2606.09686), MixFP4 (arXiv:2605.31035). FL-002 expanded: (c1) GF256 bias, (c2) count drift, (g) static-split vs micro-mixing. TTSKY26a regeneration timeline added. No mathematical claims revised

URL PDF HTML

2512.00560 2026-06-19 cs.SE 版本更新专题 80

SAGE: Semantic-Aware Gray-Box Game Regression Testing with Large Language Models

SAGE: 基于语义的灰盒游戏回归测试与大型语言模型

Jinyu Cai, Jialong Li, Nianyu Li, Zhenyu Mao, Mingyue Zhang, Kenji Tei

专题命中软件智能体：利用LLM引导强化学习自动生成游戏测试套件。

AI总结提出SAGE框架，利用LLM引导强化学习自动生成测试套件，通过语义多目标优化精简测试，并基于更新日志语义分析优先排序，在Overcooked Plus和Minecraft中实现高效回归测试。

Comments This paper has been accepted by Automated Software Engineering journal

URL PDF HTML

2606.20487 2026-06-19 cs.CL 新提交专题 70

Beyond Global Replanning: Hierarchical Recovery for Cross-Device Agent Systems

超越全局重规划：跨设备智能体系统的分层恢复

Shu Yao, Yuhua Luo, Qian Long, Jingru Fan, Zhuoyuan Yu, Yuheng Wang, Lin Wu, Yufan Dang, Huatao Li, Chen Qian

专题命中软件智能体：涉及API-CLI-GUI执行和失败恢复

AI总结提出分层重规划框架H-RePlan，通过统一API-CLI-GUI执行和跨层失败抽象，区分设备本地策略恢复与全局重规划，在HeraBench基准上显著提升跨设备任务完成率和指令遵循度。

URL PDF HTML

2606.20134 2026-06-19 cs.LO cs.PL 新提交专题 70

An MSO Framework for Weak-Memory Verification and Robustness

弱内存验证与鲁棒性的MSO框架

Giovanna Kobus Conrado, Andreas Pavlogiannis

专题命中代码评测：弱内存验证与鲁棒性的MSO框架。

AI总结本文研究单子二阶逻辑作为弱内存元理论，证明顺序一致性执行有界树宽而TSO无界，展示多种模型可MSO公理化，并引入读自鲁棒性概念，实现统一验证算法。

Comments Accepted at CONCUR 2026

URL PDF HTML

2606.19654 2026-06-19 cs.CR cs.SE 新提交专题 70

PUFFERDOS: Efficient and Effective Attack String Generation for Regular Expression Denial of Service Vulnerabilities

PUFFERDOS：针对正则表达式拒绝服务漏洞的高效攻击字符串生成

Shangzhi Xu, Ziqi Ding, Xiao Cheng, Yuekang Li, Nan Sun, Benjamin Turnbull, Shuangxiang Kan, Siqi Ma

专题命中代码评测：生成正则表达式拒绝服务攻击字符串，涉及程序分析

AI总结提出PUFFERDOS方法，通过定义三种脆弱模式并利用合成技术与组合符号执行，生成在现实长度预算内且经程序验证有效的ReDoS攻击字符串。

Comments Accepted by S&P'26

URL PDF HTML

2606.20129 2026-06-19 cs.SE 新提交专题 60

Learning Critical Testing Literacy Through Puzzles: an Experience Report

通过谜题学习关键测试素养：经验报告

Niels Doorn, Bart Th. Knaack, Tanja E. J. Vos, Beatriz Marín

专题命中代码评测：通过谜题学习软件测试素养。

AI总结本文报告了使用谜题教授关键测试素养（CTL）的13次工作坊经验，发现参与者通过解谜、汇报和反思的完整序列学习效果显著，并开发了开源分析工具。

URL PDF HTML

2606.20370 2026-06-19 astro-ph.IM astro-ph.GA 新提交专题 60

ELMA: ELlipse-based bar MAjor axis estimator

ELMA：基于椭圆的棒主轴估计器

Bruna R. Bragança de Lima, Andressa Wille, Rafael S. de Souza, Ana L. Chies-Santos

专题命中代码评测：Python包用于星系棒长度自动估计

AI总结提出ELMA Python包，通过迭代椭圆等照度线拟合自动估计星系棒长度，在GOODS-South的JWST/NIRCam图像上验证。

Comments 4 pages, 1 figure, published in RNAAS

Journal ref Research Notes of the AAS, Volume 10, Number 6, 2026

URL PDF HTML

2606.18941 2026-06-19 cs.PL cs.CL 新提交专题 70

ESBMC-GraphPLC: Formal Verification of Graphical PLCopen XML Ladder Diagram Programs Using SMT-Based Model Checking

Graph-ESBMC-PLC：使用基于SMT的模型检查对图形化PLCopen XML梯形图程序进行形式验证

Pierre Dantas, Lucas Cordeiro, Waldir Junior

专题命中程序修复：形式验证PLC程序，属于程序修复

AI总结针对ESBMC-PLC无法处理图形化PLCopen XML梯形图的问题，提出基于DFS的图形LD解析器，将连接图转换为布尔触点合取，并采用三级I/O推断方案，成功实现完整GOTO IR转换，验证了3个图形LD程序。

Comments 18 pages

URL PDF HTML

2601.22978 2026-06-19 cs.CR cs.PL 版本更新专题 60

Triosecuris: Formally Verified Protection Against Speculative Control-Flow Hijacking

Triosecuris：针对推测控制流劫持的形式化验证防御

Jonathan Baumann, Yonghyun Kim, Yan Farba, Catalin Hritcu, Julay Leatherman-Brooks

专题命中程序修复：形式化验证防御推测控制流劫持

AI总结提出Triosecuris，结合CET风格硬件辅助控制流完整性与编译器插入的推测加载硬化，通过形式化证明实现相对安全性，确保任意程序在推测执行下不泄露比源程序无推测时更多的信息。

Comments To appear at CSF'26; extended version with appendices. W.r.t. first revision: extended with concrete protection against Spectre RSB and renamed to Triosecuris

Journal ref 39th IEEE Computer Security Foundations Symposium (CSF) (2026) 544-559

URL PDF HTML

1. 代码生成 5 篇

Benchmarking Local LLMs for Natural-Language-to-SQL Querying in Biopharmaceutical Manufacturing: An Empirical Benchmark on Consumer-Grade Hardware

Prompt Quality and Pull Request Outcomes: A Stage-Based Empirical Study of LLM-Assisted Development

Source-Grounded Data Generation for Text-to-JSON Learning

Playful Agentic Robot Learning

GoldenFloat: A Phi-Derived Static-Split Floating-Point Family from GF4 to GF256 with a Lucas-Exact Integer Identity

2. 软件智能体 2 篇

SAGE: Semantic-Aware Gray-Box Game Regression Testing with Large Language Models

Beyond Global Replanning: Hierarchical Recovery for Cross-Device Agent Systems

3. 代码评测 4 篇

An MSO Framework for Weak-Memory Verification and Robustness

PUFFERDOS: Efficient and Effective Attack String Generation for Regular Expression Denial of Service Vulnerabilities

Learning Critical Testing Literacy Through Puzzles: an Experience Report

ELMA: ELlipse-based bar MAjor axis estimator

4. 程序修复 2 篇

ESBMC-GraphPLC: Formal Verification of Graphical PLCopen XML Ladder Diagram Programs Using SMT-Based Model Checking

Triosecuris: Formally Verified Protection Against Speculative Control-Flow Hijacking