代码大模型 / AI 编程 - arXivDaily 专题

2606.20517 2026-06-19 cs.AI cs.PL 新提交专题 95

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Multi-LCB: 将 LiveCodeBench 扩展到多种编程语言

Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

专题命中代码评测：提出跨语言代码生成基准Multi-LCB，评估LLM代码能力

AI总结提出 Multi-LCB 基准，将 LiveCodeBench 的 Python 任务扩展到 12 种编程语言，评估 LLM 跨语言代码生成能力，发现 Python 过拟合和语言特定污染等问题。

Comments ICLR 2026

URL PDF HTML

2606.19830 2026-06-19 cs.SE cs.CL 新提交专题 90

JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

JAMER：专业游戏引擎上的项目级代码框架数据集与基准测试

Jianwen Sun, Chuanhao Li, Zizhen Li, Yukang Feng, Fanrui Zhang, Yifei Huang, Yu Dai, Kaipeng Zhang

专题命中代码评测：项目级游戏代码框架数据集和基准，评估代码生成模型。

AI总结提出首个基于专业游戏引擎的项目级代码框架数据集JamSet和基准JamBench，通过设计确定性验证流程，从24万仓库中筛选出8133个已验证项目，评估9个前沿模型发现项目规模增大时能力急剧下降。

URL PDF HTML

2511.18288 2026-06-19 cs.SE 版本更新专题 90

Can Large Language Models Reason About Complex Execution Paths? An Empirical Study on Python

大型语言模型能否推理复杂执行路径？基于Python的实证研究

Wenhan Wang, Kaibo Liu, Zeyu Sun, An Ran Chen, Ge Li, Gang Huang, Lei Ma

专题命中代码评测：实证研究LLM在Python执行路径推理中的能力。

AI总结本文实证研究大型语言模型在Python执行路径推理中的可行性，构建测试用例生成和缺陷分类任务，发现LLM能提升路径覆盖率，但强推理模型不一定优于弱模型。

Comments Accepted by ACM Transactions on Software Engineering and Methodology (TOSEM)

URL PDF HTML

2606.20502 2026-06-19 cs.CR cs.AI cs.SE 新提交专题 85

Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software

无理解的校准：诊断微调大语言模型在系统软件漏洞检测中的局限性

Arastoo Zibaeirad, Marco Vieira

专题命中代码评测：评估LLM在系统软件漏洞检测中的能力

AI总结提出CWE-Trace框架，通过834个Linux内核样本和两个诊断指标（DFI和HDD）评估LLM漏洞检测能力，发现数据污染无实质帮助，微调仅改变输出阈值而非决策策略，模型缺乏真正的安全推理能力。

URL PDF HTML

2606.19613 2026-06-19 cs.SE cs.AI 新提交专题 85

StaminaBench: Stress-Testing Coding Agents over 100 Interaction Turns

StaminaBench: 对编码智能体进行100轮交互的压力测试

Vlad Sobal, Shuo Yang, Yuting Zhang, Wei Xia, Stefano Soatto

专题命中代码评测：提出StaminaBench压力测试编码智能体耐力。

AI总结提出StaminaBench基准，通过100轮连续变更请求测试编码智能体的耐力，发现所有模型在5-6轮内失败，而测试反馈和重试机制可将通过轮数提升12倍。

URL PDF HTML

2606.19388 2026-06-19 cs.SE cs.CL cs.HC 新提交专题 85

Beyond the GUI Paradigm: Do Mobile Agents Need the Phone Screen?

超越GUI范式：移动代理是否需要手机屏幕？

Li Gu, Zihuan Jiang, Linqiang Guo, Zhixiang Chi, Ziqiang Wang, Huan Liu, Yuanhao Yu, Tse-Hsun Chen, Yang Wang

专题命中代码评测：评估编码代理在移动平台上的表现。

AI总结本文挑战移动代理的GUI主导范式，提出CLI应同等重要，通过实验证明CLI代理在AndroidWorld和MobileWorld上超越GUI基线，并引入CLI-Advantage任务套件展示其优势。

URL PDF HTML

2606.06747 2026-06-19 cs.SE 新提交专题 85

Tensor Algebraic Property Skeletons: Amplifying Property-Based Testing for AI Compilers

张量代数性质骨架：增强AI编译器的基于性质的测试

Yuxin Qiu, Ben Limpanukorn, Seongmin Lee, Jiyuan Wang, Qian Zhang, Miryung Kim

专题命中代码评测：LLM生成性质测试，检测AI编译器语义漂移

AI总结提出Propilot框架，利用LLM将张量代数知识表示为可复用的性质骨架，自动生成可执行的基于性质的测试，以检测AI编译器中的语义漂移。

Comments v2 adds citations and fixes some typos

URL PDF HTML

2606.20436 2026-06-19 cs.CR cs.AI 新提交专题 80

Multi-View Decompilation for LLM-Based Malware Classification

基于LLM的恶意软件分类的多视角反编译

Bercan Turkmen, Vyas Raina

专题命中代码评测：使用LLM对反编译代码进行恶意软件分类

AI总结提出多反编译器视角提升LLM恶意软件分类性能，通过Ghidra和RetDec的互补伪C代码提高召回率和F1分数。

URL PDF HTML

2606.20146 2026-06-19 cs.AI 新提交专题 80

BIM-Edit: Benchmarking Large Language Models for IFC-Based Building Information Modeling

BIM-Edit：基于IFC的建筑信息模型的大语言模型基准测试

Bharathi Kannan Nithyanantham, Clemens Kujat, Tobias Sesterhenn, Stefan Telgmann, Jörn Plönnigs, Stefan Lüdtke, Christian Bartelt

专题命中代码评测：评估LLM在建筑信息模型编辑上的基准。

AI总结提出BIM-Edit基准，评估大语言模型在IFC格式建筑信息模型上的自然语言编辑能力，涵盖324个任务，最佳模型平均得分仅49.5%，揭示当前能力与工程需求间的差距。

URL PDF HTML

2606.20128 2026-06-19 cs.SE cs.DC cs.LG 新提交专题 80

The Correctness Illusion in LLM-Generated GPU Kernels

LLM生成的GPU内核中的正确性错觉

Dipankar Sarkar

专题命中代码评测：评估LLM生成GPU内核的正确性。

AI总结通过高精度CPU参考和操作模式感知的模糊测试，发现现有基准测试中基于固定形状的allclose检查无法检测LLM风格的转录错误，提出一种新协议并验证其有效性。

Comments 10 pages, 2 figures, LNCS format. Companion papers to follow on arXiv next week; IDs will be added in a v2 replace

URL PDF HTML

2606.19710 2026-06-19 cs.CL cs.AI 新提交专题 80

FineREX: Fine-Tuned NER-RE for Human Smuggling Knowledge Graphs

FineREX: 面向人口走私知识图谱的微调NER-RE

Elijah Feldman, Dipak Meher, Carlotta Domeniconi

专题命中代码评测：微调LLM用于知识图谱构建中的NER和RE。

AI总结提出FineREX，一个基于微调LLM的流水线，用于从法律文档中提取实体和关系构建知识图谱，在F1分数上分别提升15.50%和31.46%，并减少50%处理时间。

Comments Code available at https://github.com/ElijahFeldman7/FineREX

URL PDF HTML

2606.20134 2026-06-19 cs.LO cs.PL 新提交专题 70

An MSO Framework for Weak-Memory Verification and Robustness

弱内存验证与鲁棒性的MSO框架

Giovanna Kobus Conrado, Andreas Pavlogiannis

专题命中代码评测：弱内存验证与鲁棒性的MSO框架。

AI总结本文研究单子二阶逻辑作为弱内存元理论，证明顺序一致性执行有界树宽而TSO无界，展示多种模型可MSO公理化，并引入读自鲁棒性概念，实现统一验证算法。

Comments Accepted at CONCUR 2026

URL PDF HTML

2606.19654 2026-06-19 cs.CR cs.SE 新提交专题 70

PUFFERDOS: Efficient and Effective Attack String Generation for Regular Expression Denial of Service Vulnerabilities

PUFFERDOS：针对正则表达式拒绝服务漏洞的高效攻击字符串生成

Shangzhi Xu, Ziqi Ding, Xiao Cheng, Yuekang Li, Nan Sun, Benjamin Turnbull, Shuangxiang Kan, Siqi Ma

专题命中代码评测：生成正则表达式拒绝服务攻击字符串，涉及程序分析

AI总结提出PUFFERDOS方法，通过定义三种脆弱模式并利用合成技术与组合符号执行，生成在现实长度预算内且经程序验证有效的ReDoS攻击字符串。

Comments Accepted by S&P'26

URL PDF HTML

2606.20129 2026-06-19 cs.SE 新提交专题 60

Learning Critical Testing Literacy Through Puzzles: an Experience Report

通过谜题学习关键测试素养：经验报告

Niels Doorn, Bart Th. Knaack, Tanja E. J. Vos, Beatriz Marín

专题命中代码评测：通过谜题学习软件测试素养。

AI总结本文报告了使用谜题教授关键测试素养（CTL）的13次工作坊经验，发现参与者通过解谜、汇报和反思的完整序列学习效果显著，并开发了开源分析工具。

URL PDF HTML

2606.20370 2026-06-19 astro-ph.IM astro-ph.GA 新提交专题 60

ELMA: ELlipse-based bar MAjor axis estimator

ELMA：基于椭圆的棒主轴估计器

Bruna R. Bragança de Lima, Andressa Wille, Rafael S. de Souza, Ana L. Chies-Santos

专题命中代码评测：Python包用于星系棒长度自动估计

AI总结提出ELMA Python包，通过迭代椭圆等照度线拟合自动估计星系棒长度，在GOODS-South的JWST/NIRCam图像上验证。

Comments 4 pages, 1 figure, published in RNAAS

Journal ref Research Notes of the AAS, Volume 10, Number 6, 2026

URL PDF HTML