arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

代码大模型 / AI 编程

代码生成、软件工程智能体、程序修复、测试生成和开发者工具。

今日/当前日期收录 6 信号源:cs.SE, cs.CL, cs.AI, cs.LG, cs.PL
2602.06774 2026-06-18 cs.AI 版本更新 专题 85

Towards Understanding What State Space Models Learn About Code

理解状态空间模型在代码中学到了什么

Jiali Wu, Abhinav Anand, Shweta Verma, Mira Mezini

专题命中 代码评测 :SSM代码理解机制分析

AI总结 本文首次系统分析状态空间模型(SSM)在代码理解中的学习机制,发现SSM在预训练时比Transformer更有效捕获语法和语义结构,但微调时会遗忘某些关系,并提出SSM-Interpret框架和架构改进,将NLCodeSearch的MRR提升高达6。

2606.18284 2026-06-18 cs.LG cs.AI cs.CL 新提交 专题 75

Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier

打破求解器瓶颈:在可学习前沿训练任务生成器

Lorenz Wolf, Connor Watts, Roger Creus Castanyer, Geoffrey Bradway, Maxwill Lin, Augustine N. Mavor-Parker, Matthew Daborn-Sargent

专题命中 代码评测 :提出PROPEL框架,优化任务生成器用于代码和软件工程。

AI总结 提出PROPEL框架,通过训练轻量级激活探针作为求解率代理,在无需重复求解器评估的情况下优化任务生成器,使生成任务集中在可学习前沿,提升数学、代码和软件工程任务的有效性。

Comments 30 pages, 9 figures, 12 tables

2604.00730 2026-06-18 cs.CY cs.AI cs.LG cs.SE 版本更新 专题 75

A CEFR-Inspired Classification Framework with Fuzzy C-Means To Automate Assessment of Programming Skills in Scratch

基于CEFR启发的模糊C均值分类框架:自动化评估Scratch编程技能

Ricardo Hidalgo-Aragón, Jesús M. González-Barahona, Gregorio Robles

专题命中 代码评测 :模糊C均值聚类评估Scratch编程技能

AI总结 提出一种基于CEFR的Scratch项目评估框架,使用模糊C均值聚类对200万+项目分级,识别B2瓶颈并引入分类确定性指标以平衡自动反馈与人工审核。

Comments Best Paper Award CSEDU 2026 -Minor change FPC fix-

2606.16000 2026-06-18 cs.CL cs.LG 新提交 专题 70

GRACE-DS: a Guarded Reward-guided Agent Correction Environment in Data Science

GRACE-DS:数据科学中的受保护奖励引导智能体修正环境

Aleksandr Tsymbalov, Danis Zaripov, Artem Epifanov, Anastasiya Palienko

专题命中 代码评测 :评估代码生成和AutoML智能体性能

AI总结 提出GRACE-DS,一个用于评估LLM驱动的AutoML智能体在部署前性能的隔离环境,通过隐藏的可执行验证器衡量预测性能、泄漏避免、可重复性等指标,实验证明其灵活迭代交互模式优于基线方法。

2606.18536 2026-06-18 stat.AP cs.SE 新提交 专题 60

Analytics for Quality Assurance for Item Pools (AQuAP): Monitoring and Maintaining Item Bank Health in AI-Driven Assessment Systems

题库质量保证分析(AQuAP):AI驱动评估系统中题库健康的监控与维护

Alina A. von Davier, Xiaowan Zhang, Yigal Attali, Yena Park, Jacqueline Church, Andrew Runge, Geoff T. LaFlair, Alexander Tsigler

专题命中 代码评测 :AI评估系统中题库质量监控

AI总结 提出AQuAP仪表盘环境,通过有效题库规模等指标监控题库质量,支持大规模自动与人工结合的试题开发,确保高利害测试的题库健康。

Comments 11 pages, 4 figures

2606.18421 2026-06-18 cs.SE 新提交 专题 60

Finding Compiler-Platform Interaction Bugs in Deep Learning Pipelines via Cross-Layer Constraints

通过跨层约束发现深度学习流水线中的编译器-平台交互错误

Yuxin Qiu, Jiyuan Wang, Ronak Badhe, Ben Limpanukorn, Miryung Kim, Qian Zhang

专题命中 代码评测 :测试深度学习编译器与平台交互错误

AI总结 提出一种自动化框架XCheck,通过提取全栈约束生成测试模型,发现编译器与硬件平台交互导致的错误,并在三个编译器上发现2034个错误案例。