代码大模型 / AI 编程 - arXivDaily 专题

2602.06774 2026-06-18 cs.AI 版本更新专题 85

Towards Understanding What State Space Models Learn About Code

理解状态空间模型在代码中学到了什么

Jiali Wu, Abhinav Anand, Shweta Verma, Mira Mezini

专题命中代码评测：SSM代码理解机制分析

AI总结本文首次系统分析状态空间模型（SSM）在代码理解中的学习机制，发现SSM在预训练时比Transformer更有效捕获语法和语义结构，但微调时会遗忘某些关系，并提出SSM-Interpret框架和架构改进，将NLCodeSearch的MRR提升高达6。

URL PDF HTML

2606.18284 2026-06-18 cs.LG cs.AI cs.CL 新提交专题 75

打破求解器瓶颈：在可学习前沿训练任务生成器

Lorenz Wolf, Connor Watts, Roger Creus Castanyer, Geoffrey Bradway, Maxwill Lin, Augustine N. Mavor-Parker, Matthew Daborn-Sargent

专题命中代码评测：提出PROPEL框架，优化任务生成器用于代码和软件工程。

AI总结提出PROPEL框架，通过训练轻量级激活探针作为求解率代理，在无需重复求解器评估的情况下优化任务生成器，使生成任务集中在可学习前沿，提升数学、代码和软件工程任务的有效性。

Comments 30 pages, 9 figures, 12 tables

URL PDF HTML

2604.00730 2026-06-18 cs.CY cs.AI cs.LG cs.SE 版本更新专题 75

基于CEFR启发的模糊C均值分类框架：自动化评估Scratch编程技能

Ricardo Hidalgo-Aragón, Jesús M. González-Barahona, Gregorio Robles

专题命中代码评测：模糊C均值聚类评估Scratch编程技能

AI总结提出一种基于CEFR的Scratch项目评估框架，使用模糊C均值聚类对200万+项目分级，识别B2瓶颈并引入分类确定性指标以平衡自动反馈与人工审核。

Comments Best Paper Award CSEDU 2026 -Minor change FPC fix-

URL PDF HTML

2606.16000 2026-06-18 cs.CL cs.LG 新提交专题 70

GRACE-DS：数据科学中的受保护奖励引导智能体修正环境

Aleksandr Tsymbalov, Danis Zaripov, Artem Epifanov, Anastasiya Palienko

专题命中代码评测：评估代码生成和AutoML智能体性能

AI总结提出GRACE-DS，一个用于评估LLM驱动的AutoML智能体在部署前性能的隔离环境，通过隐藏的可执行验证器衡量预测性能、泄漏避免、可重复性等指标，实验证明其灵活迭代交互模式优于基线方法。

URL PDF HTML

2606.18536 2026-06-18 stat.AP cs.SE 新提交专题 60

题库质量保证分析（AQuAP）：AI驱动评估系统中题库健康的监控与维护

Alina A. von Davier, Xiaowan Zhang, Yigal Attali, Yena Park, Jacqueline Church, Andrew Runge, Geoff T. LaFlair, Alexander Tsigler

专题命中代码评测：AI评估系统中题库质量监控

AI总结提出AQuAP仪表盘环境，通过有效题库规模等指标监控题库质量，支持大规模自动与人工结合的试题开发，确保高利害测试的题库健康。

Comments 11 pages, 4 figures

URL PDF HTML

2606.18421 2026-06-18 cs.SE 新提交专题 60

通过跨层约束发现深度学习流水线中的编译器-平台交互错误

Yuxin Qiu, Jiyuan Wang, Ronak Badhe, Ben Limpanukorn, Miryung Kim, Qian Zhang

专题命中代码评测：测试深度学习编译器与平台交互错误

AI总结提出一种自动化框架XCheck，通过提取全栈约束生成测试模型，发现编译器与硬件平台交互导致的错误，并在三个编译器上发现2034个错误案例。

URL PDF HTML