AI 大模型
代码大模型 / AI 编程
代码生成、软件工程智能体、程序修复、测试生成和开发者工具。
Can Large Language Models Reason About Complex Execution Paths? An Empirical Study on Python
大型语言模型能否推理复杂执行路径?基于Python的实证研究
专题命中 代码评测 :实证研究LLM在Python执行路径推理中的能力。
AI总结 本文实证研究大型语言模型在Python执行路径推理中的可行性,构建测试用例生成和缺陷分类任务,发现LLM能提升路径覆盖率,但强推理模型不一定优于弱模型。
Comments Accepted by ACM Transactions on Software Engineering and Methodology (TOSEM)
Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software
无理解的校准:诊断微调大语言模型在系统软件漏洞检测中的局限性
专题命中 代码评测 :评估LLM在系统软件漏洞检测中的能力
AI总结 提出CWE-Trace框架,通过834个Linux内核样本和两个诊断指标(DFI和HDD)评估LLM漏洞检测能力,发现数据污染无实质帮助,微调仅改变输出阈值而非决策策略,模型缺乏真正的安全推理能力。
The Correctness Illusion in LLM-Generated GPU Kernels
LLM生成的GPU内核中的正确性错觉
专题命中 代码评测 :评估LLM生成GPU内核的正确性。
AI总结 通过高精度CPU参考和操作模式感知的模糊测试,发现现有基准测试中基于固定形状的allclose检查无法检测LLM风格的转录错误,提出一种新协议并验证其有效性。
Comments 10 pages, 2 figures, LNCS format. Companion papers to follow on arXiv next week; IDs will be added in a v2 replace
FineREX: Fine-Tuned NER-RE for Human Smuggling Knowledge Graphs
FineREX: 面向人口走私知识图谱的微调NER-RE
专题命中 代码评测 :微调LLM用于知识图谱构建中的NER和RE。
AI总结 提出FineREX,一个基于微调LLM的流水线,用于从法律文档中提取实体和关系构建知识图谱,在F1分数上分别提升15.50%和31.46%,并减少50%处理时间。
Comments Code available at https://github.com/ElijahFeldman7/FineREX
PUFFERDOS: Efficient and Effective Attack String Generation for Regular Expression Denial of Service Vulnerabilities
PUFFERDOS:针对正则表达式拒绝服务漏洞的高效攻击字符串生成
专题命中 代码评测 :生成正则表达式拒绝服务攻击字符串,涉及程序分析
AI总结 提出PUFFERDOS方法,通过定义三种脆弱模式并利用合成技术与组合符号执行,生成在现实长度预算内且经程序验证有效的ReDoS攻击字符串。
Comments Accepted by S&P'26