Agentic Coding Needs Proactivity, Not Just Autonomy
代理编码需要主动性,而非仅仅自主性
发表机构 * GitHub
AI总结 本文探讨了软件开发中代理编码的主动性与自主性区别,提出主动性分类和评估标准,旨在提升编码代理的洞察力和适应性。
Comments Position Paper
代理编码需要主动性,而非仅仅自主性
发表机构 * GitHub
AI总结 本文探讨了软件开发中代理编码的主动性与自主性区别,提出主动性分类和评估标准,旨在提升编码代理的洞察力和适应性。
Comments Position Paper
代理AI与网络攻击的工业化:预测、后果及企业与中产阶层的防御优先事项
发表机构 * Independent Researcher(独立研究者)
AI总结 本文探讨代理AI对网络攻击生命周期的影响,提出三通道代理网络风险模型和攻击压缩模型,通过2026年Linux内核复制失败事件案例,预测2026-2028年企业及德国中产防御需求,强调身份验证、补丁速度等防御优先级。
Comments 7 pages
信息论学习与估计的极限
发表机构 * Stanford University(斯坦福大学) ; UIUC(伊利诺伊大学香槟分校)
AI总结 本文探讨信息论在学习与估计算法极限中的作用,介绍集中不等式、度量空间覆盖与包合、度量熵等工具,并推导了泛化误差上界及最小最大风险下界。
通过交叉注意力在联合潜在空间中利用扩散模型进行MRI和表格数据的多模态合成
发表机构 * Fraunhofer Institute for Digital Medicine MEVIS(弗劳恩霍夫数字医学研究所MEVIS) ; Leibniz Institute for Prevention Research and Epidemiology – BIPS(莱比锡预防研究与流行病学研究所 – BIPS) ; Faculty of Mathematics and Computer Science, University of Bremen(不莱梅大学数学与计算机科学学院) ; Faculty of Physics and Electrical Engineering, University of Bremen(不莱梅大学物理与电气工程学院)
AI总结 本文提出了一种多模态潜在扩散模型,通过交叉注意力在共享潜在空间中联合生成MRI和临床表格数据,验证了在单一扩散框架中联合建模MRI和混合类型表格数据的可行性。
Journal ref Proc. SPIE 13925, Medical Imaging 2026: Image Processing, 139252D (April 03, 2026)
基于池化HBM的无中继缓冲通信以提高Ascend上的高效MoE推理
发表机构 * Huawei Technologies(华为技术)
AI总结 本文提出一种无中继缓冲的MoE推理通信设计,通过直接放置和读取专家窗口,减少中间中继和重排序缓冲,提升吞吐量和降低延迟,实验表明在Ascend平台有效。
安全锚:通过几何瓶颈防御有害微调
发表机构 * Nanjing University of Posts and Telecommunications(南京邮电大学)
AI总结 本文提出安全瓶颈正则化(SBR),通过几何瓶颈层限制有害查询的隐藏状态,以对抗有害微调攻击,实验表明单个安全锚即可显著降低有害分数。
Comments Accepted to ICML 2026
基于大语言模型多智能体系统的通信结构优化的主动学习
发表机构 * University of Wisconsin–Madison(威斯康星大学麦迪逊分校)
AI总结 本文提出基于信息论的任务选择框架,通过估计任务信息量优化多智能体系统通信结构,在有限预算下提升性能并减少token使用。
VLMs在物理世界中离隐私意识还有多远?一项实证研究
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 本文通过实证研究揭示VLMs在物理环境中隐私意识的不足,提出ImmersedPrivacy框架评估模型在复杂场景中的隐私感知能力,发现现有模型在感知和隐私冲突处理上存在显著缺陷。
超越检索:一个多任务基准和代码搜索模型
发表机构 * Ant Group Hangzhou, China(蚂蚁集团杭州)
AI总结 本文提出CoREB基准和代码重排模型,评估代码搜索全流程,发现代码专用嵌入优于通用模型,短关键词查询性能差,现成重排器任务不对称,而CoREB-Reranker在三个任务中均表现优异。
Comments project site: https://hq-bench.github.io/coreb-page/
基于测试库合同的验证
发表机构 * Indian Institute of Science(印度科学研究院) ; University of Illinois Urbana-Champaign, Department of Computer Science(伊利诺伊大学厄巴纳-香槟分校计算机科学系) ; University of Wisconsin(威斯康星大学)
AI总结 本文提出了一种基于测试库合同的验证方法,通过合成模块化合同和上下文合同来确保客户端程序的正确性,并利用反例引导学习框架进行验证。
Comments Removed LaTeX formatting from abstract text
单步生成流:存在性与障碍
发表机构 * Operations Research Center(运筹学中心) ; Center for Computational Science & Engineering(计算科学与工程中心) ; Laboratory of Information and Decision Systems(信息与决策系统实验室)
AI总结 研究生成建模中的动态测度传输,探讨连接源测度与目标测度的传输映射,分析何时能生成具有零加速度的直线流,并证明在端点独立性下存在存在性和不存在性的分明界限。
超越悲观主义:KL正则化博弈中的离线学习
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; California Institute of Technology(加州理工学院)
AI总结 本文研究了KL正则化双人零和博弈中的离线学习,提出了一种无需悲观估计的算法,实现了更快的样本复杂度界,并提出高效的自我对弈策略优化算法。
MobileDev-Bench: 一个用于移动应用开发中问题解决的基准
发表机构 * Louisiana State University(路易斯安那州立大学) ; University of Kentucky(肯塔基大学)
AI总结 本文提出MobileDev-Bench,包含407个真实世界问题解决任务,涵盖Android Native、React Native和Flutter框架。通过验证的开发人员报告问题与可执行测试补丁配对,评估四个前沿LLM在移动构建环境中的端到端解决率。
Comments 30 pages, 14 figures, 12 tables
SlopCodeBench:评估编码代理在长周期迭代任务中性能退化的基准测试
发表机构 * University of Wisconsin–Madison(威斯康星大学麦迪逊分校) ; Washington State University(华盛顿州立大学) ; MIT(麻省理工学院)
AI总结 本文提出SlopCodeBench,通过36个问题和196个检查点评估编码代理在长周期迭代任务中的性能退化,发现代理代码在结构上逐渐退化并产生冗余代码,人类代码退化更慢。
Comments Code and Leaderboards are located at https://www.scbench.ai
Si/SiGe量子点器件中交换相的三维断层扫描
发表机构 * Sandia National Laboratories(桑迪亚国家实验室)
AI总结 本文提出一种方法,通过2D测量序列提取3D相位体积,用于确定量子点器件中交换相互作用系数J(V)。
Comments 11 pages, 6 figures; updated acknowledgements
解读自监督语音特征的维度中说话人特性
发表机构 * Department of Electrical and Electronic Engineering, Stellenbosch University(斯特伦博斯大学电气与电子工程系) ; Concordia University(康科迪亚大学)
AI总结 本文通过PCA分析自监督语音特征的维度,揭示了语音特征如音高、性别等在主成分中的分布及相互影响,展示了特征维度的独立性和可操控性。
Comments 5 pages, 7 figures, submitted to IEEE Signal Processing Letters
用大型语言模型发现多智能体学习算法
发表机构 * Google DeepMind(谷歌深思)
AI总结 本文利用AlphaEvolve框架自动发现CFR和PSRO算法,提出VAD-CFR和SHOR-PSRO,通过简化核心机制获得更高效的WOP-CFR和PM-PSRO,提升泛化能力。
Comments More experiments and analysis on algorithmic distilliation
ScrapeGraphAI-100k:用于模式约束LLM生成的数据集
发表机构 * Slovak University of Technology(斯洛伐克技术大学) ; ScrapeGraphAI
AI总结 本文提出ScrapeGraphAI-100k数据集,包含93695个模式约束提取事件,通过真实用户数据和结构化标注,用于评估LLM在模式约束下的生成能力。
TREC 2025 RAGTIME 跟踪任务概述
发表机构 * Johns Hopkins University Human Language Technology Center of Excellence(约翰霍普金斯大学人机语言技术卓越中心) ; University of Glasgow(格拉斯哥大学) ; Allen Institute for AI(人工智能研究院)
AI总结 TREC 2025 RAGTIME 跟踪任务旨在研究多语言源文档的报告生成,包含阿拉伯语、中文、英语和俄语新闻故事的文档集,涵盖多语言报告生成、英语报告生成和多语言信息检索三个任务,共13支队伍提交125次运行。
Comments 14 pages, 3 figures, final version of the RAGTIME 2025 overview paper
从平均敏感度到随机顺序模型下的小损失遗憾界
发表机构 * CyberAgent ; National Institute of Informatics(国家信息研究所) ; Center for Advanced Intelligence Project(先进智能项目中心) ; RIKEN(理化学研究所)
AI总结 本文基于随机顺序模型,通过扩展Dong和Yoshida的方法,证明了在满足特定条件的算法下,可获得小损失遗憾界,适用于在线k均值聚类、低秩逼近等广泛问题,并展示了在子模函数最小化和ℓ₁回归中的应用。
从间接神经影像观测中发现潜在空间因果关系
发表机构 * Interdisciplinary Program in Artificial Intelligence(人工智能交叉学科项目) ; Seoul National University(首尔国立大学) ; Computer Science(计算机科学) ; Cornell Tech, Cornell University(康奈尔科技,康奈尔大学) ; Brookhaven National Laboratory(布鲁克海文国家实验室) ; Department of Psychology(心理学系)
AI总结 本文提出INCAMA方法,通过物理感知逆向与延迟感知Mamba编码器,提升从间接神经影像中恢复因果结构的性能,实验显示在TVB模拟和HCP任务fMRI中表现更优。
Comments 9 pages, 2 figures
CGF-Softmax: 一种基于累积生成函数的softmax重参数化方法,用于在同态加密下高效推理
发表机构 * Pohang University of Science and Technology (POSTECH)(釜山科学技术大学) ; LG Electronics R&D Center(LG电子研发中心) ; Inha University(inha大学) ; Daegu Gyeongbuk Institute of Science and Technology (DGIST)(大邱广开府科学技术院)
AI总结 本文提出CGF-softmax,通过累积生成函数重参数化softmax分母,消除了同态除法和显式最大减法,降低乘法深度并保持softmax关键属性,在视觉Transformer和大语言模型中实现高效准确的加密推理。
高维引导扩散模型中扭曲的出现
发表机构 * Department of Computing Sciences, Bocconi University(博科尼大学计算科学系) ; Donders Institute for Brain, Cognition and Behaviour, Radboud University(拉德堡德大学脑、认知与行为研究所) ; Bocconi Institute for Data Science and Analytics, Bocconi University(博科尼大学数据科学与分析研究所)
AI总结 本文研究了引导扩散模型中由于分类器自由引导导致的生成扭曲现象,分析了数据维度和类别数对扭曲的影响,并提出改进的引导方案以提升样本多样性。
Comments 41 pages, 21 figures
MirrorMark: 多位LLM水印的通用镜像采样
发表机构 * George Mason University(乔治·马歇尔大学) ; Department of Computer Science(计算机科学系) ; Wireless Cyber Center(无线网络安全中心) ; Department of Electrical and Computer Engineering(电气与计算机工程系)
AI总结 MirrorMark通过镜像变换实现多比特LLM水印,通过符号映射规则与基础水印采样器分离,结合CABS调度器平衡token分配,实验显示其在保持文本质量的同时具备强检测性和比特准确性。
测试时计算博弈
发表机构 * Max Planck Institute for Software Systems(马克斯·普朗克软件系统研究所) ; Hasso Plattner Institute(哈索·普拉特纳研究所)
AI总结 本文研究了大语言模型作为服务市场的社会效率问题,提出反第二种价格拍卖机制以减少计算量浪费,通过实验验证了该机制的有效性。
用LLMs复制人类动机性推理研究
发表机构 * University of Rochester(罗切斯特大学) ; Northwestern University(西北大学)
AI总结 研究通过复制四项政治动机性推理研究,发现基础LLM行为与人类行为不一致,且不同模型在回避回答和整合论点方面有相似表现,表明基础LLM可能不模拟人类动机性推理过程。
Q-Probe:通过上下文感知代理探测扩展图像质量评估至高分辨率
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Hefei University of Technology(合肥工业大学) ; The Hong Kong University of Science and Technology(香港科学与技术大学) ; Institute of Intelligent Machines, Chinese Academy of Sciences(中国科学院智能 Machines 研究所)
AI总结 Q-Probe通过上下文感知探测方法解决高分辨率图像质量评估中的局部退化捕捉问题,提出Vista-Bench基准和三阶段训练框架,实现高分辨率下的最优性能。
通过强化学习保障代码水印:SWaRL
发表机构 * ECE Department UC San Diego(UC圣地亚哥大学电子与计算机工程系) ; Cisco Research(思科研究)
AI总结 SWaRL通过强化学习框架实现稳健且保真度高的代码水印,保护大语言模型的知识产权,通过在生成程序中嵌入唯一可验证签名,有效抵御移除攻击并保持功能正确性。
Comments Preprint
静态重加权实现软拟合Q迭代的局部收敛性
发表机构 * Department of Statistics, University of Washington(华盛顿大学统计学系)
AI总结 本文分析了在无Bellman完备性条件下软拟合Q迭代的稳定性机制,提出静态重加权软拟合Q迭代方法,证明其在近似可实现性和受控加权误差下具有有限样本局部线性收敛性。
无需贝尔曼完备性而通过稳态加权的拟Q评估
发表机构 * Department of Statistics, University of Washington(华盛顿大学统计学系)
AI总结 本文提出一种无需贝尔曼完备性的拟Q评估方法,通过稳态加权改进回归步骤,实现有限样本线性收敛,减少价值误差。