The data-driven extreme value distribution: non-parametric tail estimation with a derived stability criterion
数据驱动的极值分布:基于导出稳定性准则的非参数尾部估计
AI总结 提出数据驱动极值分布(DDEVD),一种非参数估计器,通过核方法重建基分布并导出稳定性准则,在降水与冶金数据中优于传统极值模型。
Comments 28 pages, 6 figures
数据驱动的极值分布:基于导出稳定性准则的非参数尾部估计
AI总结 提出数据驱动极值分布(DDEVD),一种非参数估计器,通过核方法重建基分布并导出稳定性准则,在降水与冶金数据中优于传统极值模型。
Comments 28 pages, 6 figures
引入精度加权偏倚作为性能度量以指导元分析中适应性设计的纳入
AI总结 提出精度加权偏倚作为新的统计性能指标,证明元分析中适应性设计的偏倚可忽略,建议将其作为模拟研究的标准补充。
Comments 9 pages, 2 figures
多元位置尺度线性回归中的轴向对称性检验
AI总结 提出基于积分秩得分的检验方法,用于多元线性异方差回归中条件轴向对称性的检验,推导渐近分布,并通过模拟和实际数据验证。
在未知对称零假设下估计局部错误发现率
AI总结 针对零分布仅对称于零的双组模型,提出基于逻辑回归和自然三次样条的局部错误发现率估计方法,并证明该估计可渐近控制多重检验的局部错误发现率。
二阶最小二乘法作为多项式最大化方法的特例
AI总结 证明在条件同方差非高斯误差下,最优加权二阶最小二乘法与二次广义多项式最大化方法等价,并揭示高阶效率储备。
Comments 26 pages, 3 figures, 7 tables. Includes Lean 4 formal verification and Monte Carlo simulation
内蕴立足点不变黎曼互协方差
AI总结 提出一种通过平行传输将局部变化映射到公共切空间的黎曼互协方差,实现流形上随机对象的二阶统计量估计,并证明其渐近性质,在球面、SPD流形和心脏瓣膜形状数据上验证有效性。
Comments 31 pages, 16 figures
使用e-闭包对Benjamini-Hochberg方法的统一改进
AI总结 提出closed BH方法,基于e-闭包原理统一改进BH程序,在相同假设下不减少拒绝但增加功效,尤其当假零假设数量大时。
使用动态更新边界的P样条实现GPLSIAMs的稳定直接估计
AI总结 本文提出了一种稳定直接估计GPLSIAMs的方法,通过使用模型矩阵和惩罚完全鱼尔信息矩阵动态更新单指数协变量的边界,在统一的迭代框架中实现快速计算有效自由度和点wise置信区间。
柯西组合检验的固定水平校准
AI总结 研究柯西组合检验在固定显著性水平下的渐近精确性,发现原始CCT在固定水平下不精确,提出边界层校准CCT(BL-CCT)通过修正参考分布而非统计量实现渐近精确,并在多种备择假设下保持功效。
Comments Added several related references, conducted power analyses and polished the proofs and the simulation section
加权随机点积图
发表机构 * Facultad de Ingeniería Universidad de la República(工程学院乌拉圭共和国大学) ; Dept. of Electrical and Computer Engineering University of Rochester(电气与计算机工程系罗切斯特大学)
AI总结 提出加权随机点积图(WRDPG)模型,通过节点潜位置的内积刻画边权分布的高阶矩,并给出谱嵌入估计的统计保证与生成框架。
Comments 30 pages, 12 figures, code to generate Figures 3 to 12 available at https://github.com/bmarenco/wrdpg. Updated to match the published version
基于相关伽马随机变量的双有界数据建模
AI总结 针对单位区间上比率形式的有界数据,提出一种通过Copula连接相关伽马变量的新模型,克服传统独立假设的局限,允许正负相关,并通过模拟和真实经济数据验证其灵活性和有效性。
Comments 41 pages, 14 figures
复合选择决策:一种几乎无偏的SURE方法
AI总结 针对高斯序列模型中的复合选择问题,提出基于SURE的几乎无偏估计量ASSURE,通过优化期望效用选择最优决策规则,并证明其渐近最优性。
Comments V2: Additional Results and Simulations. 110 pages. Comments welcome
高维数据中互信息的准确估计
AI总结 针对高维欠采样下互信息估计难题,提出基于低维潜在表示的神经估计器,结合统计一致性检验、偏差校正和置信区间,并引入VSIB概率批评器族,在合成与真实图像数据上实现可靠估计。
Comments 15 pages main text, 21 pages SI, 12 Figs overall
使用可交换对的条件独立性检验
AI总结 提出基于可交换对的条件独立性检验方法,将问题转化为两样本检验,利用能量距离度量偏离,并证明其一致性和最优检测率。
单张图像中一个或多个环状结构的置信区域
AI总结 本文提出利用TDA方法估计单张图像中的底层结构并量化不确定性,通过将图像分为背景和受损细胞区域,建立持久图空间中的置信区域以纠正传统TDA的偏差。
Comments 30 pages, 8 figures
贝叶斯非参数Mallows模型用于偏好数据聚类
AI总结 提出基于狄利克雷过程混合模型的贝叶斯非参数Mallows模型,实现聚类数自动推断与聚类分配联合学习,在R包BayesMallows中实现,模拟与真实数据验证有效。
Comments 21 pages (main text), 28 pages including supplementary material. Submitted for peer review
贝叶斯三角剖分样条:不规则域上的空间自适应
AI总结 提出贝叶斯三角剖分样条方法,通过约束Delaunay三角剖分处理不规则域边界和异质性平滑,实现空间自适应,并证明其最优后验收缩率和Oracle性质。
加性分位数回归的贝叶斯效应选择及其在空气污染阈值中的应用
AI总结 提出一种贝叶斯效应选择方法,通过Demmler-Reinsch基展开正交分解加性效应的线性和非线性部分,并使用尖峰-板先验进行选择,应用于马德里空气污染数据分析,揭示极端NO2浓度的驱动因素。
Comments arXiv admin note: substantial text overlap with arXiv:2105.10890
检测限以下:用于HR+/HER2-转移性乳腺癌连续ctDNA的删失泊松贝叶斯潜在增长变点检测器(Span检测器)
发表机构 * Span AI
AI总结 提出Span检测器,利用删失泊松贝叶斯潜在增长变点模型处理ctDNA非检测作为左删失观测,通过序贯广义似然比统计量检测变异检测率上升点,在10%假警报率下将提前三个月捕获进展的比例从11%提升至25%。
Comments 9 pages, 4 figures, 2 tables. Code and synthetic data generator: https://github.com/span-ai-labs/span-detector
三重随机负二项贝塔分布用于鲁棒回归和有界支持数据的共轭模型
AI总结 提出三重随机负二项贝塔分布(TNBbeta),通过随机化标准贝塔分布的参数,解决其对异常值敏感、无法处理零观测及缺乏共轭先验的问题,并利用Pólya-gamma增广实现高效吉布斯采样。
双曲潜空间模型用于网络嵌入:模型规范与贝叶斯推断
AI总结 本文提出双曲潜空间模型,通过贝叶斯推断解决网络嵌入中的树状结构和厚尾度分布问题,强调温度参数对网络拓扑的重要性。
经验贝叶斯估计与推断:基于光滑非参数最大似然法
AI总结 针对非参数最大似然估计的离散性和慢对数解卷积率,引入高斯平滑层,提出光滑NPMLE,实现多项式解卷积率、近参数去噪性能及后验一致估计,并构建最优边际覆盖集。
面向昂贵计算机实验的轮廓贝叶斯优化
AI总结 提出一种新型贝叶斯优化方法,通过两阶段采集策略和深度/浅层高斯过程代理,在控制参数范围内高效识别轮廓最优解,应用于旋转爆震发动机扩散器设计。
状态空间模型中Lévy测度的贝叶斯非参数推断
AI总结 提出贝叶斯非参数框架,利用独立伽马缩放狄利克雷过程(IGSDP)推断线性状态空间模型中子序和正态方差均值过程的Lévy测度,实现可识别参数化与高效MCMC算法。
无表格的层次随机测度
AI总结 提出一种层次狄利克雷过程的新先验,消除潜在表格变量,实现后验的准共轭分布和高效采样算法,并推广至归一化层次随机测度框架。
加权平均处理效应的括号关系
AI总结 在因果推断的观测研究规范设定下,证明了在倾向得分与条件平均处理效应满足单调关系时,重叠权重的平均处理效应介于处理组和对照组的平均处理效应之间,并推广到加权局部平均处理效应及其他权重,建议使用CP图。
治愈模型的贝叶斯因果机器学习
AI总结 针对治愈模型中治疗对治愈概率和未治愈患者生存时间的不同影响,提出贝叶斯因果机器学习方法BartCure,分解受限平均生存时间的因果效应,并在乳腺癌试验中验证其有效性。
利用遥感结果的程序评估
发表机构 * MIT(麻省理工学院) ; Harvard(哈佛大学)
AI总结 本文研究了在实验和准实验中,由于遥感变量不完全测量经济结果而引起的因果推断问题,提出了一种非参数识别因果参数的方法,结合实验和观测数据进行n^{-1/2}推断。
网络干扰的准随机化检验:一种随机图方法
AI总结 提出将网络视为随机变量,利用随机图零模型构建无溢出效应的零分布,克服了现有条件随机化检验的计算难题,在有限样本下精确有效,显著提升检验功效。
非概率与概率调查数据的双重稳健整合
AI总结 提出双重稳健估计器整合非概率样本与概率调查数据,扩展至子域估计,并与仅使用概率数据的估计器组合,给出方差公式和渐近效率分析。
Comments 66 pages, 31 figures. The preprint v2 extends the paper with: domain estimation; a new Hajek-style version of the Kim--Haziza doubly robust estimator; and, theory on the asymptotic relative efficiency of the combined estimators and a simulation study to assess the relative efficiency
因果聚类:网络干扰下的聚类实验设计
AI总结 研究网络干扰下估计全局处理效应的聚类实验设计,提出通过惩罚最小割优化选择聚类以最小化最坏情况均方误差,并给出选择聚类设计的简单条件。
基于模型的稀疏混合类型PCA
AI总结 针对混合类型数据,提出一种基于矩估计的潜在协方差矩阵估计方法,实现稀疏主成分分析,并通过模拟和实际数据验证性能。
无批次数量约束的可再生Lasso:一种梯度增强方法
发表机构 * Department of Mathematics, City University of Hong Kong(香港城市大学数学系) ; School of Statistics and Data Science, Jiangxi University of Finance and Economics(江西财经大学统计与数据科学学院) ; Philosophy and Social Sciences Laboratory of Data Science in Finance and Economics at the Ministry of Education, Jiangxi University of Finance and Economics(教育部金融与经济数据科学哲学与社会科学实验室,江西财经大学) ; School of Statistics, Beijing Normal University(北京师范大学统计学院) ; CityUHK Shenzhen Research Institute(城大深圳研究院)
AI总结 针对高维广义线性模型的流数据在线估计,提出梯度增强替代损失函数,消除批次数量约束,并扩展到分布式流数据场景,理论推导非渐近误差界,实验验证精度提升。
高维一般线性假设的岭正则化最大根检验
AI总结 针对高维多元线性模型中一般线性假设检验问题,提出岭正则化Roy最大根检验,通过岭项稳定协方差估计,建立正则化F矩阵最大特征值的渐近Tracy-Widom分布,并开发高效参数估计方法。
具有顺序最优子集选择的分数高斯过程的复合似然推断
AI总结 针对分数高斯过程,提出通过顺序最大化Godambe信息来选择子集,以平衡估计精度与计算成本,并推导了Fisher信息和Godambe信息的理论表达式。
基于量值的多物种空间数据特征
AI总结 提出基于量值的全局和局部特征向量,用于分析多物种空间数据中的相互作用,在合成肿瘤微环境和人类结直肠癌组织微阵列数据中验证了其识别空间异质性和分类能力。
Comments 32 pages, 24 figures
外源刺激下事件时间数据建模的分层激发过程
AI总结 提出分层激发过程(HEP)模型,通过动态演化核函数叠加外源刺激的激发效应,实现对重复刺激下事件时间数据的灵活建模,并嵌入聚类框架识别潜在响应模式。
机器学习中的时间序列分析
AI总结 从机器学习视角综述时间序列分析,涵盖经典统计模型与现代机器学习方法,强调跨领域应用原则。
Comments Invited chapter for the edited book "Machine Learning Techniques for Astrophysics and Cosmology" (Eds. Cosimo Bambi, Vinay Kashyap, Swarnim Shashank, Naoki Yoshida, Springer Singapore, expected in 2026). Submitted version
三角参考薛定谔桥用于时间序列生成
发表机构 * Arakne S.r.l.(阿拉克内公司)
AI总结 提出三角参考薛定谔桥框架,通过区间冻结的退化扩散参考和层次化潜在波动率结构,实现时间序列的保守生成,并保持熵最小化的变分核心。
间歇性时间序列预测:局部模型与全局模型
发表机构 * Supplementary Institute of Science and Technology(瑞士苏黎世联邦理工学院)
AI总结 针对间歇性时间序列预测问题,首次系统比较了概率性局部模型与全局模型(如TiDE),发现简单神经网络架构TiDE在精度和计算效率上均优于局部模型,且Tweedie分布头对高分位数估计最佳。
Comments Submitted to the Journal of the Operational Research Society
分布式能源采纳的分层概率保形预测
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 针对分布式能源采纳预测中的不确定性和分层电网结构,提出基于多元霍克斯过程与分裂保形预测的量化框架,确保聚合后统计有效性,在印第安纳波利斯数据上优于基线。
自适应空间分块用于可扩展聚类推断及其在高通量空间蛋白质组学中的应用
AI总结 提出自适应空间分块算法,通过构造满足点计数和形状约束的局部块,利用渐近正态近似实现大规模点模式数据的快速聚类推断,平衡统计功效与计算效率。
参数化马尔可夫链平稳均值的无偏导数估计
AI总结 提出一种针对参数化马尔可夫链平稳均值梯度的无偏估计方法,在慢混合率下高效,无需密度函数先验知识,适用于神经网络参数化。
Comments Preliminary draft. Full version in preparation
GraphGP: 基于Vecchia近似的可扩展高斯过程
AI总结 提出GraphGP算法,利用Vecchia近似和GPU加速,将高斯过程扩展到近十亿参数,实现线性时间和内存复杂度,适用于大动态范围任意点分布。
Comments Accepted to Conference on Physics and AI at Stanford University (PAI 2026)
退火熵分配用于排序与选择
发表机构 * Business School(商学院) ; The University of Edinburgh(爱丁堡大学) ; Warwick Business School(沃里克商学院) ; The University of Warwick(沃里克大学)
AI总结 提出退火熵分配框架,通过加权log-sum-exp替代非光滑极大极小大偏差率目标,结合鞍点近似提升有限预算下的区分能力,数值实验表明在多个候选接近时性能优异。
压缩贝叶斯张量回归
AI总结 针对张量回归中的高维问题,提出广义张量随机投影方法将高维协变量嵌入低维子空间,结合贝叶斯推理框架和低秩参数表示,实现高效预测与计算成本降低。
注意力中的相变:复制头涌现的贝叶斯理论
发表机构 * Racah Institute of Physics, Hebrew University of Jerusalem(拉卡学院物理研究所,耶路撒冷希伯来大学) ; John A. Paulson School of Engineering and Applied Sciences, Harvard University(约翰·A·保罗森工程与应用科学学校,哈佛大学) ; Institute for Advanced Simulation (IAS-6), Computational and Systems Neuroscience, Jülich Research Center(高级模拟研究所(IAS-6),计算与系统神经科学,茹里奇研究中心) ; Institute of AI for Health, Helmholtz Munich(健康人工智能研究所,海德堡-穆恩) ; RWTH Aachen University(亚琛工业大学) ; Department of Physics, Faculty 1, RWTH Aachen University(物理系,亚琛工业大学)
AI总结 通过分析单层softmax注意力网络在复制任务上的训练,提出贝叶斯理论揭示注意力矩阵的后验分布存在相变,并对比线性注意力发现softmax注意力呈现一阶相变。
动力系统需要哪些不确定性?
发表机构 * Institute of Computer Science, LMU Munich(慕尼黑大学计算机科学研究所) ; Munich Center for Machine Learning (MCML)(慕尼黑机器学习中心) ; Department of Mathematics, LMU Munich(慕尼黑大学数学系) ; German Research Center for Artificial Intelligence (DFKI, DSA)(德国人工智能研究中心(DFKI, DSA))
AI总结 本文从机器学习视角探讨动力系统中的不确定性,区分偶然与认知不确定性,并讨论不同任务中表示和量化不确定性的目标。
Comments EIML@ICML
基于频繁方向的高效多项式逻辑斯蒂老虎机
发表机构 * State Key Laboratory of Novel Software Technology, Nanjing University(南京大学计算机软件新技术国家重点实验室) ; School of Artificial Intelligence, Nanjing University(南京大学人工智能学院) ; Paul G. Allen School of Computer Science & Engineering, University of Washington(华盛顿大学保罗·G·艾伦计算机科学与工程学院)
AI总结 针对多项式逻辑斯蒂老虎机的高维计算瓶颈,提出集成频繁方向矩阵素描的EOFD-MLogB算法,将每轮复杂度降至O(Kd(m+K)^2)时间和O(Kd(m+K))空间,并证明其遗憾界接近原算法。
具有延迟反馈的容量受限在线凸优化
发表机构 * Department of Statistical Sciences, University of Toronto(多伦多大学统计科学系) ; Vector Institute(向量研究所) ; Institute for Data, Econometrics, Algorithms, and Learning (IDEAL), hosted by UIC and TTIC(数据、计量经济学、算法与学习研究所(IDEAL),由伊利诺伊大学芝加哥分校和丰田工业大学芝加哥分校主办)
AI总结 研究在硬容量约束下(最多同时跟踪C个待处理轮次)的延迟在线凸优化,通过引入半先知模型和延迟加权FTRL算法,首次给出了凸和强凸损失下容量受限OCO的遗憾界。
Aitchison单纯形的树结构正交分解
发表机构 * National Institute of Information and Communications Technology, Japan(日本信息与通信技术国家研究所)
AI总结 提出PolyILR方法,利用树结构对成分数据进行正交分解,在微生物组和单细胞数据中生成稳定可解释的特征,并建立与softmax分类器的理论联系。
Comments Accepted at ICML 2026. To appear in PMLR vol. 306
范围感知贝叶斯优化用于在目标属性窗口内发现多样化设计
发表机构 * Department of Chemical and Biological Engineering, Princeton University(普林斯顿大学化学与生物工程系)
AI总结 提出范围感知贝叶斯优化框架,通过采集函数直接评分候选解满足目标范围的后验概率,在基准任务和实际案例中比标准方法发现更多样化的有效设计。
Comments 64 pages, 6 main text figures, 17 supporting figures, 6 supporting tables
通过电子健康记录中的鲁棒且灵活的知识迁移增强谱嵌入
发表机构 * Harvard T.H. Chan School of Public Health(哈佛大学T.H. Chan公共卫生学院) ; Dana-Farber Cancer Institute(达纳-法伯癌症研究所) ; Harvard Medical School(哈佛医学院) ; University of Pittsburgh(匹兹堡大学)
AI总结 提出一种基于谱的无监督表示学习框架,通过从更广泛人群提取知识矩阵并放松信号对齐假设,为罕见病队列生成低维嵌入,在模拟和真实多发性硬化症数据中优于现有方法。
测试时训练对近似采样的威力
发表机构 * Microsoft Research NYC(微软研究院纽约分校) ; MIT(麻省理工学院)
AI总结 本文形式化测试时训练(TTT)为从已知分布类中采样的问题,证明查询复杂度的二次下界,并展示在分布类大小受限时可规避该下界,为TTT提供理论框架。
密封审计上的有符号压缩进展是古德哈特抵抗的
发表机构 * GitHub
AI总结 提出有符号压缩进展作为内在动机,证明其累积奖励等于审计改进,且对有限审计面板具有假阳性预算,抵抗古德哈特定律。
Comments 16 pages, 7 figures. Lean 4 (Mathlib) mechanized core and ARC-TGI experiment code: https://github.com/Zetetic-Dhruv/audit-compression-progress
松弛全局几何下分布式优化的量化随机原始-对偶方法
发表机构 * Indian Institute of Technology Bombay(印度理工学院班加罗尔) ; Tata Consultancy Services Research(塔塔咨询公司研究)
AI总结 提出量化随机原始-对偶方法q-PDGD,在松弛全局几何下证明线性收敛到邻域或O(1/k)收敛,匹配最优集中随机复杂度。
Comments Accepted to UAI
自注意力作为传输:对称谱诊断的极限
发表机构 * Red Hat AI(红帽人工智能)
AI总结 研究语言模型注意力路由的两种失效形状(过度集中或过度分散),证明对称谱诊断对方向不敏感,并揭示因果注意力中传输容量的理论下限,提出基于容量和方向的双轴诊断方法。
Comments 48 pages, 6 figures, 7 tables; 81-page online supplement (proofs, additional experiments, dataset statistics) as an ancillary file
在组织图上通过监督解缠查询反事实
发表机构 * Division of Computational Genomics and Systems Genetics, German Cancer Research Center (DKFZ), Heidelberg, Germany(德国癌症研究中心(DKFZ)计算基因组学与系统遗传学部,海德堡,德国) ; Helmholtz Information & Data Science School for Health, Germany(德国健康信息与数据科学学院) ; Genome Biology Unit, European Molecular Biology Laboratory, Heidelberg, Germany(欧洲分子生物学实验室(EMBL)基因组生物学部,海德堡,德国) ; Department of Genetics, University Medical Center Groningen, University of Groningen, Groningen, The Netherlands(格罗宁根大学医学中心基因学系,格罗宁根,荷兰) ; Oncode Institute, Utrecht, The Netherlands(奥诺代码研究所,乌得勒支,荷兰) ; KU Leuven, Leuven, Belgium(鲁汶大学,鲁汶,比利时) ; Wellcome Sanger Institute, Wellcome Genome Campus, Hinxton, UK(沃里克桑格研究所,沃里克基因组校园,欣斯顿,英国)
AI总结 本文形式化组织图反事实为空间干预,提出Cellina框架通过监督解缠分解细胞内在状态与空间上下文,用于反事实预测,在结直肠癌和小鼠大脑数据上优于现有方法。
具有行动条件保证的共形风险规避决策
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出行动条件共形预测方法,通过分位数损失最小化算法实现行动条件风险价值优化,在有限样本下提供行动条件安全保证。
偏离正则性:度异质性和特征间隙作为ASE-LSE潜在子空间分歧的结构驱动因素
发表机构 * School of Mathematics and Statistics(数学与统计学系) ; The University of Melbourne(墨尔本大学)
AI总结 本文研究了图数据分析中邻接谱嵌入和拉普拉斯谱嵌入方法在相同网络上产生不同结果的结构原因,揭示了度异质性和社区结构强度对潜在子空间分歧的影响。
Comments This paper is being withdrawn as it was submitted without the consent of all listed authors, and contains work that is currently under academic assessment. It will be resubmitted at an appropriate time once evaluation is complete
扩散模型中学习数据统计的理论:从容易到困难
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文研究了扩散模型在学习数据统计时的分布简单性偏差,揭示了学习 pairwise 统计和 higher-order 统计所需的样本复杂度差异,并引入了扩散信息指数这一不变量。
连通性对强化学习中拉普拉斯表示的影响
发表机构 * University of Edinburgh(爱丁堡大学)
AI总结 本文研究了连通性对强化学习中拉普拉斯表示的误差影响,通过分析状态图的代数连通性,推导了线性价值函数近似误差的上界,并展示了表示学习管道中的端到端误差分解。
单次遍历下的贝叶斯在线学习:频率有效性及不确定性量化
AI总结 提出一种针对单次遍历的贝叶斯在线学习算法,通过预热阶段确保稳定更新,证明后验达到最优收敛率并建立在线Bernstein-von Mises定理,实现无需小批量样本量发散的不确定性量化。
Comments 52 pages
关于贝叶斯优化中汤普森采样遗憾界的分析
发表机构 * Nagoya University(名古屋大学) ; MI-6 Ltd.(MI-6公司)
AI总结 本文针对高斯过程汤普森采样(GP-TS)方法,在目标函数为GP样本路径的假设下,推导了其遗憾下界、累积遗憾二阶矩上界、期望宽松遗憾上界以及改进的累积遗憾上界,填补了GP-TS在高概率遗憾界方面的空白。
Comments 43 pages, Accepted to ICML 2026
一种面向评委的排名框架:无需真实标签评估大语言模型
发表机构 * University of Technology Sydney(悉尼科技大学)
AI总结 本文提出一种面向评委的排名框架,通过引入评委特定的辨别参数扩展Bradley-Terry-Luce模型,在不参考标签的情况下联合估计潜在模型质量和评委可靠性,从而提高人类偏好的一致性,提高数据效率,并产生校准的不确定性量化。
Pass@K 策略优化:解决更困难的强化学习问题
发表机构 * Google DeepMind(谷歌深Mind)
AI总结 提出 Pass-at-k 策略优化 (PKPO),通过变换奖励直接优化 pass@k 性能,利用低方差无偏估计器,在训练中退火 k 可同时提升 pass@1 和 pass@k,解决更难问题。
从随机森林中可证明地恢复局部重要符号特征和交互
发表机构 * Faculty of Informatics and Data Science, University of Regensburg, Germany(信息与数据科学学院,莱茵河畔雷根斯堡大学)
AI总结 提出一种局部、模型特定的特征与交互重要性方法,通过结合全局和局部决策路径模式,在局部尖峰稀疏模型下可证明地恢复真实信号特征及其交互,并识别特征值大小对预测的驱动方向。
距离核MMD泛函的Wasserstein梯度流及分位数函数上的Cauchy问题
AI总结 研究负距离核下最大均值差异泛函的Wasserstein梯度流,通过将Wasserstein-2空间等距嵌入分位数函数空间,将梯度流转化为L2上的Cauchy问题并给出解公式,证明了流的正则性。
Comments We corrected the implicit Euler scheme in our code and updated the plots. Also, a minor mistake in the def. (14) and an error in the proof of Thm. 3.5 have been corrected. We thank the anonymous contributors for their valuable feedback, further improving the clarity of the paper. 48 pages, 23 figures, comments welcome!
具有动作触发观测的强化学习
发表机构 * Department of Statistical Sciences, University of Toronto(统计科学系,多伦多大学;向量研究所) ; Vector Institute
AI总结 提出动作触发稀疏可追踪MDP框架,推导Bellman方程并证明最优策略存在,利用观测间动作序列的线性表示实现基于回归的方法,在几何分布情节下达到与完全可观测线性MDP匹配的遗憾界。
CP4SBI: 基于模拟推断中可信集的局部共形校准
发表机构 * Department of Statistics, Federal University of São Carlos(统计系,圣卡洛斯联邦大学) ; Institute of Mathematics and Computer Science, University of São Paulo(数学与计算机科学学院,圣保罗大学) ; Univ. Grenoble Alpes, Inria, CNRS, Grenoble INP, LJK(格勒诺布尔阿尔卑斯大学,法国国家信息与自动化研究所,法国国家科学研究中心,格勒诺布尔INP,LJK)
AI总结 提出CP4SBI框架,通过回归树和CDF校准实现局部贝叶斯覆盖,为任意评分函数提供有限样本局部覆盖保证,提升神经后验估计的不确定性量化质量。
OCSVM引导的无监督异常检测表示学习
发表机构 * Univ. Lyon(里昂大学) ; CNRS UMR 5220(国家科学研究中心UMR 5220) ; Inserm U1294(法国国家医学研究院U1294) ; INSA Lyon(里昂国立应用科学学院) ; UCBL(里昂大学) ; CREATIS(里昂大学生物医学图像研究中心)
AI总结 提出一种将表示学习与可解析求解的一类SVM耦合的方法,通过定制损失函数直接对齐潜在特征与决策边界,在MNIST-C和脑MRI病变检测任务上展现了鲁棒性和性能。
PCS-UQ:基于可预测性-可计算性-稳定性框架的不确定性量化
发表机构 * Department of Statistics, University of California, Berkeley(加州大学伯克利分校统计学系) ; Department of Epidemiology, University of Utah(犹他大学流行病学系) ; Department of Electrical Engineering and Computer Science, University of California, Berkeley(加州大学伯克利分校电气工程与计算机科学系)
AI总结 提出PCS-UQ框架,通过预测检查、bootstrap采样和乘法校准实现不确定性量化,在回归和分类任务中优于或媲美共形预测方法,并提供理论保证。
投影随机森林与圆形数据的共形预测
发表机构 * Insper University(Insper大学) ; University of São Paulo(圣保罗大学)
AI总结 针对圆形响应回归问题,应用共形预测技术,通过投影方法将线性回归模型转换为圆形模型,并利用随机森林的袋外机制避免额外校准样本,生成具有有限样本覆盖保证和自适应弧长的预测集。
Comments 7 pages; 4 figures
区间删失数据的似然比检验方法
AI总结 针对区间删失数据,提出基于样条筛的稳健似然比检验,解决Wald检验在小样本中的不稳定性,理论推导渐近分布,模拟和实例验证其优越性。
比较特定时间点两个生存概率的组序贯样本量
AI总结 提出一种新方法,在固定和组序贯试验设计中同时确定检验两个生存概率的样本量,控制I类错误,适用于比例风险假设不成立或含新辅助治疗的随机试验。
关于小区域估计器的交叉验证
AI总结 本文提出一种适用于复杂调查设计的小区域估计器交叉验证框架,通过分解交叉验证平方误差,揭示可识别偏差与不可识别成分,提升模型比较的稳健性和可解释性。
Comments Previous title: "On cross-validation for small area estimators"
随机临床试验中协变量调整策略的基准测试
AI总结 本文通过大规模实证研究比较了不同协变量调整策略在随机临床试验中的表现,发现简洁的回归方法在效率提升方面表现优异,而基于机器学习的方法在二元结局中计算稳定性较差。
通过整合贝叶斯回归、树集成和Shapley值对流行病学数据进行线性之外的发现与推断
发表机构 * Amsterdam UMC Leiden University(阿姆斯特丹大学医学中心-莱顿大学) ; Leiden University(莱顿大学) ; Amsterdam UMC(阿姆斯特丹大学医学中心)
AI总结 提出RuleSHAP框架,结合贝叶斯稀疏回归、改进的树规则生成器和Shapley值,实现非线性与交互效应的检测及个体水平的不确定性量化,应用于流行病学数据发现高胆固醇和血压的影响因素。
从扩散MRI实验估计空间平滑的纤维取向分布
AI总结 提出最近邻自适应回归模型(NARM),通过加权局部似然估计和空间邻域嵌套实现纤维取向分布(FOD)的空间自适应估计,引入体素级重缩放和数据驱动停止规则防止过平滑,并基于配置感知策略选择相似性平滑参数,在模拟和人类连接组项目数据中提高了估计准确性和可重复性。
评估心力衰竭患者多药治疗动态依从性影响的潜在类别方法
AI总结 提出结合潜在马尔可夫模型与动态依从性建模的方法,分析心力衰竭患者多药治疗依从性模式及其对再住院风险的影响,发现高依从性可显著降低风险。
人工智能的市场设计:超越版权二元论
发表机构 * MIT Operations Research Center(麻省理工学院运筹学中心) ; MIT Sloan School of Management(麻省理工学院斯隆管理学院) ; Washington University School of Law(华盛顿大学法学院)
AI总结 本文通过静态和动态博弈模型,分析AI训练数据市场中“自由使用”与“强知识产权”两种模式的失败,提出通过数据中介内部化外部性并补贴创新贡献的市场设计。
可靠性的长期价值是什么?
AI总结 提出Chronos LTV系统,利用马尔可夫决策过程建模客户交互,通过协变量平衡算法估计延迟率对业务指标的长期影响。
在线平台中的数据驱动动态分类:学习双边信息
发表机构 * IE Business School, IE University(IE大学商学院) ; Kenan-Flagler Business School, The University of North Carolina at Chapel Hill(北卡罗来纳大学教堂山分校肯纳-弗拉格勒商学院)
AI总结 针对双边服务平台,提出一种数据驱动算法,在未知顾客和卖家选择参数的情况下动态优化商品分类,并证明其遗憾值随时间呈多对数增长且达到最优速率。
夏普比率的事后选择估计
AI总结 针对从众多资产中选择具有最高样本内夏普比率的资产,研究基于多面体引理、James-Stein收缩、期望最大夏普比率去偏、阈值法和经验贝叶斯的估计器,并通过模拟评估其偏差、均方根误差和秩相关性。
夏普比率的事后检验
AI总结 提出一种夏普比率的事后检验方法,类似于Tukey检验,用于在拒绝所有总体信噪比相等的假设后,比较资产夏普比率的差异。
推断国际象棋及其变体中的棋子价值
AI总结 使用逻辑回归从Lichess数据估计标准国际象棋及四种变体的棋子价值,发现主要棋子相对价值与历史估值一致,但象略高于马,且原子棋和反象棋中绝对值较小。
Comments 58 pages
已部署安全分类器的在线漂移检测与共形自适应
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出在线监测系统,使用校准序列统计检测分布漂移,并通过共形弃权层自适应阈值恢复目标错误率,在800个实验单元中实现86.6%有效检测。
Comments 16 pages, 4 figures, 7 tables. Code and data at https://github.com/junwenleong/safety-classifier-shift-monitor
标签偏移下的共形贝叶斯:事后校准与训练内适应
发表机构 * CROID Research and aSSIST University(CROID研究院和aSSIST大学)
AI总结 研究标签偏移下共形贝叶斯方法,通过重要性加权共形校准恢复目标域覆盖,比较事后校准与训练内适应两种策略,后者在偏差训练中起到去偏作用。
Comments 2nd Workshop on Epistemic Intelligence in Machine Learning (EIML@ICML 2026)
私有合成数据生成的固定参数可处理性
发表机构 * Google Deepmind(谷歌深Mind) ; Institute for Mathematical and Computational Engineering, Faculty of Mathematics and School of Engineering, Pontificia Universidad Católica de Chile(数学与计算工程学院、数学系和工程学院、智利天主教大学)
AI总结 研究差分隐私下合成数据生成问题,通过查询族关联图的树宽参数建立固定参数可处理性,提出两种最优算法。
通过逆保形风险控制校准决策鲁棒性
发表机构 * Wenbin Zhou(周文彬) ; Shixiang Zhu(朱世祥)
AI总结 提出逆保形风险控制框架,为鲁棒优化策略提供无分布、有限样本的误覆盖与遗憾保证,通过追踪Pareto前沿帮助决策者根据成本-风险偏好校准鲁棒性水平。
通过有界自适应裁剪减轻差分隐私学习中的差异影响
发表机构 * Department of Computer Science, University of Helsinki(计算机科学系,赫尔辛基大学) ; Department of Electrical and Computer Engineering, American University of Beirut(电气与计算机工程系,贝鲁特美国大学)
AI总结 针对差分隐私学习中梯度裁剪对少数群体造成的不公平影响,提出有界自适应裁剪方法,通过引入可调下界防止过度梯度抑制,在Skewed和Fashion MNIST上最差类准确率提升超过10个百分点。
Comments TMLR camera-ready version
Neyman-Pearson 与机会均等:当分类中的效率遇到公平
AI总结 将机会均等约束融入 Neyman-Pearson 分类框架,推导最优分类器,提出有限样本分类器以满足公平与效率约束,并在模拟和真实数据上验证有效性。
ShrinkageTrees: 用于生存分析和因果推断的贝叶斯树集成R包
AI总结 ShrinkageTrees是一个R包,通过贝叶斯加性回归树模型处理右删失和区间删失生存数据,支持因果推断中的预后和治疗效应分解,并引入深度惩罚、Dirichlet分裂和马蹄铁先验等正则化策略,适用于高维场景。
从持续性到生存:拓扑特征的假设检验、效应大小与向量化
发表机构 * Department of Machine Learning and Systems Biology, Max Planck Institute of Biochemistry, Martinsried, Germany(机器学习与系统生物学部门,马克斯·普朗克生物化学研究所,马尔廷斯里德,德国)
AI总结 提出STRAND方法,将持久性图视为生存数据,利用持久性生存函数统一实现假设检验、效应大小计算和向量化,在合成数据和真实基准上验证了有效性。
DeepRHP:一种用于设计随机异聚合物作为蛋白质模拟物的混合变分自编码器
发表机构 * DeepRHP: A Hybrid Variational Autoencoder for Designing Random Heteropolymers as Protein Mimics(DeepRHP:一种用于设计随机杂合聚合物作为蛋白质模拟物的混合变分自编码器)
AI总结 提出混合变分自编码器DeepRHP,在半监督框架下结合特征VAE与经典VAE,通过潜在空间捕获关键化学特征与序列模式,指导随机异聚合物设计,实验验证其稳定膜蛋白的有效性。
Comments Oral presentation at AAAI 2023 Workshop on AI to Accelerate Science and Engineering
从地球观测嵌入中提取连续生物群落表示
AI总结 针对离散生物群落图压缩生态连续性的问题,提出从卫星图像嵌入中学习连续概率表示,在巴西6个生物群落和4672种植物数据上验证,优于离散标签预测物种分布。
Comments 8 pages, 4 figures
CRUMB: 通过分布匹配上下文批处理实现高效先验拟合网络推理
发表机构 * Global Technology Applied Research, JPMorganChase(摩根大通全球技术应用研究)
AI总结 提出CRUMB方法,通过聚类查询、最小化最大均值差异选择训练子集、再执行精确推理,在不重新训练的情况下加速先验拟合网络推理,在51个数据集上优于同类方法。
Comments 26 pages, 13 figures
少样本重采样:可扩展的统计可靠数据挖掘
发表机构 * Department of Information Engineering, University of Padova(帕多瓦大学信息工程系)
AI总结 提出FewRS方法,基于重采样评估数据挖掘结果的统计显著性,通过推导新的上界偏差界,仅需极少量重采样数据集即可保证假发现概率,显著提升可扩展性。
Comments Accepted to KDD 2026
SoftMatcha 2:一种用于万亿级语料库的快速软模式匹配器
发表机构 * The University of Tokyo(东京大学) ; Kyoto University(京都大学) ; National Institute of Informatics(信息处理研究所) ; The Graduate University for Advanced Studies (SOKENDAI)(先进科学研究生院) ; National Institute for Japanese Language(日本语言学研究所) ; Tohoku University(东北大学)
AI总结 提出SoftMatcha 2,一种基于后缀数组和词向量的超快速软搜索算法,通过动态语料感知剪枝和磁盘感知设计,在万亿级语料上实现0.3秒内支持替换、插入和删除的语义变体搜索,并发现基准污染。
Comments Accepted at ICML2026. Project Page & Web Interface: https://softmatcha.github.io/v2/, Source Code: https://github.com/softmatcha/softmatcha2
基于期望分位数的综合不平等度量
AI总结 本文基于期望分位数与凸随机序的一致性,提出一族综合期望分位数泛函,用于度量风险、离散度与不平等,并导出其解析表示与几何解释,构建了新的期望分位数不平等指数,具有单调性和一致性,且可自然推广至多元情形。
线性IV模型中的关键与识别鲁棒非参数推断
AI总结 针对线性工具变量模型,提出对识别强度与异方差鲁棒且第一阶段非参数的新推断方法,包括渐近关键统计量、子向量推断和设定检验。
通过最优传输的离散累积分布变换
AI总结 针对实线上原子概率测度,提出基于单调分位数映射的离散累积分布变换,建立精确有限分辨率恢复的累积质量兼容性准则,并证明参考细化下的弱收敛性。
元数据感知的多提示推理用于零样本事故理解
发表机构 * Netradyne
AI总结 提出三阶段流水线,通过视觉-语言相似性、元数据驱动的多提示推理和开放词汇检测,实现零样本事故视频的时序定位、语义分类和空间定位,显著提升性能。
Comments Accepted at the AUTOPILOT Workshop, CVPR 2026 (non-archival). Workshop Paper ID 15
统计符号识别理论笔记
AI总结 本文是1986年Nils Lid Hjort关于统计符号识别理论的207页专著,基于噪声图像中的符号识别与分类分析,为适应当时技术限制(如扫描文档、向量转换)而开发的统计模式识别方法。
Comments Monograph, 207 pages, a limited circulation report from Norwegian Computing Centre, 1986, documenting statistical methods developed to serve industrial needs for various pattern recognition tasks
基于最小距离估计量的Hellinger密度估计:高斯混合、对数凹等
发表机构 * Stanford University(斯坦福大学) ; University of Washington(华盛顿大学)
AI总结 将最小距离估计方法从总变差距离扩展到Hellinger距离,通过反向数据处理不等式,实现了对对数凹混合和高斯混合(任意方差)的近线性时间学习,样本复杂度接近最优。
线性模型下反卷积的Pólya树后验一致性
AI总结 研究线性模型反卷积问题,提出基于Pólya树先验的贝叶斯非参数方法,证明在X^TX最小特征值条件下后验分布依上确界范数集中于真实密度g0。
统计罗盘
AI总结 将概率与随机过程思想作为统计学的翻译语言,从设计观测到数据对象、目标、稳定性、推断与应用,通过实例连接抽象对象与记录、机制和决策。
Comments 669 pages, 23 figures; textbook/monograph working manuscript
随机异质噪声下特征空间扰动的几何偏差
发表机构 * Department of Mathematics, Hong Kong University of Science and Technology(香港科技大学数学系) ; Department of Statistics and Data Science, National University of Singapore(新加坡国立大学统计与数据科学系)
AI总结 针对稀疏、异质方差噪声下的信号加噪声矩阵,研究发现经验特征向量存在经典扰动界无法捕捉的系统性几何偏差,并通过二次向量方程和精细各向同性局部律推导了最优非渐近扰动界。
Comments 104 pages, 1 figure
二阶PACF渐近性及分数高斯噪声与$\FARIMA(0,d,0)$的区分
AI总结 通过推导分数高斯噪声(fGn)的偏自相关函数(PACF)的二阶渐近展开,揭示了其与$\FARIMA(0,d,0)$在二阶非通用阶上的差异,并解释了短记忆阶选择差异的原因。
个体异质性系数的 $\tau$-分位数估计与推断
AI总结 针对面板数据中个体异质性斜率系数的分位数,提出两步分位数估计框架,并建立渐近理论和自助法推断。
ProjGuard:通过低维投影实现计算机使用代理的安全监控
AI总结 ProjGuard通过行为轨迹监控实现计算机使用代理的安全防护,利用轻量级风险信号提前预警潜在危险,结合辅助视觉语言模型进行针对性修正,提升任务完成率并降低安全风险。
Comments The manuscript was submitted under an inappropriate category. In addition, substantial updates and improvements are currently being made to the document. To avoid confusion and ensure that readers access the most accurate version of the work, we request withdrawal of the current manuscript
加权最小二乘估计的快速收敛性
AI总结 研究加权最小二乘估计在Fisher信息无穷时收敛速度快于经典平方根率的问题,通过构造双变量绝对连续分布族,证明其收敛阶渐近小于经典速率。
Comments 8 pages. Keywords: stable subordinator, Fisher information, maximum likelihood estimate, weighted least squares, super-efficient estimate
高维经验尾部依赖函数:均匀线性化与推断
AI总结 本文针对高维极值统计中的经验尾部依赖函数,建立了有限样本概率界、高维中心极限定理和乘子自举法的有效性,允许维度随有效样本量指数增长,并应用于M估计和空间各向同性检验。
Comments 71 pages (24 for the main paper)
广义Kingman单纯形上的多重Poisson-Dirichlet扩散
AI总结 构造了有限标记广义Kingman单纯形上的无穷维扩散过程,通过分块斜积分解和极限过程,得到了多重Poisson-Dirichlet平稳分布。
Comments Revised version; dedicated to the memory of T.G. Kurtz
AI4SLT: 基于 Lean 4 的形式化统计学习理论实证过程
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文首次在 Lean 4 中完整形式化统计学习理论,基于实证过程理论,通过人机协作工作流构建了可验证的定理证明工具箱,并揭示了教材中的隐含假设。
Comments Accepted by ICML 2026
基于最优传输的多元拟合优度检验
AI总结 提出基于特征函数的多元分布拟合优度检验,利用最优传输构造多元秩,检验统计量计算简单,对简单原假设无分布限制,并通过模拟和实际数据验证其有效性。
分数高斯噪声有限预测器的渐近分析
AI总结 提出一种解析方法,精确推导分数高斯噪声驱动过程的相对预测误差和偏相关系数的渐近行为,解决了长记忆过程预测分析的难题。
临床预测模型的人机协同设计
发表机构 * University of California, San Francisco(加州大学旧金山分校) ; National University of Singapore(新加坡国立大学) ; Microsoft Research(微软研究院)
AI总结 本文提出HACHI框架,通过人机协作加速可解释的临床预测模型开发,提升模型泛化能力并发现新临床概念。
数据驱动的逻辑回归集成
AI总结 本文提出一种结合正则化与集成技术的数据驱动逻辑回归方法,用于高维二分类问题,通过优化全局目标函数构建紧凑且可解释的模型集成,识别关键生物标志物并提供高效算法和实用指导。
一种用于稀疏且稳健独立成分分析的方法
AI总结 本文提出稀疏不变坐标选择(SICS)方法,用于稀疏且稳健的独立成分分析,通过LASSO型惩罚促进稀疏性,并利用稳健散度矩阵提升鲁棒性,通过模拟验证了其在识别稀疏独立成分加载中的性能。
Comments 27 pages, 9 figures
MealMeter:利用多模态感知与机器学习自动估计营养摄入
AI总结 MealMeter通过整合多模态传感器数据与轻量级机器学习模型,实现高精度的营养摄入估计,其在碳水化合物的MAE和RMSRE分别达到13.2克和0.37,优于基线方法。
通过自我知识蒸馏引导帧级CTC对齐
发表机构 * KAIST(韩国科学技术院)
AI总结 本文提出通过自我知识蒸馏引导帧级CTC对齐,以解决传统知识蒸馏中教师-学生模型在帧级对齐上的分歧问题,提升模型性能和资源效率。
Comments Accepted by Interspeech 2024
目标驱动集成:弥合可解释稀疏性与算法预测之间的差距
AI总结 本文提出目标驱动集成方法,通过将最优子集选择推广为联合数学优化问题,生成可解释的集成模型,并理论证明惩罚预测变量重叠可限制预测协方差、减轻有限样本虚假相关的影响,实现机器学习级精度与稀疏模型可解释性的兼顾。
高维环境下Hotelling's T²检验的可适应广义化
AI总结 本文提出基于岭正则化Hotelling's T²的两样本检验,用于高维数据中均向量差异检测,通过局部替代方案选择正则化参数,并结合最优检验方法构建复合检验,验证了统计过程的弱收敛性,并通过乳腺癌数据集应用展示其有效性。
Comments 42 pages, 6 figures