A Functional Data Framework For Analyzing Shapes and Textures in Images
图像形状与纹理分析的函数数据框架
AI总结 提出一种基于函数数据分析的星形域图像表示方法,降低维度与计算成本,并应用于监督分类。
图像形状与纹理分析的函数数据框架
AI总结 提出一种基于函数数据分析的星形域图像表示方法,降低维度与计算成本,并应用于监督分类。
基于熵正则最优传输的两样本同质性检验
AI总结 提出基于熵正则最优传输映射的两样本同质性检验,利用平方L2距离作为统计量,证明可识别性、中心极限定理及局部渐近功效,并通过加权乘子自助法校准零分布。
基于加权共形预测从历史调查数据预测当前结果
AI总结 针对大规模调查中部分结果仅在特定年份测量的缺失问题,提出加权共形预测框架,通过估计历史与目标协变量分布间的似然比,实现有效的总体水平预测,并保证覆盖概率。
Comments Submitted to Journal of the Royal Statistical Society Series B. 89 pages, 14 figures. Includes supplementary material
在函数形式的灵活建模中调整协变量测量误差的方法:一项盲法、受控中性比较模拟研究的结果
AI总结 通过盲法多阶段中性比较模拟研究,评估了六类测量误差校正方法与四种灵活回归模型结合在非线性关联估计中的表现,发现点态SIMEX最准确稳健,贝叶斯方法和回归校准次之,多重插补较差,B样条最差。
稀疏采样下一维分布的Wasserstein重心估计
AI总结 针对每个单元仅通过少量独立同分布样本观测到一维分布的数据,提出边际构造重心(MCB)估计量,通过二项混合方法估计潜在分位数分布,克服稀疏采样下经验Wasserstein重心的偏差,并证明其一致性和渐近正态性。
一种用于映射最大潜在生物多样性的信息几何框架
AI总结 提出信息几何框架,通过约束变分原理定义潜在组成和多样性差距,统一处理Hill型多样性和Rao二次熵,为生态保护提供基准比较。
Comments 22 pages, 1 figure
修正随机森林产生的变量重要性评分
发表机构 * Computer and Information Science(计算机与信息科学) ; Mathematics and Data Science(数学与数据科学) ; University of Massachusetts, Dartmouth, MA(马萨诸塞大学达特茅斯分校) ; The Rivers School, Weston, MA(韦斯特on学校的河流学校)
AI总结 针对随机森林变量重要性受变量间相关性影响的问题,提出基于条件相关性的分组方法进行修正,实验证明两种计算高效方案均能有效校正变量重要性。
Comments 22 pages, 10 figures
复杂缺失机制下二元回归的共形预测
AI总结 针对复杂缺失机制下的二元回归问题,提出共形预测框架,通过分布不变性条件替代可交换性,并利用双射论证处理随机子集样本,同时提出多种共形预测程序,包括图论加权方法,实现渐近条件有效性。
用于粗化结果的分层复合终点的概率胜率方法
AI总结 提出概率胜率(PWR)方法,通过条件概率替代确定性比较,处理删失和缺失数据,提高效率并减少偏倚,在完全观测时退化为标准胜率。
网络数据中子空间相等的双样本假设检验
AI总结 针对两个网络是否共享相同子空间(如社区结构)的零假设,提出基于投影矩阵差的Frobenius范数检验统计量,证明其在平均期望度对数增长下渐近正态,并给出均值和方差估计及局部功效。
HDSense:一种有效的可观测灵敏度排序方法
AI总结 提出HDSense评分,利用一维直方图高效排序可观测集对模型参数的约束能力,通过Fisher信息框架剖析未知相关性,平衡信息量与冗余,验证于Lund弦碎裂模型参数估计。
Comments 26+11 pages, 9 figures, code available at: https://gitlab.com/pythia8-contrib/packages/hdsense. Updated version with minor revision recommended by SciPost Physics
基于设计的聚类大小不等分层随机试验的稳健估计与推断
AI总结 针对聚类大小异质的分层随机试验,揭示分层平均估计量不一致性问题,提出Hájek比率估计量作为稳健替代,并开发基于设计的方差估计量。
使用Bregman散度的稳健贝叶斯预测模型选择
AI总结 针对基于对数得分的ELPD对异常值和尾部不匹配敏感的问题,提出基于Bregman散度的广义ELPD框架,通过β-散度族控制低密度观测影响,实现稳健模型选择。
非参数黎曼经验贝叶斯与流形上的测量去噪
AI总结 针对流形上潜变量与测量值的去噪问题,提出基于Tweedie-Eddington公式的切向贝叶斯去噪器,利用拉普拉斯-贝尔特拉米算子实现数据驱动近似,并证明其在低噪声下接近贝叶斯风险,但收敛速率慢于欧氏情形。
Comments 56 pages, 11 figures. Abstract shortened to meet arXiv requirements. Comments welcome!
置信度、统计证据与相对信念及其在粒子物理问题中的应用
AI总结 本文提出相对信念推断方法,在泊松信号加背景模型中构建不确定性量化区间,并与Feldman-Cousins区间对比,满足似然排序和频率学派要求。
走向均值:一种实用的贝叶斯工作流,用于开发和部署临床预测模型
AI总结 本文提出了一种实用的贝叶斯工作流,用于开发和部署临床预测模型,通过使用收缩先验和个体后验均值决策方法,提高了预测性能和不确定性量化。
Comments 26 pages, 6 tables, 5 figures
治疗后变量处理效应异质性的经验分层
AI总结 提出一种假设精简的经验分层框架,通过基于基线协变量预测的潜在治疗后变量响应定义经验得分,构建可识别的经验分层处理效应,并连接主分层因果效应。
LMT: 制造系统中文本告警记录的因果发现贝叶斯框架
发表机构 * Department of Mechanical & Industrial Engineering, Northeastern University, Boston, MA, USA(东北大学机械与工业工程系) ; College of Integrative Studies, Singapore Management University, Singapore(新加坡国立大学整合研究学院) ; Department of Industrial Engineering and Management Sciences, Department of Mechanical Engineering, Northwestern University, IL, USA(西北大学工业工程与管理科学系、机械工程系)
AI总结 提出LMT框架,结合大语言模型提取的语义信号和基于泊松过程的时间证据,通过贝叶斯方法从文本告警记录中发现因果图,在小样本场景下表现优异。
Comments 19 pages
最小自由能随机化设计以改善协变量平衡
AI总结 提出最小自由能随机化设计,通过平衡协变量与最大化熵的权衡,结合高效动态分配算法,提升统计效率与鲁棒性。
Comments 30 pages, 2 figures
一种估计量鲁棒的设计:用外部真实世界数据增强随机对照试验
AI总结 提出使用自适应目标最大似然估计(A-TMLE)结合匹配抽样策略,通过分解平均处理效应为合并效应和偏倚效应,并基于试验入组倾向分和外部数据倾向分进行匹配,提高估计鲁棒性和置信区间覆盖率。
面向高维离散数据的快速降维与聚类的数据压缩方法
AI总结 提出一种确定性降维框架,通过缩放位置编码的加权和将高维离散观测压缩为低维连续表示,保证单射性、近似高斯性及聚类中心可分离性,计算高效且适用于多种数据类型。
具有数据自适应Wasserstein几何的分布鲁棒PCA
AI总结 提出分布鲁棒PCA,通过数据自适应Wasserstein邻域最小化最坏情况重构风险,导出对偶问题并引入可替代目标函数,证明估计量的一致性及局部Grassmann渐近性。
Comments 117 pages, 1 figure, includes supplementary material
具有对称性的凸收缩方法用于高维协方差估计
AI总结 本文提出了一种数据自适应的收缩估计器,用于高维协方差估计,通过在有限对称群下使用雷诺德投影作为收缩目标,并结合结构化目标和自适应凸收缩方法,提高了估计精度。
Comments v1: 99 pp, 20 fig, 22 theorems, 6 datasets; v2: clarified comparison to gips
Wasserstein空间中局部土壤侵蚀分布的空间预测
AI总结 提出一种将局部侵蚀分布视为Wasserstein空间对象,通过基展开和多元随机场建模,结合局部回归和克里金法进行空间预测的新方法,在模拟和陕西省实际数据中优于现有方法。
Comments To appear in the Annals of Applied Statistics
高频风矢量时间序列的随机天气生成器
发表机构 * Department of Statistics, Rutgers University(统计学系,罗格斯大学)
AI总结 针对分钟级风矢量时间序列,开发基于时间矢量量化变分自编码器的机器学习模型,生成逼真序列,捕捉昼夜变化但极端风速分布匹配不足。
留出一个窗口:修改刀切法用于时间序列的预测推断
发表机构 * Schools of Industrial and Systems Engineering and Electrical and Computer Engineering(工业与系统工程系和电气与计算机工程系) ; Department of Statistics, University of Chicago(芝加哥大学统计系)
AI总结 针对时间序列中数据非可交换性和记忆预测器的问题,提出留出一个窗口(LWO)方法,通过修改刀切法实现有效覆盖,并产生比分裂共形预测更窄的区间。
Comments 40 pages, 8 figures
正定矩阵锥上强混合时间序列的Wishart核密度估计
AI总结 提出Wishart核密度估计器用于正定矩阵锥上的密度估计,该估计器具有边界感知性,能缓解边界偏差,并在混合条件下建立了均方误差、一致强相合性和渐近正态性,模拟和实例表明其优于其他方法。
Comments 43 pages, 4 figures, 2 tables
一种增强贝叶斯VAR与非线性因子的灵活方法
AI总结 本文提出一种用回归树非参数建模非线性因子的向量自回归模型,通过因子方法简洁建模非线性,避免误设,实现高效贝叶斯计算,并适用于结构冲击识别。
可解释的深度卷积模型用于复杂系统中的非线性多元时间序列
发表机构 * Department of Physics, Faculty of Science, University of Zagreb(扎格拉布大学物理系)
AI总结 提出DCIts架构,通过分解为Focuser和Modeler组件,实现非线性多元时间序列的局部可解释交互结构学习,在保持预测精度的同时恢复稳定的符号化滞后交互模式。
Comments 40 pages, 13 figures
泊松点过程的多变点检测
AI总结 针对非齐次或标记泊松过程数据,提出基于最小对比度估计的离线多变点检测方法,通过交叉验证选择变点数量,并推广至自激励过程。
基于非负矩阵分解的部分观测时间序列预测
发表机构 * Institut Camille Jordan, Ecole Centrale Lyon(让-卡米尔·约当研究所,中央理工大学) ; Institut Universitaire de France(法国大学研究院)
AI总结 提出滑动掩码方法(SMM)结合非负矩阵补全进行多非负时间序列预测,通过掩码原型矩阵分解(mAMF)和掩码归一化非负矩阵分解(mNMF)实现,理论证明恢复误差与噪声成比例,实验优于Transformer、LSTM等方法。
非线性估计器:用于参数学习的双贝叶斯仿射估计器
AI总结 提出一种用于Wiener型状态空间模型的非线性参数估计器,通过固定点架构耦合两个仿射最小均方误差估计器,分别估计未知参数和潜在变量,并开发两种双估计器框架,实验表明双状态-参数估计器在参数均方误差上优于其他方法。
Comments 32 pages, 9 figures
局部驯化随机梯度朗之万动力学的确定性分母设计
AI总结 针对驯化随机梯度朗之万动力学中分母设计问题,提出基于代理分数和分位数的确定性分母方法,避免随机分母的均值偏移,实验表明其性能接近理想情况。
Comments 30 pages, 1 figures
基于潜扩散模型参数化的地下流体数据同化:集成卡尔曼与蒙特卡洛技术的性能
发表机构 * Department of Energy Science & Engineering, Stanford University(能源科学与工程系,斯坦福大学)
AI总结 针对地下流体数据同化中高维参数反演问题,比较了基于潜扩散模型(LDM)的集成卡尔曼方法(ESMDA)与蒙特卡洛方法(MCMC/SMC)在三维河道地质模型上的性能,发现蒙特卡洛方法在保持地质真实性的同时能更有效地降低数据失配和不确定性。
基于随机最优控制的稀有事件分析
发表机构 * Microsoft Research New England(微软研究院新英格兰分部) ; Cornell University(康奈尔大学) ; University of Cambridge(剑桥大学) ; Courant Institute of Mathematical Sciences, NYU(纽约大学Courant数学科学研究所)
AI总结 提出将稀有事件分析中的committor函数估计转化为随机最优控制问题,通过反馈控制引导轨迹采样,并开发两种损失函数及处理亚稳态的方法,在基准系统上获得更准确的结果。
子采样自然梯度算法的草图-投影分析
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 通过将子采样自然梯度下降(SNG)视为草图-投影方法,提出基于平方体积采样的新代理,证明单小批量下SNG方向期望等于预处理梯度下降步,给出全局收敛保证和显式收敛率,并解释SNG相对于SGD的优势在于更有效利用模型雅可比矩阵的谱衰减。
Comments 26 pages, 7 figures
非线性动力学系统中信息损失的Wasserstein几何
AI总结 针对非线性系统时间延迟重构映射非单射导致的多值演化问题,提出基于测度论框架量化模糊性,引入内在随机性指标,并用k近邻估计实现有限分辨率下的数值计算。
面向组合优化的潜在引导采样
发表机构 * Sorbonne Université and Université Paris Cité, CNRS, Laboratoire de Probabilités, Statistique et Modélisation, F-75005 Paris, France(索邦大学和巴黎Cité大学,法国国家科学研究中心,概率、统计与建模实验室,法国巴黎F-75005) ; LOPF, Califrais' Machine Learning Lab, Paris, France(LOPF,Califrais机器学习实验室,法国巴黎)
AI总结 提出LGS-Net潜在空间模型,结合马尔可夫链蒙特卡洛与随机逼近的潜在引导采样方法,在路由任务上达到最先进性能。
任意步SDE的Itô映射
发表机构 * Harvard University(哈佛大学) ; University of Oxford(牛津大学) ; Kempner Institute(凯门研究所)
AI总结 提出Itô映射,一种任意步随机流映射,通过单次前向传播预测未来状态,实现随机动力学的精确蒸馏,并支持推理时控制和后验采样。
广义共形预测系统在分布偏移下的应用
发表机构 * IDLab Seminar for Statistics(统计研究所研讨会) ; Department of Electronics(电子系) ; ETH Zurich(苏黎世联邦理工学院) ; Information Systems Zurich, Switzerland(苏黎世信息系统,瑞士) ; Ghent University(根特大学)
AI总结 针对分布偏移,通过观测特定置换权重编码偏移,扩展广义共形预测系统,提出偏移感知预测系统,并引入权重不确定性框构建鲁棒共形预测系统包络,提供有限样本或渐近置信保证。
Comments 27 pages, 10 figures
通过校准视角看人机协作
发表机构 * Department of Computer Science, Johns Hopkins University(计算机科学系,约翰霍普金斯大学) ; Department of Statistics, University of Michigan(统计学系,密歇根大学)
AI总结 研究通过统计校准视角分析人机协作模型,发现组合方法不保留人类校准度,而委托方法将校准负担转移给拒绝器元模型,且当人类依赖系统不可观测信息时无法实现。
Comments 19 pages, 5 figures (including appendix)
基于玻尔兹曼间隔的kNN分类近指数收敛速率
发表机构 * School of Computer Science, University of Oklahoma(计算机科学系,俄克拉荷马大学)
AI总结 提出玻尔兹曼间隔条件,介于Tsybakov与Massart间隔之间,首次证明kNN分类器可实现近指数收敛速率。
Comments Conference on Uncertainty in Artificial Intelligence (UAI)
面向流式广告中节奏控制的决策校准共形不确定性
发表机构 * Department of Mathematics, Embry-Riddle Aeronautical University(数学系,埃姆伯里-瑞德航空大学)
AI总结 提出一种决策校准共形框架,通过衡量预测误差对实际部署策略的最大影响来校准不确定性,理论证明该分数是保护所有可部署节奏控制策略的最小有效不确定性度量,并在公开数据集上显著降低不确定性半径。
鲁棒主动学习用于文本到SQL中的少样本示例选择
发表机构 * NVIDIA
AI总结 针对文本到SQL中少样本示例选择,提出一种鲁棒主动学习方法,通过分层贪婪算法最大化异方差互信息目标,在嵌入流形上实现常数因子近似保证,显著减少标注成本。
Comments 31 pages, 4 figures, 5 tables
用于蛋白质性质预测的灵活核函数
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出利用进化替代矩阵和局部线性性的序列核函数,结合高斯过程实现数据高效的蛋白质性质预测,并融入结构信息进行多任务学习。
Comments 50 pages; to appear at ICML 2026
神经网络中数据对称性导致的守恒律
发表机构 * Umeå University(于默奥大学)
AI总结 研究训练数据的对称性是否在梯度流训练中产生守恒量,证明对于解析非多项式损失函数,数据对称性一般不产生额外守恒量;对于均方误差损失,数据增强可产生额外守恒量,并利用可张量化网络框架描述该现象。
SPACR: 单次自适应训练的不确定性感知共形回归器
发表机构 * Heudiasyc - UMR CNRS 7253, Université de Technologie de Compiègne(法国贡比涅技术大学 - CNRS 7253联合实验室 Heudiasyc)
AI总结 提出SPACR方法,通过可微损失直接训练不确定性感知回归器,联合优化效率和有效性,无需批分割或预定义置信水平,单个模型在推理时支持多置信水平预测区间,实验表明其区间更窄、覆盖-效率权衡更优且计算成本更低。
TENP:用于混合专家的梯形专家神经元剪枝
发表机构 * TJUNLP Lab, School of Computer Science and Technology, Tianjin University(天津大学计算机科学与技术学院 TJUNLP实验室)
AI总结 提出TENP框架,通过识别重要专家并对其余专家进行神经元剪枝,保留梯形参数模式,在40%路由专家稀疏度和平均63.76%激活参数下,DeepSeek模型准确率仅下降1点,代码生成任务提升10%。
集成局部和全局熵用于大语言模型的不确定性量化
AI总结 本文提出GLU方法,通过融合隐藏状态几何熵(全局)和token级熵(局部)来量化LLM不确定性,有效捕捉自信但错误的失败模式,无需额外训练。
Comments 17 pages, 2 figures
使用概率程序训练大型语言模型的归纳推理
AI总结 提出基于程序的后验训练(PPT)方法,利用LLM生成概率程序场景,通过推理产生分布目标,微调模型以提升归纳推理准确性、与人类判断的一致性及校准能力。
Comments 20 pages, 5 figures
Express 语言建模
AI总结 提出 Express 工具,将非因果注意力近似转换为因果近似,结合 Thinformer 实现最优因果注意力保证,并加速语言建模中的四个资源瓶颈。
范围惩罚:理论洞见及其在联邦学习中的应用
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出范围正则化方法,通过极值聚类实现跨客户端正则化,并开发非渐近统计精度与模式恢复的新证明技术,以及利用局部强凸性的快速优化算法。
Gromov--Wasserstein空间中的$k$-最近邻
发表机构 * University of North Carolina at Chapel Hill, Department of Mathematics(北卡罗来纳大学教堂山分校数学系) ; University of North Carolina at Chapel Hill, Department of Statistics and Operations Research(北卡罗来纳大学教堂山分校统计与运筹学系)
AI总结 本文在Gromov-Wasserstein距离框架下实现k-最近邻分类,证明了度量测度空间和图上分类器的普适一致性,并通过实验验证了其有效性。
当前状态数据下神经网络估计的收敛速度
发表机构 * Department of Biostatistics and Bioinformatics, Duke University, Durham, North Carolina, USA(生物统计学与生物信息学系,杜克大学,达勒姆,北卡罗来纳州,美国)
AI总结 针对当前状态数据,提出非参数神经网络筛最大似然估计器,结合ReLU网络逼近理论与经验过程论证,在Hölder光滑假设下建立显式收敛速度。
交叉熵训练下多头自注意力的平均场分析
AI总结 针对交叉熵最小化训练的单层因果多头自注意力模型,建立平均场理论,证明有限头近似界、刻画全局极小元、建立传播混沌估计,并研究偏微分方程的长时间行为。
Comments 29 pages
MLP残差网络的秩坍缩、不动点与重正化群结构
AI总结 本文通过MLP残差网络在合成马尔可夫链上的掩码预测任务,首次定量证明网络深度方向存在选择性秩坍缩,对应重正化群中的相关自由度整合,并发现层间核漂移集中在少数转换处。
Comments 16 pages, 9 figures
非线性最小二乘中基于学习特征几何的泛化性
发表机构 * University of Oxford(牛津大学) ; Google DeepMind(谷歌DeepMind) ; Sapient Intelligence(智睿科技)
AI总结 通过算法稳定性分析岭正则化非线性最小二乘的泛化误差,利用经验雅可比Gram矩阵和残差曲率项定义数据依赖的有效维度,并证明其与内在维度而非参数数量相关。
Comments Preprint, under review
稳定性边缘选择性地塑造数据分布上的学习
发表机构 * MIT(麻省理工学院)
AI总结 本文发现优化中的稳定性边缘(EoS)具有选择性,通过分支干预因果证明了EoS在训练数据子集间重新分配学习,并识别了受益组需满足的两个条件:梯度与Hessian主特征向量对齐,以及梯度幅度持续非零。
Comments ICML HiLD 2026; 27 pages, 22 figures
具有噪声和不精确侧信息的样本高效归纳矩阵补全
发表机构 * Yale Department of Statistics and Data Sciences, Yale University(耶鲁大学统计与数据科学系) ; UChicago Department of Statistics, University of Chicago(芝加哥大学统计系)
AI总结 本文研究了在存在噪声和不精确侧信息的情况下,通过非凸投影梯度下降算法实现样本高效的归纳矩阵补全,提出了一个适用于有效问题规模的正则性条件,实现了线性收敛和估计误差仅依赖于有效问题规模的结论。
类别输入模型的精确函数ANOVA分解
发表机构 * Institut de Mathématiques de Toulouse(图卢兹数学研究所) ; Université de Toulouse(图卢兹大学) ; CNRS(国家科学研究中心)
AI总结 针对类别输入模型,提出一种无需假设的闭式函数ANOVA分解方法,高效处理任意依赖结构,并自然推广SHAP值。
盲去噪扩散模型与维度的祝福
发表机构 * Flatiron Institute, Simons Foundation(Flatiron研究院,Simons基金会) ; Foundations of Data Science, Yale University(数据科学基础,耶鲁大学) ; Department of Statistics and Data Science, Yale University(统计与数据科学系,耶鲁大学) ; Ctr. for Neural Science & Courant Institute, New York University(神经科学中心及Courant学院,纽约大学)
AI总结 提出盲去噪扩散模型(BDDM),通过不向神经网络传递噪声幅度来简化设计,并在数据内在维度低于环境维度的假设下证明其正确性,实验显示自适应方案的优势。
Comments 39 pages, 13 figures; Accepted to ICML 2025 FoGen workshop
知情非对称Actor-Critic:利用超越全状态访问的特权信号
发表机构 * DeepMind(深度Mind) ; University of Cambridge(剑桥大学) ; ETH Zurich(苏黎世联邦理工学院) ; University of Geneva(日内瓦大学)
AI总结 提出知情非对称Actor-Critic框架,允许评论家基于任意状态相关特权信号进行条件化,并证明其产生无偏策略梯度估计;设计两种信息性准则选择最优信号,实验表明精选信号可匹配或超越全状态基线。
Comments Accepted at ICML 2026
更深还是更宽:从Sobolev损失下最优泛化误差的视角
发表机构 * GitHub
AI总结 本文通过分析Sobolev损失下的最优泛化误差,比较了深层网络与宽层网络,揭示了样本点数量、网络参数和损失函数正则性对架构选择的影响,并应用于深度Ritz和PINN方法。
Comments arXiv admin note: text overlap with arXiv:2310.10766, arXiv:2305.08466
神经算子混合体降低算子学习中的主动复杂度
发表机构 * McMaster University and Vector Institute(麦斯特大学和向量研究所) ; Shimane University(岛根大学) ; Rice University(里士满大学) ; University of Helsinki(赫尔辛基大学)
AI总结 通过路由混合神经算子(MoNO)与固定单神经算子构造的比较,证明MoNO在主动专家规模上具有更优的深度、宽度和秩缩放,且对Lipschitz目标这些量以O(ε^{-1})为界。
基于无穷范数的输入到状态稳定的长短期记忆网络:热系统视角
AI总结 本文提出基于无穷范数的输入到状态稳定性条件,改进LSTM网络稳定性,通过惩罚项和早停策略提升热系统建模性能,优于物理模型和GRU网络。
Comments Accepted for publication in the proceedings of the European Control Conference 2025 (ECC25). 8 pages, 3 figures and 1 table
线性回归中的风险比较:隐式正则化主导显式正则化
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Alphabetical order ; Harvard University(哈佛大学) ; Google DeepMind(谷歌DeepMind)
AI总结 本文通过实例比较线性回归中梯度下降、岭回归和随机梯度下降的有限样本风险,发现梯度下降优于岭回归,但与随机梯度下降不可比,且在某些问题中梯度下降可能更差。
Comments Accepted for presentation at the Conference on Learning Theory (COLT) 2026
训练后增强不变性
发表机构 * Department of Mathematics, Dartmouth College(达特茅斯学院数学系)
AI总结 提出训练后增强不变性框架,通过轻量级MLP适配器网络在预训练模型潜空间上实现近似不变性,无需微调且保持原始特征。
一个具有停止准则的 $(\epsilon,\delta)$-精确水平集估计
发表机构 * Kyushu Institute of Technology(九州工业技术大学) ; Nagoya University / RIKEN AIP(名古屋大学 / RIKEN AIP) ; The Institute of Statistical Mathematics/ RIKEN AIP(统计数学研究所 / RIKEN AIP)
AI总结 提出一种带停止准则的水平集估计获取策略,理论上证明满足 $\epsilon$-精确度和 $1-\delta$ 置信水平,减少不必要的函数评估,实验验证了其有效性。
解决分离问题:纵向与时间-事件数据的Firth校正联合模型及其在职业培训辍学中的应用
AI总结 针对联合模型中分类协变量分离导致估计偏差的问题,引入Firth校正到极大似然估计中,通过EM算法实现参数估计,模拟和实际数据表明该方法能降低偏差,并应用于德国职业培训辍学影响因素分析。
纵向人体测量数据的二阶段插补与交叉参考协调:一项模拟研究
AI总结 提出一种二阶段方法,通过线性插补和基于LMS方法的生长参考插补,解决纵向数据中缺失的人体测量值,并显式处理不同参考标准,模拟显示误差小且无偏。
从不完整的电子健康记录数据中的全人健康评分预测住院:一项案例研究
AI总结 本研究利用统计建模和机器学习,从不完整的电子健康记录中计算全因负荷指数(ALI),并评估其预测住院的能力,发现模式子模型方法在样本内表现最佳(AUC=0.73),但交叉验证效果较差(AUC=0.63)。
Comments 13 pages, 5 figures, 2 tables, R code and simulated dataset available on GitHub
OncoTraj:EGFR突变非小细胞肺癌奥希替尼耐药纵向预测的公共基准
发表机构 * Span AI
AI总结 针对EGFR突变非小细胞肺癌一线奥希替尼耐药预测缺乏公共基准的问题,提出OncoTraj基准,整合813名患者数据,定义三项任务,并发现单时间点组织NGS特征导致所有模型性能接近随机,而TP53共突变与进展率升高相关。
Comments 24 pages, 7 figures, 4 tables. Code, data, and trained model weights: https://github.com/span-ai-labs/oncotraj. Python package: pip install oncotraj. Dataset: https://huggingface.co/datasets/span-ai-labs/oncotraj-v1
基于梯度提升与无分布覆盖的非酒精性脂肪肝病共形风险预测
AI总结 提出结合梯度提升决策树与共形预测的机器学习框架Method,实现非酒精性脂肪肝病个体风险的无分布校准覆盖预测,在中国多中心队列中AUROC达0.912,优于多种方法。
美国SARS-CoV-2变异株实时预测的协作估计与评估
AI总结 本文介绍美国SARS-CoV-2变异株实时预测中心的构建,评估五种模型和基线模型在2024-2025年流感季的表现,发现基线模型整体表现良好,测序量低的地区模型性能波动更大。
Comments 32 pages, 9 figures
新西兰呼吸道疾病的多病原体态势评估与预测
AI总结 针对SARS-CoV-2、流感和RSV三种病原体,利用实时监测数据建立模型进行流行趋势评估和28天预测,为公共卫生规划提供支持。
胜率比与联合脆弱模型在复发事件终点中的实证比较及其在肿瘤学和心脏病学中的应用
AI总结 比较联合脆弱模型(JFM)与末事件辅助复发事件胜率比(LWR)在复合终点分析中的性能,发现JFM在统计功效和推断可靠性上更优,而LWR提供方向性总结度量。
测量老年人虚弱程度:基于超级分类器的指标
AI总结 提出一种基于行政医疗数据的复合指标,通过多结局逻辑分类器组合似然来量化老年人虚弱程度,允许灵活使用不同结局的虚弱决定因素。
基于微观模拟和Q学习的COVID-19加强针疫苗政策制定
AI总结 提出结合表格Q学习与微观模拟的框架,利用RNN数字孪生环境安全学习疫苗政策,在COVID-19加强针政策中优于当前实践。
新闻中女性的结构性低代表性:非参数贝叶斯混合模型捕捉时间依赖动态
AI总结 采用时间依赖贝叶斯混合模型分析加拿大新闻数据,揭示女性引述比例在所有主题和地区中均存在结构性低代表性,且超过85%的时间序列未见改善。
供应链中库存与信息控制的二项式平滑
AI总结 针对分散供应链中零售商订单平滑与上游预测的权衡,提出二项式平滑策略,在最小化制造商预测误差的同时保持可逆性,并实现常数因子近似最优。
Comments 59 pages, 7 figures, 4 tables
利他主义在贴纸经济学中的力量:慷慨最小化集体成本,过度保护规范导致低效率
AI总结 通过基于智能体的建模和蒙特卡洛模拟,研究社区规范如何影响FIFA世界杯贴纸收集的集体效率,发现过度保护策略增加成本,而慷慨策略优化网络流动性并显著减少不良运气的影响。
保险对面临随机比例损失的贫困家庭的影响:贫困陷阱分析
AI总结 通过比例损失模型研究保险对贫困陷阱概率的影响,推导无保险时幂律分布下的新闭式解,以及有保险时均匀分布下的非局部微分方程,分析参数约束并数值计算陷阱概率。
Comments 42 pages, 9 figures
推进经验隐私审计的最新水平
发表机构 * Google Research(谷歌研究院)
AI总结 提出通过高温采样生成合成金丝雀,用于经验隐私审计,并引入基于辅助模型的合成数据审计方法,系统研究模型容量与金丝雀熵对记忆化的交互影响。
向训练数据注入噪声以校正测试集污染
发表机构 * University of Southern California(南加州大学)
AI总结 提出通过以已知比例故意污染部分测试样本(注入噪声)来校正测试集污染导致的分数膨胀,并利用记忆预测器进行统计校正。
损失函数对称化以在存在噪声标签的情况下实现神经网络的鲁棒训练
发表机构 * Department of Computer Science and Software Engineering(计算机科学与软件工程系)
AI总结 本文研究了通过将交叉熵损失对称化来设计鲁棒损失函数的方法,提出了一种多类对称损失函数,并展示了其在噪声标签下的有效性。
Comments 28 pages, 1 figure, 4 tables. v2: Added relevant prior-work citations and revised the related-work discussion and Section 5.2. Minor wording corrections
ClusBench:你一直期待的聚类基准测试数据资源(?)
发表机构 * School of Mathematical Sciences, Lancaster University(兰卡斯特大学数学科学学院)
AI总结 本文通过拟合灵活的非参数分布,从200多个公开数据集生成近3000个合成数据集,用于大规模聚类方法评估,保留真实数据细微差别。
不相交还是重叠?基于重构的时间序列异常检测中的推理窗口化
发表机构 * University of Montpellier, Inria, CNRS, LIRMM(蒙彼利埃大学、Inria、CNRS、LIRMM)
AI总结 研究推理步长(重叠窗口)对基于重构的时间序列异常检测性能的影响,提出统一评估协议,实验表明重叠窗口平均提升28%且改变方法排名。
TorchKM:面向GPU的核学习与模型选择库
发表机构 * University of Iowa(爱荷华大学) ; University of Minnesota(明尼苏达大学) ; Individual Researcher(独立研究者) ; AIScientists, Inc. (MorphMind)(AIScientists公司(MorphMind)) ; Department of Statistics and Actuarial Science, University of Iowa(爱荷华大学统计与精算科学系)
AI总结 提出GPU加速的核学习库TorchKM,通过智能复用矩阵运算加速SVM、核逻辑回归等模型的训练与模型选择,性能优于标准基线。
Comments 14 pages, 2 figures
mlr3mbo:R语言中的贝叶斯优化
发表机构 * Department of Statistics, LMU Munich(慕尼黑大学统计系) ; Munich Center for Machine Learning (MCML)(慕尼黑机器学习中心) ; University of St Andrews(圣安德鲁大学)
AI总结 介绍mlr3mbo,一个模块化的R语言贝叶斯优化工具箱,支持单/多目标优化、多提议、并行化,并通过坐标下降搜索和基准测试验证其性能与现有优化器相当。
量化AI可见性的不确定性:生成式搜索测量的统计框架
发表机构 * IQRush
AI总结 针对AI生成式搜索中可见性测量的随机性问题,提出将引用指标视为样本估计量,通过重复采样和Bootstrap置信区间揭示测量噪声,并给出样本量建议。
Comments 39 pages, 13 figures
基于R包outstandR的人群调整间接比较
AI总结 针对缺乏头对头试验时的间接治疗比较,提出R包outstandR,通过G计算和多重插补边际化方法实现人群调整,提供统一框架进行稳健证据合成。
Comments 35 pages
ChartAgent: 一种用于复杂图表问答中视觉基础推理的多模态智能体
发表机构 * J.P. Morgan AI Research(摩根大通人工智能研究)
AI总结 提出ChartAgent框架,通过迭代分解查询为视觉子任务并利用图表专用视觉工具(如绘制注释、裁剪区域)进行空间域推理,在ChartBench和ChartX上取得最先进性能,尤其对无标注图表提升显著。
Comments Accepted at ACL 2026 (Main Conference). Also presented as an oral paper at the NeurIPS 2025 Multimodal Algorithmic Reasoning Workshop (https://marworkshop.github.io/neurips25/)
梯度引导的最远点采样用于鲁棒训练集选择
发表机构 * Berlin Institute for the Foundations of Learning(柏林学习与数据基础研究院) ; Chemical Physics Theory Group, Department of Chemistry, University of Toronto, St. George Campus, Toronto, ON, Canada(化学物理理论组,化学系,多伦多大学圣乔治校区,多伦多,ON,加拿大) ; Department of Materials Science and Engineering, University of Toronto, St. George Campus, Toronto, ON, Canada(材料科学与工程系,多伦多大学圣乔治校区,多伦多,ON,加拿大) ; Vector Institute for Artificial Intelligence, Toronto, ON, Canada(人工智能研究所,多伦多,ON,加拿大) ; Department of Physics, University of Toronto, St. George Campus, Toronto, ON, Canada(物理系,多伦多大学圣乔治校区,多伦多,ON,加拿大) ; Acceleration Consortium, University of Toronto, Toronto, ON, Canada(加速联盟,多伦多大学,多伦多,ON,加拿大)
AI总结 提出梯度引导最远点采样(GGFPS),利用分子力范数指导构型空间采样,在MD17数据集上相比FPS和随机采样显著提升数据效率和模型鲁棒性。
Comments 41 pages, 43 figures, 2 algorithms; journal article with supplementary information appended
正交Procrustes问题在合成数据中保持相关性
AI总结 提出基于正交Procrustes问题的轻量级后处理方法,恢复合成表格数据的Pearson相关结构,同时保持特征分布和下游任务性能。
LLM自动化叙事中的缺陷
发表机构 * New York University(纽约大学)
AI总结 通过编写代码完成数据分析任务的新基准测试,发现前沿LLM在平均性能、方差和错误幅度上均不如人类专家,挑战了LLM达到人类专家水平的说法。
鲁棒检验中Chernoff与凸序最优性之间的结构性分离
AI总结 本文揭示在鲁棒假设检验中,最不利分布同时最大化所有Chernoff u-亲和性并最小化所有f-散度的等价性在一般情形下失效,通过构造三点概率空间上的反例证明该分离,并给出等价成立的充分条件。
Comments This paper builds on asymptotic minimax robustness theory developed in [arXiv:2602.08174] and [arXiv:2602.19803]
指定输出分布的最小失真量化
AI总结 本文推导了在输出分布指定条件下最小化均方误差的最优量化器,形式为X=σ(F_{σ^{-1}(X)}^{-1}(F_W(W))),并证明了在均匀分布下简化为X=F_X^{-1}(F_W(W)),主要贡献在于通过优化排列和累积分布函数实现最小失真。
双向随机投影
发表机构 * School of Computer Science, University of Oklahoma(俄克拉荷马大学计算机科学学院)
AI总结 本文分析固定设计下普通最小二乘回归的双向随机投影,导出基于投影数据的OLS估计的期望超额损失界,与仅行投影相比,差距约为O(p1 + C/p1),其中C随n1/n变化且可为负。
Comments Statistics & Probability Letters (Elsevier)
通过切比雪夫插值和高斯-赛德尔迭代的高阶扩散采样
AI总结 提出切比雪夫-高斯-赛德尔高阶采样器,在精确分数条件下,仅需 d^{1+o_T(1)}ε^{-1/K_1} 次分数函数即可达到总变差距离 ε,且放宽了有界支撑假设,对分数和雅可比估计误差具有鲁棒性。
核赌博机中的算法与极小极大复杂度
AI总结 本文通过统一MAIR框架,将GP-UCB与MAMS算法置于共同语言下,提出结合两者优势的安全主算法,并证明在过参数化模型中算法复杂度比类宽极小极大或DEC证书更具信息性。
MMD经验估计的精确收敛速率与幂核
AI总结 本文研究了使用幂核的最大均值差异(MMD)对概率测度进行经验估计的收敛速率,证明了在满足Ahlfors正则条件的测度下,最佳经验逼近的衰减速率为N的负一次方乘以(1+q/β)的平方根。
Comments References update and typos correction. Comments very welcome!
无损数据压缩的样本复杂度
AI总结 提出非渐近框架研究无损压缩的基本极限,定义样本复杂度为在给定速率和超概率约束下所需的最小块长,证明无记忆源的样本复杂度由1/2阶Rényi熵决定,并推广至马尔可夫源和通用压缩。
Comments Several minor revisions and reviewer comments taken into account, additional content on the "actual compression rate" and asymmetric formulation for general target rates
关于未指定方向的轴向对称性检验
AI总结 针对多元分布未知方向的轴向对称性检验问题,利用协方差矩阵的简单谱假设将候选方向缩减为有限个,通过投影数据和样本分裂构造Kolmogorov-Smirnov型统计量,并证明其渐近分布和bootstrap有效性。
Comments 22 pages, 4 figures
三层神经网络局部学习系数的上界
发表机构 * sigmath.es.osaka-u.ac.jp(大阪大学)
AI总结 针对三层神经网络的奇异参数点,提出一种基于预算、需求和供给约束的计数规则来推导局部学习系数的上界,覆盖了swish等激活函数,并在一维输入下与已知精确值一致。
通过正则化最优传输进行部分识别矩模型的推断
AI总结 提出基于正则化最优传输的部分识别GMM模型推断方法,用熵正则化近似支撑函数并利用Sinkhorn算法高效计算,建立熵正则化OT的CLT,通过bootstrap获得有效临界值,在蒙特卡洛模拟和幸福度面板logit模型中验证性能。
关于非对称核的行列式点过程
AI总结 本文利用$P_0$矩阵理论给出非对称核行列式点过程良定义的必要充分条件,并推广常见结果,进而构造对称核正则DPP的吸引耦合以建模异标记点间的吸引。
离散和连续时间下部分观测多项式过程的最优线性滤波
AI总结 针对部分观测的多项式过程,利用其与高斯过程在二阶矩上的不可区分性,构造高斯等价过程并显式计算最优线性滤波器、预测器和平滑器。
Hadamard空间中变换Fréchet均值的方差不等式
AI总结 研究Hadamard空间中变换Fréchet均值的方差不等式,涵盖Fréchet中位数、均值及Huber损失诱导均值,刻画了远离最小化器时期望变换距离的增长,并给出了Fréchet中位数唯一性的刻画。
超越高斯模型的几何植入匹配
AI总结 研究随机点集与其扰动点集之间未知匹配的恢复问题,利用随机几何图中的匹配推导极小极大下界,并证明最小化欧氏距离平方和的估计器在固定维度下达到最优,在高维条件下以高概率无差错。
Comments 36 pages, 2 figures
终端事件和其不存在时的评分联合评估框架
AI总结 本文提出一种框架,用于同时评估终端事件和在终端事件不存在时存在的评分,利用半参数统计方法估计风险和评分,并通过闭合检验程序验证治疗效果。
利用大型语言模型增强电子健康记录中临床驱动的缺失数据恢复算法
发表机构 * Department of Statistical Sciences, Wake Forest University(统计科学系,威克森林大学) ; Wake Forest University(威克森林大学) ; Wake Forest University School of Medicine(威克森林大学医学院) ; Department of Psychology, North Carolina State University(心理学系,北卡罗来纳州立大学) ; Department of Biostatistics and Data Science, Wake Forest University School of Medicine(生物统计学与数据科学系,威克森林大学医学院) ; Department of Anesthesiology, Division of Critical Care Medicine, Wake Forest University School of Medicine(麻醉学系,重症医学科,威克森林大学医学院) ; Outcomes Research Consortium(结局研究联盟)
AI总结 本文探讨利用大型语言模型改进电子健康记录中缺失数据恢复算法的准确性与可扩展性,通过临床专家和LLM协同优化路标,实现与专家审查相似的数据恢复效果。