The Minimax Rate of Second-Order Calibration
AI总结 本文研究了二分类任务中二阶校准误差的最小最大估计速率,该误差衡量高阶预测器的不确定性估计与其标签条件方差在水平集上的匹配程度。作者提出利用双曲正割扰动核进行多项式回归,实现了误差估计速率的显著提升,并证明了其最小最大最优性。此外,本文还给出了二阶Platt标定的首个有限样本保证,并提供了无需分桶的二阶校准定义。
AI总结 本文研究了二分类任务中二阶校准误差的最小最大估计速率,该误差衡量高阶预测器的不确定性估计与其标签条件方差在水平集上的匹配程度。作者提出利用双曲正割扰动核进行多项式回归,实现了误差估计速率的显著提升,并证明了其最小最大最优性。此外,本文还给出了二阶Platt标定的首个有限样本保证,并提供了无需分桶的二阶校准定义。
AI总结 本文提出了一种基于自动化测试的文本到CAD模型生成(Text-to-CAD)评估新方法,引入了首个基于测试的评估基准CADTestBench,该基准利用可执行的CADTests验证生成模型是否满足输入提示的几何与拓扑要求。通过该基准对现有Text-to-CAD方法进行了全面评估,并进一步证明CADTests可用于指导模型生成,从而提出简单基线方法,其性能优于当前主流方法。
AI总结 该研究探讨了大型语言模型(LLMs)在性能预测中自我评估的可靠性问题,指出传统依赖置信度的方法存在不一致和过于乐观的缺陷。基于认知评价理论,研究提出了一种多维的自我评估框架,引入包括能力、努力等六个评估维度,并在多个任务和模型中验证其预测模型失败的有效性。结果表明,与置信度相比,与能力相关的维度如努力和能力在多数场景下表现更优,且更具稳定性,为提升模型部署的安全性和可靠性提供了新思路。
AI总结 本文提出了一种基于不确定性分解的灵活路由方法,用于在机器学习系统中动态地将查询路由到低成本模型或高成本的专家模型,从而在性能与成本之间取得平衡。该方法通过将总不确定性分解为不可约和可约两部分,实现了对路由和弃权的统一处理,并能够在不同损失函数和成本参数下通过简单调整超参数进行自适应,无需重新训练。实验表明,该方法在可约与不可约不确定性不高度相关的场景中具有显著优势,并具有理论上的后悔界保证。
AI总结 该研究针对文本到SQL生成任务在不同数据库方言之间的评估不足问题,提出了一种名为PolySQL的新方法,通过双执行机制直接对比标准化的执行结果,无需手动转换查询语句,从而实现更准确、全面的跨方言评估。该方法填补了现有评估体系的空白,揭示了从SQLite到其他方言的平均准确率下降达10.1%,并发现了不同方言在难度上的显著差异。研究还发布了框架代码和排行榜,为构建更具鲁棒性的文本到SQL系统提供了重要支持。
AI总结 本文提出了一种名为 NoiseGate 的新方法,用于改进世界动作模型(WAMs)中动作生成与未来观测预测的联合建模。该方法通过学习每个潜在帧独立的时间步长安排,将噪声水平作为信息门控机制,从而动态调节不同潜在帧对动作生成的贡献度。与现有方法中使用固定时间步长不同,NoiseGate 引入了一个轻量的门控策略网络,在去噪过程中为每个潜在帧生成独立的时间增量,并通过任务奖励优化训练该策略,无需人工设计的先验形状约束。实验表明,NoiseGate 在多种 RoboTwin 随机场景操作任务中均取得了显著提升。
AI总结 本文研究了针对印尼社交媒体文本的三类情感分析任务,提出了一种结合TF-IDF文本特征、轻量数值元数据特征和多项式逻辑回归分类器的实用基线模型。研究还对比了使用相同混合特征表示的两层多层感知机(MLP)神经网络基线。实验结果表明,逻辑回归模型在准确率、加权F1和宏F1指标上均表现良好,表明在小规模印尼情感数据集上,精心的预处理、可解释的特征工程和类别平衡仍具有竞争力。
Comments 8 pages, 4 figures, 4 tables. Research paper on Indonesian three-class sentiment analysis using TF--IDF, Logistic Regression, and MLP baselines
AI总结 本文提出将神经算子(NOs)重新定义为高效的函数插值工具,通过引入辅助基空间,将有限维函数视为对基空间函数的复合操作。实验表明,NOs在保持高精度的同时,比传统多层感知机和柯尔莫戈罗夫-阿诺德网络使用更少参数和训练时间。研究还展示了NOs在核质量模型修正中的实际应用,取得了优于当前最佳方法的性能,验证了其在科学数据插值中的高效性与可扩展性。
Comments 12 pages, 9 figures
AI总结 本文提出了一种基于链式知识蒸馏(CBD)的方法,用于高效初始化不同规模的小型语言模型。该方法通过逐步蒸馏构建一系列中间模型(锚点),形成知识传递链,从而避免了对大模型的重复调用,提升了可扩展性。此外,引入了桥接蒸馏技术,支持跨架构和跨词表的知识迁移,实验表明该方法在效率和下游任务表现上均有显著提升。
AI总结 该研究提出了一种基于可微分光线追踪与高斯表示的统一框架,用于同时进行无线电波传播模拟和高质量视图合成。通过将高斯原语嵌入硬件加速的光线追踪结构,实现了对三维空间中任意两点之间无线电路径的精确计算,而无需手动构建网格。该方法从视觉重建中提取物理意义的信道冲激响应,展示了神经重建模型在电磁波传播模拟与逼真视觉合成中的统一应用潜力。
AI总结 本文研究了语言模型在“推理”过程中不确定性变化的动态特征,通过将生成的中间推理轨迹视为模型状态,提出了不确定性轨迹特征的描述方法。该方法能够有效预测推理轨迹是否最终得到正确答案,且在多个模型和数据集上表现出较高的预测性能。研究还发现,正确轨迹的不确定性下降趋势更陡峭且非线性更强,表明基于不确定性的分析有助于深入理解语言模型推理过程中的决策机制。
AI总结 POETS 是一种基于策略集成的不确定性感知大语言模型优化框架,旨在解决序贯决策与黑箱优化中的探索与利用平衡问题。该方法通过隐式编码奖励函数并直接训练策略集成体,避免了传统不确定性感知奖励模型的复杂训练过程,同时利用共享预训练主干与独立低秩适配分支的高效架构,显著降低了计算和内存开销。理论分析表明,POETS 实现了KL正则化的汤普森采样,具有优秀的累积遗憾界,实验显示其在蛋白质搜索、量子电路设计等科学发现任务中表现出领先的样本效率和优化性能。
Comments preprint
AI总结 本文研究了Transformer模型中训练过程如何影响注意力机制引起的token聚类现象。通过在噪声均场框架下分析仅训练参数线性的前馈网络,并结合L²正则化,作者发现随着训练进行,token分布会在后期层中逃离初始的聚类状态。研究提出了一个基于熵正则化的相互作用能量模型,揭示了训练对聚类行为的动态影响,为构建统一的训练与推理动态的均场理论提供了新视角。
Comments 48 pages, 6 figures, comments are wellcome!
AI总结 本文研究了倾斜多旋翼无人机在海上风力涡轮机近距离检测中的鲁棒非线性模型预测控制(NMPC)问题,针对风扰和模型不确定性导致的安全距离约束违反问题,提出了一种基于灵敏度的鲁棒NMPC方法。该方法通过在线约束收紧,结合参数状态灵敏度和阶段依赖的附加裕度,有效增强了塔筒安全距离约束的鲁棒性,仿真结果表明该控制器在保证安全性的前提下仅带来适度的计算时间增加。
Comments 5 pages. Accepted for presentation at the ICRA 2026 Workshop on "Aerial inspection for marine infrastructures," June 1, 2026, Vienna, Austria
AI总结 在低光环境下,图像质量受到严重影响,给图像编辑和可视化带来挑战。本文提出了一种名为SIMI的自信息挖掘网络,该网络基于位平面分解技术,无需外部数据即可从低光图像中挖掘内在信息,实现了高效的无监督增强。该方法不仅加快了模型收敛速度,降低了计算开销,还在标准基准测试中取得了当前最先进的性能。
AI总结 许多视觉应用需要在非正面视角或面部线索缺失的情况下保持身份一致性,而传统人脸识别模型因强调身份不变性,无法捕捉发型、装饰等外观变化,限制了其在外观敏感场景中的应用。为此,本文提出“头部相似度”(Head Similarity)新方法,通过结构化建模整体头部外观,显式保留身份内的外观变化,并在身份和外观状态间建立层次化相似性排序。研究构建了一个大规模基准数据集,并开发了一个基于分层监督和身份感知蒸馏的框架,实验表明该方法能有效建模结构化的整体头部相似性,优于传统人脸识别模型。
AI总结 本文研究了TabPFN作为一种无需训练、模块化的摘要网络,在基于模拟的贝叶斯推断(SBI)中的应用。作者提出了一种通用方法PFN-NPE,利用预训练的TabPFN编码器作为固定摘要网络处理模拟数据,再结合任务相关的推理头进行后验估计。实验表明,该方法在多个SBI任务中表现优异,能够有效保留后验分布的关键信息,同时揭示了其在联合后验结构建模方面仍存在的局限性。
AI总结 本文提出 CommandSwarm,一种面向机器人集群的安全感知自然语言到行为树生成系统,旨在将用户指令转化为可执行的安全行为树,避免无效或危险操作。该系统结合多语言翻译、安全过滤、约束提示和适配后的大型语言模型,通过验证机制确保生成行为树的语法正确性和安全性。实验表明,经过领域适配的量化大模型在少量样本情况下能够生成高质量的行为树,且解析接受率和安全过滤仍是实现自主部署的关键环节。
AI总结 RuleSafe-VL 是一个用于评估视觉-语言内容审核中规则条件决策推理的新基准,旨在检验模型是否能正确应用政策规则进行内容判断。该基准基于公开平台的审核政策,构建了93条原子规则和92种规则关系,生成了2166个涉及高风险政策的图文案例,并设计了四个诊断任务以评估模型在规则激活、规则交互、决策充分性等方面的表现。实验表明,当前主流视觉-语言模型在规则关系恢复和决策状态预测方面仍存在显著挑战,突显了规则条件推理在内容审核中的重要性与难度。
Comments Preprint
AI总结 本文研究了具有平滑非线性激活函数的神经控制屏障函数(NCBF)的形式化验证问题,针对现有方法在处理如$\tanh$等非线性激活时存在的保守性限制,提出了一种名为LightCROWN的新方法。该方法利用激活函数的解析特性,计算更紧致的雅可比矩阵界,从而提升验证的准确性和效率。实验表明,LightCROWN在多个非线性控制系统中显著提高了验证成功率,同时提升了速度和可扩展性,为基于CROWN框架的NCBF验证提供了通用性改进。
Comments 9 pages, 4 figures
AI总结 本文研究了如何在大规模无标签数据上高效预训练深度模型的问题,提出了一种基于梯度的复合损失权重调整方法。该方法通过将预训练梯度与下游任务目标对齐,自动学习损失项的权重,避免了传统随机搜索或贝叶斯优化所需的大量独立训练过程。实验表明,该方法在事件序列建模和自监督计算机视觉任务中表现优异,显著降低了超参数调优的成本。
AI总结 本文重新审视了循环模型中的状态跟踪问题,指出除了模型的表达能力外,误差控制机制同样关键。作者证明了仿射循环网络在保持状态表示的前提下,无法修正区分不同符号状态的子空间中的误差,导致实际状态跟踪不够鲁棒。研究揭示了状态跟踪失效的机制,并通过实验表明,当可区分性比值超过解码器的可读性阈值时,跟踪性能会急剧下降,从而影响下游任务的准确性。这一发现强调了误差控制对于实现鲁棒状态跟踪的重要性。
AI总结 本文研究了在半导体材料制造中如何通过MLOps和不确定性量化实现鲁棒且可靠的预测质量控制。针对制造过程中工艺条件变化、设备老化和原材料波动带来的模型性能退化问题,作者基于五年实际生产数据,评估了不同模型重训练策略和超参数优化方法,发现固定周期重训练(每五批一次)无需超参数调优即可在多种漂移条件下保持优越性能,并显著降低计算开销。此外,引入符合预测方法以提供具有统计保证的预测置信区间,从而实现从被动到主动的质量管理转变,为制造环境中高效可靠的AI部署提供了实用指导。
AI总结 该研究评估了三种开源医学基础模型在CT影像肾病变分类任务中的表现,旨在探讨其在数据稀缺的临床场景下的泛化能力。通过对比基础模型、手工设计的放射组学分类器和从头训练的3D ResNet-50,发现基础模型在硬件需求上具有优势,但整体性能仍低于放射组学方法。研究结果表明,当前通用型基础模型的特征表示尚未能有效捕捉肾病变组织亚型的细微纹理和形态差异,因此在该任务中,放射组学方法仍是当前最优解。
Comments 13 pages, 4 figures
AI总结 本文提出 TextLDM,将视觉领域中基于潜在扩散的 DiT 框架应用于语言建模,实现了生成与理解的统一架构。通过一个基于 Transformer 的 VAE 将离散词元映射到连续潜在空间,并结合预训练语言模型的表示对齐(REPA)提升条件去噪效果,标准 DiT 在该空间中进行流匹配。研究发现,仅靠重建保真度不足以获得高质量的连续文本表示,而 REPA 对下游生成质量至关重要。实验表明,TextLDM 在 OpenWebText2 上训练后,在多项指标上超越了先前的扩散语言模型,并达到与 GPT-2 相当的性能。
AI总结 本文提出了一种离线-在线分层框架,用于解决大尺度环境下移动机器人3D全局重定位中的计算效率与精度问题。该方法通过离线阶段生成候选位置及其几何描述符索引,减少在线阶段的搜索空间,结合全局检索与点云配准实现快速而精确的6自由度位姿估计。实验表明,该方法在实际环境中实现了平均3秒的重定位时间与8厘米的定位精度,计算效率相比现有方法提升了一个数量级。
AI总结 本文介绍了一个名为LAMES的大规模手工采矿环境分割数据集,旨在支持对采矿活动及其环境影响的监测与研究。该数据集包含150个大型采矿(LSM)站点和870平方公里的手工小规模采矿(ASM)标注区域,并提供了丰富的元数据,涵盖九类LSM区域和每个站点的27项属性。该数据集有助于深入理解采矿设施特征与环境影响之间的关系,同时引发了对研究者社会责任和伦理责任的思考。
AI总结 本文研究了连续域中在线目标识别的两个核心挑战:高效编码长轨迹和有效比较轨迹。为此,作者提出了一种基于路径签名和动态时间规整的新方法,利用路径签名对轨迹进行紧凑且富有表现力的编码,从而实现更语义化的轨迹比较。实验表明,该方法在预测准确率和在线规划效率方面均优于现有方法,同时在离线性能上也具有竞争力。
Comments Accepted as part of the 35th International Joint Conference on Artificial Intelligence
AI总结 本文提出了一种名为TARNet的轻量级时序感知多尺度网络,用于闭集说话人识别任务。该方法通过多阶段时序编码器在不同时间尺度上显式建模时序信息,并结合注意力统计池化模块融合多尺度特征,生成具有判别力的说话人嵌入。实验表明,TARNet在VoxCeleb1和LibriSpeech数据集上优于现有先进方法,且计算复杂度较低,适合实际应用。
Comments Accepted at IEEE International Conference on Multimedia and Expo (ICME) 2026. Code available at: https://github.com/YassinTERRAF/TARNet
AI总结 本文提出了一种基于漂移模型范式的非微分方程(non-ODE)单步生成策略——Drifting Field Policy(DFP)。该方法将策略更新建模为向软目标策略的反向KL散度Wasserstein-2梯度流,使得每次更新对应概率空间中的梯度步。通过该方法,策略更新被分解为向高动作价值区域的上升以及与锚定策略的评分匹配,从而保证了策略更新的稳定性与有效性。实验表明,DFP在多个操作任务中表现出色,优于基于微分方程的策略方法。