Bellman Calibration for $V$-Learning in Offline Reinforcement Learning
贝尔曼校准用于离线强化学习中的V学习
发表机构 * Department of Statistics, University of Washington(华盛顿大学统计学系)
AI总结 本文提出贝尔曼校准方法,用于解决离线强化学习中长期价值预测的可靠性问题,通过校准误差评估和迭代贝尔曼校准方法提升价值预测性能。
贝尔曼校准用于离线强化学习中的V学习
发表机构 * Department of Statistics, University of Washington(华盛顿大学统计学系)
AI总结 本文提出贝尔曼校准方法,用于解决离线强化学习中长期价值预测的可靠性问题,通过校准误差评估和迭代贝尔曼校准方法提升价值预测性能。
动态单次关键数据传递由小而稀疏的无人机群实现:用于MARL扩展研究的模型问题
发表机构 * Swedish Defence Research Agency (FOI)(瑞典国防研究机构(FOI)) ; Chalmers University of Technology(查尔姆斯理工大学) ; the University of Gothenburg, Department of Mathematical Sciences(哥德堡大学数学科学系)
AI总结 本文研究了多智能体强化学习在无人机去中心化控制中的应用,用于传递关键数据包。引入了一类确定性游戏用于MARL扩展研究,提出了一种稳健的基线策略,并通过实验展示了两种现成的MARL算法在小规模时表现良好,但扩展性受限。
Comments Accepted to the 2026 IFAC World Congress
具有脉宽调制光遗传学的开关时间生物过程控制
发表机构 * School of Chemical and Bioprocess Engineering, University College Dublin, Ireland(化学与生物过程工程学院,都柏林大学学院,爱尔兰)
AI总结 本文提出利用强化学习优化脉宽调制光遗传学,通过 duty cycle 参数实现开关时间控制,提升生物过程可控性。
Comments Accepted conference paper: IFAC World Congress 2026
假设密度滤波与平滑的神经网络替代模型
发表机构 * University of California, Davis(加州大学戴维斯分校)
AI总结 本文提出利用神经网络替代模型进行假设密度滤波与平滑,通过分析公式计算深度神经网络的均值与协方差,改进了非线性系统中的不确定性传播,并在洛伦兹系统和维纳系统中验证了方法的优越性。
Comments To appear at Learning for Decision and Control 2026
理解代码LLM中模型编辑的鲁棒性
发表机构 * Louisiana State University(路易斯安那州立大学) ; University of Kentucky(肯塔基大学)
AI总结 研究代码LLM在API更新下的模型编辑鲁棒性,评估不同方法在单次和连续编辑下的性能,发现多数方法在泛化和特定性上表现不佳,且连续编辑导致性能显著下降。
Comments 26 pages, 14 figures, 20 tables
RNAGenScape:基于属性的优化mRNA序列生成方法,结合流形拉格朗日动力学
发表机构 * Yale University(耶鲁大学)
AI总结 本文提出RNAGenScape方法,通过流形拉格朗日动力学生成生物可行的mRNA序列,提升属性优化和成功率,适用于疫苗设计和蛋白质替代疗法。
Comments ICML 2025 Generative AI and Biology (GenBio) Workshop, Oral presentation
通过细胞模式感知预训练解码动态视觉体验
发表机构 * Interdisciplinary Program in Artificial Intelligence(人工智能跨学科项目) ; Seoul National University(首尔国立大学) ; NSF AI Institute for Artificial and Natural Intelligence (ARNI)(国家科学基金会人工智能与自然智能研究院) ; Columbia University(哥伦比亚大学) ; Mila (Quebec AI Institute)(蒙特利尔人工智能研究所) ; Dept. of Neurology & Neurosurgery(神经病学与神经外科系) ; McGill University(麦吉尔大学) ; Montreal Neurological Institute, McGill University(麦吉尔大学蒙特利尔神经科学研究所) ; School of Computer Science, McGill University(麦吉尔大学计算机科学学院) ; Learning in Machines and Brains Program, CIFAR(机器与大脑学习计划,CIFAR) ; Department of Psychology(心理学系) ; Department of Brain and Cognitive Sciences(脑与认知科学系)
AI总结 本文提出POYO-CAP方法,通过预训练提升神经解码鲁棒性,实验证明其在Allen脑观察数据集上比从头训练有12-13%的提升,并实现模型规模的平稳扩展。
联邦时空图学习用于智能电网中的被动攻击检测
发表机构 * Department of Electrical and Computer Engineering(电气与计算机工程系)
AI总结 本文提出一种基于图的多模态检测器,通过融合物理层和行为指标检测智能电网中的被动攻击,采用联邦学习框架提升鲁棒性,实现高准确率和低误报率。
对生成式AI伦理性和可信度评估框架的研究
发表机构 * Hyper Automation Team, SAMSUNG SDS(三星SDS超自动化团队) ; Digital CRM Team, SAMSUNG SDS(三星SDS数字客户关系管理团队)
AI总结 本文研究生成式AI的伦理和可信度评估框架,提出系统评估方法,涵盖公平性、透明度等关键维度,并分析不同国家的AI伦理政策。
Comments 22 pages, 3 figures, 6 tables
Journal ref Artificial Intelligence and Applications, 2026
CT和X射线中骨盆骨折分割技术的基准测试:PENGWIN 2024挑战总结
发表机构 * Beijing Rossum Robot Technology Co., Ltd.(北京罗素机器人科技有限公司) ; Key Laboratory of Biomechanics and Mechanobiology, Ministry of Education, Beijing Advanced Innovation Center for Biomedical Engineering, School of Biological Science and Medical Engineering, Beihang University(生物力学与机械生物学重点实验室,教育部,北京生物医学创新中心,生物科学与医学工程学院,北航) ; Department of Computer Science, Johns Hopkins University(计算机科学系,约翰霍普金斯大学) ; Division of Medical Image Computing, German Cancer Research Center (DKFZ)(医学影像计算部,德国癌症研究中心(DKFZ)) ; Helmholtz Imaging, Heidelberg(海德堡大学医院影像中心) ; Smart Medical Imaging, Learning and Engineering (SMILE) Lab, Medical UltraSound Image Computing(智能医学影像、学习与工程(SMILE)实验室,医学超声影像计算)
AI总结 本文通过PENGWIN 2024挑战评估了CT和X射线中骨盆骨折分割技术,发现CT分割准确率较高,但X射线分割仍需进一步改进,揭示了分割方法的多样性及片段定义的不确定性。
Comments PENGWIN 2024 Challenge Report
为小分子天然产物预训练一个基础模型
发表机构 * State Key Laboratory of Natural and Biomimetic Drugs(天然与仿生药物国家重点实验室) ; School of Pharmaceutical Sciences, Peking University(北京大学药学院)
AI总结 本文提出基于天然产物独特性质的预训练基础模型,通过对比学习和掩码图学习目标,提升分子骨架和侧链信息的表征能力,在天然产物挖掘和药物发现任务中取得SOTA成果。
Comments Accepted by Nature Machine Intelligence(2026)
Journal ref Nature Machine Intelligence(2026)
检测方向:自动化漏洞检测的综述及其所有痛点
发表机构 * University College London(伦敦大学学院) ; The Alan Turing Institute(艾伦·图灵研究所) ; King’s College London(伦敦国王学院) ; University of Southampton(南安普顿大学)
AI总结 本文综述了自动化漏洞检测领域,指出其在问题定义、数据集、指标等方面存在的12个痛点,并提出解决这些痛点的建议,同时探讨了AIxCC案例在代理AI时代中的相关性。
一种用于增强基于EEG的抑郁症检测的混合图神经网络
发表机构 * School of Biological Science(生物科学学院) ; Medical Engineering Southeast University Nanjing, China(医学工程东南大学南京中国)
AI总结 本文提出混合图神经网络HGNN,结合固定连接的CGNN和自适应连接的IGNN,通过引入图池化和反池化模块提取个体化层次信息,提升EEG抑郁症检测性能。
Journal ref 2025 IJCNN
物理学方程中的统计模式与自然法则的涌现
发表机构 * School of Mathematics, University of Birmingham, Watson Building, Edgbaston, Birmingham B15 2TT, United Kingdom(伯明翰大学数学学院) ; Rudolf Peierls Centre for Theoretical Physics, University of Oxford, Parks Road, Oxford OX1 3PU, UK(牛津大学鲁道夫·皮埃尔斯理论物理中心) ; Institute of Cosmology and Gravitation, University of Portsmouth, Dennis Sciama Building, Portsmouth, PO1 3FX, UK(普敦大学宇宙学与引力研究所) ; Astrophysics, University of Oxford, DWB, Keble Road, Oxford OX1 3RH, UK(牛津大学天体物理学)
AI总结 研究发现物理方程中数学运算符频率呈指数衰减,揭示了自然法则的统计规律,为符号回归和语言模型生成数学表达式提供新思路。
Comments 11 pages, 5 figures, 2 table
Journal ref Philos Trans A Math Phys Eng Sci (2026) 384 (2317): 20250091
从实时演化中学习哈密顿量的结构
发表机构 * MIT(麻省理工学院) ; UC Berkeley(加州大学伯克利分校)
AI总结 本文提出了一种新的哈密顿量学习方法,能够在不预先知道相互作用结构的情况下,以Heisenberg极限精度在O(log n/ε)时间内恢复哈密顿量,扩展到任意相互作用范围,并实现常数时间分辨率。
Comments 52 pages; v2 discussed more literature, qualified some claims; v3 minor correction discussing prior work; v4 strengthened main theorem
在多项式时间内学习任意温度下的量子哈密顿量
发表机构 * MIT(麻省理工学院) ; UC Berkeley(加州大学伯克利分校)
AI总结 本文提出在多项式时间内学习任意常数温度下量子哈密顿量的算法,通过多项式逼近和多项式系统松弛方法解决哈密顿量学习问题。
Comments 66 pages; v2 minor edits, clarification on locality
位置:机制可解释性必须披露因果主张的识别假设
AI总结 本文指出机制可解释性研究需明确披露因果主张的识别假设,通过审核10篇论文发现缺乏专门的识别假设部分,且常用验证指标未明确说明其假设基础。
Comments 10 pages, 2 figures. Submitted to NeurIPS 2026 (Position Track)
符合性e分类中的聚合
AI总结 本文研究了跨符合性e预测的实验,探讨了其修改版本在简化和灵活性方面的优势。
Comments 23 pages, 10 figures
原型引导的单细胞表示学习预训练
AI总结 本文提出CellRefine方法,通过整合标记基因集作为先验指导单细胞预训练后的优化,提升下游任务性能,实验显示性能提升达15%。
CommandSwarm: 为机器人群体提供安全意识的自然语言到行为树生成
AI总结 本文提出CommandSwarm系统,通过多语言翻译、安全过滤和约束提示生成XML行为树,验证了紧凑量化领域适应的LLM在机器人群体控制中的有效性,强调了解析器接受和安全过滤的重要性。
AI总结 该论文研究了如何通过半天真Datalog评估提升提升式经典规划的效率,提出了一个具有规则级和求地级双重并行性的执行模型。研究设计了一种基于团枚举的求地器,并扩展支持半天真Datalog评估,实验表明该方法在单核上已优于现有基线,且随着核心数增加性能优势更加明显,尤其在难以求地的任务中展现出高达92.4%的并行比例和6倍的加速效果。
AI总结 该研究旨在从基于调查的社区干预数据中发现稀疏且可行的反事实干预策略,以引导目标群体向参考群体转变。研究提出了一种基于固定基非负潜在表示的方法,通过可解释的潜在因素调整实现分布对齐,并结合Shapley值指导的归因分析和熵正则化的最优传输方法,学习出具有稀疏性且易于实施的群体级干预方案。实验表明,该方法在真实交通调查数据上有效提升了群体转化效果,同时保持了干预策略的简洁性和可操作性。
AI总结 本文提出 VDCook,一种可自我演进的视频数据操作系统,旨在为研究人员和垂直领域团队提供灵活的视频数据构建平台。用户可通过自然语言查询和参数调整发起数据请求,系统自动优化查询并并行运行视频检索与可控合成模块,最终生成带有完整来源信息和元数据的数据包。VDCook 支持基于 MCP 协议的自动数据摄入机制,使数据集能够持续更新和扩展,同时提供多维元数据标注,为后续数据处理和索引奠定基础,显著降低了构建专业视频训练数据集的门槛。
AI总结 DeepFedNAS 是一种高效的硬件感知架构适应方法,旨在为异构物联网设备联邦学习场景中不同设备类别定制神经网络结构。该方法通过引入多目标适应度函数,结合信息论网络指标与架构启发式规则,提出两阶段框架:第一阶段通过预计算精英架构缓存提升超网络训练效果,第二阶段利用该适应度函数作为零成本精度代理,快速发现硬件优化子网络,显著提升搜索效率。实验表明,DeepFedNAS 在多个数据集上取得先进精度,同时大幅降低通信开销,适用于大规模、通信受限的物联网联邦学习场景。
Comments This paper significantly extends the preliminary work presented at ESANN 2026. Source Code: https://github.com/bostankhan6/DeepFedNAS
AI总结 GraphFusion3D 是一种用于三维目标检测的统一框架,旨在解决点云数据稀疏、结构不完整和语义信息有限等挑战。该方法引入了自适应跨模态变换器(ACMT)和图推理模块(GRM),分别用于融合图像信息和建模点云中的局部几何与全局语义关系,从而提升检测性能。实验表明,GraphFusion3D 在多个基准数据集上取得了显著的性能提升。
通过增量优化效用实现多模态模型的数据选择效率
AI总结 本文提出OST框架,将数据选择转化为增量优化效用排名问题,通过轻量代理模拟单步更新估算样本边际效用,实验证明在减少训练成本的同时提升性能,优于现有基线方法。
AI总结 本文提出了一种名为GameGen-Verifier的自动化验证框架,用于验证基于大语言模型生成的游戏是否符合自然语言规范。该方法通过将游戏规范分解为可验证的关键点,并将其转化为独立的验证单元,在运行时注入目标状态并执行有限交互以判断是否符合规范。实验表明,该方法在准确性上显著优于现有方法,同时大幅减少了验证所需的时间。
AI总结 本研究旨在解决法律聊天机器人训练数据多样性与标注成本高的问题,提出了一种基于本地语法图(LGG)的语言资源生成方法,能够同时生成大量对话文本及其高质量标签。该方法通过结合领域特定的分类体系,有效提升了数据的标注效率与质量。研究实现了韩国法律聊天机器人LIGA,其在处理用户法律咨询时能够准确匹配相关案例,实验表明所训练的模型在F1分数上达到了91%。
Journal ref International conference on Law and Society, Feb 2023, Hanoi, Vietnam. pp.1-4
AI总结 该研究针对在线质谱分析中产生的大规模数据流,提出了一种名为FASC的灵活自适应稳定聚类算法,旨在解决现有方法在可扩展性、度量灵活性和算法稳定性之间的权衡问题。FASC通过将相似性核与优化逻辑解耦,结合密度增强相似性选择规则和几何约束,实现了确定性、顺序无关的收敛。实验表明,该算法在标准数据集上表现出优异的聚类性能,并成功应用于大气气溶胶质谱数据,实现了线性时间复杂度,有效揭示了次级无机气溶胶的老化路径并检测出极低丰度的工业示踪物。
AI总结 在类增量学习中,预训练模型通过参数高效的微调方法虽然表现出潜力,但在适应新任务时仍面临灾难性遗忘问题。本文从层间关系漂移的角度分析了这一问题,提出了一种新的方法SR$^2$-LoRA,通过约束层间关系的变化来缓解遗忘。该方法通过对齐当前任务样本在旧模型和新模型中的关系矩阵的奇异值,有效提升了模型在多任务场景下的鲁棒性和性能。