Deep Learning for Protein Complex Prediction and Design
AI总结 本文研究如何利用深度学习准确建模和设计蛋白质复合物结构,这是计算结构生物学中的核心问题,对理解细胞功能和开发药物具有重要意义。研究提出了专门针对蛋白质结构层次特性的深度学习架构,并设计了高效的搜索算法,以在庞大的序列空间中寻找相互作用的同源蛋白,从而提升复合物结构预测和蛋白质序列设计的准确性。
Comments PhD thesis
AI总结 本文研究如何利用深度学习准确建模和设计蛋白质复合物结构,这是计算结构生物学中的核心问题,对理解细胞功能和开发药物具有重要意义。研究提出了专门针对蛋白质结构层次特性的深度学习架构,并设计了高效的搜索算法,以在庞大的序列空间中寻找相互作用的同源蛋白,从而提升复合物结构预测和蛋白质序列设计的准确性。
Comments PhD thesis
AI总结 在内存受限的设备上进行大语言模型推理时,自回归解码过程受到内存带宽的限制,现有基于推测解码的方法通常假设设备内存足够容纳目标模型和辅助模型,这在边缘设备上并不适用。本文提出了一种名为CATS的级联自适应树推测框架,通过基于内存预算和参数卸载模式进行级联验证与修正,在不增加峰值内存占用的前提下,显著提升了推理速度。实验表明,CATS在多个真实边缘设备上实现了最高达5.08倍的加速,且生成质量无下降,优于现有最优方法1.45倍。
AI总结 本文挑战了Muon优化器在非欧几里得优化中依赖几何结构的主流观点,提出精确的几何结构并非影响优化性能的关键因素。研究引入了基于Schatten(准)范数的Freon优化器,其性能在GPT-2等任务中优于Muon,并揭示了最佳参数位于准范数区域,无法用传统LMO理论解释。进一步提出Kaon优化器,通过用随机噪声替代奇异值仍能匹配Muon性能,证明严格的几何结构并非必要。研究指出,优化性能主要由对齐度和下降潜力等局部量决定,而非全局几何结构。
Comments 45 pages
AI总结 本文研究了神经束扩散(NSD)模型中的过平滑问题,将其解释为表示几何退化现象。通过将图上的细胞束与关联的入射图表示建立联系,作者揭示了NSD在扩散极限下所达到的调和空间的代数结构,并指出学习到的束几何可能退化为低复杂度的表示,导致判别信息丢失。文章进一步引入基于矩映射的正则化方法,以引导束限制映射趋向于更平衡的几何结构,并分析了等维结构中的稳定性障碍,提出了非均匀维数设计的有效性。实验表明,打破束维对称性有助于提升模型性能。
Comments 15 pages, Comments welcome
AI总结 本文提出了一种名为SODA的优化框架,它是乐观对偶平均法的推广,能够统一当前先进的优化器如Muon、Lion、AdEMAMix和NAdam。通过该框架,研究者提出了一种实用的SODA包装器,能够通过理论支持的$1/k$衰减计划自动消除权重衰减调参的需求。实验表明,SODA在不同规模和训练周期下均能提升性能,且无需额外调整超参数。
AI总结 本文提出OLIVIA,一种针对ReAct风格大语言模型代理的在线动作适配框架,用于提升其在部署时的决策性能。OLIVIA将代理的动作选择层建模为一个基于上下文的线性置信域上界(UCB)多臂老虎机问题,利用冻结的隐藏状态作为决策上下文,从而在保持原始推理过程的同时,实现对动作选择的直接调整和不确定性估计。实验表明,OLIVIA在多个基准任务中显著优于静态ReAct和基于提示的适配方法,展示了其在部署阶段进行高效、细粒度和不确定性感知的在线优化的有效性。
AI总结 本文提出了一种名为“双室模型”的新方法,通过可训练的神经接口在两个预训练语言模型的中间隐藏状态之间建立双向耦合,使它们能够通过连续的并发通道进行协调,而非传统的文本生成方式。该模型在每一步生成过程中同步运行,主模型负责任务执行,辅助模型则处理工具调用、约束求解或代码执行,并通过翻译网络和学习抑制门实现相互条件控制。实验表明,该方法在算术、逻辑网格谜题和数学推理任务中显著提升了性能,展示了其在多模型协作中的有效性。
Comments 9 pages main text, 5 figures, 24 pages appendix
AI总结 本文研究了政治和社会身份如何影响人们对政治信息的评价,并指出传统计算工具往往忽略这种差异。为此,作者提出了一个名为Perspectivist Visual Political Sentiment(PVPS)的分类器,通过大量美国成年人的评价数据,预测不同政治和社会身份群体对同一图像的评价差异。该方法保留了群体间的系统性分歧,揭示了政治图像意义的动态性,强调理解图像传达的内容必须考虑受众的身份背景。
AI总结 本文探讨了深度神经网络可解释性研究的实践价值问题,指出当前研究缺乏将可解释性转化为实际决策和干预能力的评估标准。作者提出应以“行动性”作为可解释性的核心评价标准,从具体性和验证性两个维度定义可操作的可解释性,并分析了阻碍其实际应用的障碍。文章进一步识别了五个可解释性具有独特优势的领域,提出了与实际效果对齐的评估框架,旨在推动可解释性研究从理论探索向实际应用转化。
Comments Accepted to ICML 2026
AI总结 知识图谱补全旨在通过将实体和关系映射到连续表示空间,自动推理多关系数据中的缺失事实。为了解决现有基于区域的嵌入模型在优化过程中受到绝对边界约束或区域无限制扩张的问题,本文提出了一种新的模型 CORE,将实体和关系嵌入到无边界的环面流形上,利用循环正交体表示关系,使区域能够无缝绕过空间边界,保证梯度传导的平滑性,并引入自适应宽度正则化防止区域无条件扩张。理论分析表明,CORE 能够捕捉包括子集和交集在内的复杂关系模式,实验结果也显示其在多个基准数据集上表现优异,尤其在密集语义环境下显著提升了链接预测精度。
AI总结 本文研究了进化混合LoRA架构在特定基础模型上的性能分解问题,提出了三个关键因素:路由重写机制、领域评估范围和生命周期策略。通过实验分析,发现路由重写对模型性能提升具有显著贡献,而生命周期策略则带来一定负面影响。研究还揭示了进化搜索在路由通道中的有效性依赖于适配器的预对齐程度,为LoRA架构的优化提供了新的理论依据和实践指导。
AI总结 本文提出了一种名为Forecast-aware Gaussian Splatting(Forecast-GS)的预测性三维表示框架,用于语言引导的机器人抓取与放置操作。该方法通过显式建模任务完成状态,提升了机器人在部分观测条件下对动作可行性的评估能力。实验表明,Forecast-GS在多个真实场景任务中取得了优于现有方法的性能,显示出其在语言理解、三维感知与机器人规划之间建立可解释桥梁的有效性。
AI总结 本文提出 ClinicalBench,一个用于评估跨病历临床问答中基于断言感知检索性能的基准测试,重点考察检索真实电子健康记录时因否定、时间性及患者与家庭成员归属等因素导致的答案偏差。研究通过构建包含断言标签和时间标签的患者知识图谱(EpiKG),结合意图感知的检索增强生成(KG-RAG)方法,显著提升了检索准确性。实验表明,该方法在多个大语言模型上均取得性能提升,并揭示了当前自动生成参考答案的局限性,强调了临床问答评估中医生裁定的重要性。
Comments 46 pages including appendices (two-column preprint format). Under review at JAMIA. Code, frozen evaluator, and benchmark released at https://huggingface.co/datasets/alexstinard/epikg-clinicalbench. ClinicalBench v2 is a 400-question MIMIC-IV stress test for assertion-aware retrieval
AI总结 本文研究了图表示学习中潜空间维度这一传统超参数的设定问题,指出其与模型行为的实际控制量不一致。为此,作者提出了一种基于谱分析的新方法Spectra,通过学习正定核的谱分布来替代传统的秩作为分析单位,并利用归一化特征值构建可控的训练坐标,从而在训练过程中动态调节模型容量。该方法在多个网络数据集上展示了预测性能与模型容量之间的权衡关系,为过参数化场景下的模型容量控制提供了理论依据和实用工具。
Comments Preprint
AI总结 本文提出EVOCHAMBER,一种无需训练的框架,用于在个体、团队和种群三个层面实现多智能体系统的测试时协同进化。其核心方法CODREAM通过团队失败或分歧后协作反思与知识异步传递,实现跨智能体的非对称知识转移,保留专业化分工的同时填补知识空白。实验表明,该方法在数学、编程和多领域推理任务中均取得显著提升,并观察到多个稳定的专业化智能体自发形成,展现了多智能体进化的结构特征。
AI总结 本文提出了一种在齐性空间 $M=G/H$ 上的可操控神经常微分方程(Steerable Neural ODEs),将特征向量在局部对称群 $H$ 作用下的变换纳入模型设计。通过将特征解释为齐性空间上的向量丛截面,并将其演化视为平行移动,模型形成了一组耦合的微分方程,包括空间流方程和特征操控方程。该方法在满足特定对称性条件时具有 $G$-等变性,为学习齐性空间上一般向量值特征的连续时间等变动力学提供了几何基础。
Comments 39 pages, 3 figures
AI总结 本文提出了一种可扩展且高效的类似Mamba的注意力机制USEMA,用于医学图像分割,旨在解决传统视觉Transformer因二次计算复杂度带来的效率问题。USEMA结合了局部窗口注意力和理论一致的算术平均,以兼顾局部特征提取与全局信息捕捉,并与卷积神经网络融合构建混合UNet架构。实验表明,USEMA在多种模态和图像尺寸下均表现出优于纯卷积模型和基于Mamba模型的分割性能和计算效率。
AI总结 该研究探讨了大型语言模型(LLMs)在生成过程中多样性下降的问题,指出其根源在于推理时概率分布的校准不足。研究提出了一个有效性-多样性框架,将多样性崩溃归因于模型在解码过程中对有效和无效续写分配概率质量的方式,并将其分解为两种形式的校准错误:顺序校准和形状校准。实验表明,这种校准问题在多个规模和类型的语言模型中普遍存在,而非单纯由采样策略导致。
AI总结 本文提出了一种适用于部分已知室内环境的无人机表面检测规划框架ASIP-Planner,旨在解决因临时障碍物导致的视野遮挡和检测质量下降问题。该方法结合基于区域划分的全局覆盖规划器和面向检测的局部视角自适应模块,能够在保证轨迹结构的前提下,生成避障轨迹并实时调整视角以减少遮挡影响。实验表明,该框架在仿真和实际飞行测试中均能实现较高的检测覆盖率和轨迹效率,提升了无人机在部分已知结构化室内环境中的检测性能和适应能力。
AI总结 GRAFT-ATHENA 是一种自我改进的智能代理团队框架,旨在实现自主科学发现和演化数值算法。该框架通过将组合决策空间映射为因子概率树,显著降低了参数规模,并能够跨不同领域积累和共享方法经验。研究展示了 GRAFT-ATHENA 在多个物理信息机器学习基准和实际工程问题中的优越性能,包括自主提出正则化约束和发现新的数值方法,为自主实验室的发展提供了基础。
AI总结 本文提出了一种名为LatentHDR的新型框架,用于生成高质量的高动态范围(HDR)图像。该方法通过在潜在空间中将场景生成与曝光建模解耦,利用预训练的扩散模型生成一致的场景表示,并通过一个轻量的条件潜在到潜在映射模块,将其确定性地映射到特定曝光的表示,从而在单次生成过程中实现结构一致的多曝光堆栈。该方法显著降低了计算成本,提升了生成效率,并在多个基准测试中取得了领先的动态范围和感知质量。
AI总结 该研究提出了一种名为SEVO的语义增强虚拟观测方法,旨在提升低成本机器人在不同环境下的视觉-语言-动作(VLA)操作鲁棒性。SEVO通过固定摄像头覆盖操作区域、主动红光照明标准化物体外观以及实时语义分割提供背景不变的提示,结合多样化数据采集策略,显著提升了模型的泛化能力。实验表明,在相同政策架构下,SEVO使机器人在训练和新环境中的抓取成功率大幅提升,验证了观测设计和数据多样性对低成本机器人可靠操作的重要性。
AI总结 该研究针对视觉语言模型(VLMs)在处理图像分类任务时易受背景干扰的问题,提出了一种基于嵌入空间线性可加性的方法,将场景表示分解为前景和背景成分,从而构建背景不变的表示。通过利用合成数据进行预训练,该方法在存在完美虚假关联的Waterbirds数据集上实现了首个超过90%的最差群体准确率,且无需依赖真实去偏数据,具有良好的模拟到现实迁移能力,适用于实际部署。
Comments 36 pages, 7 figures
AI总结 该研究提出了一种名为“牛顿灯”的强化学习框架,用于优化交流潮流问题的暖启动模型。通过分析牛顿-拉夫森迭代次数的下界,研究揭示了现有监督方法在接近电压崩溃的重载场景下泛化能力不足的原因,并基于此设计了一种结合群体相对策略优化和学习奖励模型的微调方法,以迭代次数作为监督信号进行训练。实验表明,该方法在多个标准测试案例中均能稳定收敛,并实现了最小的平均迭代次数。
AI总结 AffectCodec 是一种用于情感表达语音建模的情绪感知神经语音编解码器,旨在在量化过程中保留语音中的情感信息。该方法通过结合情感语义引导的潜在调制、关系保持的情感语义蒸馏和情感加权语义对齐,实现了在压缩过程中保持语义保真度和韵律自然性的同时保留情感关键线索。实验表明,AffectCodec 在语音重建、情感识别和下游文本到语音生成任务中均表现出更优的情感一致性和感知质量。
Comments Accepted to ACL Findings 2026
AI总结 当前大语言模型推理任务越来越依赖对模型内部状态的实时访问。本文提出 DMI-Lib,一种高性能的深度模型检测工具,通过异步观测子系统、基于 Ring² 的 GPU-CPU 内存抽象以及策略控制的主机后端,将内部可观测性作为系统级核心原语,实现与推理主路径的解耦。实验表明,DMI-Lib 在保持服务优化和严格 GPU 内存限制的同时,显著降低了观测开销,相比现有方法在延迟上减少了 2 到 15 倍。
AI总结 本文提出ASD-Bench,一个针对自闭症谱系障碍(ASD)的四维综合基准,用于评估AI模型在不同年龄段群体中的表现。该基准涵盖预测性能、校准、可解释性和对抗鲁棒性四个维度,基于4,068份AQ-10问卷数据,测试了多种传统机器学习和深度学习模型。研究发现不同年龄段的特征重要性存在显著差异,并指出单一性能指标不足以评估临床AI系统的可靠性。
Comments 20 pages, 12 figures, 8 tables
AI总结 该论文提出了一种名为HiDream-O1-Image的原生统一图像生成基础模型,通过像素级扩散变换器架构,实现了从模块化结构向端到端视觉生成引擎的范式转变。该模型将原始图像像素、文本标记和任务条件映射到统一的共享标记空间,无需依赖独立的VAE或预训练文本编码器,从而在统一变换器(UiT)架构下实现了多模态输入的结构统一。实验表明,HiDream-O1-Image在多种生成任务中表现出色,并且在仅有80亿参数时性能可与更大参数量的模型媲美,其2000亿参数版本更实现了生成能力的显著提升,确立了新的性能基准。
Comments Source codes and models are available at Github: https://github.com/HiDream-ai/HiDream-O1-Image and Huggingface: https://huggingface.co/HiDream-ai/HiDream-O1-Image
AI总结 本文提出了首个全球10米分辨率的农业地块边界地图,覆盖2024和2025年共241个国家和地区,包含31.7亿个遥感地块多边形。研究采用基于“Fields of The World”数据集训练的U-Net分割模型,对Sentinel-2无云影像进行处理生成地图,并通过多国实地数据验证其准确性。该数据集以三种形式公开发布,为全球农作物监测、粮食安全及相关农业研究提供了首个一致的地块级分析单元。
AI总结 本文提出了一种名为ForceFlow的力感知反应框架,旨在解决机器人在复杂接触场景下的操作任务。该方法基于流匹配技术,通过融合力信号与多模态感知信息,实现了对接触力和运动的深度耦合,并采用视觉主导与触觉主导分阶段的策略,提升了任务执行的鲁棒性和泛化能力。实验表明,ForceFlow在六个实际接触密集任务中表现出更高的成功率和更低的成本,展示了其在接触力自调节和跨分布泛化方面的优越性能。