Posterior Augmented Flow Matching
后验增强流匹配
发表机构 * Georgia Tech(佐治亚理工学院) ; University of Washington(华盛顿大学) ; Hugging Face ; Ai2 ; UC Irvine(加州大学 Irvine 分校)
AI总结 本文提出后验增强流匹配(PAFM),通过引入对中间状态和条件的近似后验期望,解决高维图像中流匹配的稀疏性和高方差问题,提升模型泛化能力。
后验增强流匹配
发表机构 * Georgia Tech(佐治亚理工学院) ; University of Washington(华盛顿大学) ; Hugging Face ; Ai2 ; UC Irvine(加州大学 Irvine 分校)
AI总结 本文提出后验增强流匹配(PAFM),通过引入对中间状态和条件的近似后验期望,解决高维图像中流匹配的稀疏性和高方差问题,提升模型泛化能力。
通过验证驱动的LLM工作流生成统计图表
发表机构 * University of Ljubljana Faculty of Computer and Information Science(卢布尔雅那大学计算机与信息科学系)
AI总结 本文提出一种结构化的LLM工作流,通过验证输出来生成多样且易读的统计图表,解决可视化特有的失败模式,如可读性和语义不匹配。
GMGaze:基于MoE的上下文感知 gaze 估计方法结合 CLIP 和多尺度 Transformer
发表机构 * School of Artificial Intelligence, Guilin University of Electronic Technology, Guilin, China(桂林电子科技大学人工智能学院) ; The Laboratory for Imagery, Vision and Artificial Intelligence, École de Technologie Supérieure, Montreal, Canada(图像、视觉与人工智能实验室,蒙特利尔大学高级技术学院) ; Information Technology Department, College of Computer and Information Sciences, King Saud University, Riyadh, Saudi Arabia(计算机与信息科学学院信息科技系,沙特国王大学) ; Department of Cybersecurity, College of Computer Science and Engineering, Taibah University, Medina, Saudi Arabia(计算机科学与工程学院网络安全系,塔伊卜大学) ; Department of Networked Engineering, College of Computer Science and Engineering, Jeddah University, Jeddah, Saudi Arabia(计算机科学与工程学院网络工程系,吉达大学)
AI总结 本文提出 GMGaze 方法,通过多尺度 Transformer 和 CLIP 结合,利用语义原型条件和稀疏 MoE 模块提升 gaze 估计精度,实验表明在多个基准上均优于现有方法。
Comments Accepted in KBS
RunAgent:通过约束引导执行解释自然语言计划
发表机构 * University of Maryland, College Park(马里兰大学学院公园分校) ; NEC Laboratories America, Inc.(NEC美国实验室)
AI总结 RunAgent通过约束引导执行解释自然语言计划,结合代理语言的显式控制构造,提升结构化工作流执行的可靠性。
使大型视觉-语言模型的KV缓存更轻量
发表机构 * Integrative Sciences and Engineering Programme, National University of Singapore(国立新加坡大学整合科学与工程学程) ; School of Computing, National University of Singapore(国立新加坡大学计算机学院)
AI总结 本文提出LightKV方法,通过利用视觉token嵌入的冗余性,减少KV缓存大小,提升解码效率并降低GPU内存消耗。
Comments Accepted to Transactions on Machine Learning Research (TMLR), 2026
SAVGO: 通过余弦相似性学习状态-动作值几何以实现连续控制
发表机构 * Delft University of Technology(代尔夫特理工大学)
AI总结 SAVGO通过在动作空间中显式融入值的相似性,统一了表示学习、值估计和策略优化,提升了连续控制任务的性能。
Comments Reinforcement Learning
Map2World: 基于分段地图的3D世界生成
发表机构 * Seoul National University(首尔国立大学) ; Microsoft Research Asia(微软亚洲研究院)
AI总结 本文提出Map2World框架,通过用户定义的任意形状和尺度的分段地图生成一致且灵活的3D世界,并引入细节增强网络提升生成质量,实验证明其在可控性、一致性及内容连贯性上优于现有方法。
Comments project page: https://robot0321.github.io/Map2World/index.html
可观性能并不完全反映系统组织:对在咬合约束下步态动力学的多层级分析
发表机构 * Laboratory of Bioengineering and Nanosciences (LBN)(生物工程与纳米科学实验室) ; University of Montpellier(蒙彼利埃大学) ; EuroMov Digital Health in Motion(EuroMov数字健康运动) ; IMT Mines Ales
AI总结 研究通过多层级分析揭示在咬合约束下,可观性能与系统组织之间的不一致性,提出了一种结构化分析框架。
Comments 1 table, 4 figures. Exploratory single-case study
LASE:语言对抗性说话者编码用于印地语跨脚本身份保持
发表机构 * GitHub
AI总结 LASE通过对抗性学习提升跨脚本说话者身份保持,减少语音编码器在不同语言脚本间的性能差异,实验显示其在多个数据集上均达到零误差。
Comments 7 pages, 2 figures, 2 tables. Code, model, and datasets at https://github.com/praxelhq/lase
定向社会关怀:在线媒体中针对特定倡导、反对、援助、伤害和受害的揭示
发表机构 * SIFT ; University of Florida(佛罗里达大学) ; Claremont Graduate University(克莱蒙特研究生大学) ; Tufts University(塔夫茨大学)
AI总结 本文提出DSR方法,用于多维、多价值情感分析,通过变压器模型检测情感目标并评分,揭示在线媒体中正负面情感共存及目标。
Comments 32 pages, 12 figures, 7 tables
用人类注视建模主观城市感知
发表机构 * ETH Zurich(苏黎世联邦理工学院)
AI总结 本文提出基于注视行为的城市感知框架,通过结合注视数据与场景表示,提升对主观城市感知的预测能力。
预算化组合多臂老虎机中基于Shapley值的 meritocratic 公平性框架
发表机构 * Indian Institute of Technology Ropar(印度理工学院罗帕尔)
AI总结 本文提出一种新的预算化组合多臂老虎机框架,通过扩展Shapley值到K-Shapley值,解决了全反馈环境下个体臂贡献的计算问题,并提出了K-SVFair-FBF算法,实现了公平性与效率的平衡。
利用DeepONet学习Helmholtz方程算子以解决非参数2D几何中的问题
发表机构 * PROMES-CNRS, Université Perpignan Via Domitia (UPVD)(普罗梅斯-国家科学研究中心,佩皮尼扬大学(UPVD)) ; LAAS-CNRS, Université de Toulouse (UT)(拉夫桑热-国家科学研究中心,图卢兹大学(UT))
AI总结 本文利用DeepONet框架,通过学习散射体几何与散射场之间的算子,解决非参数2D几何中的Helmholtz方程问题,并通过有限元法验证模型的泛化能力。
Comments 24 pages, 16 figures
NonZero:基于交互的多智能体蒙特卡洛树搜索探索
发表机构 * The George Washington University(乔治华盛顿大学) ; Northeastern University(东北大学)
AI总结 NonZero通过交互引导的提议规则,在低维非线性表示中进行代理引导选择,提升多智能体MCTS的可扩展性与探索效率。
Comments Accepted by ICML 2026 as Spotlight
基于量子梯度的方法用于使用Sobel核的边缘和角点检测
发表机构 * Department of Electrical Engineering and Computer Science(电气工程与计算机科学系) ; Department of Computer Science(计算机科学系) ; Department of Computer Technologies(计算机技术系) ; Department of Computer Engineering(计算机工程系)
AI总结 本文提出了一种量子实现的Sobel边缘检测和Harris角点检测方法,采用FRQI和QPIE两种量子图像编码方式,通过量子梯度计算和经典后处理提升检测性能,实验结果与经典方法一致,QPIE配置在有限测量次数下表现更稳定。
预测非计划性医院再入院的时序数据需求
发表机构 * Northeastern University(东北大学) ; Partners Healthcare Connected Health Innovation(Partners Healthcare 连接健康创新) ; MGH Institute for Technology Assessment(MGH 技术评估研究所) ; Harvard Medical School(哈佛医学院) ; Tufts University School of Medicine(塔夫茨大学医学院) ; Department of Public Health and Community Medicine(公共卫生与社区医学系)
AI总结 本文研究了不同观察窗口对预测髋膝关节置换术后30天再入院的影响,发现非结构化临床笔记的最佳时间窗口比结构化数据更短,而结构化数据在延长窗口后性能趋于稳定。
D3-Gym:构建现实世界可验证环境用于数据驱动发现
发表机构 * The Ohio State University(俄亥俄州立大学) ; Cisco Research(思科研究)
AI总结 D3-Gym通过构建首个自动化的可验证环境数据集,提升科学数据驱动发现的模型能力,验证信号质量高,训练效果显著。
图灵还是康托尔:这是一个问题
发表机构 * Dept. of Eng. and Science, Rensselaer Polytechnic Institute(工程与科学系,伦斯勒理工学院)
AI总结 本文探讨图灵成就与康托尔集合论的关联,提出基于输入数据概率分布的不可判定性度量,并定义了三种新的TM不可判定问题复杂性类。
Comments arXiv admin note: text overlap with arXiv:2106.15969
首次猜测 rarely 是最终答案:学习在旅行商问题中的搜索
发表机构 * University of the Basque Country (UPV/EHU)(巴斯克大学(UPV/EHU))
AI总结 本文提出NICO-TSP,一种针对TSP的2-opt改进框架,通过两阶段训练提升搜索效率和鲁棒性,优于现有方法。
对齐路由:在语言模型中本地化、扩展和控制策略电路
发表机构 * Independent Researcher(独立研究者)
AI总结 研究通过本地化策略路由机制,探讨在语言模型中扩展和控制策略电路的方法,发现路由机制在安全性和性能上的关键作用。
Comments Code and data: https://github.com/gregfrank/how-alignment-routes
Stepper:基于多视角全景图的分步沉浸式场景生成
发表机构 * Google(谷歌) ; University of Oxford(牛津大学) ; MCML ; Technical University of Munich(慕尼黑技术大学)
AI总结 Stepper通过分步扩展多视角全景图,解决传统方法在视觉保真度与可探索性之间的权衡问题,实现高质量沉浸式3D场景生成。
Comments Accepted at CVPR 2026 Findings; Find our project page under https://fwmb.github.io/stepper/
检测成本低,路由是学习的:为何基于拒绝的对齐评估失败
发表机构 * Independent Researcher(独立研究者)
AI总结 研究指出现有对齐评估忽视路由层,通过政治审查实验发现检测准确率不具诊断性,路由机制因模型和实验室而异,拒绝不再是主要审查机制,需采用检测-路由-生成三阶段框架。
Comments Code and data: https://github.com/gregfrank/routing-is-learned
ScreenParse:超越稀疏标注的完整屏幕解析监督
发表机构 * IBM Research Zurich, Zurich, Switzerland(IBM苏黎世研究实验室,瑞士苏黎世) ; ETH Zurich, Computer Vision(苏黎世联邦理工学院,计算机视觉) ; ETH AI Center, Switzerland(苏黎世联邦理工学院人工智能中心,瑞士) ; ETH Zurich, Photogrammetry(苏黎世联邦理工学院,摄影测量学) ; Microsoft, Switzerland(微软公司,瑞士)
AI总结 ScreenParse通过大规模完整屏幕解析标注,训练出性能优异的ScreenVLM模型,显著提升了密集解析能力和迁移表现。
Comments Accepted at ICML 2026. 28 pages, 15 figures
量化陷阱:多跳推理中的线性扩展定律破裂
发表机构 * School of Engineering and Computer Science, Baylor University(贝勒大学工程与计算机科学学院) ; School of Computer Science and Technology, Xidian University(西安电子科技大学计算机科学与技术学院) ; School of Computer Science and Communication Engineering, Jiangsu University(江苏大学计算机科学与通信工程学院) ; Beijing Electronic Science and Technology Institute(北京电子科技学院)
AI总结 研究揭示多跳推理中量化降低反而增加能耗和降低准确性的现象,提出关键模型规模理论解释其成因。
Comments 23 pages, 8 figures
WildfireVLM:基于卫星影像的AI分析用于早期野火检测与风险评估
发表机构 * Department of Computer Science and Electrical Engineering(计算机科学与电气工程系) ; University of Maryland, Baltimore County(马里兰大学巴尔的摩分校)
AI总结 WildfireVLM结合卫星影像检测与语言驱动的风险评估,利用YOLOv12检测火区与烟雾,并通过多模态大语言模型生成风险评估和应急响应建议,验证其有效性并实现实时处理与长期追踪。
推理步扩展揭示弱点:解密和改进大语言模型中的推理泛化
发表机构 * University of Science and Technology of China(中国科学技术大学) ; City University of Hong Kong(香港城市大学) ; Zhejiang University(浙江大学) ; City University of Hong Kong, Shenzhen Research Institute(香港城市大学深圳研究院)
AI总结 本文通过多领域任务研究发现,推理错误集中在少数关键错误类型的位置,而非均匀分布。提出在推理过程中动态识别并禁用错误处理头,从而提升推理步泛化能力。
Comments 52 pages, accepted by ICLR 2026 main conference
NRGPT:一种基于能量的GPT替代方案
发表机构 * IBM Research(IBM研究院) ; Georgia Tech(佐治亚理工学院) ; Brown University(布朗大学) ; MIT(麻省理工学院)
AI总结 NRGPT通过最小化修改将GPT与能量基模型框架统一,其推理过程被视为在能量景观上探索,实验证明在特定条件下可转化为梯度下降,适用于简单语言、代数任务和更复杂的语言建模。
Comments Accepted to ICLR 2026 main conference
多模态癌症生存分析中的结构预后事件建模
发表机构 * King Abdullah University of Science and Technology(国王 Abdullah 科学与技术大学)
AI总结 本文提出SlotSPE框架,通过槽注意力机制压缩多模态数据为结构化槽,有效建模癌症生存分析中的复杂交互,提升预后相关性与可解释性。
Comments 37 pages, 14 Figures
Journal ref The Fourteenth International Conference on Learning Representations (ICLR2026)
FTRL在随机老虎机中使用1/2-Tsallis熵的最后迭代分析
发表机构 * School of Mathematical Sciences, Peking University(北京大学数学科学学院) ; Center for Applied Statistics and School of Statistics, Renmin University of China(中国人民大学统计学院)
AI总结 本文研究了使用1/2-Tsallis熵正则化器的FTRL算法,证明了其最后迭代收敛率为t^{-1/2},并验证了对数遗憾与该收敛率的对应关系。
基于网格不可伸长约束的图像引导形状从模板方法
发表机构 * CNRS(法国国家科学研究中心) ; École Centrale de Lyon(里昂中央理工大学) ; INSA Lyon(里昂国立应用科学学院) ; Université Claude Bernard Lyon 1(里昂一大学) ; LIRIS(图像研究所)
AI总结 本文提出一种无监督的形状从模板方法,利用图像观测和网格不可伸长约束,实现比现有无监督方法快400倍的重建速度,并在细节生成和严重遮挡处理上表现更优。
Comments Accepted to ICCV 2025. Total 13 pages, 9 figures, 9 tables