FiRe: Fine-grained Multimodal Reasoning for Enhanced Image Generation
FiRe:用于增强图像生成的细粒度多模态推理
发表机构 * KT Corporation(KT公司)
AI总结 提出FiRe方法,通过细粒度多步推理和强化学习FiRe-GRPO,解决文本到图像生成中缺乏细粒度控制的问题。
FiRe:用于增强图像生成的细粒度多模态推理
发表机构 * KT Corporation(KT公司)
AI总结 提出FiRe方法,通过细粒度多步推理和强化学习FiRe-GRPO,解决文本到图像生成中缺乏细粒度控制的问题。
使用推理型大语言模型从临床笔记中提取社会健康决定因素事件
发表机构 * Department of Population Health Sciences, Weill Cornell Medicine(流行病学与公共卫生系,韦尔·科恩医学中心)
AI总结 本研究提出一种基于推理型大语言模型的提示工程方法,通过四个模块(简洁提示、少样本学习、自一致性机制和后处理)从临床笔记中提取结构化SDOH事件,取得0.866的微平均F1分数,展示了简单实现与强性能的平衡。
卖给我这支股票:LLM智能体中的不安全推荐漂移
发表机构 * Centre for Artificial Intelligence, University College London(人工智能研究中心,伦敦大学学院)
AI总结 研究LLM智能体在多轮金融推荐中因工具输出被操纵而产生风险不匹配推荐的问题,通过实验揭示评估盲区并分析机制。
面向机器学习研究的自主长周期工程
发表机构 * GitHub
AI总结 提出AiScientist多智能体系统,通过轻量级层级研究团队和File-as-Bus工作空间解决长周期ML研究工程中的累积进度维持问题,在PaperBench和MLE-Bench Lite上取得显著提升。
Comments Repo: https://github.com/AweAI-Team/AiScientist
雷达-相机BEV多任务学习:用于联合3D检测与分割的跨任务注意力桥
发表机构 * Hacettepe University(哈切特佩大学)
AI总结 提出CTAB(跨任务注意力桥)模块,通过共享BEV空间中的多尺度可变形注意力在检测和分割分支间交换特征,实现联合3D检测与分割的多任务学习,在nuScenes上提升分割性能且检测几乎不受影响。
Comments 8 pages, 5 figures, 3 Tables, Accepted at Radar in Robotics: New Frontiers workshop, at IEEE International Conference on Robotics & Automation (ICRA), 2026
从归因到行动:激活导向的人本应用
发表机构 * Fraunhofer Heinrich-Hertz-Institut(弗劳恩霍夫 Heinrich-Hertz 研究所) ; Technische Universität Berlin(柏林技术大学) ; BIFOLD – Berlin Institute for the Foundations of Learning and Data(柏林学习与数据基础研究所)
AI总结 提出结合SAE归因与激活导向的交互式工作流,通过专家访谈验证其能促进从检查到干预的转变,并揭示组件抑制等调试策略及潜在风险。
Muddit: 通过统一离散扩散模型解放超越文本到图像的生成
发表机构 * M-E-AGI-Lab(M-E-AGI实验室)
AI总结 提出Muddit,一种统一离散扩散Transformer,结合预训练文本到图像骨干的强视觉先验与轻量文本解码器,实现跨文本和图像模态的快速并行生成,在质量和效率上优于大型自回归模型。
Comments Accepted to ICLR 2026. Codes and Supplementary Material: https://github.com/M-E-AGI-Lab/Muddit
事后信用可驻留之处:RLVR中令牌更新的有符号容量视角
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科学与技术大学(广州)) ; Huawei Technologies Ltd.(华为技术有限公司)
AI总结 本文通过条件互信息分析RLVR中令牌级信用的容量上限,提出四象限分解区分更新方向,并设计HAPO算法进行容量引导的优势重分配,提升数学推理性能。
退化一致性配对训练用于鲁棒的AI生成图像检测
发表机构 * Department of Computer Science(计算机科学系) ; University College London(伦敦大学学院) ; Department of Earth Science and Engineering(地球科学与工程系) ; Imperial College London(伦敦帝国理工学院) ; School of Electronic Information(电子信息学院)
AI总结 提出退化一致性配对训练(DCPT),通过特征一致性和预测一致性约束显式增强模型对JPEG压缩、高斯模糊等真实世界图像退化的鲁棒性,在Synthbuster基准上平均准确率提升9.1个百分点。
Comments 6 pages, 5 figures, 2 tables
挖掘属性子空间以实现3D基础模型的高效微调
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Shanghai Jiao Tong University(上海交通大学) ; Adobe Research(Adobe研究) ; Google Research(谷歌研究)
AI总结 本文通过生成合成数据并提取与纹理、几何、相机运动和光照变化相关的LoRA子空间,发现这些子空间近似解耦,集成后形成降维子空间,从而提高下游任务微调的效率和预测精度。
Comments 10 pages, 8 figures. Code here: https://github.com/jpppppppppppppppppppppppp/Subspaces-Mining-for-VGGT
立场:具有可验证奖励的强化学习的隐藏成本与测量缺口
发表机构 * Stanford University(斯坦福大学) ; UC Berkeley(加州大学伯克利分校) ; The University of Tokyo(东京大学) ; RIKEN AIP(理化学研究所AIP) ; Waseda University(早稻田大学) ; Georgia Tech(佐治亚理工学院) ; Northwestern University(西北大学) ; UCLA(加州大学洛杉矶分校) ; UNC Chapel Hill(北卡罗来纳大学教堂山分校) ; Yale University(耶鲁大学) ; University of Waterloo(滑铁卢大学) ; Independent Researcher(独立研究者) ; CUHK(香港中文大学) ; UT Southwestern Medical Center(西南医学中心) ; National University of Singapore(新加坡国立大学) ; UIUC(伊利诺伊大学厄巴纳-香槟分校) ; Amazon AWS AI(亚马逊AWS人工智能)
AI总结 本文指出,具有可验证奖励的强化学习(RLVR)在提升大语言模型性能时,常因预算不匹配、尝试膨胀和基准数据污染等混淆因素导致收益被高估,并提出了预算匹配饱和曲线、校准跟踪、法官鲁棒性测试和污染筛查等最低标准。
ASTRA: 面向复杂表格问答的自适应语义树推理架构
发表机构 * Zhejiang University(浙江大学)
AI总结 提出ASTRA架构,通过AdaSTR将表格重构为逻辑语义树,并利用DuTR双模式推理框架结合树搜索文本导航与符号代码执行,在复杂表格问答中达到最优性能。
Comments ACL 2026 Main
SenBen: 用于可解释内容审核的敏感场景图
发表机构 * Graduate School of Informatics, METU(信息学院研究生院,梅尔夫大学) ; Ultralytics, Inc.(Ultralytics公司)
AI总结 提出SenBen基准和紧凑学生模型,通过多任务训练和词汇平衡策略实现敏感内容的空间定位与可解释性,在场景图生成上超越多数VLM。
Comments Accepted at CVPRW 2026
别听我的!多轮对话如何降低LLM的可靠性
发表机构 * Vanderbilt University(范德比尔大学) ; Vanderbilt University Medical Center(范德比尔大学医学中心) ; Intuit AI Research(Intuit人工智能研究)
AI总结 提出“坚持或切换”(SoS)框架,通过将问答空间分割为多个顺序呈现来评估LLM在多轮对话中的可靠性,发现对话税导致准确性和拒绝错误建议的能力平均下降30%,并观察到盲目切换现象。
机器学习在急诊和重症监护中不平衡表格临床数据的鲁棒性与可扩展性实证研究
发表机构 * Computer Vision Group, Institute of Cognitive Science, Osnabrück University(计算机视觉组,认知科学研究所,奥斯纳布吕克大学) ; Department of Mathematics, Rhodes University(数学系,罗德斯大学) ; National Institute for Theoretical and Computational Sciences (NITheCS)(国家理论与计算科学研究所(NITheCS))
AI总结 本研究在MIMIC-IV-ED和eICU数据集上评估六类模型在不平衡临床表格数据上的性能,发现树模型在可扩展性上最优,而表格基础模型在性能与效率间提供新的权衡。
ReVEL:基于结构化性能反馈的多轮反思式LLM引导的启发式进化
发表机构 * Hanoi University of Science and Technology(河内科学技术大学) ; Phenikaa University(Phenikaa大学)
AI总结 针对NP-hard组合优化问题的启发式设计,提出ReVEL框架,通过行为感知分组和多轮迭代细化,利用LLM和累积性能反馈联合优化启发式,实验表明优于现有LLM引导的进化基线。
学习用语言模型预测未来对齐的研究提案
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 本文提出将研究提案生成重构为时间切片科学预测问题,通过未来对齐分数(FAS)评估模型能否预测截止时间后发表的论文方向,并构建时间一致数据集和推理轨迹进行训练,实验表明未来对齐微调显著提升提案质量。
双阈值热力图引导的提议聚类与负确定性监督及增强基础网络的弱监督目标检测
发表机构 * Institute of Cyberspace Security, Harbin Institute of Technology(哈尔滨工业大学网络安全学院) ; Faculty of Information Technology, Monash University(莫纳什大学信息科技学院) ; Center on Machine Learning Research, Harbin Institute of Technology(哈尔滨工业大学机器学习研究中心) ; Department of New Networks, Peng Cheng Laboratory(鹏城实验室网络部) ; School of Cyberspace Science, Harbin Institute of Technology(哈尔滨工业大学网络空间科学学院)
AI总结 提出DANCE方法,通过双阈值热力图引导的提议选择、增强基础网络和负确定性监督损失,解决弱监督目标检测中伪GT框不完整、语义鸿沟和收敛慢的问题。
Comments IEEE TIP Minor Revision
关于智能定义的探讨
发表机构 * Distributed Computing Systems(分布式计算系统)
AI总结 本文试图提出一个适用于自然世界和人工智能的统一智能定义,基于Kolmogorov复杂性理论提出度量标准,并区分智能与意识的不同。
Comments Newly edited version
Journal ref Scientific Insights, 2(1), pp. 1 - 15
跨时间步延迟下合作多智能体强化学习中的通信增益与延迟代价
发表机构 * The State Key Laboratory for Manufacturing Systems Engineering(制造系统工程国家重点实验室) ; School of Automation Science and Engineering, Xi’an Jiaotong University(西安交通大学自动化科学与工程学院)
AI总结 针对部分可观测环境中跨时间步通信延迟导致的信息错位问题,提出通信增益与延迟代价(CGDC)度量,并基于此设计演员-评论家框架CDCMA,通过预测未来观测和注意力融合延迟消息来提升合作多智能体强化学习的性能、鲁棒性和泛化能力。
DirectFisheye-GS: 在三维高斯泼溅中通过跨视图联合优化实现原生鱼眼输入
发表机构 * BNRist, Tsinghua University(北京理工大学,清华大学) ; Beihang University(北航) ; JD.com, Beijing, China(京东(北京,中国)) ; Shanghai AI Lab(上海人工智能实验室)
AI总结 针对鱼眼相机输入导致的信息丢失和细节模糊问题,提出将鱼眼相机模型集成到3DGS框架中,并引入基于特征重叠的跨视图联合优化策略,实现无需预处理的原生鱼眼图像训练,提升重建质量。
Comments CVPR 2026 Highlight; Fix NSFC ID
OMD-GraphRAG:利用本体引导提取、多维聚类和双通道融合增强GraphRAG
发表机构 * Data Science & Artificial Intelligence Research Institute(数据科学与人工智能研究院)
AI总结 提出OMD-GraphRAG框架,通过本体引导知识提取、多维社区聚类和双通道图检索融合,提升GraphRAG在复杂推理和多跳查询中的性能。
ECHO-2: 一种面向经济高效强化学习的大规模分布式推演框架
发表机构 * The University of Hong Kong(香港大学) ; Fudan University(复旦大学) ; Gradient ; University of Edinburgh(爱丁堡大学) ; Soochow University(苏州大学) ; Technical University of Darmstadt(达姆施塔特技术大学) ; University of the Chinese Academy of Sciences(中国科学院大学)
AI总结 提出ECHO-2分布式强化学习框架,通过重叠推演生成、传播与训练,结合对等辅助流水线广播和成本感知异构工作节点激活,在保持奖励性能的同时显著提升成本效率。
Comments 24 pages, 7 figures
SOLE-R1:视频语言推理作为机器人强化学习的唯一奖励
发表机构 * MIT(麻省理工学院) ; RAI Institute(机器人智能研究所)
AI总结 提出SOLE-R1模型,通过视频语言时空推理生成密集任务进度估计作为唯一奖励信号,实现在无真实奖励、演示或任务特定调优下的零样本在线强化学习。
LLMs 与停机问题:程序终止推理的特征化
发表机构 * FAIR Team, Meta AI(Meta AI FAIR 团队) ; The Hebrew University of Jerusalem, Israel(耶路撒冷希伯来大学) ; Bloomberg, New York, USA(彭博社,纽约,美国) ; Imperial College London, UK(伦敦帝国理工学院,英国) ; University College London, UK(伦敦大学学院,英国)
AI总结 本文评估了前沿LLMs在程序终止推理上的能力,发现GPT-5和Claude Sonnet 4.5在C程序终止判断上达到顶级验证工具水平,但无法生成形式化证明,并引入分歧前置条件形式化描述非终止条件。
具身语义场景图生成的强化学习导航现代化
发表机构 * Organic Computing Group(有机计算组) ; Machine Learning and Computer Vision Group(机器学习与计算机视觉组) ; University of Augsburg(奥格斯堡大学) ; Am Technologiezentrum 8(技术中心8号) ; Augsburg, Germany(德国奥格斯堡)
AI总结 提出模块化导航组件,通过替换策略优化方法和重新设计离散动作表示,现代化具身语义场景图生成中的决策过程,并评估不同动作集和策略结构对场景图完整性、执行安全性和导航行为的影响。
XGrammar-2: 面向智能体LLM的高效动态结构化生成引擎
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Carnegie Mellon University(卡内基梅隆大学) ; Carnegie Mellon University, NVIDIA(卡内基梅隆大学,NVIDIA)
AI总结 针对智能体LLM中动态结构化生成(如工具调用和响应协议)的挑战,提出XGrammar-2引擎,通过标签触发结构切换和跨语法子结构缓存实现高效编译与近零开销。
Comments 10 pages, ACM CAIS 26
Morphling: 快速、融合且灵活的图神经网络规模化训练
发表机构 * IIT Madras(印度理工学院马德拉斯学院)
AI总结 提出Morphling领域特定代码合成器,通过架构感知的原语和运行时稀疏感知执行引擎,在CPU、GPU和分布式环境下显著提升GNN训练吞吐量并降低内存消耗。
理解大语言模型迭代生成优化中的挑战
发表机构 * Google DeepMind(谷歌DeepMind) ; CNRS(国家科学研究中心) ; Stanford University(斯坦福大学) ; Carnegie Mellon University(卡内基梅隆大学) ; Microsoft(微软) ; AWS(亚马逊AWS) ; Netflix Research(Netflix研究) ; Microsoft Research(微软研究院)
AI总结 本文通过案例研究,揭示了在基于大语言模型的迭代生成优化中,起始工件、信用分配和批处理等隐藏设计选择对优化成败的决定性影响,并指出缺乏跨领域的通用学习循环设置方法是生产化和采用的主要障碍。
Comments 39 pages, 17 figures
分离跳跃链接与$R$-探针:解耦特征聚合与梯度传播用于MLLM OCR
发表机构 * State Key Laboratory for Multimedia Information Processing, School of Computer Science, PKU-Anker LLM Lab, Beijing Key Laboratory of Software and Hardware Cooperative Artificial Intelligence Systems, Peking University, Beijing, China(多媒体信息处理国家重点实验室,计算机科学学院,PKU-Anker LLM实验室,软件与硬件协同人工智能系统北京重点实验室,北京大学,北京,中国) ; Tsinghua University, Beijing, China(清华大学,北京,中国) ; Baidu Inc, Beijing, China(百度公司,北京,中国)
AI总结 针对多模态大语言模型在OCR任务中因梯度干扰导致细粒度视觉信息丢失的问题,提出分离跳跃链接(Detached Skip-Links)以解耦前向特征聚合与反向梯度传播,并引入$R$-探针($R$-Probe)诊断视觉令牌的可重构性,从而提升OCR及通用多模态任务性能。
Comments Accepted by ICML 2026. Ziye Yuan and Ruchang Yao contributed equally to this work (co-first authors, listed in random order)