Text-Vision Co-Instructed Image Editing
文本-视觉协同指导的图像编辑
发表机构 * The Hong Kong Polytechnic University(香港理工大学) ; OPPO Research Institute(OPPO研究院)
AI总结 提出TV-Edit框架,联合文本指令的语义表达与稀疏视觉指令的空间引导,实现精确且忠实于意图的图像编辑,显著优于现有方法。
文本-视觉协同指导的图像编辑
发表机构 * The Hong Kong Polytechnic University(香港理工大学) ; OPPO Research Institute(OPPO研究院)
AI总结 提出TV-Edit框架,联合文本指令的语义表达与稀疏视觉指令的空间引导,实现精确且忠实于意图的图像编辑,显著优于现有方法。
一个经过验证的LBM数据集和用于湍流三维阻塞通道流代理建模的流水线
发表机构 * Chair of Computer Science 10 (System Simulation)(计算机科学系10号 chair(系统仿真)) ; Friedrich-Alexander-Universität Erlangen-Nürnberg(埃尔朗根-纽伦堡弗里德里希-亚历山大大学)
AI总结 提出一个可复现的流水线,生成雷诺数1000-10000的三维通道流训练数据,使用累积碰撞算子的格子玻尔兹曼求解器,并通过实验测量和网格收敛研究验证,为神经算子标准化比较提供基础。
Comments 4 pages + appendix, 9 figures, Accepted at the 1st Workshop on Differentiable Systems and Scientific Machine Learning (SysDiff) @ EurIPS 2025, OpenReview: https://openreview.net/forum?id=rdmHT72NQH
平均奖励均值场博弈的最大熵逆强化学习
发表机构 * Bilkent University(比尔肯大学) ; Özyeğin University(厄齐金大学)
AI总结 针对平均奖励准则下的离散时间无限时域均值场博弈,提出基于最大因果熵的逆强化学习方法,通过占据测度框架统一处理有限维线性奖励和无限维RKHS奖励,并设计梯度上升算法实现策略恢复。
Comments 49 pages, 2 figures, 2 tables
多发性硬化症中顺磁性边缘病变的3D分类:基于非对称QSM-FLAIR建模
发表机构 * MaLGa, DIBRIS, University of Genova(热那亚大学) ; DINOGMI, University of Genova(热那亚大学) ; IRCCS Azienda Ospedaliera Metropolitana(IRCCS大都会医院)
AI总结 提出一种3D多模态深度学习框架,利用非对称QSM-FLAIR建模对多发性硬化症中的顺磁性边缘病变进行自动分类,通过自监督预训练和对比正则化提升有限数据下的鲁棒性,在88名患者队列中验证了有效性。
Comments 10 pages, 3 figures, accepted at MICCAI 2026. Github link: https://github.com/veronicapignedoli/FRODO
P3B3:用于测量大语言模型中欧洲和巴西葡萄牙语变体偏差的多轮对话基准
发表机构 * NOVA University of Lisbon(新里斯本大学) ; NOVA LINCS(NOVA LINCS实验室)
AI总结 提出P3B3基准,通过专家策划的对话提示和评估框架,测量大语言模型在葡萄牙语变体(欧洲vs巴西)上的偏差和可控性,发现多数模型偏向巴西葡萄牙语。
Comments Accepted at MeLLM Workshop at ACL 2026
结构感知知识引导的异构Mamba用于颧上颌缝评估
发表机构 * College of Computer Science and Software Engineering, Shenzhen University(深圳大学计算机与软件学院) ; School of Artificial Intelligence, Shenzhen University(深圳大学人工智能学院) ; Affiliated Stomatology Hospital of Kunming Medical University(昆明医科大学附属口腔医院) ; Shenzhen University General Hospital(深圳大学总医院)
AI总结 提出首个ZMS公开数据集(3790张图像,覆盖4-24岁),并设计SKMamba框架,通过解耦双路径架构、隐式边缘提取器和跨模态语义对齐模块,实现自动化ZMS成熟度评估,性能优于现有方法。
MyPCBench: 个人智能计算机使用代理的基准测试
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出MyPCBench基准,在模拟真实桌面环境(含17个Web应用)中测试个人计算机使用代理,发现最佳模型Claude Opus 4.6仅解决55.4%任务,失败集中在多应用和长轨迹任务。
通过噪声放大揭示伪影:AI生成视频检测的新视角
发表机构 * School of Cyber Science and Engineering, Southeast University(东南大学网络空间安全学院) ; Purple Mountain Laboratories(紫金山实验室) ; Engineering Research Center of Blockchain Application, Supervision And Management (Southeast University), Ministry of Education(教育部区块链应用监管工程研究中心(东南大学)) ; School of Computer Science and Engineering, Southeast University(东南大学计算机科学与工程学院) ; Key Laboratory of New Generation Artificial Intelligence Technology and Its Interdisciplinary Applications (Southeast University), Ministry of Education(教育部新一代人工智能技术及其跨学科应用重点实验室(东南大学))
AI总结 针对AI生成视频检测难题,提出基于位平面的噪声放大方法,通过像素级强度增强、区域级空间放大和帧级时间聚合,在GenVidBench和HardGVD基准上超越现有方法。
Comments 13 pages, 5 figures
傲慢与偏见:迈向相互通信的驾驶员行为建模的信息论框架
发表机构 * State Key Laboratory of Automotive Chassis Integration and Bionics, Jilin University(吉林大学汽车底盘集成与仿生国家重点实验室) ; Beijing National Research Center for Information Science and Technology, Tsinghua University(清华大学北京信息科学与技术国家研究中心) ; Department of Engineering, Brock University(布鲁克大学工程系) ; Department of Automatics, Federal University of Lavras(拉夫拉斯联邦大学自动化系)
AI总结 针对自动驾驶与人类驾驶车辆间意图误读导致的安全与效率问题,提出基于信息论的隐式相互通信模型,结合贝叶斯说服博弈与信息论奖励,在NGSIM数据集上降低强制换道预测误差达20%。
Comments 16 pages, 10 figures. Accepted for the IEEE Transactions on Intelligent Transportation Systems (T-ITS), June 2026
LLM策略优化的第一性原理推导:从期望奖励到GRPO及其结构扩展
发表机构 * Nanjing University(南京大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Shanghai Jiao Tong University(上海交通大学) ; Peking University(北京大学) ; Fudan University(复旦大学) ; Nanjing University of Aeronautics and Astronautics(南京航空航天大学) ; Shanghai Innovation Institute(上海创新研究院)
AI总结 本文从第一性原理出发,基于轨迹概率和奖励两个轴,统一分析了从REINFORCE、PPO到GRPO及其变体的LLM策略优化方法,揭示了设计选择背后的原理和复合失败模式。
MuVAP: 面向野外对话轮次预测的多模态多方语音活动投影
发表机构 * Department of Speech Music and Hearing, KTH Stockholm, Sweden(瑞典皇家理工学院言语、音乐与听觉系)
AI总结 提出MuVAP框架,通过将声学预测锚定到面部轨迹,实现从单声道音频和单摄像头视角进行说话人感知的轮次预测,并引入角色相对投影和AVCC数据集解决多方建模和因果跟踪问题。
从平均奖励马尔可夫决策过程中的单条轨迹学习策略
发表机构 * Seoul National University(首尔国立大学) ; UCLA(加州大学洛杉矶分校) ; Purdue University(普渡大学)
AI总结 针对弱通信平均奖励MDP,首次从单条轨迹建立有限样本复杂度保证,提出无模型方法,值函数和策略方法分别达到$\widetilde{O}(1/\varepsilon^2)$和$\widetilde{O}(1/\varepsilon^4)$的样本复杂度。
AgentFairBench: LLM智能体在行动时是否存在歧视?
发表机构 * Florida International University(佛罗里达国际大学) ; Boston University(波士顿大学) ; Department of Computer Science and Engineering, Indian Institute of Technology Patna(印度帕纳吉印度理工学院计算机科学与工程系)
AI总结 提出AgentFairBench基准,通过反事实匹配集和偏差传导框架,评估LLM智能体在招聘、贷款和医疗分诊中的行动公平性,发现统计量级不匹配会夸大歧视,而匹配后Claude Haiku无显著人口统计效应。
Comments Submitted to IEEE Access
医疗世界模型:表示医疗状态、建模临床动态与指导干预策略
发表机构 * College of Computer Science, Zhejiang University(浙江大学计算机科学与技术学院) ; School of Medicine, Zhejiang University(浙江大学医学院) ; Department of Biomedical Informatics, Harvard University(哈佛大学生物医学信息学系)
AI总结 本文提出医疗世界模型框架,通过构建患者状态、建模临床动态和支持干预决策,推动医疗AI从静态诊断向动态模拟演进。
用户即代码:面向个性化智能体的可执行记忆
发表机构 * Pine AI
AI总结 提出可执行记忆范式User as Code,将用户模型转化为可运行的Python代码,通过两阶段流水线实现精确聚合与规则执行,在长对话基准上达到78.8%召回率,聚合问题准确率99%,并能主动触发安全警报。
多轮反射掩码激发掩码扩散模型中的推理能力
发表机构 * University of Maryland(马里兰大学) ; Virginia Tech(弗吉尼亚理工大学) ; Intuit ; UC Davis(加州大学戴维斯分校) ; MBZUAI(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出反射掩码(RM)方法,通过轻量级后训练使掩码扩散模型具备多轮掩码与去噪能力,实现迭代局部修正,无需架构改变,在文本生成、数独和图像编辑等任务中优于基线。
Comments 22 pages, 6 figures, 5 tables
VENOM: 用于全身运动追踪的多功能具身网络
发表机构 * Graduate School of Engineering Science, University of Osaka(大阪大学工学研究科)
AI总结 提出VENOM,一种基于GPT的跨具身全身运动追踪模型,在仿真中实现多个人形机器人的全身运动追踪,无需分离上下身控制。
深度变换器中的自适应推理与函数向量
发表机构 * Joseph Henry Laboratories of Physics, Princeton University(普林斯顿大学约瑟夫·亨利物理实验室)
AI总结 提出深度变换器作为平均场交互系统实现分布式推理的理论,利用函数向量逐层推断潜在上下文变量,在上下文回归任务中预测非高斯分层结构与深度的关系,并通过约束线性注意力变换器验证。
PATCH: 基于动作块条件潜在补丁创新的机器人操作监控
发表机构 * School of Computer Science, The University of Sydney(悉尼大学计算机科学学院) ; Australian Centre For Robotics, The University of Sydney(悉尼大学澳大利亚机器人中心)
AI总结 提出PATCH监控器,通过动作块条件潜在补丁创新检测局部场景动态,实现扰动感知的机器人操作干预与恢复。
从情感预测到情感预报:纵向文本中不同信息源的证据
发表机构 * School of Electrical Engineering and Computer Science (SEECS), National University of Sciences and Technology (NUST)(国立科技大学电气工程与计算机科学学院) ; Department of Communication, Quality Management and Information Systems, Mid Sweden University(中瑞典大学通信、质量管理和信息系统系)
AI总结 本文区分当前情感估计与未来情感变化预报,提出TSAP框架和ACF-Hybrid模型,实验表明文本语义支持当前预测,而数值轨迹动力学更适用于未来变化预报。
渐进式知识引导的大型语言模型框架用于轴承故障诊断
发表机构 * Harbin Institute of Technology, China(哈尔滨工业大学,中国) ; Eastern Institute of Technology, China(东方技术研究所,中国)
AI总结 提出渐进式物理引导多尺度振动信号处理框架,通过81维测量描述符、故障自适应分割和隐式知识编码,在四个数据集上实现98.49%诊断精度并降低12.6倍计算成本。
多模态评估者偏好坍缩:自进化智能体中的跨模态传染
发表机构 * Qilu Institute of Technology, School of Software Engineering(齐鲁理工学院软件工程学院)
AI总结 研究多模态自评估中偏好坍缩的加剧现象,发现跨模态传染导致策略选择扭曲,并引入传染矩阵量化风险。
Comments 19 pages, 0 figures
MMDiff: 扩展扩散变换器用于多模态生成
发表机构 * University of Oxford, Visual Geometry Group(牛津大学视觉几何组)
AI总结 提出MMDiff框架,利用冻结的扩散变换器通过轻量解码器联合生成图像及多种密集感知模态,发现多时间步特征融合与空间变化聚合权重是关键,在语义分割等任务上取得优异性能。
Sinkhorn-CPD:通过非平衡熵最优传输实现鲁棒点云配准
发表机构 * LMIB & School of Mathematical Sciences, Beihang University(北京航空航天大学数学科学学院与LMIB) ; State Key Laboratory of Mathematical Sciences, Academy of Mathematics and Systems Science, Chinese Academy of Sciences(中国科学院数学与系统科学研究院数学科学国家重点实验室) ; Beijing Key Laboratory of Artificial Intelligence Innovation and Application in the Machine Tool Industry, School of Artificial Intelligence, Beihang University(北京航空航天大学人工智能学院北京市机床行业人工智能创新与应用重点实验室) ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 提出Sinkhorn-CPD,用双KL散度惩罚替代CPD的目标边际约束,通过非平衡熵最优传输和广义Sinkhorn迭代实现鲁棒点云配准,方差自动退火无需手动调参。
Comments 14 pages, 10 figures; journal version published in Computer-Aided Design
在放弃之前再看一眼:预算约束下的共形证据获取用于可靠的视觉-语言模型
发表机构 * South China University of Technology(华南理工大学) ; RIKEN Center for Advanced Intelligence Project(RIKEN先进智能研究中心) ; Columbia University(哥伦比亚大学)
AI总结 针对视觉-语言模型幻觉问题,提出预算约束共形证据获取(BCEA)方法,通过三级决策(回答、放弃或获取额外视觉证据)在有限计算预算下控制幻觉率,并恢复有限样本保证。
超越防御性报告:机器学习在保险主动反洗钱控制中的应用
发表机构 * Fremtind Insurance(Fremtind保险) ; University of Oslo(奥斯陆大学) ; Norwegian Computing Center(挪威计算中心)
AI总结 本文利用挪威保险公司的生产数据,训练梯度提升决策树模型检测洗钱索赔,并引入欺诈标签辅助训练,在预算加权捕获率指标下,最佳模型在2-6%的审查索赔中捕获近三分之二的洗钱案例。
FraudSMSWalker: 用于短信到网页欺诈检测的智能体大语言模型基准测试
发表机构 * Baimaohui(白猫汇) ; PPSUC(中国人民公安大学)
AI总结 提出FraudSMSWalker基准,通过屏蔽URL的短信-网页对评估智能体大语言模型在跨渠道欺诈检测中的证据推理能力,发现模型能检测可疑线索但难以保持良性召回。
视觉-语言模型作为组织病理学中的零标注预言机
发表机构 * Imperial College London(帝国理工学院) ; Leiden University Medical Center(莱顿大学医学中心) ; KU Leuven(鲁汶大学) ; University Hospitals Leuven(鲁汶大学医院) ; University Medical Center Utrecht(乌得勒支大学医学中心) ; Friedrich-Alexander University Erlangen-Nürnberg(埃尔朗根-纽伦堡大学)
AI总结 提出一种粗到细方法,利用通用视觉-语言模型作为零标注预言机进行前景分割,在特殊染色上优于监督基线,并通过伪标签蒸馏轻量学生模型。
Comments 11 pages, 1 figure, 6 tables. Code available at https://github.com/VishalJ99/vlm-wsi-auto-context
带延迟的近最优随机线性赌博机
发表机构 * Tel Aviv University(特拉维夫大学) ; University of Iowa(爱荷华大学) ; Tel Aviv University and Google Research(特拉维夫大学和谷歌研究)
AI总结 研究多种延迟模型下的随机线性赌博机,给出近最优遗憾界,揭示延迟与线性结构交互的维度影响。
基于最优传输的单轮联邦学习分布对齐
发表机构 * AI for Good (AIGO), Italian Institute of Technology(意大利技术研究院AI for Good (AIGO)) ; MaLGa-DIBRIS, University of Genoa(热那亚大学MaLGa-DIBRIS) ; Department of Computer Science, University of Verona(维罗纳大学计算机科学系)
AI总结 针对单轮联邦学习中客户端数据异构导致的特征错位问题,提出SLOT-Align方法,利用共享冻结编码器、Bures-Wasserstein重心和测地最优传输映射实现无训练的特征对齐,提升模型精度与鲁棒性。
Comments Accepted at the 43rd International Conference on Machine Learning (ICML 2026)