Beyond Absolute Scores: Relative Edit-induced Difference for Generalizable Image Aesthetic Assessment
超越绝对分数:基于编辑诱导差异的通用图像美学评估
发表机构 * Xiaomi Corporation, Beijing, China(小米公司,北京,中国)
AI总结 提出RED-Aes框架,利用可控图像编辑模型模拟人类审美推理,通过相对编辑诱导差异学习通用美学原则,实现跨场景泛化。
超越绝对分数:基于编辑诱导差异的通用图像美学评估
发表机构 * Xiaomi Corporation, Beijing, China(小米公司,北京,中国)
AI总结 提出RED-Aes框架,利用可控图像编辑模型模拟人类审美推理,通过相对编辑诱导差异学习通用美学原则,实现跨场景泛化。
PiL-World: 用于VLA策略环内评估的块式世界模型
发表机构 * Tongji University(同济大学) ; AIRC, Midea Group(美的集团人工智能研究院)
AI总结 提出PiL-World,一种块式世界模型,通过交替VLA推理和世界模型预测实现闭环评估,无需真实机器人执行,显著降低成功率估计误差。
在预测之前想象:用于视频事件预测的交错潜在视觉推理
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Shanghai AI Laboratory(上海人工智能实验室) ; City University of Hong Kong(香港城市大学) ; Nanjing University(南京大学) ; Fudan University(复旦大学) ; Zhejiang University(浙江大学) ; University of Electronic Science and Technology of China(电子科技大学)
AI总结 提出Future-L1框架,通过交错潜在视觉推理在自回归解码中交替语言token和连续潜在视觉跨度,结合LA-DAPO强化学习优化,在视频事件预测任务上取得最先进结果。
ExpSpeech-Net: 表情与语音的多模态融合用于深度伪造检测
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学)
AI总结 提出轻量级ExpSpeech-Net模型,通过融合面部表情和语音模式,利用SqueezeNet和RNN骨干网络及智能特征选择,实现高效深度伪造检测,准确率达94.5%。
DRIFT:一种用于视觉-语言模型中连续输出解码的残差流适配器
发表机构 * University of Wisconsin–Madison(威斯康星大学麦迪逊分校) ; West Lafayette Jr./Sr. High School(韦斯特拉法叶高中)
AI总结 提出DRIFT框架,通过结合基础预测器和基于流匹配的生成式精化模块,将预训练视觉-语言模型适配到连续解码任务,在视觉定位和机器人控制等任务上优于回归和生成方法。
超越软掩码:用于鲁棒GNN可解释性的硬扰动混合解释器
发表机构 * Xi’an Jiaotong University(西安交通大学) ; PayPal ; bellevue USA(贝尔维尤美国)
AI总结 提出基于广义图信息瓶颈的硬扰动混合解释框架HPME,通过图池化提取离散解释子图并采用结构级替换的混合策略,解决软掩码方法中标签无关信息泄漏和分布偏移问题,提升解释保真度。
Sagnac辅助增强型OTDR分布式声学传感:标准化基准与工程评估框架
发表机构 * East China Jiaotong University(东华交通大学) ; School of Materials and Energy, Guangdong University of Technology(广东工业大学材料与能源学院) ; Jiangxi Tonghui Technology Group Co., Ltd.(江西 Tonghui 技术集团有限公司) ; School of Artificial Intelligence and Big Data, Guangzhou Vocational University of Science and Technology(广州科学技术职业大学人工智能与大数据学院)
AI总结 提出一种Sagnac辅助增强型ϕ-OTDR传感架构和标准化基准框架,通过双分支融合模型在10公里光纤上实现89.79%准确率和5.00%虚警率,解决了偏振衰落和干扰问题。
余弦误导:辅助损失重塑视觉语言模型,而非其潜变量
发表机构 * National University of Singapore(新加坡国立大学)
AI总结 本文通过实验发现,在视觉语言模型的潜视觉推理中,余弦相似度等对齐损失与准确性负相关,并引入PRISM诊断工具揭示潜变量被绕过,辅助损失主要通过共享参数重塑语言模型。
MARDoc:面向多模态长文档问答的记忆感知精炼智能体框架
发表机构 * Tianjin University(天津大学) ; Qifu Technology(启福科技) ; Beihang University(北航) ; Jiangnan University(江南大学)
AI总结 提出MARDoc框架,通过解耦为探索、精炼和反思三个智能体,并利用结构化记忆替代完整交互历史,减少上下文噪声,提升多模态长文档问答性能。
PlanBench-V: 面向视觉语言模型的空间规划地图基准
发表机构 * Behavioral and Spatial AI Lab(行为与空间人工智能实验室) ; Tongji University(同济大学) ; Peking University(北京大学) ; College of Architecture and Urban Planning(建筑与城市规划学院)
AI总结 为评估视觉语言模型在空间规划地图解读中的能力,构建了专家标注数据集SPMD,并提出基于感知、推理、关联、实施四阶段认知框架的基准PlanBench-V,实验表明当前模型在实施类任务上存在显著局限。
类别特定分支注意力用于缓解类别不平衡下的梯度干扰
发表机构 * Thapar Institute of Engineering and Technology(泰帕理工学院) ; Netaji Subhash University of Technology(尼赫鲁谢赫技术大学)
AI总结 本文通过引入梯度冲突矩阵诊断框架,提出类别特定分支注意力(CSBA)机制,通过分支特定的通道重加权减少梯度耦合,从而缓解深度神经网络在类别不平衡训练中多数类梯度抑制少数类学习的问题。
Comments 14 pages, 4 figures, 13 tables
让它简单:视觉-语言-动作模型的单步动作生成
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Shanghai Innovation Institute(上海创新研究院) ; Fudan University(复旦大学)
AI总结 针对视觉-语言-动作(VLA)模型,提出通过偏置训练时间分布至高频噪声状态,实现无需教师模型、蒸馏或辅助目标的单步动作生成,性能可匹配十步解码。
Comments 20 pages, 10 figures
VTI-CoT: 用于视频推理的视觉-文本交织思维链
发表机构 * Beijing University of Posts and Telecommunications(北京邮电大学) ; University of Hong Kong(香港大学) ; Beijing Shanwei Zhixing Technology Co., Ltd.(北京尚维智行科技有限公司) ; Tsinghua University(清华大学) ; Beihang University(北航)
AI总结 提出VTI-CoT框架,通过视觉-文本交织的思维链结合OCR压缩技术,提升视频推理准确性和训练效率。
Comments 25 pages, 7 figures
当AI说它感觉
发表机构 * Graduate School of Artificial Intelligence and Science, Rikkyo University(立命馆大学人工智能与科学研究生院) ; AI Technical Sector, Mamezo Co., Ltd.(Mamezo公司人工智能技术部门) ; AI Consulting Division, Mamezo Co., Ltd.(Mamezo公司人工智能咨询部门)
AI总结 通过自奖励强化学习(GRPO)鼓励大语言模型表达情感、意图和自我意识,并评估其对多种任务性能的影响。
Comments 15 pages, 2 figures
零拷贝语义传染:一种用于演化注意力图的内存流式架构
发表机构 * Department of Electrical Engineering, Nirma University(电气工程系,尼玛大学)
AI总结 提出一种基于Rust-Python的异构流式架构,通过零拷贝解析和神经霍克斯过程实现跨公司注意力图的实时构建与推理,在FNSPID语料库上相比随机基线提升1.70倍精度。
Comments Accepted to the 2026 ACM SIGMOD Workshop on Data Management for the Modern Financial Systems (FinDS). 10 pages, 4 figures
基于遥感的季节内作物制图机器学习算法比较
发表机构 * Oak Ridge National Laboratory(橡树岭国家实验室) ; Environmental Sciences Division(环境科学 division) ; Northeastern University(东北大学)
AI总结 本研究通过比较十种机器学习算法,利用Landsat-Sentinel反射率时间序列和轮作历史,在6月初准确绘制玉米和杏仁的30米分辨率作物图,并量化物候和分布不确定性,发现支持向量机总体表现最佳。
Comments 22 pages, 8 figures
TextWand:场景文本编辑的统一框架
发表机构 * School of Electronic and Computer Engineering, Peking University(电子与计算机工程学院,北京大学)
AI总结 提出TextWand统一框架,通过渲染和擦除原子操作分解复杂编辑任务,结合ORPE编码和RAS策略,实现场景文本的移除、生成和替换,并在新基准TextWand-Bench上超越现有模型。
DiG-Plan:通过扩散引导缓解工具图规划中的早期承诺问题
发表机构 * School of Computer Science, Shanghai Jiao Tong University(上海交通大学计算机科学学院)
AI总结 针对工具图规划中自回归解码的早期承诺问题,提出基于扩散生成器与自回归精炼器解耦的DiG-Plan框架,显著提升组合搜索覆盖率和任务性能。
Comments Accepted at IJCAI-ECAI 2026. This is an author preprint; the final version will appear in the IJCAI Proceedings
叙事知识编织器:面向长文本理解的叙事中心检索增强推理
发表机构 * Southeast University(东南大学) ; Beijing Zhongguancun Academy(北京中关村学院) ; Nanjing Normal University(南京师范大学) ; ZhuiWen Technology Co., Ltd.(智文科技有限公司)
AI总结 提出叙事知识编织器(NKW),一种基于源头的框架,通过将文本证据、原子事实、规范图结构、实体档案、交互、情节和故事线对齐,并利用文本、图和叙事工具进行后检索阅读,以解决长文本叙事QA中需要推理演化故事世界的问题,在STAGE、FairytaleQA和QuALITY上表现优异。
ViCuR: 视觉线索作为多模态在策略蒸馏中的可恢复特权
发表机构 * Shanghai AI Laboratory(上海人工智能实验室) ; Fudan University(复旦大学) ; Nanjing University(南京大学)
AI总结 提出ViCuR框架,通过将教师特权从答案侧替换为输入中的视觉线索,并引入轻量级线索恢复模块,解决多模态在策略蒸馏中的训练-测试不匹配问题,在七个基准上显著提升学生模型性能。
Comments 25 pages, 11 figures. Preprint, under review
通过风格诱导提示解释风格表示
发表机构 * University of Michigan(密歇根大学)
AI总结 提出一种通过风格诱导提示解释风格表示的新框架,利用大型语言模型生成自然语言描述,并在风格描述和模仿任务中优于直接提示的基线方法。
Comments Accepted to ACL 2026 Findings
基于机器学习的监控摄像头实时威胁检测
发表机构 * GitHub
AI总结 提出基于YOLOv8的实时目标检测框架,利用自定义钝器数据集与公开枪支刀具数据集训练模型,实现监控场景下枪支、刀具和钝器的有效检测。
基于评论的异构多智能体推理用于可靠的数学问题求解
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出一种基于评论的异构多智能体框架,通过生成器-验证器结构和自适应学习系统,利用中间反馈评估和引导推理过程,在GSM8K基准上实现高达13%的准确率提升,并减少对大模型的依赖。
Comments 6 pages
并行雅可比解码用于快速自回归图像生成
发表机构 * Westlake University(西交利物浦大学)
AI总结 提出并行雅可比解码(PJD),通过二维空间域扩展草稿令牌并调整注意力掩码,实现无需训练的自回归图像生成加速,在保持生成质量的同时获得4.8倍至6.4倍加速。
Comments Accepted by CVPR 2026
Seeing Time: 视觉-语言模型中的时间顺序推理与捷径偏差基准测试
发表机构 * College of Computer Science and Technology, Jilin University(吉林大学计算机科学与技术学院) ; College of Computing and Data Science, Nanyang Technological University(南洋理工大学计算与数据科学学院) ; School of Computer Science, Wuhan University(武汉大学计算机学院) ; School of Computing Technologies, RMIT University(皇家墨尔本理工学院计算技术学院)
AI总结 本文提出一个新基准,通过三个专门数据集评估视觉-语言模型在图像内和跨图像的时间顺序推理能力,并揭示模型常利用颜色等表面线索而非真正时间特征。
T-SAR-JEPA:通过潜在预测在SAR幅度堆栈中进行自监督时间异常检测
发表机构 * Independent Researcher(独立研究者) ; Dakota State University(达科塔州立大学)
AI总结 提出T-SAR-JEPA框架,通过自监督潜在预测在SAR幅度堆栈中检测时间异常,在DFC 2026数据集上达到77.0%的ROC-AUC,优于多种基线方法。
Comments Won IEEE GRSS Data Fusion Contest 2026; to appear in IGARSS 2026 proceedings
DexFuture: 用于双手灵巧工具使用的分层未来状态视觉运动目标
发表机构 * UC San Diego(圣迭戈大学)
AI总结 提出DexFuture分层系统,通过高层未来状态视觉运动目标预测器和低层目标条件结构化灵巧策略,实现双手灵巧工具使用,达到90%的特权oracle性能,运行速度60Hz,比DexWM式CEM规划快约250倍。
通过 KV 缓存压缩的视角重新思考 LoRA 内存
发表机构 * Johns Hopkins University(约翰霍普金斯大学)
AI总结 本文研究文档级问答中参数侧内存(LoRA适配器)与上下文侧内存(KV缓存)的交互,发现LoRA在KV缓存压缩严重时能显著提升性能,并建议将文档LoRA视为解码时的参数化内存而非文档编码器。
PerceptUI: 用于UI/UX评估的与人类对齐的合成用户的LLM智能体
发表机构 * Woven by Toyota(丰田 woven)
AI总结 提出PerceptUI框架,通过对比反思微调和反思式提示进化,使多模态大语言模型能够模拟特定用户对界面问题的回答,实现与人类水平相当的UI/UX评估。
重新审视原型重放用于无样本持续学习:基于流形感知边界采样与自适应类别平衡损失
发表机构 * Chester F. Carlson Center for Imaging Science(切斯特·F·卡森成像科学中心) ; Rochester Institute of Technology(罗切斯特理工学院)
AI总结 针对无样本类增量学习,提出流形感知边界采样和自适应类别平衡损失,通过生成边界感知重放样本和动态调整类别权重,使原型重放方法恢复竞争力并达到最先进性能。
Comments Published in CVPR 2026 Findings. 10 pages, 6 figures. CVF version: https://openaccess.thecvf.com/content/CVPR2026F/html/Xu_Revisiting_Prototype_Rehearsal_for_Exemplar-Free_Continual_Learning_Manifold-Aware_Boundary_Sampling_CVPRF_2026_paper.html. Code: https://github.com/HXuSz11/ACB_CEOS_CVPR2026_Findings