An Extensible and Lightweight Unified Architecture for Demosaicing Pixel-bin Image Sensors
一种可扩展且轻量级的统一架构用于像素合并图像传感器的去马赛克
发表机构 * Samsung Research Institute Bangalore(三星研究院班加罗尔分院)
AI总结 提出模块化统一架构,通过无学习CFA识别模块和轻量级设计,实现多种像素合并传感器的去马赛克,提升图像质量并降低资源消耗。
一种可扩展且轻量级的统一架构用于像素合并图像传感器的去马赛克
发表机构 * Samsung Research Institute Bangalore(三星研究院班加罗尔分院)
AI总结 提出模块化统一架构,通过无学习CFA识别模块和轻量级设计,实现多种像素合并传感器的去马赛克,提升图像质量并降低资源消耗。
皮肤肿瘤皮肤镜图像的级联分类:可控敏感度与外部临床验证
发表机构 * Ivannikov Institute for System Programming of the Russian Academy of Sciences (ISP RAS)(俄罗斯科学院伊万尼科夫系统编程研究所) ; Orel Oncological Dispensary(奥廖尔肿瘤医院)
AI总结 本研究比较了四种深度学习架构在皮肤镜图像分类中的表现,提出一种两阶段级联分类方案,通过可调分诊阈值实现敏感度控制,并在外部临床数据集上验证了泛化差距。
Comments 28 pages, 8 figures, 10 tables
MiniPIC: 少于100行代码的灵活位置无关缓存
发表机构 * IBM Research(IBM研究院)
AI总结 提出MiniPIC,通过无位置编码KV缓存和用户控制缓存重用原语,在vLLM中实现多种位置无关缓存方法,显著提升预填充吞吐量并降低首个令牌延迟。
Comments 13 pages, 5 figures
选择与改进:理解推理后训练的机制
发表机构 * Microsoft Research NYC(微软研究院纽约) ; UIUC(伊利诺伊大学厄巴纳-香槟分校)
AI总结 通过控制实验揭示强化学习后训练通过策略选择和策略改进两种机制提升推理能力,并指出SFT数据和RL数据的不同作用。
NaturalFlow: 减少同步语音到语音翻译中破坏自然语音流的停顿
发表机构 * IPAI and ECE, Seoul National University(首尔大学IPAI与ECE) ; Department of AI, University of Seoul(首尔市立大学人工智能系)
AI总结 提出一个流畅性感知优化框架,通过利用模型内部信号(如语言多样性和语音时长的时间变异性)最小化块间静音,在同步翻译的低延迟和连续翻译的自然流畅之间找到平衡点。
Comments Proceedings of the 26th Interspeech Conference, Long Paper
EvoBrowseComp: 基于演化知识的搜索智能体基准测试
发表机构 * Northeastern University, China(东北大学(中国)) ; Weixin AI, Tencent Inc, China(腾讯微信AI(中国))
AI总结 提出EvoBrowseComp,一个通过实时网络遍历自动生成400道英文和400道中文无污染复杂问题的演化基准,用于评估搜索智能体在动态知识环境中的真实浏览能力。
Comments 14 pages, under review
G-Long:面向高效长期对话代理的图增强记忆管理
发表机构 * Sungkyunkwan University(成均馆大学)
AI总结 提出G-Long框架,利用微调小语言模型进行结构化三元组提取和关联检索,并引入注意力感知重要性评分机制,在降低计算开销的同时,在响应生成和记忆检索上达到最优性能。
Comments 22 pages, 8 figures, 14 tables
MÖVE:德国公共部门的大语言模型整体基准
发表机构 * Innovations Department, Bundesdruckerei GmbH(德国联邦印钞公司创新部)
AI总结 提出MÖVE基准,从性能和治理两个维度评估39个LLM在德国公共部门的应用,发现无单一模型全面领先,模型大小非质量可靠指标。
PP-OCRv6: 从1.5M到34.5M参数,在OCR任务上超越十亿级视觉语言模型
发表机构 * PaddlePaddle Team, Baidu Inc.(百度公司飞桨团队)
AI总结 提出轻量级OCR系统PP-OCRv6,通过统一MetaFormer架构和结构化重参数化,在服务器到边缘设备上以少数量级参数超越十亿级VLM,中模型识别准确率83.2%,检测Hmean 86.2%。
揭秘隐状态循环:基于在线强化学习的可切换潜在推理
发表机构 * HKUST(GZ)(香港科技大学(广州)) ; University of Cambridge(剑桥大学) ; NTU(南洋理工大学) ; JoinQuant(聚宽) ; HKUST(香港科技大学)
AI总结 提出SWITCH框架,通过离散边界令牌使隐状态循环推理兼容在线强化学习,并支持因果机制分析,实验表明其优于现有方法。
合成数据生成中的差异性影响
发表机构 * Univ. Lille, Inria, CNRS, Centrale Lille, UMR 9189 - CRIStAL(里尔大学、法国国家信息与自动化研究所、法国国家科学研究中心、中央里尔高等电力工程学院、计算机科学、信号与自动化研究实验室)
AI总结 本文重新审视合成数据生成中的差异性影响公平性概念,指出非差异性影响要求合成分布与真实分布一致,并分析SDG失败的原因(表达能力、抽样误差、差分隐私估计误差),提出分组学习策略以提升整体效用和公平性。
权威、真实性与引文偏差:研究大语言模型认知易感性的大规模多领域基准
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出AuthorityBench基准,通过2x2因子设计隔离引文权威信号对LLM认知行为的影响,发现引文存在(无论真假)均提高幻觉率,真声明搭配假引文时幻觉率上升3-22个百分点。
Comments 10 pages, 5 figures. Accepted to AI4GOOD and EIML at ICML 2026
FTP-1:一种跨触觉传感器的通用基础触觉策略,用于密集接触操作
发表机构 * Tsinghua University(清华大学) ; Shanghai Qi Zhi Institute(上海期智研究院) ; Sharpa ; Shanghai Jiao Tong University(上海交通大学) ; University of California, Berkeley(加州大学伯克利分校) ; ETH Zurich(苏黎世联邦理工学院) ; Fudan University(复旦大学) ; Shanghai Innovation Institute(上海创新研究院)
AI总结 提出FTP-1,首个通用基础触觉策略,通过异构编码器和共享Transformer专家,跨21种传感器和3000小时数据预训练,实现触觉操作技能的跨传感器迁移,在未见传感器上成功率提升31%。
LEDGER:基于公司年报的长上下文基准,用于基于事实的金融检索与提取
发表机构 * Artefact Research Center(Artefact 研究中心) ; MICS, CentraleSupélec, Université Paris-Saclay(巴黎萨克雷大学中央理工高等电力学院 MICS 实验室) ; Ardian
AI总结 提出LEDGER基准,包含4,999份数字化公司年报,用于评估大语言模型在长上下文金融任务中的表现,涵盖KPI检索、单值查找和全量提取任务。
Comments 5 pages, 1 figure
基于层级肿瘤结构比较的统一MRI脑图像翻译
发表机构 * South China University of Technology(华南理工大学) ; UTS Data Science Institute, University of Technology Sydney(悉尼科技大学UTS数据科学研究所)
AI总结 提出HTSCGAN模型,通过层级肿瘤结构比较和多种损失函数,提高多模态MRI脑图像翻译质量,在BraTS2020/2021上表现优异。
sebis at CRF Filling 2026: 用于医疗CRF填写的两阶段本地LLM流水线
发表机构 * Technical University of Munich(慕尼黑工业大学)
AI总结 提出基于MedGemma-27B的两阶段本地流水线,分离二值存在分类与值提取,通过少样本上下文学习实现隐私保护,在CRF填写任务上取得0.55 macro-F1,排名第二。
Comments Published in Proceedings of the Third Workshop on Patient-Oriented Language Processing (CL4Health), LREC 2026
情绪调节改善基于深度学习的图像分类
发表机构 * Mare Group(Mare集团) ; NOVA LINCS(NOVA LINCS实验室) ; Institute of Engineering (ISE), University of Algarve(阿尔加维大学工程学院) ; Department of Energy Technologies and Renewable Sources, ENEA Casaccia Research Center(ENEA卡萨恰研究中心能源技术与可再生能源部)
AI总结 提出情绪调节框架,通过人工主观体验在深度学习中建模情绪,在图像分类任务中预训练ResNet和ViT,在CIFAR-10/100上超越现有方法,成为情绪增强深度学习的新标杆。
噪声下谱学习的极限
发表机构 * Joz̆ef Stefan Institute(约瑟夫·斯特凡研究所) ; Faculty of Mathematics and Physics, University of Ljubljana(卢布尔雅那大学数学与物理学院) ; Department of Chemical Engineering, Universitat Rovira i Virgili(罗维拉-威尔吉利大学化学工程系) ; Center for Computational Science and Applied Mathematics (ComSCIAM), Universitat Rovira i Virgili(罗维拉-威尔吉利大学计算科学与应用数学中心) ; ICREA(加泰罗尼亚研究与高等研究院)
AI总结 研究监督回归中加性标签噪声对谱方法的影响,推导出噪声导致系数漂移的闭合表达式,揭示了由单一内在噪声尺度控制的通用退化曲线。
LaME: 通过信息瓶颈在潜在空间中进行多模态嵌入的推理学习
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Kuaishou Technology(快手科技) ; Zhejiang University(浙江大学) ; Tsinghua University(清华大学)
AI总结 提出LaME方法,将面向嵌入的潜在推理建模为弱监督信息瓶颈,使用可学习推理令牌在单次前向传播中完成推理,避免显式CoT的高计算成本和标注依赖,实现60倍加速。
一种面向新兴材料的绿色溶剂筛选工具:基于不确定性感知、Transformer增强的迁移学习
发表机构 * Technical University of Munich(慕尼黑工业大学) ; Institute of Structure of Matter – National Research Council Rome (ISM-CNR)(罗马国家研究委员会物质结构研究所) ; University of Rome "Tor Vergata"(罗马第二大学)
AI总结 提出一种结合预训练Transformer模型和不确定性量化的迁移学习方法,在极少数据下高精度预测溶解度参数,并开发了可定制的绿色溶剂筛选工具。
AAbAAC:用于自身免疫信息抽取的标注语料库
发表机构 * Inserm, Université Paris Cité, U1163 Institut Imagine(法国国家健康与医学研究院、巴黎西岱大学、U1163 想象研究所) ; Inria, Inserm, Université Paris Cité, U1346 HeKA(法国国家信息与自动化研究所、法国国家健康与医学研究院、巴黎西岱大学、U1346 HeKA) ; Freelance researcher(自由研究员)
AI总结 针对自身免疫领域信息抽取性能不足,构建了包含115篇PubMed摘要的AAbAAC语料库,手动标注实体和关系,通过微调NER模型验证了其有效性。
Y-BotFrame:一种用于四足机器人助手的可扩展具身智能体框架
发表机构 * Xidian University(西安电子科技大学)
AI总结 提出Y-BotFrame框架,集成多模态感知与大语言模型认知核心,将自然语言指令映射为可执行任务单元,实现无遥控器的人机协作,支持模块化扩展。
无需隐藏提示!仅通过展示性修改即可欺骗AI同行评审
发表机构 * University of Texas at Austin(德克萨斯大学奥斯汀分校) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; University of Texas at Dallas(德克萨斯大学达拉斯分校) ; Independent Researcher(独立研究者)
AI总结 研究通过仅修改论文的展示层面(如摘要、贡献框架等)而不改变科学内容,利用AI评审反馈进行对抗性重打包,成功提升评分,揭示AI评审易被表面印象误导的结构性缺陷。
Comments 35 pages, 5 figures
可见光和热红外光谱范围内视频监控的增强技术
发表机构 * Fraunhofer Institute of Optronics, System Technologies and Image Exploitation IOSB(弗劳恩霍夫光学、系统技术与图像处理研究所)
AI总结 针对多光谱CNN目标检测,研究可见光与热红外图像差异,探索数据增强技术对分类精度的影响,以提升监控性能。
Comments 8 pages
SeamEdit: 一种用于大图像语义编辑的黑盒VLM无关流水线
发表机构 * Technische Universität Darmstadt(达姆施塔特工业大学) ; Fine-Arts Educator, Yuncheng Middle School(运城中学美术教师)
AI总结 提出SeamEdit,一种无需训练、模型无关的流水线,通过五阶段后处理解决大图像分块编辑中的语义变形、对齐漂移和接缝伪影问题,实现高质量语义编辑。
Comments 19 pages, 9 figures, 2 tables
RoboProcessBench:视觉语言机器人操作中的过程感知理解基准测试
发表机构 * Shanghai AI Laboratory(上海人工智能实验室) ; Zhejiang University(浙江大学) ; Shanghai Jiao Tong University(上海交通大学) ; Tsinghua University(清华大学) ; China University of Mining Technology(中国矿业大学)
AI总结 提出RoboProcessBench基准,通过静态监控和动态推理两个维度、12个诊断问题家族,评估视觉语言模型在机器人操作中的过程感知理解能力,并基于58k问答对数据集验证了当前模型的局限性及后训练的有效性。
Nous: 提取并注入预测市场行为背后认知的尝试
发表机构 * Independent Researcher(独立研究员)
AI总结 针对LLM代理在预测市场中认知同质化问题,提出Nous方法从真实交易行为提取八维行为画像并注入提示,发现提取部分有效但提示注入无法传递认知多样性。
Comments 37 pages, 1 figure, 7 tables. Reproduction artifacts (code, frozen profiles, prompts, model outputs): https://github.com/WillChienT/nous-paper
TetherCache: 基于门控召回与可信对齐的自回归长视频生成稳定性方法
发表机构 * Tsinghua University(清华大学) ; D-INFK, ETH Zürich(苏黎世联邦理工学院计算机科学系)
AI总结 提出TetherCache,一种无需训练、即插即用的缓存管理策略,通过门控召回(GRAB)和可信对齐编辑(TAME)缓解自回归视频扩散模型中的上下文漂移,实现稳定长视频生成。
Comments 17 pages, 8 figures
SAM-Deep-EIoU:面向多目标跟踪的选择性掩码传播
发表机构 * KTH Royal Institute of Technology(瑞典皇家理工学院)
AI总结 提出选择性掩码传播算法,仅在不确定性高的帧调用视频目标分割模型,以轻量级基跟踪器为主,在DanceTrack和SportsMOT上提升性能,SportsMOT达86.8 HOTA。
GeoCFNet: 几何感知置信场网络用于机器人辅助内镜黏膜下剥离术
发表机构 * Department of Electronic Engineering, The Chinese University of Hong Kong(香港中文大学电子工程系) ; Theory Lab, Central Research Institute, 2012 Labs, Huawei Technologies Co. Ltd.(华为技术有限公司中央研究院2012实验室理论实验室)
AI总结 提出GeoCFNet,通过几何感知置信场估计解决动态内镜场景下的解剖引导问题,集成Token差异化融合和几何感知空间正则化,实现精确稳定的置信场预测。
Comments IEEE ICIA 2026