Entropy Distribution as a Fingerprint for Hallucinations in Generative Models
熵分布作为生成模型中幻觉的指纹
发表机构 * Global Technology Applied Research(全球技术应用研究)
AI总结 本文提出基于token级熵分布(而非仅均值)的校准熵分数(CES),通过单次前向传递和黑盒logits访问实现幻觉检测,并提供理论保证和实证验证。
熵分布作为生成模型中幻觉的指纹
发表机构 * Global Technology Applied Research(全球技术应用研究)
AI总结 本文提出基于token级熵分布(而非仅均值)的校准熵分数(CES),通过单次前向传递和黑盒logits访问实现幻觉检测,并提供理论保证和实证验证。
MORI-Seg: 无需实例标注的形态学几何学习用于实例分割
发表机构 * Southern University of Science and Technology(南方科技大学) ; Sichuan University(四川大学) ; University of Regensburg(莱茵-魏尔堡大学) ; Cornell University(康奈尔大学) ; Vanderbilt University(范德比尔特大学) ; University of Notre Dame(Notre Dame 大学) ; Vanderbilt University Medical Center(范德比尔特大学医学中心) ; Cornell Tech(康奈尔科技) ; Weill Medical College of Cornell University(康奈尔大学韦尔医学院)
AI总结 提出MORI-Seg框架,通过从语义掩码学习形态感知几何表示(对象中心距离场和边界带表示)以及类条件特征解耦模块,在仅语义监督下实现端到端的实例分割,提升拥挤粘连区域的实例分离精度。
基于可变形对象先验的相机空间类别级3D对应
发表机构 * University of Freiburg, Germany(弗赖堡大学,德国) ; CISPA Helmholtz Center for Information Security, Germany(信息安全部署中心,德国)
AI总结 通过学习共享可变形对象先验,从单张图像预测类别内实例间一致的3D位置,无需显式对应监督,并在新基准HouseCorr3D上达到最优。
Comments 14 pages, 4 figures. Data and code are publicly available at https://github.com/GenIntel/HouseCorr3D
AI,掌舵吧:是什么驱动人机协作问答中的委托与信任?
发表机构 * University of Maryland(马里兰大学) ; University of California(加州大学) ; MBZUAI
AI总结 通过问答游戏实验,研究人类在何时以及为何选择委托AI或采纳其建议,发现人类存在对AI正确建议的低依赖(3.9%)和错误建议的过度依赖(1.7%),并受确认偏见影响,建议通过校准置信度、基于证据的解释和信任细化机制来改进人机协作。
Comments Findings of the Association for Computational Linguistics, 2026
构建以社区为中心的普诺克丘亚语自然语言处理资源
发表机构 * University of Cambridge (UK)(剑桥大学(英国)) ; Stanford University (USA)(斯坦福大学(美国)) ; ERTIM - Inalco (France)(ERTIM - Inalco(法国))
AI总结 通过参与式设计收集66小时语音数据,微调Whisper-base等模型,首次为普诺克丘亚语建立ASR基准并开源所有资源。
Comments Sixth Workshop on NLP for Indigenous Languages of the Americas (AmericasNLP 2026), co-located with ACL 2026
IRDS: 通过验证器耦合的稀疏自编码器覆盖实现可解释的RLVR数据选择
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港理工大学(广州)) ; Nanjing University of Aeronautics and Astronautics(南京航空航天大学) ; The 63rd Research Institute, National University of Defense Technology, Nanjing(国防科技大学第六三研究所,南京)
AI总结 提出IRDS方法,基于稀疏自编码器簇和验证器耦合的覆盖目标,选择模型失败但可学习的RLVR训练实例,提升数学推理准确率并降低计算成本。
Comments 24 pages,3 figures,18 tables
PointQ-Bench:诊断性和可解释的点云质量评估基准
发表机构 * Xi’an Jiaotong University(西安交通大学) ; Xidian University(西安电子科技大学) ; University of Chinese Academy of Sciences(中国科学院大学) ; Ningxia University(宁夏大学)
AI总结 提出PointQ-Bench基准,通过异常感知、缺陷诊断、可用性分级和开放式质量报告任务,将点云质量评估从标量评分扩展到全面质量理解,并揭示当前模型在感知与诊断之间的差距。
学习标注:一种用于半监督指代表达分割的强化自进化框架
发表机构 * School of Computer Science and Engineering, Nanjing University of Science and Technology(南京理工大学计算机科学与工程学院) ; School of Information Engineering, Huzhou Normal University(湖州师范学院信息工程学院) ; School of Artificial Intelligence, Nanjing University of Posts and Telecommunications(南京邮电大学人工智能学院) ; National Key Laboratory of Tibetan Language Intelligence(藏语智能国家重点实验室) ; Zhejiang University(浙江大学) ; Beijing Normal University(北京师范大学)
AI总结 提出L2L框架,通过强化学习将伪标签构建转化为可学习的决策过程,结合多模态大模型提取先验,实现半监督指代表达分割的联合优化。
Comments 24 pages, 13 figures
POINav: 在真实世界视觉语言导航中基准测试与增强最终米级到达
发表机构 * Amap CV Lab, Alibaba Group(阿里集团阿里的Amap视觉实验室)
AI总结 针对真实世界POI导航的“最后几米”挑战,提出首个闭环评估基准POINav-Bench,并设计脑-动作框架结合70K真实标志-入口数据对,实现高保真度导航。
Comments 25 pages, 9 figures
桥接无线电地图估计中的采样分布偏移:一种轨迹感知范式
发表机构 * School of Artificial Intelligence, Xidian University(西安电子科技大学人工智能学院) ; Pengcheng Laboratory(鹏城实验室) ; Department of Computer Science and Engineering, Southern University of Science and Technology(南方科技大学计算机科学与工程系) ; Department of Electronics, Peking University(北京大学电子系) ; Guangzhou Institute of Technology, Xidian University(西安电子科技大学广州研究院)
AI总结 针对无人机轨迹采样与随机采样分布不匹配导致的性能下降,提出基于随机触发轨迹采样的轨迹感知训练范式,有效降低估计误差。
PIRS:基于物理信息奖励塑形的SAC建筑能源管理
发表机构 * Politecnico di Torino(托里尼理工大学)
AI总结 针对深度强化学习中奖励函数设计缺乏物理基础的问题,提出PIRS方法,将ISO 7730 PMV公式嵌入SAC的多目标奖励中,提升可解释性和性能。
Comments N pages, 4 figures, 3 tables. Accepted at the 2nd Workshop on AI-Driven Energy Efficiency in Dynamic Systems (AI-DEEDS '26), co-located with ACM e-Energy / ACM Sustainability Week, Banff, AB, Canada, June 22-25, 2026
ProgVLA:进度感知的机器人操作技能学习
发表机构 * NAVER LABS(NAVER实验室) ; NAVER LABS Europe(NAVER实验室欧洲)
AI总结 提出ProgVLA,一种紧凑的视觉-语言-动作模型,通过显式表示任务进度和两阶段Perceiver重采样机制,在有限计算和内存下实现长序列多模态处理,并在多任务操作基准上达到或超越大模型性能。
Proprio: 用于物理合理视频生成的潜在自评分与推理时精炼
发表机构 * École Polytechnique Fédérale de Lausanne(洛桑联邦理工学院) ; Télécom Paris(巴黎电信学院)
AI总结 提出Proprio,一种无需训练框架,通过分析模型在潜在扰动下的流残差作为自评分信号,结合最佳N搜索和梯度自精炼,提升冻结视频生成器输出的物理合理性。
VidPrism: 用于图像到视频迁移的异构混合专家模型
发表机构 * State Key Laboratory of Networking and Switching Technology(网络与交换技术国家重点实验室)
AI总结 提出VidPrism,一种异构时间混合专家框架,通过功能专业化专家、内容感知多速率采样和动态双向融合机制,解决传统MoE中专家同质化问题,在视频识别基准上达到最先进性能。
Comments CVPR2026 camera ready
当求助者难以帮助:评估情感支持对话系统在最坏情况交互中的表现
发表机构 * Hubei Provincial Key Laboratory of Artificial Intelligence and Smart Learning(湖北人工智能与智能学习省级重点实验室) ; National Language Resources Monitoring and Research Center for Network Media(网络媒体语言资源监测与研究中心) ; School of Computer Science, Central China Normal University(华中师范大学计算机学院) ; Faculty of Artificial Intelligence in Education, Central China Normal University(华中师范大学教育人工智能学院) ; School of Chinese Language and Literature, Central China Normal University(华中师范大学中文语言文学学院)
AI总结 本研究通过专家模拟和提出最坏情况评估框架,发现现有情感支持对话系统在面对低参与度、抗拒等困难求助者时性能显著下降,并验证了最坏情况模拟数据可提升模型鲁棒性。
为什么我们需要语音来评估语音翻译
发表机构 * Karlsruhe Institute of Technology(卡尔斯鲁厄理工学院) ; ETH Zurich(苏黎世联邦理工学院)
AI总结 本文通过元评估发现现有文本和语音质量估计指标在评估语音翻译中的语音特有信息(如性别一致性和韵律)时均存在不足,并提出SpeechCOMET模型,分析其失败原因,强调需要专用训练数据和真正基于语音的模型。
PhAME: 基于表型感知的潜在扩散分子编辑
发表机构 * Faculty of Mathematics and Computer Science, Jagiellonian University(杰洛内夫斯基大学数学与计算机科学学院) ; Doctoral School of Exact and Natural Sciences, Jagiellonian University(杰洛内夫斯基大学精确与自然科学博士学院) ; Jagiellonian Center for Artificial Intelligence, Jagiellonian University(杰洛内夫斯基人工智能中心) ; Faculty of Chemistry, Jagiellonian University(杰洛内夫斯基大学化学系) ; Ardigen SA(Ardigen公司)
AI总结 提出PhAME框架,利用潜在扩散模型在预训练图VAE的潜在空间中进行分子编辑,通过组合无分类器引导机制同时优化表型条件和结构相似性,实现高化学有效性和新颖性的多目标分子优化。
监督语义差异法用于跨文化概念分析:以人类情感为例
发表机构 * University of Warsaw(华沙大学) ; Society for Open Science(开放科学协会) ; Centre for Brain Research, Jagiellonian University(雅盖隆大学脑研究中心) ; IDEAS Research Institute(IDEAS研究院)
AI总结 本文提出跨语言监督语义差异法(SSD),通过对齐的多语言词嵌入比较语义维度,并以波兰语、英语和法语情感规范词汇为例,验证了情感维度的跨语言可恢复性及文化差异。
Comments 9 pages, 2 figures, excluding the appendices. Code to reproduce our results is available at https://github.com/przebor/Cross-Cultural-SSD
何时记忆有助于工具使用LLM代理的多轨迹推理?
发表机构 * RMIT University(皇家墨尔本理工大学)
AI总结 本文提出一个统一框架,将记忆沿传输范围和内容抽象两个维度分解,在无验证器设置下评估四种记忆方法与三种推理策略在四个工具使用基准上的表现,发现推理策略是混淆变量,不同策略下相同记忆方法产生显著不同结果。
Comments More evaluation and analysis are on the way
使用LoRA适配分析技术文档RAG助手中的质量-延迟-资源权衡
发表机构 * HSE University(俄罗斯高等经济大学)
AI总结 本研究通过LoRA适配器在RAG系统中分析质量、延迟和资源之间的权衡,发现仅对q和v注意力投影进行适配的配置在帕累托前沿占优。
Comments 13-page main body plus extended appendix; 6 figures; benchmark, LoRA adapters, and code at https://github.com/EugPal/rag-lora-tradeoffs
IFMTBench:多语言翻译指令遵循的综合基准
发表机构 * Large Language Model Department, Tencent(腾讯大语言模型部)
AI总结 提出IFMTBench基准,涵盖7种语言、4506个单约束和2838个多约束项,通过确定性检查器和基于LLM的评分器评估翻译指令遵循能力,揭示指令遵循随模型规模增长快于翻译质量,且术语表和结构化格式约束难度最高。
Comments 11 pages, 6 figures, conference
患者特异性肺动脉树数字孪生以提取肺栓塞生物标志物
发表机构 * Univ Lyon, INSA‐Lyon, Université Claude Bernard Lyon 1, UJM-Saint Etienne, CNRS, Inserm, CREATIS UMR 5220, U1294(里昂大学、里昂国立应用科学学院、 Claude Bernard 里昂大学、 UJM-圣艾蒂安、 CNRS、 Inserm、 CREATIS UMR 5220、 U1294) ; Department of Radiology, CHU Saint-Etienne, UJM Saint-Etienne, Saint-Etienne, France(放射科、圣艾蒂安大学医院、 UJM-圣艾蒂安、圣艾蒂安、法国) ; IUF, Institut Universitaire de France, Paris(IUF、法国国家科学院、巴黎)
AI总结 提出一种自动化流程,通过构建肺动脉树的有向图表示并提取基于图像的生物标志物(包括局部动脉特征和全局严重程度评分),生成患者数字孪生,用于肺栓塞的风险评估。
Comments 11 pages + 2 pages of supplementary materials. Submitted to special issue of JBHI
学习何时优化:来自专家GPU内核谱系的验证优化技能
发表机构 * SKLP, Institute of Computing Technology, Chinese Academy of Sciences(SKLP,计算技术研究所,中国科学院) ; University of Chinese Academy of Sciences(中国科学院大学) ; University of New South Wales(新南威尔士大学)
AI总结 提出KLineage方法,通过反向遍历专家GPU内核实现并提取可重用的优化技能,学习优化的适用条件,从而提升LLM代理生成内核的优化质量与效率。
Comments Preprint, Under Review
当有用上下文泄露:领域自适应ASR中的隐私风险
发表机构 * Karlsruhe Institute of Technology(卡尔斯鲁厄理工学院)
AI总结 本文识别并系统研究了领域自适应ASR中因上下文提示或微调导致模型泄露隐私的风险,通过构建控制数据集测量泄露率,并评估了提示级缓解策略及精度-泄露权衡。
通过解耦影响函数优化多维视频奖励模型
发表机构 * The University of Tokyo(东京大学) ; HKUST (Guangzhou)(香港科技大学(广州))
AI总结 针对文本到视频生成任务中训练样本在不同评估维度上可靠性不一致的问题,提出解耦影响框架以估计维度特定监督风险,并设计维度解耦剪枝与重加权策略,显著提升多维视频奖励模型与真实标注的对齐效果。
平滑轨迹优化的自然函数梯度
发表机构 * Department of Artificial Intelligence, Korea University, Seoul, Republic of Korea(韩国大学人工智能系,首尔,大韩民国) ; Department of Statistics, Korea University, Seoul, Republic of Korea(韩国大学统计系,首尔,大韩民国)
AI总结 提出一种基于自然函数梯度的轨迹优化框架,通过函数空间中的几何感知更新和蒙特卡洛估计,在无解析梯度时生成更平滑、更可行的运动轨迹。
种植、持久化、触发:针对大语言模型智能体的潜伏攻击
发表机构 * University of Science and Technology of China(中国科学技术大学) ; National University of Singapore(新加坡国立大学) ; Singapore Management University(新加坡管理学院) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 提出潜伏攻击(Sleeper Attack),即攻击者将对抗性内容注入智能体状态并持久化,在后续交互中被良性用户查询触发,导致有害行为;构建包含1896个实例的基准测试,实验表明当前最强LLM智能体仍易受此类攻击。
几何优先的生成式空间单细胞重建
发表机构 * University of Central Florida(佛罗里达大学) ; Vanderbilt University Medical Center(范德比尔特大学医学中心) ; Arizona State University(亚利桑那州立大学)
AI总结 提出GEARS框架,通过几何优先方法结合扩散模型和置换等变生成器,从单细胞RNA测序数据重建空间几何,无需细胞类型标签或组织学图像。
Comments 32nd SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026)
层次化合成表格数据生成:一种自上而下与自下而上混合框架
发表机构 * University of Southern California(南加州大学)
AI总结 提出一种层次化混合自上而下和自下而上(H-TDBU)框架,通过解耦语义结构与随机纹理,结合结构驱动的逻辑约束和轻量级表格生成器,在弱多模态金融基准上提升合成数据的语义一致性和统计保真度。
Comments Accepted as a poster at FMSD @ ICML 2026. 9 pages, 6 figures
面向多跳音视频推理的主动全模态感知代理
发表机构 * Shanghai Jiao Tong University(上海交通大学)
AI总结 针对多跳音视频推理中证据稀疏且跨模态分布的问题,提出MOV-Bench基准和AOP-Agent代理框架,通过分层全模态记忆与观察-反思-重规划循环实现主动感知,显著提升开源全模态大模型在长视频和推理密集型问题上的性能。