Conformal Language Modeling via Posterior Sampling
通过后验采样的共形语言建模
发表机构 * Massachusetts Institute of Technology(麻省理工学院)
AI总结 提出通过近似LLM后验采样(条件为校准的高分区域)来替代事后过滤,实现目标风险控制并提高下游效用。
通过后验采样的共形语言建模
发表机构 * Massachusetts Institute of Technology(麻省理工学院)
AI总结 提出通过近似LLM后验采样(条件为校准的高分区域)来替代事后过滤,实现目标风险控制并提高下游效用。
通过归因视角对法律问答中的引用质量进行重排序
发表机构 * Technical University of Munich(慕尼黑技术大学)
AI总结 针对法律问答中检索增强生成系统的引用质量问题,提出基于扰动归因分数训练轻量级交叉编码器对候选段落重排序,显著提升引用忠实度并与专家答案对齐。
Comments 11 pages, 4 tables, 1 figure. Published at ASAIL 2026 (8th Workshop on Automated Semantic Analysis of Information in Legal Text), co-located with ICAIL 2026, Singapore
文生图模型对文本编码器的依赖比你想象的要少
发表机构 * Technion – Israel Institute of Technology(技术学院 – 以色列理工学院) ; MIT CSAIL(麻省理工学院计算机科学与人工智能实验室)
AI总结 本文发现基于扩散Transformer的文生图模型主要依赖文本编码器提供的单词含义和词序信息,而非完整的上下文信息,并通过构建仅含位置标记词袋的嵌入验证了这一观点。
Comments Project webpage: https://nsping13.github.io/contextless-TTI/
探究多模态大语言模型的对抗鲁棒性
发表机构 * Mohamed Bin Zayed University of AI, UAE(穆罕默德·本·扎耶德人工智能大学,阿联酋) ; Khalifa University, UAE(哈利法大学,阿联酋) ; Australian National University, Australia(澳大利亚国立大学,澳大利亚)
AI总结 通过系统研究多模态大语言模型的对抗鲁棒性,提出诊断性CLIP对齐协议预测鲁棒视觉编码器的迁移效果,并证明端到端多模态对抗训练能显著提升模型在强对抗攻击下的性能。
当图标记沉没:图语言模型的机制分析
发表机构 * University of Virginia(弗吉尼亚大学) ; Capital One
AI总结 本文通过分析图语言模型中图标记的内部行为,发现激活层面的显著性与图信息利用之间存在解耦,揭示了现有图标记构建、放置和对齐机制的局限性。
图上的代码:通过大型语言模型在知识图谱上进行迭代式程序化推理
发表机构 * Key Laboratory of AI Safety, Institute of Computing Technology, Chinese Academy of Sciences(中国科学院计算技术研究所人工智能安全重点实验室) ; Shandong University(山东大学) ; Shandong University-Weihai Research Institute of Industrial Technology(山东大学威海工业技术研究院)
AI总结 提出Code-on-Graph (CoG)框架,通过将知识图谱模式表示为Python类并生成可执行代码,解决现有LLM-KG集成中操作符不灵活和知识注入不可扩展的问题,在WebQSP、CWQ和GrailQA上提升高达10.5%。
动态目标选择与防护机制及大语言模型监督在金融决策中的应用
发表机构 * Hokkaido University(北海道大学) ; Nomura Asset Management Co., Ltd.(日兴资产经营管理公司) ; Kobe University(Kobe大学) ; Osaka Metropolitan University(大阪市立大学)
AI总结 提出DOSS方法,通过将目标选择建模为分类问题并利用滚动窗口进行顺序更新,结合置信度感知门控和LLM监督,实现金融决策中动态目标选择,降低误选和过度切换风险。
Comments Accpeted to The 2nd Workskop on Advances in Financial AI Workshop: Towards Agentic and Responsible Systems at ICLR 2026
Multi$^2$:基于LLM智能体在交互环境中的分层多智能体决策
发表机构 * KAIST(韩国科学技术院)
AI总结 提出Multi$^2$分层多智能体决策框架,通过高层智能体(System 1)使用监督微调生成子目标,低层智能体(System 2)使用离线到在线强化学习执行原子动作,以缓解目标漂移并实现长期稳定控制。
Comments Accepted at ICML 2026
不要忘记你的嵌入:通过精确编辑嵌入实现鲁棒的知识擦除
发表机构 * Blavatnik School of Computer Science and AI, Tel Aviv University(巴尔-艾赫伦计算机科学与人工智能学院,特拉维夫大学)
AI总结 提出 EMBER 模块,利用稀疏矩阵分解精确擦除词嵌入中的概念相关特征,增强现有知识擦除方法的鲁棒性和特异性。
面向人机交互的面部与身体跟踪:一个自我中心数据集
发表机构 * Furhat Robotics ; University of Naples Federico II(那不勒斯费德里科二世大学) ; Division of Speech, Music and Hearing, KTH Royal Institute of Technology(语音、音乐和听觉研究所,皇家理工学院)
AI总结 针对社交机器人自我中心视角下频繁身份切换问题,提出一个自定义标注的自我中心数据集,通过系统评估检测误差、对比面部与身体跟踪,并分析扩展空间记忆和外观重识别的影响,最终优化管道将身份切换减少49%。
Comments 8 pages, 5 figures, 3 tables. Accepted to the 35th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN 2026)
语言转换会破坏医学视觉语言模型吗?印度尼西亚放射学视觉问答案例研究
发表机构 * Intelligent System Laboratory, Faculty of Computer Science Brawijaya University(智能系统实验室,计算机科学学院布拉维亚大学)
AI总结 本研究通过构建印尼语放射学VQA数据集IndoRad-VQA,评估医学视觉语言模型在非英语临床语言下的鲁棒性,发现英语与印尼语设置间存在8-25%的性能差距,表明需要更包容的多语言评估。
Comments accepted to MMFM-BIOMED Workshop @ CVPR 2026
SkillPyramid:一种用于自我进化智能体的层次化技能整合框架
发表机构 * The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China(认知与决策智能复杂系统重点实验室,自动化研究所,中国科学院,北京,中国) ; School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China(中国科学院大学人工智能学院,北京,中国) ; Shanghai Artificial Intelligence Laboratory, Shanghai, China(上海人工智能实验室,上海,中国) ; Beijing Academy of Artificial Intelligence, Beijing, China(北京人工智能研究院,北京,中国)
AI总结 针对智能体缺乏系统性技能构建、积累和迁移的问题,提出SkillPyramid层次化技能整合框架,通过自进化机制在任务执行中组合、验证和吸收新技能,在三个基准上平均奖励提升38.0%,执行步骤减少27.7%。
保持存活:基于表格基础模型的无审查生存分析
发表机构 * GitHub
AI总结 提出一种无需训练的生存回归方法,利用表格基础模型预测事件时间并迭代填补右删失数据,构建加速失效时间模型,在标准基准上表现与需训练的模型相当。
监督微调的大语言模型规划器中世界模型恢复的深入探究
发表机构 * National Laboratory of the Rockies(落基山国家实验室)
AI总结 通过可解释性实验,研究监督微调如何影响大语言模型在经典规划任务中恢复世界模型的能力,发现微调使模型线性编码动作有效性和状态谓词,且更广泛的状态空间覆盖有助于更准确的世界模型恢复。
Comments 17 pages. Under review at TMLR
表格基础模型预训练的速通
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出一种速通竞赛格式,通过优化单文件训练脚本,在nanoTabPFN上实现81倍预训练加速,并建立社区排行榜以累积改进。
基于Mag1c-SAS和LinkNet的星载甲烷快速检测流水线
发表机构 * Zaitra s.r.o.(泽特拉公司) ; NASA JPL(美国国家航空航天局喷气推进实验室) ; Faculty of Informatics, Masaryk University(马萨里克大学信息学院)
AI总结 提出Mag1c-SAS算法加速甲烷检测,并结合轻量级LinkNet模型降噪,在星载硬件上实现高效、低功耗的甲烷泄漏检测。
Comments arXiv admin note: substantial text overlap with arXiv:2507.01472
Foley-Omni:从任务级音频合成到完整视频配乐生成的统一多模态生成模型
发表机构 * School of Intelligence Science and Technology, Nanjing University(南京大学智能科学与技术学院) ; Video Rebirth ; Shanghai Jiao Tong University(上海交通大学) ; Beijing Jiaotong University(北京交通大学) ; Shanghai AI Laboratory(上海人工智能实验室)
AI总结 提出Foley-Omni统一多模态音频生成模型,通过共享潜变量生成过程联合建模语音、音效和音乐,实现从孤立任务级合成到完整视频配乐生成,并构建V2ST-Bench基准进行综合评估。
超越单一解:用于图像压缩感知的多假设协作深度展开网络
发表机构 * Harbin Institute of Technology, Harbin, China(哈尔滨工业大学) ; Harbin Institute of Technology Suzhou Research Institute, Suzhou, China(哈尔滨工业大学苏州研究院)
AI总结 针对压缩感知问题的病态性,提出一种多假设协作深度展开网络(MHC-DUN),通过联合优化多个解空间,利用AlphaNet动态预测空间变步长进行梯度下降,并设计多假设协作近端映射模块,以提升重建质量。
Comments Accepted by CVPR 2026
诊断大语言模型工具使用中的知识缺口:面向新API获取的智能体基准
发表机构 * NYU Shanghai(纽约大学上海分校)
AI总结 提出 NovelAPIBench 基准,通过动态发现新API、分解知识包并生成可执行任务,诊断模型在API使用中的六类错误,发现检索与参数调优互补。
Comments 37 pages, 12 figures
命题可废止立场逻辑中的非单调蕴涵
发表机构 * University of Cape Town and CAIR, South Africa(开普敦大学和CAIR,南非) ; Université Sorbonne Paris Nord, Inserm, Sorbonne Université, Limics, 93017 Bobigny, France(巴黎-索邦大学,Inserm,索邦大学,Limics,法国93017博比尼) ; ISTI-CNR, Pisa, Italy(意大利比萨ISTI-CNR)
AI总结 本文通过引入情境立场条件句,将KLM风格的非单调理性蕴涵关系提升到命题可废止立场逻辑(PDSL)的一个片段中,并证明了该片段可表达为一组情境条件句,进而将基于排序的蕴涵关系(如理性和词典序闭包)从命题情况忠实翻译到PDSL,同时保持复杂度界限。
微调大语言模型的安全性测量应基于能力
发表机构 * National Research Council, Canada(加拿大国家研究理事会)
AI总结 通过将微调锚定于特定能力目标,多维度评估微调对模型能力和安全性的影响,发现微调模型对安全提示可能产生不连贯输出、自动安全判断不可靠,且结论因安全基准和评估者而异。
Comments 8 pages plus appendices
半监督多模态人群计数基准
发表机构 * Harbin Institute of Technology(哈尔滨工业大学) ; Pengcheng Laboratory(鹏城实验室)
AI总结 本文构建了首个半监督多模态人群计数基准,通过制定标准化协议和评估多种基线方法,为该任务奠定基础。
加法的形状:大型语言模型中算术的几何结构
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 通过分析多操作数加法中残差流的几何结构,发现等原始和轨迹(IRST)并建立噪声量化模型,将算术错误解释为由内部神经噪声引起的几何滑移,并利用几何一致性检查方法检测和纠正量化失败。
Comments Accepted by ICML 2026
空间转录组学引导的对齐增强病理基础模型中的分子分析
发表机构 * Department of Computer Science and Engineering, The Hong Kong University of Science and Technology, Hong Kong SAR, China(计算机科学与工程系,香港科学与技术大学,香港特别行政区,中国) ; Department of Pathology, Nanfang Hospital, Southern Medical University, Guangzhou, China(pathology department, 南方医科大学南芳医院,广州,中国) ; Department of Pathology, School of Basic Medical Sciences, Southern Medical University, Guangzhou, China(pathology department, 南方医科大学基础医学学院,广州,中国) ; Guangdong Province Key Laboratory of Molecular Tumor Pathology, Guangzhou, China(广东省分子肿瘤病理学重点实验室,广州,中国) ; Jinfeng Laboratory, Chongqing, China(金风实验室,重庆,中国)
AI总结 提出STAMP框架,利用空间转录组数据通过通路感知对齐策略增强病理基础模型的分子感知能力,并在多层级评估中验证其临床效用。
LLM医疗分诊中的性别依赖性诊断替代:相同症状,不同紧急程度
发表机构 * GitHub
AI总结 研究大型语言模型在相同神经症状下,仅因患者性别和年龄不同而产生不同的分诊建议,发现年轻女性被系统性低估紧急程度,机制为诊断替代。
Comments 7 pages, 3 tables. Multi-model replication across Gemini, Claude, and GPT. Code and data: https://github.com/wongqihan/ai-behavioral-experiments
VidMsg:短视频中隐含信息推断的基准测试
发表机构 * OriginAI, Israel(OriginAI以色列)
AI总结 提出VidMsg基准,通过消息优先构建流程和双向检索任务,评估视频理解模型对短视频中隐含信息的推断能力。
Comments Project page: https://iyttor.github.io/VidMsg
TSQAgent: 通过专用智能体推理评估时间序列数据质量
发表机构 * Sun Yat-sen University(中山大学) ; China University of Mining Technology(中国矿业大学) ; University of Science and Technology of China(中国科学技术大学) ; East China Normal University(华东师范大学) ; National University of Singapore(新加坡国立大学)
AI总结 提出TSQAgent框架,通过三个协作智能体(感知器、检查员、裁决者)识别相关质量维度并进行定量比较,显著提升LLM在时间序列数据质量评估中的表现。
通过幻觉拒绝采样构建可靠的长文本生成
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; University of California, Berkeley(加州大学伯克利分校) ; University of Cambridge(剑桥大学) ; DeepMind(深度思维)
AI总结 提出分段幻觉拒绝采样框架SHARS,利用任意幻觉检测器在生成过程中拒绝并重采样幻觉片段,以缓解长文本生成中的幻觉累积问题,提升事实一致性。
Comments accepted by ICML 2026
TurtleAI:海龟图形学中视觉编程的多模态模型基准测试
发表机构 * MPI-SWS(马克斯·普朗克研究所-斯图加特)
AI总结 提出TurtleAI基准,包含823个基于海龟图形学真实任务的视觉编程任务,评估20多个多模态模型发现成功率低于30%,并通过少量种子样本生成合成数据微调Qwen2-VL-72B提升约20%性能。
Comments ACL Findings 2026 paper
桥接辅助约束以解决大型推理模型中的指令遵循问题
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; University of International Relations(国际关系大学) ; Tencent Jarvis Lab(腾讯Jarvis实验室) ; Westlake University(西湖大学) ; King’s College London(伦敦国王学院)
AI总结 针对大型推理模型难以可靠遵循多重约束的问题,提出约束关系图补全框架,通过显式建模约束关系并发现桥接约束,将约束违反率降低39%。
Comments a pre-MIT Press publication version