Detecting AI-Generated Content on Social Media with Multi-modal Language Models
使用多模态语言模型检测社交媒体上的AI生成内容
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Meta
AI总结 针对AI生成内容检测的泛化性差、单模态依赖和缺乏可解释性问题,提出基于多模态数据的紧凑视觉-语言模型,实现检测与解释,在公开基准和内部数据集上达到最优性能。
使用多模态语言模型检测社交媒体上的AI生成内容
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Meta
AI总结 针对AI生成内容检测的泛化性差、单模态依赖和缺乏可解释性问题,提出基于多模态数据的紧凑视觉-语言模型,实现检测与解释,在公开基准和内部数据集上达到最优性能。
结构注意力税:检索格式如何劫持上下文学习而与内容无关
发表机构 * Xi’an Jiaotong-Liverpool University(西交利物浦大学)
AI总结 研究发现知识图谱三元组因其格式结构比自然语言吸引2-3倍注意力,压缩演示注意力达42%,并提出了分解注意力为语义与结构成分的框架及缓解策略。
Comments 10 pages, 5 figures
PoQ-Judge:去中心化LLM推理中成本感知的证明质量的多架构评估框架
发表机构 * DGrid AI
AI总结 提出PoQ-Judge框架,训练专用裁判模型对查询-输出对进行无参考评分,研究三种架构,最佳模型在Pearson相关性上达到0.747,级联评估降低72.7%成本。
具有不完美二元反馈的 restless bandits: PCL-indexability 分析与计算
发表机构 * Universidad Carlos III de Madrid(马德里卡洛斯三世大学)
AI总结 针对具有二元隐状态和不完美二元反馈的 restless bandits,提出基于部分守恒律(PCL)的分析与计算框架,通过验证定理、确定性骨架和组合词方法建立可索引性并计算 Whittle 指数,实验表明 MP 指数策略优于基准策略。
Comments 59 pages, 12 figures, submitted 27/3/2026
从架构到输出:大语言模型中幻觉的结构性起源及数据的放大作用
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 本文分析大语言模型幻觉的结构性根源,指出自注意力、最大似然估计训练目标和自回归解码三个架构决策构成复合失效系统,并揭示数据病理如何放大这些脆弱性。
Comments 11 pages, 7 figures, 15 references
自注意力作为传输:对称谱诊断的极限
发表机构 * Red Hat AI(红帽人工智能)
AI总结 研究语言模型注意力路由的两种失效形状(过度集中或过度分散),证明对称谱诊断对方向不敏感,并揭示因果注意力中传输容量的理论下限,提出基于容量和方向的双轴诊断方法。
Comments 48 pages, 6 figures, 7 tables; 81-page online supplement (proofs, additional experiments, dataset statistics) as an ancillary file
非线性色散方程的混合迭代神经低正则积分器
发表机构 * National Center for Applied Mathematics, Tianjin University(天津大学应用数学中心) ; School of Mechanical and Aerospace Engineering, Jilin University(吉林大学机械与 aerospace 工程学院)
AI总结 提出HIN-LRI混合框架,用轻量神经网络学习并校正经典低正则积分器的结构截断误差,通过显式时间步缩放保证稳定性,在粗糙数据色散方程上提升精度并保持泛化能力。
面向隐私敏感的临床信息抽取的自提示小型语言模型
发表机构 * McWilliams School of Biomedical Informatics, The University of Texas Health Science Center at Houston(德克萨斯大学健康科学中心休斯顿分校麦克威廉斯生物医学信息学学院) ; School of Public Health, The University of Texas Health Science Center at Houston(德克萨斯大学健康科学中心休斯顿分校公共卫生学院) ; School of Dentistry, The University of Texas Health Science Center at Houston(德克萨斯大学健康科学中心休斯顿分校牙科学院) ; Willamette Dental and Skourtes Institute(威廉特牙科与斯库尔特斯研究所)
AI总结 针对牙科病历中非结构化、领域特定且隐私敏感的命名实体识别挑战,提出一种本地可部署的自提示框架,通过多提示集成推理和基于QLoRA的微调及直接偏好优化,使小型语言模型在Qwen2.5-14B-Instruct上达到微宏F1分数0.864/0.837。
通过条件控制扩散实现超低比特率视频压缩的主动采样
发表机构 * Department of Electrical and Computer Engineering, University of California San Diego(电子与计算机工程系,加州大学圣地亚哥分校) ; Department of Electrical and Systems Engineering, University of Pennsylvania(电子与系统工程系,宾夕法尼亚大学)
AI总结 提出ActDiff-VC框架,利用条件扩散模型和主动采样策略(自适应关键帧选择与预算感知稀疏轨迹选择),在超低比特率下实现高感知质量视频压缩。
Comments 21 pages, 11 figures, 3 tables
FitText: 通过模因检索演化智能体工具生态
发表机构 * UCLA(加州大学洛杉矶分校)
AI总结 针对用户任务描述与工具文档间的语义鸿沟,提出FitText框架,将检索嵌入推理循环,通过自然语言伪工具描述迭代优化和模因进化选择,显著提升工具检索性能。
P3D-Bench:用于参数化3D生成与结构推理的多模态大语言模型基准
发表机构 * Nanjing University(南京大学) ; Envision
AI总结 提出P3D-Bench基准,通过参数化3D程序评估多模态大语言模型在几何精度、语义对齐和装配一致性上的表现,涵盖文本到3D、图像到3D和装配3D三类任务。
Comments Project page: https://spatiaos.github.io/projects/P3D-Bench
建模复杂行为:视觉语言模型中的多人格组合与动态切换
发表机构 * Xi'an Jiaotong University(西安交通大学) ; Beihang University(北京航空航天大学)
AI总结 本研究在视觉语言模型中引入显式人格条件,建立包括单人格、多人格和人格切换的系统评估框架,发现人格提示可提升图像描述但损害精确推理任务,并观察到多特质组合与动态切换中的平衡与残留效应。
Comments 16 pages, 4 figures, 10 tables
超越大语言模型强化学习中的统一令牌级信任区域
发表机构 * Tencent Hunyuan(腾讯混元)
AI总结 针对PPO风格信任区域在自回归生成中的位置无关问题,提出CPPO方法,通过位置加权阈值和累积前缀预算动态调整令牌级约束,提升训练稳定性和推理准确性。
Comments Project Page: https://hunyuan-cppo.github.io/
K-Forcing:通过前推语言建模进行联合下一K词解码
发表机构 * DAMO Academy, Alibaba Group(阿里巴巴达摩院) ; Hupan Lab(湖畔实验室) ; Zhejiang University(浙江大学) ; The Hong Kong University of Science and Technology(香港科技大学)
AI总结 提出K-Forcing范式,通过前推映射将自回归模型蒸馏为单次前向传播生成多个未来词,实现2.4-3.5倍加速,质量损失小。
Comments Code: https://github.com/alibaba-damo-academy/K-Forcing
SCAIL-2:通过端到端上下文条件统一受控角色动画
发表机构 * Z.ai ; Tsinghua University(清华大学)
AI总结 提出SCAIL-2框架,通过端到端上下文条件统一受控角色动画,绕过中间表示直接利用驱动视频,并合成MotionPair-60K数据集,采用上下文掩码和模式RoPE实现统一,结合Bias-Aware DPO减少误差,显著优于现有方法。
READER: 基于提取表示的鲁棒证据作者身份解码
发表机构 * National University of Singapore(新加坡国立大学) ; Xidian University(西安电子科技大学) ; Tsinghua University(清华大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 针对黑盒LLM来源识别问题,提出READER框架,通过冻结代理LLM读取隐藏作者证据,利用贝叶斯证据累积实现多查询归因,在Agent500数据集上显著优于基线方法。
空间选择性自训练用于无监督建筑变化检测
发表机构 * School of Information and Communication Engineering, University of Electronic Science and Technology of China(电子科技大学信息与通信工程学院) ; Chengdu Yaguang Electronic Co., Ltd.(成都亚光电子股份有限公司) ; Laboratory of Intelligent Collaborative Computing, University of Electronic Science and Technology of China(电子科技大学智能协同计算实验室) ; School of Civil Engineering, University of Khartoum(喀土穆大学土木工程学院) ; National Energy Research Center, Ministry of Higher Education and Scientific Research(高等教育部和科学研究部国家能源研究中心)
AI总结 提出SST-CD框架,利用空间选择性自训练和局部一致性准则,从无标签双时相遥感图像中学习建筑变化检测器,在三个数据集上超越现有无监督方法。
Comments Under Review
Pre-AF 13:从出院报告中挖掘的可解释房颤风险评分
发表机构 * National Medical Research Center of Cardiology named after Academician E.I. Chazov(国家医学研究中心心脏病学以E.I. Chazov院士命名) ; Skolkovo Institute of Science and Technology (Skoltech)(斯科尔科沃科学技术研究所) ; Artificial Intelligence Research Institute (AIRI)(人工智能研究所) ; University of Mannheim(曼海姆大学) ; Russian Center for Scientific Information (RCSI)(俄罗斯科学信息中心) ; Institute of Cyber Intelligence Systems, National Research Nuclear University MEPhI(网络智能系统研究所,国家研究核大学MEPhI) ; M.V. Lomonosov Moscow State University(莫斯科国立罗蒙诺索夫大学) ; Institute for Information Transmission Problems of the Russian Academy of Sciences (Kharkevich Institute)(俄罗斯科学院信息传输问题研究所(Kharkevich研究所)) ; Ivannikov Institute for System Programming of the Russian Academy of Sciences (ISP RAS)(俄罗斯科学院伊万尼科夫系统编程研究所) ; Federal Research Center "Computer Science and Control" of the Russian Academy of Sciences (FRC CSC RAS)(俄罗斯科学院联邦研究中心“计算机科学与控制”) ; Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)(穆罕默德·本·扎耶德人工智能大学)
AI总结 利用NLP从出院报告中提取特征,构建可解释ML模型预测心血管病患者房颤风险,Pre-AF 13模型优于现有临床评分。
Comments O. Shakhmatova and D. Kriukov contributed equally (co-first authors). E. Panchenko, A. Shelmanov, and D. V. Dylov are co-senior authors. Correspondence to: Olga Shakhmatova <olga.shahmatova [at] gmail.com> and Dmitry V. Dylov <d.dylov [at] skol.tech>
面向敏捷目标拦截的升力翼四旋翼平面扇形视线制导
发表机构 * School of Automation Science and Electrical Engineering, Beihang University(北京航空航天大学自动化科学与电气工程学院) ; Research and Development Department, China Academy of Launch Vehicle Technology(中国运载火箭技术研究院研发部)
AI总结 提出平面扇形视线(PS-LOS)制导框架,通过非对称约束释放机动性,使升力翼四旋翼在仅用单目相机的情况下实现远程自主拦截敏捷目标,实验验证了高达138米距离的成功拦截。
Comments Accepted to the IEEE International Conference on Robotics and Automation (ICRA 2026). Recipient of the ICRA 2026 Best Paper Award in Field and Service Robotics
CoCoSI: 面向空间智能的协作认知地图构建
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Cornell University(康奈尔大学)
AI总结 提出一种即插即用的多智能体框架,通过协作构建结构化认知地图作为空间记忆,无需修改架构或额外训练即可增强预训练多模态大模型的空间理解能力。
ViP-VL:基于向量量化学习的越南语自监督语音预训练模型
发表机构 * VinUniversity(越南 Vin 大学)
AI总结 提出ViP-VL模型,通过声学堆叠、感受野对齐和掩码选择策略,在BEST-RQ框架上实现高效自监督预训练,在越南语ASR、情感识别、方言分类和说话人验证四项任务上取得最优结果。
Comments Accepted to INTERSPEECH 2026
密度脊选择性预测:校准标签稀缺下的大语言模型与视觉语言模型幻觉检测
发表机构 * Northeastern University Boston, United States(东北大学波士顿分校)
AI总结 针对校准标签稀缺时大语言模型和视觉语言模型的幻觉检测问题,提出基于核密度估计的密度脊方法,利用隐藏状态生成轨迹的六维运动特征图构建响应流形,通过到最近脊顶点的欧氏距离评分,在标签稀缺协议下AUROC提升5-20点。
BiWM:利用双向自回归推进开源交互式视频世界模型
发表机构 * LynnReal AI ; Shanghai Innovation Institute(上海创新研究院) ; Shanghai Jiao Tong University(上海交通大学) ; Fudan University(复旦大学)
AI总结 提出BiWM框架,通过双向自回归范式将预训练视频骨干转化为交互式世界模型,仅需两阶段训练(微调+分布匹配蒸馏),支持多尺度模型和长程生成,优于现有因果流水线。
Comments After the paper was posted, we discovered that several visualization results were produced using wrong configuration settings during runtime. This error affects the reliability of the presented visual comparisons. Additionally, further optimization of the design is needed. We therefore request to withdraw this version and will submit a corrected and improved version later
潜流内部:音频分离基础模型中注意力动力学的因果解读
发表机构 * Jilin University(吉林大学) ; Hunan University(湖南大学) ; University of Electronic Science and Technology of China(电子科学与技术大学)
AI总结 本文通过因果干预协议揭示流匹配Transformer在音频分离中的双路径注意力机制,并提出无训练加速方法LSAC,在保持质量的同时减少约25%自注意力计算。
Efficient-WAM: 一种具有低成本未来想象能力的10亿参数世界-动作模型
发表机构 * The University of Hong Kong(香港大学) ; Peking University(北京大学) ; Muka Robotics(Muka机器人) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; Nanjing University(南京大学)
AI总结 提出Efficient-WAM,通过紧凑视频专家、稀疏视频潜变量和非对称去噪降低未来想象成本,在保持控制性能的同时实现30倍推理加速。
在线平台中的数据驱动动态分类:学习双边信息
发表机构 * IE Business School, IE University(IE大学商学院) ; Kenan-Flagler Business School, The University of North Carolina at Chapel Hill(北卡罗来纳大学教堂山分校肯纳-弗拉格勒商学院)
AI总结 针对双边服务平台,提出一种数据驱动算法,在未知顾客和卖家选择参数的情况下动态优化商品分类,并证明其遗憾值随时间呈多对数增长且达到最优速率。
学习动力学揭示权重诱导的分层Gram度量层次结构
发表机构 * GitHub ; arXiv
AI总结 本文研究前馈ReLU网络在固定读出和二次损失下的梯度下降动力学,将其重写为训练集空间上的集体动力学,并揭示深度网络中权重诱导的Gram算子层次结构。
Comments 24 pages. v4: Corrected the hidden-activation dynamics; clarified the concept of field closure. Other minor corrections
WeaveBench: 面向混合接口的长期、真实世界计算机使用代理基准
发表机构 * Zhejiang University(浙江大学) ; Microsoft Research Asia(微软亚洲研究院) ; Tsinghua University(清华大学)
AI总结 提出WeaveBench基准,包含114个跨8个真实工作领域的长期混合接口任务,要求代理结合GUI和CLI/代码操作,最佳PassRate仅41.2%,揭示现有评估的不足。
IB-HFN: 信息瓶颈驱动的SAR-光学融合网络用于高保真云去除
发表机构 * Institute of Geospatial Information, Information Engineering University(测绘信息研究院,信息工程大学)
AI总结 提出IB-HFN网络,通过双流骨干、空间信息瓶颈融合模块和联合优化策略,抑制SAR散斑噪声并保留光学细节,实现高保真云去除。
通过时序图学习识别足球比赛中控球阶段的意图驱动方法
发表机构 * Technical University of Munich(慕尼黑工业大学)
AI总结 提出基于时序图注意力网络(T-GAN)的框架,从时空追踪数据中识别足球比赛控球阶段,实现战术意图(入侵空间、保持控球、得分)和六个子阶段的分类,F1分数达0.87(意图级)和0.79(得分阶段)。
Comments 27 pages, 10 figures