Turning music identification into a neural forward pass
将音乐识别转化为神经前向传播
发表机构 * Music X Lab(音乐X实验室) ; Mohamed Bin Zayed University of Artificial Intelligence(Mohamed Bin Zayed人工智能大学)
AI总结 提出用生成式Transformer通过单次神经前向传播实现音乐识别,在短音频片段上超越传统声学指纹方法,存储和延迟显著降低。
将音乐识别转化为神经前向传播
发表机构 * Music X Lab(音乐X实验室) ; Mohamed Bin Zayed University of Artificial Intelligence(Mohamed Bin Zayed人工智能大学)
AI总结 提出用生成式Transformer通过单次神经前向传播实现音乐识别,在短音频片段上超越传统声学指纹方法,存储和延迟显著降低。
用 Toki Pona 检验 Word2Vec 的极限
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 本文使用仅有约130个单词的人造语言 Toki Pona 训练 Word2Vec,探究词汇量极小时嵌入质量,并分析非核心噪声词的影响。
Comments 10 pages, 4 figures, 3 tables. Accepted to the Society for Computation in Linguistics (SCiL) 2026
面向手术室视频的推理式文本-视频检索:基于动作驱动数字孪生
发表机构 * Johns Hopkins University(约翰霍普金斯大学)
AI总结 提出OR3方法,通过动作驱动数字孪生(ActDT)将视频片段转化为结构化表示,并利用大语言模型生成假设ActDT进行检索,结合证据修正实现隐式查询推理,在手术室视频检索中显著优于基线。
Pareto LoRA:通过帕累托最优梯度集成缓解统一多模态模型中的模态不平衡
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Advanced Micro Devices, Inc.(超威半导体公司)
AI总结 针对统一多模态模型在LoRA微调中语言梯度主导优化导致图像生成质量下降的问题,提出帕累托最优梯度集成策略Pareto LoRA,通过调节梯度方向和强度平衡文本与图像目标,在CoMM基准上显著提升图像感知质量达44.9%。
VISTA:通过动作历史条件实现尺度感知的视觉导航
发表机构 * Polytechnique Montreal(蒙特利尔理工学院) ; MILA(MILA研究所) ; Institute of Science Tokyo(东京科学大学) ; CoRA Lab(CoRA实验室) ; Mist Lab(Mist实验室)
AI总结 针对视觉导航基础模型因动作归一化导致的尺度脆弱性,提出通过动作历史条件化提供物理位移上下文,并集成DINOv3编码器增强重复环境中的特征表示,实现零样本跨环境部署。
无中生有:语言模型能否发现0?
发表机构 * Department of Computer Science, Princeton University(普林斯顿大学计算机科学系)
AI总结 研究语言模型能否独立发现“零”的概念,通过算术任务测试,发现GPT-2规模模型无法在测试时泛化,但少量示例训练后显著提升,且语言预训练减少所需示例约50%。
你在说我的语言吗?多模态大语言模型中的口语遵循问题
发表机构 * Google DeepMind(谷歌深Mind)
AI总结 针对多模态大语言模型在自动语音识别中输出语言识别错误的问题,提出软提示方法、监督微调和思维链推理三种缓解策略,并引入新指标量化语言违背,比较各方法在减少违规和保持ASR性能上的效果。
Comments 7 pages, 3 tables in the main body
基于数字孪生表示的强化学习训练LLMs用于推理密集型手术视频问答
发表机构 * Johns Hopkins University(约翰霍普金斯大学)
AI总结 提出强化学习框架,通过手术基础模型构建数字孪生表示,解耦视觉感知与推理,并引入分层表示与新型奖励,在三个基准上取得最优性能。
技能约束下的弹性制造供应链模型预测控制
发表机构 * Quanta Labs, LLC ; Universidad Monteávila(蒙特阿维拉大学)
AI总结 针对技能约束的生产库存系统,提出一种闭环模型预测控制器,通过混合整数规划优化生产、库存、缺货和培训决策,并评估其在多种扰动下的表现,发现预测控制仅在技能瓶颈可提前预测时有效。
SkillChain-Gym:面向中断下再技能感知的生产-库存控制的基准测试
发表机构 * Quanta Labs, LLC(Quanta Labs有限责任公司) ; FCEA, Universidad Monteávila(蒙特阿维拉大学经济与行政科学学院)
AI总结 提出SkillChain-Gym基准,用于评估考虑技能动态(如遗忘、再培训)的生产-库存控制策略,实验发现无策略在所有场景中占优,需根据预测灵活选择。
Pulling The REINS: 通过表示引导实现视频扩散模型的无训练安全对齐
发表机构 * University of California, Riverside(加州大学河滨分校) ; YouTube (Google)(YouTube(谷歌))
AI总结 提出REINS方法,在推理时通过线性方向引导视频扩散模型的内部表示,实现无训练的安全对齐,避免有害内容生成,且不降低通用能力。
对比动作-图像预训练用于视觉运动控制
发表机构 * UC Berkeley(加州大学伯克利分校) ; NVIDIA(英伟达) ; Sapienza University of Rome(罗马大学) ; Panasonic(松下) ; ItalAI
AI总结 提出CAIP方法,利用大规模第一人称视频中3D手部关键点作为代理动作信号,通过对比学习统一动作-图像表示,在少量机器人数据下显著提升灵巧操作性能。
MLLP-VRAIN UPV 系统在 IWSLT 2026 同声传译任务中的应用
发表机构 * MLLP-VRAIN research group(MLLP-VRAIN研究组) ; VRAIN ; Universitat Politècnica de València(瓦伦西亚理工大学)
AI总结 提出基于Parakeet和Qwen 3.5模型的级联同声传译系统,通过自适应黑盒策略优化质量-延迟权衡,并引入ASR词增强和RAG机制处理上下文跟踪,在MCIF En→De测试集上实现XCOMET-XL提升+5.82。
Comments IWSLT 2026 System Description
重新思考无评论强化学习中的分组
发表机构 * Université de Montréal(蒙特利尔大学) ; McGill University(麦吉尔大学) ; Mila - Quebec AI Institute(Mila - 魁北克人工智能研究所) ; University of Waterloo(滑铁卢大学) ; The Chinese University of Hong Kong(香港中文大学) ; Huawei Noah’s Ark Lab(华为诺亚方舟实验室)
AI总结 针对无评论强化学习分组策略的数据低效和同步问题,提出负令牌过滤方法,实现单次 rollout 稳定训练,在推理和代理任务上表现相当或更优。
GeoDisaster: 用于操作化灾害地理智能的编排智能体基准测试
发表机构 * Indian Institute of Technology Bombay(印度理工学院孟买分校) ; Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出GeoDisaster基准,包含2921个实例和43种问题类型,用于评估遥感视觉语言模型在工具化空间推理和结构化决策方面的能力,并设计多智能体框架RCEA提升工具使用和证据基础。
Comments 28 pages, 11 Figures
基于视觉Transformer的Landsat-Sentinel-2藻华制图:模型描述、实现与示例
发表机构 * Department of Agricultural & Biological Engineering, Mississippi State University(密苏里州立大学农业与生物工程系)
AI总结 提出首个基于视觉Transformer的沿海藻华制图方法,利用Landsat-Sentinel-2 30米分辨率影像,通过全局分布数据集和多种架构对比,证明Swin Transformer在云/耀斑条件下优于传统方法,实现高精度碎片化藻华检测。
超越基准:面向细粒度路边感知的连续边缘推理
发表机构 * Indian Institute of Science Education and Research Bhopal(印度科学教育与研究学院博帕尔分校)
AI总结 针对边缘推理在持续运行中的性能退化问题,提出Edge-TSR系统,集成检测、跟踪与轻量级时域稳定机制,在NVIDIA Jetson Orin Nano上实现实时路边感知,恢复高达10.16%的分类准确率。
自评之言:论大语言模型在机器翻译中的口头化置信度
发表机构 * University of Colorado Boulder(科罗拉多大学博尔德分校) ; Johannes Gutenberg University Mainz(美因茨约翰内斯·古腾堡大学)
AI总结 本研究设计了五种无需内部信号的口头化方法提取LLM逐词置信度,并与内部确定性信号比较,发现两者在细粒度错误检测和校准上表现相似但相关性低。
基于多项式混沌展开与多元主动学习的工程结构不确定性量化
发表机构 * Brno University of Technology(布尔诺理工大学) ; University of Rostock(罗斯托克大学)
AI总结 针对多输出工程问题中单一实验设计难以同时准确近似所有输出量的问题,提出一种自适应序贯采样方法,通过平衡输入空间探索与多输出聚合方差信息,构建多项式混沌展开代理模型,数值实验表明该方法提高了代理精度和稳定性。
Rift: 语言模型中欺骗行为的冲突特征
发表机构 * Harmonic Labs
AI总结 通过对比知情欺骗与无知错误,发现欺骗性前向传递具有高残差秩的冲突特征,能以100%准确率无标签识别谎言,并跨模型、语言和架构迁移。
Comments 13 pages, 4 figures. Code and experiment logs: https://github.com/Omibranch/Rift
量子增强多尺度CNN与双向Mamba用于农田分析
发表机构 * Lakehead University(湖首大学)
AI总结 提出BiSpectral Mamba框架,结合多尺度CNN、光谱注意力、双向状态空间建模和量子启发学习,解决高光谱图像分类中的高维性、类不平衡等问题,在UAVHSI-Crop数据集上达到84.83%准确率。
当规则学习时:一种用于法律案例检索的自演化智能体
发表机构 * Center of Information Research, AMS(AMS信息研究中心) ; Discipline and Technology Research Center for Large Model Intelligence Applications(大模型智能应用学科与技术研究中心) ; Hebei University of Engineering(河北工程大学)
AI总结 提出一种自演化框架,通过LLM智能体自动生成并优化查询重写规则,无需参数训练即可增强BM25在法律案例检索中的性能。
Comments To appear in ACL 2026
鲁棒半空间学习中重加权铰链方法的平方和度障碍:一个Christoffel函数刻画
发表机构 * Xiaoyu Li(李小宇)
AI总结 本文通过Christoffel函数精确刻画了有界度证书无法去除的异常质量,揭示了重加权铰链方法在恶意噪声下学习γ-间隔半空间时,证书的SoS度与异常容忍度之间的基本权衡。
重新审视用于3D CT报告生成的LLM适应:缩放与诊断先验研究
发表机构 * Northwestern University(西北大学) ; University of South Dakota(南达科他大学) ; Aalto University(阿尔托大学)
AI总结 提出RAD3D-Prefix轻量级诊断先验框架,通过冻结大语言模型并融合多标签分类逻辑,在少量可训练参数下实现3D CT报告生成,优于全微调基线并展现强泛化性。
超越并行采样:面向智能搜索的多样化查询初始化
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Instituto Superior Técnico and INESC-ID, University of Lisbon(里斯本大学高等技术学院和INESC-ID) ; NOVA LINCS, NOVA School of Science and Technology(新里斯本大学科学与技术学院NOVA LINCS)
AI总结 针对智能搜索中的广度缩放,提出DivInit方法,通过在第一轮生成多样化查询而非独立采样,缓解查询冗余问题,在多跳问答任务中平均提升5-7个点。
Comments 15 pages, 8 figures; under review at EMNLP 2026
ACE-Ego-0:统一第一人称人类与机器人数据用于VLA预训练
发表机构 * ACE Robotics ; CUHK MMLab(香港中文大学多媒体实验室) ; CUHK, Shenzhen(香港中文大学(深圳)) ; SJTU(上海交通大学) ; THU(清华大学)
AI总结 提出ACE-EGO-0框架,通过可扩展的第一人称视频到动作管道和可靠性感知训练目标,统一人类与机器人数据用于VLA预训练,在多个基准上达到最优性能。
PowerOPD:利用有界幂变换稳定在线策略蒸馏
发表机构 * Eastern Institute of Technology, Ningbo(宁波东方理工大学) ; The Hong Kong Polytechnic University(香港理工大学) ; Shanghai Jiao Tong University(上海交通大学) ; University of Waterloo(滑铁卢大学)
AI总结 针对在线策略蒸馏中log-ratio奖励无界导致训练不稳定问题,提出基于Box-Cox幂变换的有界、符号一致奖励族PowerOPD,在数学推理任务上平均提升Avg@8/Pass@8达+6.37/+5.71,并降低59.2%时间与23.1%显存。
约束扩散模型与原始-对偶推理
发表机构 * Department of Electrical and Systems Engineering, University of Pennsylvania(宾夕法尼亚大学电气与系统工程系)
AI总结 提出原始-对偶推理(PDI)方法,通过联合推断最优原始分布和其对偶变量,在扩散模型反向过程中交替去噪与对偶上升,实现平均约束下的熵正则化优化问题采样。
VL-MemKnG:结合时空知识图谱的混合记忆用于长程自我中心导航轨迹问答
发表机构 * Mobile Robotics Laboratory, Artificial Intelligence Center(移动机器人实验室,人工智能中心) ; Skoltech(斯科尔科沃科学技术学院) ; Intelligent Multimodal Vision Analysis Group, Department of Engineering, Universitat Pompeu Fabra(智能多模态视觉分析组,工程系,庞培法布拉大学) ; Independent Researcher(独立研究员)
AI总结 提出VL-MemKnG混合记忆框架,结合时空知识图谱与片段级上下文记忆,通过混合检索推理模块提升长程自我中心视频导航问答的准确性和效率。
多智能体大语言模型系统中并发异常的可验证检测与预防
发表机构 * independent researcher(独立研究员)
AI总结 针对多智能体LLM系统,形式化四种并发异常并建立一致性层级,通过Verus验证检测器正确性,并在Rust运行时中实现预防。
Comments 32 pages, 2 figures, 6 tables. Verus/TLA+ verification artifact, reference Rust runtime, and Python harnesses, plus a supplementary appendix (Sections A-F, Tables S1-S6), included as ancillary files