Automatic Labelling of Speech Translation Errors
语音翻译错误的自动标注
发表机构 * Charles University(查尔斯大学) ; University of Edinburgh(爱丁堡大学) ; Karlsruhe Institute of Technology(卡尔斯鲁厄理工学院)
AI总结 针对语音翻译缺乏置信度评估方法的问题,提出STEL标注协议,通过文本和多模态系统分析,发现直接语音处理对任务必要且与文本系统互补。
语音翻译错误的自动标注
发表机构 * Charles University(查尔斯大学) ; University of Edinburgh(爱丁堡大学) ; Karlsruhe Institute of Technology(卡尔斯鲁厄理工学院)
AI总结 针对语音翻译缺乏置信度评估方法的问题,提出STEL标注协议,通过文本和多模态系统分析,发现直接语音处理对任务必要且与文本系统互补。
IA-RAG:基于区间代数的动态知识检索时间推理
发表机构 * East China Normal University(华东师范大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; University of Shanghai for Science and Technology(上海科技大学) ; Harbin Engineering University(哈尔滨工程大学)
AI总结 提出IA-RAG框架,通过区间代数建模时间约束,实现层次化时间检索与推理,在复杂时间问答任务上表现优异。
Comments 22 pages, 10 figures, 13 tables. Code available at https://github.com/xiaoAugenstern/LogicalRAG_TemporalQA
通过零样本迁移学习实现机器人操作任务的样本高效低级运动规划
发表机构 * School of Computer Science & Informatics, Cardiff University, Cardiff, UK(计算机科学与信息学系,卡迪夫大学,卡迪夫,英国)
AI总结 提出iCEM+TL框架,通过迁移学习和奖励重塑提高复杂操作任务的成功率,仿真中提升高达23%,并在真实机器人上验证。
Comments 12 pages, 5 figures, International Conference on Artificial Neural Networks (ICANN) 2026 conference accepted
快速生长:高速藤蔓机器人尖端支架的设计与基准测试
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; Lincoln Laboratory(林肯实验室) ; Stanford University(斯坦福大学) ; University of Notre Dame(圣母大学)
AI总结 提出一种三角滚轮尖端支架,通过滚动代替滑动减少生长阻力,实现TPU涂层防撕裂尼龙藤蔓机器人的一致外翻,并建立可重复的基准测试框架。
Comments Accepted to IEEE Robotics & Automation Letters
保留纹理的隐式神经表示用于锥束CT截断重建
发表机构 * National Key Research and Development Program of China(中华人民共和国国家重点研发计划) ; National Natural Science Foundation of China(中华人民共和国国家自然科学基金) ; Fundamental Research Funds for the Central Universities(中央高校基本科研业务费)
AI总结 提出一种自监督的3D重建框架,基于神经场景表示,结合物理迭代细化模块,解决锥束CT截断重建中的伪影和纹理丢失问题。
英语到普拉克里特语的机器翻译:基于多语言迁移学习
发表机构 * Sardar Vallabhbhai National Institute of Technology(萨达尔·瓦拉布尔·尼西特国家理工学院)
AI总结 针对低资源目标语言普拉克里特语,通过将普拉克里特语映射到印地语标签并利用多语言模型,在少量平行语料上实现可行的机器翻译,揭示了脚本兼容的语言路由对未支持古典语言的迁移潜力及数据稀缺和方言不匹配的限制。
记忆是重建的,而非检索的:面向LLM智能体的图记忆
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学)
AI总结 提出MRAgent框架,通过关联记忆图和主动重建机制,使LLM智能体在推理过程中动态调整记忆访问,显著提升长程记忆推理性能。
Comments Accepted at ICML 2026
当足够好即最优:量化门控DeltaNet的仅乘法矩阵求逆近似
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对分块并行线性注意力中矩阵求逆的瓶颈,提出基于截断Neumann级数展开的仅矩阵乘法算法,结合结构掩码和并行残差校正,实现NPU上5倍内核加速和20%解码层开销降低。
灾难性遗忘作为可访问性崩溃:持续学习中知识持久性的三层次框架
发表机构 * Independent Researchers(独立研究者)
AI总结 本文提出一个三层次框架(知识存储、表示和可访问性),通过实验证明灾难性遗忘主要是可访问性失败而非表示擦除,重新训练分类器可恢复大部分性能。
Comments 14 pages, 6 figures, 8 tables. Sequential continual-learning experiments on CIFAR-100 using ResNet-18
NAVIRA: 解耦随机重掩码用于掩码扩散语言模型
发表机构 * Lomonosov Moscow State University(莫斯科罗蒙诺索夫莫斯科国立大学) ; Institute for Artificial Intelligence(人工智能研究所)
AI总结 针对掩码扩散语言模型并行生成中的上下文污染问题,提出NAVIRA解码策略,通过解耦质量检测与重生成、随机采样重掩码位置,提升流畅性和多样性。
RedditPersona: 一个用于从Reddit进行社区条件化LLM适配的模块化框架
发表机构 * Future Computing Group University of Oulu(未来计算组奥卢大学) ; Centre for Applied Computing University of Oulu(应用计算中心奥卢大学)
AI总结 提出RedditPersona模块化框架,通过五种分组策略和QLoRA训练参数高效适配器,在112个Reddit子版块上评估社区条件化语言模型,发现适配器的行为可识别性与策略内在一致性相关,且所有策略在可识别性和分布相似性之间存在一致权衡。
EGTR-Review: 基于多智能体教师蒸馏的高效证据支撑科学同行评审生成
发表机构 * Department of Information Management, Peking University(北京大学信息管理系) ; PKU-WUHAN Institute for Artificial Intelligence, Peking University(北京大学武汉人工智能研究院)
AI总结 提出EGTR-Review框架,通过多智能体教师蒸馏和证据加权目标,实现轻量级学生模型的高质量、可溯源同行评审生成。
社交媒体立场检测的上下文化提示
发表机构 * Institute of Intensive Care, University Hospital of Zurich and University of Zurich(重症医学研究所,苏黎世大学医院和苏黎世大学) ; Institute of Computer Science, University of Goettingen(计算机科学研究所,哥廷根大学) ; GESIS Leibniz Institute for the Social Sciences(社会科学研究莱比锡研究所) ; Institut für Publizistik, Johannes Gutenberg-University Mainz(主笔研究所,美因茨约翰· Gutenberg 大学) ; Ubiquitous Knowledge Processing Lab, Technical University of Darmstadt(无处不在知识处理实验室,达姆施塔特技术大学)
AI总结 通过系统实验,研究在零样本提示中融入真实世界、推导和LLM生成的上下文特征对Twitter立场检测的影响,发现LLM生成的目标描述能持续提升准确率,而其他用户元数据效果不一。
ReSAGE-PAR:行人属性识别中生成式扩展的表征相似性评估
发表机构 * Universidad Autónoma de Madrid(阿隆托纳大学马德里分校)
AI总结 针对行人属性识别数据稀缺问题,提出ReSAGE-PAR管道,通过扩散模型生成图像并利用贝叶斯分类器验证属性,实现可扩展的高保真数据集扩展,在标准骨干网络上提升高达8.7%。
Comments Under review at IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)
PLAN-S:通过潜在风格动态桥接规划以实现自动驾驶世界模型
发表机构 * Intelligent Transportation Thrust, Systems Hub, and Center of Seamless Connectivity & Connected Intelligence, The Hong Kong University of Science and Technology (Guangzhou)(智能交通 thrust、系统中心及无缝连接与智能连接研究院,香港科学与技术大学(广州))
AI总结 提出PLAN-S框架,通过从潜在表示解码风格条件语义成本图,解决自动驾驶中潜在世界模型规划的可控性问题,在nuScenes和NAVSIM上降低了碰撞率并提升了驾驶性能。
将基于模型的控制与多智能体强化学习相结合以实现多智能体协作团队策略
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Sandia National Laboratories(桑地亚国家实验室)
AI总结 提出一种结合多智能体强化学习与模型预测控制的框架(MA-AC-MPC),通过扩展演员-评论家模型预测控制实现安全、动态可行的协作策略,并在追逃场景和异构环境中验证其优于多层感知机模型。
Comments 12 pages, 8 figures, 7 tables
生成器-擦除器悖论:负责任的大语言模型辅助方言资源创建的社区指南
发表机构 * Northwestern University in Qatar(卡塔尔西北大学)
AI总结 本文提出生成器-擦除器悖论理论框架,推导出12条社区指南,并通过阿拉伯方言案例展示如何在大语言模型辅助方言资源创建中平衡效率与语言多样性保护。
超越向量相似性:面向工业知识图谱的图增强检索结构分析
发表机构 * Grama Chethan
AI总结 本文通过对比八种检索架构,提出操作符词汇表论点,证明基于LLM的图推理瓶颈在于计算操作符而非模型智能,并引入LLM查询规划器,在工业知识图谱上实现优于定制处理器的性能。
Comments 11 pages
ATT-CR: 自适应三角变换器用于云去除
发表机构 * Xi’an Jiaotong University(西安交通大学) ; School of Computing and Artificial Intelligence, Southwestern University of Finance and Economics(计算机与人工智能学院,西南财经大学) ; Ningbo University of Technology(宁波工程学院)
AI总结 提出自适应三角变换器(ATT-CR),通过三角注意力和特征选择门控模块降低计算复杂度并减少云像素干扰,实现高效云去除。
基于深度学习的二维口内图像三维口腔重建
发表机构 * KAIST(韩国科学技术院)
AI总结 提出一种仅用十张二维口内图像进行三维口腔重建的软件方法,采用MobileNetV2与多头注意力机制,降低成本和不适,实现自动化重建。
Comments 4 pages, 5 figures. English version of a paper presented at the Korea Multimedia Society Conference, November 2025
使用大语言模型和梯度提升的多模态性别歧视识别与表征
发表机构 * Artificial Intelligence and Learning Systems Laboratory(人工智能与学习系统实验室) ; School of Electrical and Computer Engineering(电气与计算机工程学院) ; National Technical University of Athens(雅典国家技术大学)
AI总结 提出基于特征工程和梯度提升回归模型的后融合管道,结合视觉、文本、人口统计、生物特征及LLM语义指标,用于识别和表征模因和短视频中的多模态性别歧视。
HoT-SSM:用于医疗保健的高阶时序知识图谱推理与状态空间模型
发表机构 * Fujitsu Research of India, Bangalore(印度班加罗尔 Fujitsu 研究院)
AI总结 提出HoT-SSM模型,通过构建超图捕获高阶临床交互,并利用动态超图状态空间模型建模长程时序依赖,在MIMIC-III/IV数据集上显著提升临床预测性能。
Comments Paper under review
压缩-蒸馏:面向高效知识蒸馏的推理轨迹压缩
发表机构 * Université catholique de Louvain(列日天主教大学) ; Sophont Inc(Sophont公司)
AI总结 本文提出在知识蒸馏前对推理轨迹进行事后压缩,以降低训练成本并缩短推理输出,实验表明压缩在准确率与效率间存在权衡。
超越对齐:多元文化智能体系统中的价值多样性作为集体属性
发表机构 * Singapore University of Technology and Design(新加坡科技设计大学) ; Washington University in St. Louis(华盛顿大学圣路易斯分校)
AI总结 针对多元文化多智能体系统,提出以价值多样性作为系统级评估轴,通过文化条件化智能体在共享价值调查中的响应差异度量,发现多样性几乎与对齐无关,且当前系统远低于人类社会,混合骨干系统缩小但未消除差距,社会互动进一步侵蚀多样性。
框架构建、判断、引导:一种可评估的能力模型,用于教授学生与生成式AI进行推理
发表机构 * Holon Institute of Technology(霍洛恩技术学院) ; Afeka College of Engineering(阿菲卡工程学院)
AI总结 提出CoRe-3能力模型,将有效使用AI分解为框架构建、判断和引导三种可评估技能,并通过模拟实验验证其区分效度。
Comments 18 pages, 4 pages
基于视觉感知的多模态大语言模型条件编辑扩散的视频率流式风格化:蒸馏UNet + MLLM文本编码器上的非对称批处理推理
发表机构 * Independent researcher(独立研究员)
AI总结 针对蒸馏扩散模型中文本编码器成为瓶颈的问题,提出一种结合非对称CUDA流水线、编译友好的ControlNet-LLLite重构和周期性条件刷新调度的流式管线,在消费级GPU上实现视频率实时风格化编辑。
Comments 12 pages, 4 figures, 12 tables. Under review at IEEE Transactions on Circuits and Systems for Video Technology. Code, evaluation harness, and the released v3 Temporal LLLite adapter weights are at https://github.com/otanl/dreamlite-stream (also mirrored to Hugging Face and Zenodo)
世界-语言-动作模型:统一世界建模、语言推理与动作合成
发表机构 * SJTU(上海交通大学) ; SII(上海研究院) ; HUST(华中科技大学) ; SCUT(华南理工大学) ; ECUST(东华大学) ; SHU(上海大学) ; NJUPT(南京工业大学)
AI总结 提出世界-语言-动作(WLA)模型,通过自回归Transformer联合预测文本子任务、子目标图像和机器人动作,融合世界建模与语言推理能力,实现多任务和长时域任务的最优性能。
Comments 19 pages, 10 figures
自我修正错觉:LLM 纠正他人但不纠正自己
发表机构 * National Taiwan University(国立台湾大学)
AI总结 本文通过保持错误声明字节一致仅改变角色标签,发现 LLM 无法自我修正并非能力缺陷,而是聊天模板角色标签的人为产物,并提出无需训练或模型修改的提示结构干预方法。
T-FunS3D:任务驱动的分层开放词汇3D功能分割
发表机构 * P4MARS Lab at the Faculty of Aerospace Engineering, Delft University of Technology(代尔夫特理工大学航空航天工程学院P4MARS实验室)
AI总结 提出T-FunS3D方法,通过构建开放词汇场景图并利用视觉语言模型,实现任务驱动的分层3D功能分割,在保持性能的同时提升速度和降低内存消耗。
基于反事实链和因果图的LLM可解释性
发表机构 * Faculty of Data and Decision Sciences, Technion I IBM Research(数据与决策科学学院,技术离子IBM研究所)
AI总结 提出一种四阶段方法,利用因果图建模LLM推理过程,通过MCMC启发的反事实增强发现类判别性概念并生成可解释图,用于疾病诊断、情感分析等任务。