Trajectory Geometry of Transformer Representations Across Layers
Transformer表示在层间的轨迹几何
发表机构 * MetriQual ; London, UK(英国伦敦) ; Athens, GR(希腊雅典)
AI总结 通过计算轨迹长度、曲率等几何指标,发现语义相关提示在中间层收敛、推理任务曲率更大、歧义token轨迹分叉,并揭示三层结构。
Comments 18 pages, 9 figures
Transformer表示在层间的轨迹几何
发表机构 * MetriQual ; London, UK(英国伦敦) ; Athens, GR(希腊雅典)
AI总结 通过计算轨迹长度、曲率等几何指标,发现语义相关提示在中间层收敛、推理任务曲率更大、歧义token轨迹分叉,并揭示三层结构。
Comments 18 pages, 9 figures
Graph2Idea:基于检索增强的图结构上下文科学想法生成
发表机构 * Southwest Petroleum University(西南石油大学) ; Sichuan Police College(四川警察学院)
AI总结 提出Graph2Idea框架,利用知识图谱将检索文献转化为结构化三元组,提取图衍生上下文,通过两阶段生成过程提高科学想法的新颖性、质量和可行性。
从反问题到神经算子:数据驱动模型的预测、机制与泛化
发表机构 * University of Colorado Boulder(科罗拉多大学博尔德分校)
AI总结 本文从哲学视角统一反问题、稀疏辨识、神经常微分方程和神经算子等数据驱动建模策略,指出它们仅在输入-输出关系的模型类假设上不同,并论证只有某些模型能发现机制并实现泛化。
MB-Loc:室外LiDAR场景中的多平面鸟瞰图定位
发表机构 * Indian Institute of Technology Jodhpur(印度理工学院焦特布尔分校)
AI总结 提出MB-Loc框架,通过将LiDAR扫描投影为2.5D多平面鸟瞰图表示,结合KL正则化隐瓶颈和3D空间增强,实现轻量级、视角鲁棒的场景坐标回归定位,在NCLT数据集上达到实时推理并超越现有方法。
GEAR-VLA:学习几何感知的动作表示以实现可泛化的机器人操作
发表机构 * Anhui University(安徽大学) ; University of Science and Technology of China(中国科学技术大学) ; iFLYTEK(科大讯飞)
AI总结 提出GEAR-VLA框架,通过粗到细的动作学习、语义对齐的3D集成和具身规范化,学习统一的几何感知动作表示,实现跨物体、背景和机器人的泛化操作。
CoVEBench: 视频编辑模型能处理复杂指令吗?
发表机构 * Nanjing University(南京大学) ; Kuaishou Technology(快手科技)
AI总结 提出CoVEBench基准,包含416个源视频和626条多点编辑指令,通过MLLM评估指令遵循度和保真度,揭示当前模型在组合编辑中常遗漏编辑或破坏保留约束。
Comments 34 pages, 11 figures, 9 tables
GENERIC-FNO:将能量守恒和熵产生嵌入傅里叶神经算子
发表机构 * University of Illinois at Chicago(伊利诺伊大学芝加哥分校) ; Georgia Tech Research Institute(佐治亚理工学院研究所)
AI总结 提出GENERIC-FNO,首个在函数空间直接嵌入非平衡热力学完整GENERIC结构的神经算子,通过秩一投影精确满足退化条件,实现能量守恒与熵产生,在超分辨率下保持结构保证。
Comments Under review at TMLR
通过语义技能发现实现持续四足机器人协调
发表机构 * National Key Laboratory of Novel Software Technology, Nanjing University, Nanjing, China(新型软件技术国家重点实验室,南京大学,南京,中国) ; School of Artificial Intelligence, Nanjing University, Nanjing, China(人工智能学院,南京大学,南京,中国) ; Polixir Technologies, Nanjing, China(南京极智科技有限公司)
AI总结 提出Conquer框架,通过语义技能库实现多四足机器人在持续学习任务中的协调,避免灾难性遗忘,最终平均成功率95.6%。
Comments 22 pages, 8 figures, 11 tables. Project page: https://conquer-project.pages.dev/
改写以翻译,翻译以奖励:机器翻译中源端改写的强化学习
发表机构 * Institute of Science Tokyo(东京科学大学) ; Preferred Networks Inc(Preferred Networks 公司) ; Nara Institute of Science and Technology(奈良先端科学技术大学院大学)
AI总结 提出RLSR框架,通过强化学习训练源端改写模型,以翻译质量提升为奖励,无需为每个MT模型调提示,在6个MT模型和16个语言对上超越无改写和同规模提示基线,与235B LLM提示基线性能相当。
MemToolAgent概述:一个简单的餐厅预订场景,其中代理检索相似记忆,接收关于无效时间格式的反馈,并生成反思以更新其记忆
发表机构 * AWS AI ; University of Washington(华盛顿大学)
AI总结 提出MemToolAgent框架,通过记忆管理提升大语言模型代理的工具使用能力,包含记忆提取和动态检索模块,在三个基准上分别提升29%、80%和17%。
Comments 8 pages, 5 figures
打破冰层:分析 vLLM 中的冷启动延迟
发表机构 * Anonymous Institution, Anonymous City, Anonymous Region, Anonymous Country(匿名机构,匿名城市,匿名地区,匿名国家)
AI总结 本文首次系统分析 vLLM 推理引擎的冷启动延迟,将其分解为六个基础步骤,发现主要受 CPU 限制,并建立轻量级分析模型预测延迟,为大规模推理环境资源规划提供指导。
Journal ref Proceedings of the 9th MLSys Conference, Bellevue, WA, USA, 2026
面向事件鲁棒的声学场景分类
发表机构 * Xi'an Jiaotong-Liverpool University(西安交通大学利物浦大学) ; Zhongdian Zhiheng Information Technology Service Co., Ltd(中电智恒信息技术服务有限公司) ; China Telecom Jiangsu Branch(中国电信江苏分公司) ; Nanjing University of Posts and Telecommunications(南京邮电大学)
AI总结 针对现有声学场景分类系统在未知声音事件下性能下降的问题,提出事件移位声学场景数据集ESAS,通过大语言模型注入前景事件模拟真实环境,评估并推动事件鲁棒ASC研究。
Comments Accepted to Interspeech 2026. The ESAS dataset is available at: https://doi.org/10.5281/zenodo.20623264
ActionMap: 基于体素动作热图的机器人策略学习
发表机构 * Show Lab, National University of Singapore(新加坡国立大学Show实验室) ; NVIDIA(英伟达)
AI总结 提出ActionMap,一种将动作空间建模为体素热图的动作解码器,替代现有VLA模型中的单点预测器,在LIBERO仿真和真实Franka操作中提升性能和数据效率。
多任务学习还不够:双输出第二语言语音识别中的表示纠缠
发表机构 * KAIST(韩国科学技术院)
AI总结 针对双输出第二语言语音识别,研究发现多任务学习导致表面转录性能下降,归因于编码器级别的表示纠缠,尤其在英语中随表面-意义差异增大而加剧。
Comments 5 pages, 2 figures, Accepted to the 43rd International Conference on Machine Learning Workshop on Machine Learning for Audio
回顾性工具优化:通过轨迹回滚上的自我偏好改进LLM智能体
发表机构 * City University of Hong Kong(香港城市大学) ; Microsoft Research Asia(微软亚洲研究院)
AI总结 提出一种自监督方法RHO,利用历史轨迹回滚和自偏好选择优化智能体工具集,无需真实标签,在SWE-Bench Pro上通过单轮优化将通过率从59%提升至78%。
Comments Code: https://github.com/wbopan/retro-harness ; Project website: https://paper-rho.wenbo.io
nnAudio 2: 克服动态编译障碍与变换不一致性
发表机构 * Singapore University of Technology and Design(新加坡科技设计大学)
AI总结 针对 nnAudio 在 TorchScript 编译、逆变换边缘情况和依赖漂移方面的问题,通过移除动态状态变异、限制逆变换适用范围并更新依赖,实现了与现代 PyTorch 和 SciPy 的兼容,提升了可微音频分析的鲁棒性。
DuDi: 跨语言动词化的双信号蒸馏
发表机构 * School of Information Science and Technology, VISTEC(信息科学与技术学院,VISTEC) ; AI Singapore(AI新加坡) ; MBZUAI
AI总结 提出DuDi框架,通过结合序列级和词元级信号以及跨语言动词化器,提升小语言模型在多语言(尤其是东南亚语言)上的性能。
Video2LoRA: 视觉-语言模型的参数化视频内化
发表机构 * University of Maryland, College Park(马里兰大学学院公园分校)
AI总结 提出Video2LoRA方法,通过感知器超网络从视频编码中直接生成LoRA适配器,实现零视觉令牌的视频查询,在保持性能的同时大幅降低计算成本。
Comments https://frames2lora.github.io/
BaltiVoice: 巴尔蒂语语音语料库与微调Whisper ASR系统
发表机构 * Independent Researcher(独立研究员) ; The Islamia University of Bahawalpur(伊斯兰巴哈瓦尔普尔大学)
AI总结 针对无公开ASR资源的巴尔蒂语,构建16.8小时朗读语音语料库并微调Whisper-small模型,在验证集上词错误率从182.18%降至30.07%。
Comments 6 pages, 3 figures, 4 tables. Code and data available at https://github.com/mohdali-dev/BaltiVoice-ASR
Libra:面向智能体强化学习后训练的高效资源管理
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; The Hang Seng University of Hong Kong (2018)(香港恒生大学)
AI总结 针对智能体强化学习中长尾、非平稳工作负载带来的资源管理挑战,提出Libra系统,通过周期性全局资源规划器和因果驱动多级反馈队列调度器,实现GPU分配优化和请求调度,最高提升3倍吞吐量和2.5倍收敛速度。
Comments 19 pages, 12 figures
潜意识学习是引导向量蒸馏
发表机构 * Stanford University(斯坦福大学)
AI总结 本文发现潜意识学习通过单个引导向量实现,并证明这是引导向量蒸馏的特例,解释了非语义数据如何传递语义特征。
整流流中对比速度匹配的几何擦除
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; ETH Zurich(苏黎世联邦理工学院)
AI总结 提出GEM框架,通过对比速度匹配实现整流流模型中的概念擦除,结合生成流网络与教师引导的流匹配,有效抑制有害内容生成。
通过结构细化减轻生成式AI图像编辑中的内容偏移和幻觉
发表机构 * Department of Electrical Engineering & Computer Science(电气工程与计算机科学系)
AI总结 提出一种后处理框架,通过建立粗空间和光度对应关系并融合输入图像与GenAI增强图像,在保留感知增强的同时抑制幻觉内容,从而解决黑盒GenAI图像编辑中的结构保持问题。
Brain-IT-VQA: 从脑信号到答案
发表机构 * Weizmann Institute of Science(魏茨曼科学研究所)
AI总结 提出 Brain-IT-VQA 框架,基于 fMRI 脑信号解码语言令牌并结合语言模型进行视觉问答,在 NSD-VQA 新基准上显著优于先前方法,并用于分析脑区对视觉信息的贡献。
通过蒸馏和量化扩展 Apertus LLM 系列
发表机构 * LLM Family Expansion via Distillation and Quantization(LLM家族通过蒸馏和量化进行扩展)
AI总结 本文通过蒸馏和量化方法,基于 Apertus 8B 模型低成本扩展出参数高达 4B 的模型系列,覆盖多种硬件约束并保持强准确性。
GrowLoop: 由人类种子驱动的自进化对话评估
发表机构 * Amap, Alibaba Group(阿里集团阿地图) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳))
AI总结 针对开放域对话中类人性评估的隐性知识、标准分歧和动态演化三大挑战,提出GrowLoop自进化评估系统,通过最小人工种子标注和启发式学习迭代提取评估标准,并利用标准-案例协同进化机制持续适应模型进步和场景变化。
基于扩散的多模态大语言模型的视觉冗余控制并行解码
发表机构 * Zhejiang University(浙江大学) ; ZJUI-UIUC Institute(ZJUI-UIUC研究院)
AI总结 针对扩散型多模态大语言模型并行解码中视觉冗余问题,提出视觉冗余指数(VRI)和无需训练的视觉冗余控制解码(VRCD)方法,通过令牌到图像的注意力优先选择视觉互补位置,在多个基准上提升准确率。
Comments 18 pages, 5 figures, preprint. Code is available at https://github.com/infiniteYuanyl/VRCD
STEAM: 挤压与变换增强注意力模块
发表机构 * Department of Electrical Engineering, IIT Bombay, India(印度比哈尔理工学院电子工程系)
AI总结 提出一种基于图多头变换器的常参数注意力模块STEAM,同时建模通道和空间注意力,在几乎不增加计算量(GFLOPs)的情况下提升CNN性能。
ChartFI: 多模态大语言模型图表描述的忠实性与洞察力基准测试
发表机构 * School of Data Science, Fudan University(复旦大学数据科学学院) ; Zhengzhou Zhongke Institute of Integrated Circuit and System Application(郑州中凯集成电路与系统应用研究院) ; School of Computer Science, Fudan University(复旦大学计算机科学学院)
AI总结 提出ChartFI-Bench基准,包含896个复杂图表-描述对,并设计四个评估指标(忠实性、覆盖率、信息量、敏锐度),系统评估多模态大语言模型生成图表描述的质量。
GILT:一种无需LLM、无需微调的图基础模型用于上下文学习
发表机构 * Institute for Artificial Intelligence, Peking University(北京大学人工智能研究院) ; Wangxuan Institute of Computer Technology, Peking University(北京大学王宣计算机技术研究所)
AI总结 提出GILT框架,通过基于令牌的上下文学习机制统一处理节点、边和图级别的分类任务,无需大语言模型或微调,实现高效泛化。
Comments Accepted as an oral presentation at the GFM @ ICML 2026 Workshop