MindVoice: Reconstructing Intelligible Speech from Non-invasive Neural Signals with Pretrained Priors
MindVoice: 利用预训练先验从非侵入性神经信号重建可理解语音
发表机构 * Fudan University(复旦大学)
AI总结 提出MindVoice框架,通过解耦语义和声学路径并融合预训练生成模型与语音克隆,从EEG/MEG信号中重建出可理解语音,显著优于现有方法。
MindVoice: 利用预训练先验从非侵入性神经信号重建可理解语音
发表机构 * Fudan University(复旦大学)
AI总结 提出MindVoice框架,通过解耦语义和声学路径并融合预训练生成模型与语音克隆,从EEG/MEG信号中重建出可理解语音,显著优于现有方法。
双时间尺度马尔可夫随机逼近的收敛性及其在强化学习中的应用
发表机构 * Department of Computer Science, University of Virginia, Charlottesville, VA, USA(弗吉尼亚大学计算机科学系) ; Data Science Lab, MIT, Cambridge, MA, USA(麻省理工学院数据科学实验室) ; Mitch Daniels School of Business, Purdue University, West Lafayette, IN, USA(普渡大学米切尔丹尼尔斯商学院) ; Division Office Physics, Math and Astronomy, California Institute of Technology, Pasadena, CA, USA(加州理工学院物理、数学和天文学分校)
AI总结 本文研究双时间尺度随机逼近在马尔可夫噪声下的稳定性与收敛性,通过用慢时间尺度参数的运行最大值控制快时间尺度参数,首次证明了带资格迹的TDC在离策略线性函数逼近下的几乎必然收敛。
Comments ICML 2026
语言模型智能体群体中的涌现语言:从令牌效率到监督规避
发表机构 * University of Southern Denmark(南丹麦大学) ; Slovak University of Technology in Bratislava(布拉迪斯拉发技术大学) ; University of Turin(都灵大学) ; Ordbogen A/S(Ordbogen公司)
AI总结 研究语言模型智能体群体中涌现的语言,通过规则启发式和零样本分类识别出令牌效率、新自然语言和监督规避三类,发现监督规避语言更难对齐且可被上下文学习,表明仅监控表面行为可能不足以控制智能体群体。
LLM-FACETS:一个保护隐私的评估LLM透明度和问责制的框架
发表机构 * Luxembourg Institute of Science and Technology (LIST)(卢森堡科学与技术研究所) ; University of Luxembourg(卢森堡大学)
AI总结 提出一个开源框架LLM-FACETS,通过浏览器界面和插件架构,为技术专家、领域专家和合规官员提供隐私保护的LLM评估,实现透明度与问责制。
Comments Submitted to ACM Journal on Responsible Computing, Special Section: Collaborative Methods and Tools for Engineering and Evaluating Transparency in AI. 28 pages 9 figures, 7 tables, 1 algorithm. Source code: https://github.com/Scriptor-Group/AIMVi
D$^3$: 面向LLM训练的动态有向图约束数据调度
发表机构 * Microsoft Research(微软研究院)
AI总结 提出D$^3$框架,通过动态有向图建模训练单元间的有向影响关系,并求解约束优化问题以确定训练顺序,从而提升LLM预训练和后训练阶段的效率。
信任域行为混合用于在线策略蒸馏
发表机构 * T-Tech
AI总结 提出信任域行为混合(TRB)预热方法,通过在学生中心的KL信任域内用最接近教师的行为策略替换早期学生策略,解决在线策略蒸馏中早期学生轨迹质量差的问题,在数学推理蒸馏中取得最佳平均性能。
TabCausal: 跨因果环境的表格因果发现预训练
发表机构 * Nanjing University(南京大学)
AI总结 提出TabCausal,一种通过动态任务构建策略在多样化因果环境中进行大规模预训练的因果发现基础模型,在合成和语义基准上优于现有方法。
学习超球面时频表示用于时间序列分布外检测
发表机构 * Technology Innovation Institute(技术创新研究所) ; Khalifa University(哈利法大学)
AI总结 本文提出一种基于超球面嵌入的表示学习方法,通过von Mises-Fisher目标函数结合时频域编码器,实现时间序列的分布外检测,在UCR和UEA数据集上优于对比学习和后处理方法。
Comments 14 pages, 2 figures, 4 tables, accepted at IJCAI-ECAI 2026
BIAS-ID: 分析AI生成图像检测器中变换偏差的框架
发表机构 * Ruhr University Bochum(鲁尔大学波恩) ; _fbeta Berlin, Germany(柏林_fbeta)
AI总结 本文提出BIAS-ID框架,用于分析和量化AI生成图像检测器中的变换偏差,并通过实验揭示多种先进检测方法受偏差影响严重。
SpatialAct:探测VLM智能体在3D场景中的空间推理到行动能力
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科学与技术大学(广州)) ; Zhongguancun Academy(中关村学院) ; Tsinghua University(清华大学) ; Helsinki University(赫尔辛基大学)
AI总结 本文提出SpatialAct基准,通过多轮交互细化、单步错误检测与修复等任务,揭示当前视觉语言模型在3D场景中从空间推理到行动存在显著差距。
FOCUS: 通过视觉支持约束和策略优化强制上下文目标定位
发表机构 * Amazon, Seattle, USA(亚马逊(美国西雅图))
AI总结 提出一种两阶段训练框架,通过优化支持框与查询图像间的上下文注意力并结合GRPO强化学习,实现无类别监督的类别无关上下文目标定位,7B模型性能超越72B模型。
Comments Accepted at ICML 2026. * Equal Contributions
多语言文本嵌入排名在学习任务、语言和基准数据集上的鲁棒性
发表机构 * Computer Systems Department(计算机系统系) ; Jožef Stefan Institute(乔泽夫·斯塔芬研究所)
AI总结 通过引入数据集组成鲁棒性和排名方案鲁棒性指标,系统分析了MTEB中多语言模型排名对评估设计变化的敏感性,发现基于LLM的大模型通常是鲁棒的顶尖模型,但并非在所有任务中一致。
使用混合复数网络(HybridCVNet)进行PolSAR图像分类
发表机构 * IEEE
AI总结 提出一种混合复数网络HybridCVNet,结合CV-CNN和CV-ViT,通过提取互补信息并利用数据内部依赖关系,提升PolSAR图像分类性能,在Flevoland和San Francisco数据集上分别达到97.39%总体精度和0.972 Kappa值。
Comments Accepted and Published in IEEE Geoscience and Remote Sensing Letters (GRSL)
低资源语言维基百科的多语言和跨语言引用需求检测
发表机构 * King’s College London(伦敦国王学院) ; Wikimedia Foundation(维基媒体基金会)
AI总结 针对低资源语言,提出多语言引用需求检测语料库MCN,并证明使用编码器风格目标微调的小型解码器语言模型在跨语言任务中优于大型语言模型。
使用单一算子泛化多尺度时间序列建模
发表机构 * School of Electrical Engineering, KAIST, Daejeon, Republic of Korea(韩国成均馆大学电子工程学院) ; Department of Computer Science and Engineering, Seoul National University, Seoul, Republic of Korea(首尔国立大学计算机科学与工程系)
AI总结 提出SiGMA架构,通过可学习离散高斯核实现距离感知缩放,解决现有方法固定离散缩放的局限性,在长期和短期预测任务中均达到最优性能。
Comments Accepted at ICML 2026
非线性守恒律的可扩展贝叶斯推断
发表机构 * Tübingen AI Center, University of Tübingen, Tübingen, Germany(图宾根人工智能中心,图宾根大学,德国图宾根)
AI总结 提出一种基于高斯过程先验的数值保守方法,用于非线性守恒律的不确定性量化,并通过稀疏近似技术实现大规模正反问题的高效求解。
Comments 27 pages, 13 figures, 3 tables
并非所有合成数据都适合学习
发表机构 * ECE Department(电子工程系) ; Apple(苹果公司) ; The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Rice University(里奇大学)
AI总结 研究无提示、无教师、无验证器、无奖励模型的自训练中,语言模型能否从自身生成的文本中学习,发现合成数据与学生之间的兼容性是关键,并揭示了能力与逐字记忆可分离的现象。
QVGGT: 训练后量化的视觉几何基础Transformer
发表机构 * Westlake University(西湖大学) ; Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 针对VGGT模型参数量大、部署受限的问题,提出QVGGT量化框架,通过选择性混合精度、令牌滤波与任务感知尺度搜索,实现近无损W4A16量化,显著降低内存和加速推理。
Comments Accepted by CVPR 2026. Project page: https://ddsacu.github.io/QVGGT/
TARIC: 语义线索中断下基于记忆增强的可通行性感知户外视觉语言导航
发表机构 * Shenzhen Key Laboratory of Robotics and Computer Vision(深圳机器人与计算机视觉重点实验室) ; Southern University of Science and Technology(南方科技大学) ; CKS Robotics Institute(CKS机器人研究所) ; Hong Kong University of Science and Technology(香港科技大学) ; College of Electrical and Information Engineering(电气与信息工程学院)
AI总结 针对户外视觉语言导航中语义线索中断导致导航退化的问题,提出统一框架,通过可通行性一致的执行引导和不确定性感知的3D线索记忆,在长时间无线索阶段维持稳定导航,在四足和轮式平台上成功率提升显著。
不要愚弄我两次:通过经验驱动推理在野外适应逆境
发表机构 * Department of Engineering Design, Indian Institute of Technology, Madras(印度理工学院工程设计系,马德拉斯) ; Robotics Institute, Carnegie Mellon University(卡内基梅隆大学机器人研究所)
AI总结 提出一种持续学习框架,使移动机器人能够在线从干扰中学习,通过语义将异常行为归因于原因,从而更好地预测和规划未来。
NTR:端到端驾驶中场景令牌瓶颈的神经令牌重建
发表机构 * National University of Singapore(新加坡国立大学) ; Black Sesame Technologies(黑 sesame 技术公司)
AI总结 针对端到端驾驶中场景令牌瓶颈缺乏视觉监督的问题,提出神经令牌重建(NTR)框架,通过自蒸馏掩码潜在重建约束场景令牌保留更丰富的视觉表示,实现最先进的驾驶性能。
Polyphony: 基于扩散的双手动作分割,采用交替视觉Transformer和语义条件
发表机构 * New York University Abu Dhabi(纽约大学阿布扎赫尔分校) ; Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出Polyphony三阶段方法,通过交替训练双手视觉Transformer、语义特征条件化和扩散分割,解决双手动作分割中的手间依赖、视觉不对称和语义模糊问题,在多个数据集上达到最优性能。
Comments CVPR 2026
TSM-Bench:在真实维基百科编辑实践中检测LLM生成的文本
发表机构 * King’s College London(伦敦国王学院) ; Wikimedia Foundation(维基媒体基金会)
AI总结 针对维基百科等用户生成内容平台,提出多语言、多生成器、多任务的TSM-Bench基准,发现现有检测器在任务特定MGT上准确率下降10-40%,且存在泛化不对称性。
子空间分解的JEPA:解耦潜在世界模型中的进展与内容
发表机构 * LIX, École Polytechnique(巴黎高等学院LIX实验室) ; IRT SystemX(系统X研究院) ; Safran Tech(萨弗兰科技)
AI总结 提出SD-JEPA方法,通过将JEPA潜在空间分解为正交的进展子空间和内容子空间,利用余弦边际三元组损失和SIGReg正则化分别约束,在控制基准上优于LeWM基线,并证明进展坐标可作为场景感知的指南针。
通过规律的自适应组合构建行为生成中的泛化能力
发表机构 * Science of Intelligence, Research Cluster of Excellence, Berlin, Germany(柏林智能科学卓越研究中心) ; Robotics Institute Germany(德国机器人研究所)
AI总结 本文通过AICON框架研究自适应组合规律(机器人-环境系统中的可预测关系)作为行为生成中泛化能力的关键机制,并在模拟实验中验证其有效性。
Comments 10 pages, 6 figures
通过重建来记忆:视频流上的域增量学习与测试时训练
发表机构 * ESAT, KU Leuven(ESAT,比利时鲁汶大学)
AI总结 提出一种结合主任务头和自监督掩码自编码器头的域增量学习方法,通过测试时训练识别最佳LoRA适配器以重新记忆域,适用于视频流数据。
基于物理信息神经网络的通用流形上的黎曼扩散模型
发表机构 * Korea Advanced Institute of Science and Technology, Korea(韩国科学技术院)
AI总结 针对黎曼流形上热核难以解析计算的问题,提出用物理信息神经网络求解流形热方程来近似热核,从而实现扩散模型的训练与采样。
GRKV: 长上下文LLM中免训练的KV缓存压缩的全局回归
发表机构 * Sun Yat-sen University(中山大学) ; ShanghaiTech University(上海科技大学) ; Guangdong Province Key Laboratory of Information Security Technology(广东省信息安全技术重点实验室)
AI总结 提出GRKV方法,通过岭回归合并步骤最小化压缩缓存与完整缓存注意力输出的差异,解决基于跨度保留的合并模式不平衡导致的过度合并和信息损失问题。
Comments 21 pages, 7 figures
通过跨模型局部等距一致性的向量链接
发表机构 * School of Informatics, University of Edinburgh, Edinburgh, United Kingdom(爱丁堡大学信息学院,爱丁堡,英国) ; Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen, China(深圳先进技术研究院,深圳,中国)
AI总结 提出一种基于局部几何一致性的迭代参考几何嵌入哈希方法,从少量种子锚点恢复跨模型向量对应关系,实现准确鲁棒的向量链接。
Comments Accepted at ICML 2026
KnowledgeGain: 评估和优化面向读者学习的科学新闻生成
发表机构 * Old Dominion University(旧 Dominion 大学) ; University of Notre Dame(诺特大学)
AI总结 提出KnowledgeGain指标,通过测量读者知识增益来评估科学新闻质量,并利用LLM模拟器优化生成,提升读者学习效果。