多模态大模型 - arXivDaily 专题

2606.20418 2026-06-19 cs.SD 新提交专题 90

MixProLAP: Mixture-Induced Uncertainty Modeling for Probabilistic Language-Audio Pretraining

MixProLAP：混合诱导的不确定性建模用于概率性语言-音频预训练

Yu Nakagome, Jaesong Lee, Soo-Whan Chung

专题命中音视频多模态：概率性音频-语言预训练，建模多模态对齐不确定性

AI总结提出概率性音频-语言预训练框架MixProLAP，通过混合音频-文本对模拟重叠声音，建模多对多对应不确定性，并引入多级包含损失，在音频-文本检索中优于确定性基线。

Comments Accepted to Interspeech 2026

URL PDF HTML

2606.19940 2026-06-19 eess.AS 新提交专题 85

Analyzing Language and Geographical Variation in Speech Representations Across 60 Indic Languages

分析60种印度语言语音表征中的语言和地理变异

Pavan Kumar J, Agneedh Basu, Pranav Bhat, Sujith Pulikodan, Visruth Sanka, Nihar Desai, Prasanta Kumar Ghosh

专题命中音视频多模态：联合语言-地区监督微调语音表征，属于多模态学习

AI总结研究通过联合语言-地区监督微调Whisper-base和Wav2Vec2.0，发现该方法在保持语言分类能力的同时，提升了嵌入空间中地区区分度，并利用归一化条件互信息分析了嵌入结构。

URL PDF HTML

2606.19398 2026-06-19 cs.SD eess.AS eess.SP 新提交专题 85

S-JEPA : Soft Clustering Anchors for Self-Supervised Speech Representation Learning

S-JEPA：用于自监督语音表示学习的软聚类锚点

Georgios Ioannides, Adrian Kieback, Judah Goldfeder, Linsey Pang, Aman Chadha, Aaron Elkins, Yann LeCun, Ravid Shwartz-Ziv

专题命中音视频多模态：自监督语音表示学习，属于音频模态。

AI总结提出S-JEPA，通过KL散度匹配高斯混合模型的软后验概率训练编码器-预测器对，无需离线重聚类或教师蒸馏，在SUPERB协议下以低于90M参数取得最低WER，并建立新的帕累托前沿。

URL PDF HTML

2606.19381 2026-06-19 cs.SD cs.AI 新提交专题 85

Improving Code-Switching ASR with Code-Mixing Guided Synthetic Speech

利用语码混合引导的合成语音改进语码转换语音识别

Yue Heng Yeo, Haoyang Li, Yizhou Peng, Shreyas Gopal, Hexin Liu, Leibny Paola Garcia-Perera, Hardik B. Sailor, Jeremy H. M. Wong, Eng Siong Chng

专题命中音视频多模态：改进语码转换语音识别，结合文本和语音。

AI总结针对语码转换语音识别中高质量文本-语音对稀缺的问题，提出语码混合引导的偏好学习框架，通过语码混合指数优化合成语音的转换保真度，在SEAME语料库上微调Whisper Large，将混合错误率从12.1%/17.8%降至8.9%/14.2%。

Comments Accepted to Interspeech 2026

URL PDF HTML

2606.20266 2026-06-19 eess.AS 新提交专题 80

Transcript-Free Flow-Matching Text-to-Speech via Speech Feature Conditioning

基于语音特征调节的无转录流匹配文本转语音

SooHwan Eom, Hee Suk Yoon, Eunseop Yoon, Mark Hasegawa-Johnson, Chang D. Yoo

专题命中音视频多模态：流匹配TTS，使用自监督语音表示

AI总结提出RTFree-F5，用自监督语音表示替代参考转录本，通过轻量适配器映射到F5-TTS文本条件空间，消除对外部ASR依赖，在构音障碍语音上WER从24.6%降至10.4%。

Comments Accepted to Interspeech 2026

URL PDF HTML

2606.20457 2026-06-19 eess.AS cs.AI cs.LG 新提交专题 80

Repurposing a Speech Classifier for Guided Diffusion-Based Speech Generation

重新利用语音分类器进行基于引导扩散的语音生成

Rostislav Makarov, Timo Gerkmann

专题命中音视频多模态：语音分类器重用于扩散生成

AI总结提出将预训练的语音分类器作为扩散生成的主干，通过附加轻量子网络并仅训练该子网络，实现单主干模型的高质量条件语音生成，降低内存和计算成本。

Comments Accepted for publication in the Proceedings of Interspeech 2026

URL PDF HTML

2603.10791 2026-06-19 eess.IV 版本更新专题 80

Semantic Satellite Communications for Synchronized Audiovisual Reconstruction

面向同步视听重建的语义卫星通信

Fangyu Liu, Peiwen Jiang, Wenjin Wang, Xiao Li, Shi Jin

专题命中音视频多模态：提出多模态语义传输系统实现视听同步重建。

AI总结提出自适应多模态语义传输系统，通过双流生成架构和动态关键帧更新机制，在带宽受限的卫星场景下实现高质量同步视听重建，显著降低带宽消耗并提升鲁棒性。

URL PDF HTML

2606.20338 2026-06-19 eess.AS 新提交专题 70

Stuttering Classification and Segmentation with Attention-Based Multiple Instance Learning

基于注意力多实例学习的口吃分类与分割

Petar Sušac, Sebastian P. Bayerl, Hrvoje Džapo

专题命中音视频多模态：多实例学习用于语音分类与分割

AI总结提出基于微调wav2vec 2.0、WavLM和Whisper编码器的多实例神经网络，利用片段级数据实现帧级口吃分类与分割，帧级F1提升23%。

Comments Accepted at Interspeech 2026

URL PDF HTML

2606.20001 2026-06-19 eess.AS 新提交专题 70

Time-Unconditional Generative Speech Enhancement via Autonomous Rectified Flow

基于自主整流流的时间无条件生成式语音增强

Wen Zhang, Wenbin Jiang, Yang Zhang, Xiaofei Zhou

专题命中音视频多模态：生成式语音增强，整流流框架

AI总结提出自主整流流框架，通过线性插值路径证明目标向量场时间不变性，设计时间无条件网络仅从空间关系推断去噪方向，显著提升生成质量、鲁棒性和推理效率。

URL PDF HTML

2606.19974 2026-06-19 eess.AS 新提交专题 70

Interpreting Content and Speaker Characteristics in Factorised Self-Supervised Subspaces

解释因子化自监督子空间中的内容和说话人特征

Kyle Janse van Rensburg, Herman Kamper

专题命中音视频多模态：自监督语音特征分解与解释

AI总结通过SVD分解WavLM特征为内容矩阵和说话人变换，发现内容空间主要编码强度、共振峰和发声，而说话人空间与音高和性别强相关，并可用于语音合成中的精细控制。

Comments 7 pages, 4 figures

URL PDF HTML

2606.19453 2026-06-19 eess.AS 新提交专题 70

A Survey of Full-Duplex Spoken Dialogue Systems: Architectural Hierarchy, Interaction Ontology, and Decision State Machine

全双工口语对话系统综述：架构层次、交互本体与决策状态机

Jingyu Lu, Yuhan Wang, Jianming Luo, Yifu Chen, Tianle Liang, Shengpeng Ji, Ziyue Jiang, Xiaoda Yang, Yu Zhang, Xize Cheng, Chenyuhao Wen, Changhao Pan, Haoxiao Wang, Chen Ye, Jian Wu, Xiaoxi Jiang, Guanjun Jiang, Zhou Zhao

专题命中音视频多模态：全双工口语对话系统涉及语音与文本多模态交互

AI总结针对全双工术语歧义，提出L0-L3架构层次、T×I×R交互本体和IDLE/LISTEN/SPEAK/WAIT/DUAL决策状态机三个框架，揭示现有系统在训练与评估中的实现差距。

Comments 34 pages, 5 figures, 7 tables. Project page and interactive demo: https://github.com/DuplexLM/DuplexSurvey

URL PDF HTML

2606.20137 2026-06-19 eess.AS cs.CL cs.LG cs.SD 新提交专题 70

PASQA: Pitch-Accent-Focused Speech Quality Assessment Model Trained on Synthetic Speech with Accent Errors

PASQA：针对重音错误的合成语音训练的以音高重音为中心的语音质量评估模型

Masaya Kawamura, Yuma Shirahata, Kentaro Mitsui, Reo Shimizu

专题命中音视频多模态：语音质量评估，关注音高重音

AI总结提出PASQA模型，通过可控重音合成数据集和伪重音质量分数，结合自监督表示、摩拉条件融合等训练策略，有效评估音高重音正确性，优于传统MOS模型。

Comments Accepted to INTERSPEECH 2026

URL PDF HTML

2606.20106 2026-06-19 eess.AS cs.SD 新提交专题 70

Personalized Keyword Spotting for User-Defined Keywords Leveraging Text-Independent Speaker Verification

利用文本无关说话人验证的用户自定义关键词个性化唤醒

Ming-Hsiang Hu, Kuan-Tang Huang, Chien-Chun Wang, Hung-Shin Lee, Berlin Chen

专题命中音视频多模态：个性化关键词唤醒，说话人验证

AI总结提出ZP-KWS轻量框架，结合音素监督音频编码器和紧凑说话人编码器，通过乘法后融合实现零样本关键词检测与说话人验证，在多个数据集上将目标误拒率降低高达60%。

Comments Accepted to Interspeech 2026

URL PDF HTML

2606.19951 2026-06-19 eess.AS cs.CL cs.LG cs.SD 新提交专题 70

Investigating Human-Model Discrepancies in Speech Quality Assessment via Acoustic and Prosodic Perturbations

通过声学和韵律扰动研究语音质量评估中的人机差异

Masato Takagi, Masaya Kawamura, Reo Shimizu, Yuma Shirahata

专题命中音视频多模态：人机语音质量评估差异研究

AI总结通过声学退化、韵律错误和说话人特征扰动，发现MOS预测模型对声学退化敏感，但对韵律错误不敏感，且对基频有偏见，而对语速和基频变化不敏感。

Comments Accepted to INTERSPEECH 2026

URL PDF HTML

2606.19823 2026-06-19 eess.AS cs.LG 新提交专题 70

Low-Burden Data Augmentation for Dysarthric ASR via Zero-Shot Voice Cloning

低负担数据增强：通过零样本语音克隆改善构音障碍语音识别

Satwinder Singh, Qianli Wang, Zihan Zhong, Clarion Mendes, Hasegawa-Johnson, Waleed Abdulla, Seyed Reza Shahamiri

专题命中音视频多模态：零样本语音克隆增强构音障碍ASR

AI总结针对构音障碍语音数据稀缺和变异性大的问题，提出使用零样本语音克隆（Higgs Audio V2）生成合成数据，微调Whisper-medium模型，在TORGO数据集上达到与真实数据微调相近的词错误率，并显著降低数据收集成本。

Comments Accepted to Interspeech 2026, Sydney, Australia

URL PDF HTML

2606.19797 2026-06-19 eess.AS cs.AI cs.SD eess.SP 新提交专题 70

Improving End-to-End Speech Recognition for Dysarthric Speech through In-Domain Data Augmentation

通过域内数据增强改进构音障碍语音的端到端语音识别

Paban Sapkota, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Shrikanth Narayanan

专题命中音视频多模态：域内数据增强改善构音障碍ASR

AI总结针对构音障碍语音识别中数据稀缺和严重程度差异的问题，本文探索了四种数据增强方法（SRM、PM、FM、VTLP）对预训练Wav2Vec2模型进行微调，在不同严重程度上实现了显著的字错误率降低。

URL PDF HTML

2606.19793 2026-06-19 eess.AS cs.AI cs.LG cs.SD eess.SP 新提交专题 70

Systematic Study of Dysarthric Speech Recognition: Spectral Features and Acoustic Models

构音障碍语音识别的系统研究：频谱特征与声学模型

Paban Sapkota, Hemant Kumar Kathania, Mikko Kurimo, Sudarsana Reddy Kadiri, Shrikanth Narayanan

专题命中音视频多模态：构音障碍语音识别特征与模型研究

AI总结本文系统研究不同频谱特征与声学模型的组合，通过引入音高特征和优化训练帧重叠数，在F-TDNN模型上实现孤立词和句子识别相对提升4.65%和4.63%。

URL PDF HTML

2606.19791 2026-06-19 eess.AS cs.AI cs.SD 新提交专题 70

Cross-Dataset, Age, and Gender Generalization: A Comprehensive Analysis of Fine-Tuning Strategies for Low-Resource Children's ASR

跨数据集、年龄和性别泛化：低资源儿童语音识别的微调策略综合分析

Paban Sapkota, Hemant Kumar Kathania, Mikko Kurimo, Sudarsana Reddy Kadiri, Shrikanth Narayanan

专题命中音视频多模态：儿童语音识别微调策略泛化分析

AI总结针对低资源儿童语音识别，系统分析了不同微调策略在跨数据集、年龄和性别泛化上的表现，发现特定策略能显著提升泛化能力。

URL PDF HTML

2606.20478 2026-06-19 eess.AS 新提交专题 60

Beyond Speaker Independence: Evaluating Cross-Lingual Acoustic-to-Articulatory Inversion Across Finnish and Russian

超越说话人独立性：跨语言声学到发音反演在芬兰语和俄语上的评估

Ruchi Pandey, Tomi Kinnunen

专题命中音视频多模态：跨语言声学-发音映射，涉及多模态特征

AI总结本研究系统评估了跨说话人和跨语言域偏移下的声学到发音反演（AAI）性能，利用新构建的芬兰语-俄语双语EMA语料库FROST-EMA，比较了不同发音目标、声学前端和反演后端，发现跨性别性能下降中等（约0.05-0.10），跨语言下降更大（约0.10-0.20）。

URL PDF HTML