BEST-RQ-Based Self-Supervised Learning for Whisper Domain Adaptation
发表机构 * Université de Lorraine, CNRS, Inria, LORIA, F-54000 Nancy, France(洛林大学、法国国家科学研究中心、法国国家信息与自动化研究所、LORIA研究所、法国南锡市)
AI总结 本文提出了一种名为BEARD的新型框架,用于在缺乏标注数据的低资源场景下对Whisper语音识别模型进行领域自适应。该方法结合了BEST-RQ自监督学习目标与知识蒸馏技术,通过未标注数据微调Whisper编码器,并与预训练解码器保持互补性。实验表明,在具有非母语发音、噪声和专业术语的航空管制通信领域,该方法在仅使用5000小时未转录语音和2小时标注语音的情况下,相比已有基线和微调模型,相对提升了12%的识别性能,是首个将自监督学习应用于Whisper领域自适应的工作。
Comments Accepted to ICASSP 2026