KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyword Spotting
KFC-KWS: 基于CTC的关键帧融合用于用户自定义关键词唤醒
发表机构 * School of Electronics and Information Engineering, Hangzhou Dianzi University(杭州电子科技大学电子信息学院) ; School of Communication Engineering, Hangzhou Dianzi University(杭州电子科技大学通信工程学院)
AI总结 提出KFC-KWS多模态框架,利用CTC引导的关键帧选择对齐音频、音素和文本模态,通过交叉注意力融合关键帧与全句表示,在LibriPhrase上达到98.73% AUC,困难子集上97.65% AUC和7.75% EER,有效区分易混淆关键词。
Comments Accepted by Interspeech 2026