2606.12199
2026-06-11
eess.AS
cs.CL
cs.SD
新提交
Which Speech Representation Better Matches Text-Native Reasoning? A Study of Speech-Text Alignment on Frame Rate and Representation
哪种语音表示更匹配文本原生推理?帧率和表示对语音-文本对齐的研究
Zhen Ye, Xu Tan, Yiming Li, Guangyan Zhang, Chimin Chan, Haohe Liu, Zhengxi Liu, Hongzhan Lin, Zheqi Dai, Xinshen Zhang, Peiwen Sun, Qiuqiang Kong, Wei Xue
发表机构
*
Hong Kong University of Science and Technology, Hong Kong SAR(香港理工大学)
;
Tencent, China(腾讯)
;
University of Surrey, United Kingdom(Surrey大学)
;
Chinese University of Hong Kong, Hong Kong SAR(香港中文大学)
;
Hong Kong Baptist University, Hong Kong SAR(香港 Baptist大学)
;
Hong Kong Polytechnic University, Hong Kong SAR(香港理工大学)
;
Independent Researcher(独立研究者)
AI总结
研究语音与文本模态差异中的时间粒度不匹配问题,提出因子化FSQ和轻量非自回归音频LM头以降低帧率,发现4.17Hz帧率结合中间层表示对齐在语音问答中表现最佳。