Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought
发表机构 * Tianjin Key Laboratory of Cognitive Computing(天津认知计算实验室) ; Tianjin University(天津大学) ; Huiyan Technology Company, Ltd.(慧颜科技有限公司) ; Chinese Academy of Sciences(中国科学院) ; Tencent(腾讯)
AI总结 该研究针对音频-视觉大语言模型在推理过程中存在的跨模态干扰问题,提出了一种名为“先分离后融合”(SFFL)的新型推理框架。该方法通过强制进行模态特定的推理过程,分别生成音频和视觉的推理轨迹,并在后续阶段整合信息进行回答,从而减少模态间的信息干扰。实验表明,该方法在多个基准测试中显著提升了模型的准确性和鲁棒性。