2605.14795
2026-05-15
cs.CV
COAL: Counterfactual and Observation-Enhanced Alignment Learning for Discriminative Referring Multi-Object Tracking
Shukun Jia, Shiyu Hu, Yipei Wang, Ximeng Cheng, Yichao Cao, Xiaobo Lu
发表机构
*
School of Automation, Southeast University, Nanjing, China(东南大学自动化学院,南京,中国)
;
Key Laboratory of Measurement and Control of Complex Systems of Engineering, Ministry of Education, Nanjing, China(工程复杂系统测量与控制国家重点实验室,教育部,南京,中国)
;
School of Physical & Mathematical Sciences, Nanyang Technological University, Singapore(南洋理工大学物理与数学科学学院,新加坡)
;
Big Data Institute, Central South University, Changsha, China(中南大学大数据研究院,长沙,中国)
AI总结
该论文研究了在稀疏语义监督下如何提升指称多目标跟踪(RMOT)的判别能力,提出了COAL框架,通过引入显式语义注入和反事实学习策略,增强对复杂语义结构的识别能力。COAL结合视觉语言模型和大语言模型,构建了一个层次化多流融合架构,有效缓解了稀疏监督导致的过拟合和语义崩溃问题。实验表明,该方法在多个基准数据集上取得了显著提升,尤其在具有挑战性的Refer-KITTI-V2数据集上超越了现有最优方法。