Logit-Attention Divergence: Mitigating Position Bias in Multi-Image Retrieval via Attention-Guided Calibration
发表机构 * Zhiyuan College, Shanghai Jiao Tong University, Shanghai, China(上海交通大学紫阳学院) ; Shanghai Jiao Tong University, Shanghai, China(上海交通大学) ; Shanghai Artificial Intelligence Laboratory, Shanghai, China(上海人工智能实验室) ; Shanghai Innovation Institute, Shanghai, China(上海创新研究院)
AI总结 多模态大语言模型在多图像跨模态检索任务中表现出色,但存在严重的顺序偏差问题,即预测结果受输入顺序影响而非语义相关性。本文提出了一种名为“Logit-Attention Divergence”的现象,指出输出logits存在偏差,而内部注意力图仍能准确对齐相关视觉信息,揭示了现有校准方法的局限性。基于此,作者提出了一种无需训练、基于注意力引导的去偏框架,利用模型内部的注意力信号在推理阶段进行实例级校正,仅需少量校准数据且计算开销极小。实验表明,该方法显著提升了模型对输入顺序的鲁棒性,在多个基准测试中取得了最先进的性能。