AI 大模型
多模态大模型
跨文本、图像、视频、音频等模态的大模型与学习方法。
LARE: Low-Attention Region Encoding for Text-Image Retrieval
LARE: 低注意力区域编码用于文本-图像检索
专题命中 跨模态检索 :文本-图像跨模态检索
AI总结 提出LARE框架,通过并行编码低注意力区域和完整图像,解决拥挤场景下视觉编码器忽视关键细节的问题,在密集场景子集上提升检索性能。
Comments Accepted at the ICML 2026 Workshop on Efficient Multimodal Question Answering (EMM-QA). Code: https://github.com/AbdulmalikDS/LARE ; Dataset: https://huggingface.co/datasets/AbdulmalekDS/Dense-Set