AI 大模型
RAG / 检索增强生成
检索增强生成、向量检索、知识库问答和面向大模型的搜索系统。
Lost in a Single Vector: Improving Long-Document Retrieval with Chunk Evidence Aggregation
迷失在单一向量中:通过分块证据聚合改进长文档检索
专题命中 检索器 :改进长文档检索,提出分块证据聚合策略。
AI总结 针对长文档检索中单向量编码削弱关键片段证据的问题,提出无训练的分块证据聚合策略DICE,通过独立编码分块并聚合为单一向量,在保持标准接口的同时显著提升检索性能。
Comments Code is available at https://github.com/PunchlineAAAA/DICE
Querit-Reranker: Training Compact Multilingual Rerankers via Efficient Label-Free Distribution Adaptation
Querit-Reranker: 通过高效无标签分布适应训练紧凑型多语言重排序器
专题命中 检索器 :多语言重排序器,用于检索增强。
AI总结 提出Querit-Reranker系列多语言交叉编码器重排序模型,采用数据驱动的无标签适应管道,通过合成查询挖掘和教师软标签进行分布适应,并利用球面线性插值合并检查点,在BEIR和MIRACL上显著提升nDCG@10,在MTEB多语言重排序上达到最优性能。
Evaluating Prompting-Based Defenses Against Domain-Camouflaged Injection Attacks
评估基于提示的防御策略对抗领域伪装注入攻击
专题命中 检索器 :防御检索内容中的注入
AI总结 针对领域伪装注入攻击,评估五种基于提示的防御方法(如释义、重点标记等)在三个模型家族和三个部署领域中的有效性,发现释义法最有效,可将伪装攻击成功率降低55-84%。
Comments 9 pages, 4 figures, 4 tables; under review at the AdvML-Frontiers x CoTMA workshop, COLM 2026