RAG / 检索增强生成 - arXivDaily 专题

2606.18508 2026-06-18 cs.CL cs.IR 新提交专题 95

MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

MCompassRAG：主题元数据作为段落级检索的语义指南针

Amirhossein Abaskohi, Raymond Li, Gaetano Cimino, Peter West, Giuseppe Carenini, Issam H. Laradji

专题命中检索器：提出主题元数据增强段落检索的RAG框架

AI总结提出MCompassRAG框架，通过主题元数据增强段落表示，利用LLM蒸馏训练轻量检索器，实现主题感知检索，在六个基准上平均信息效率提升8.24%，延迟降低5倍以上。

URL PDF HTML

2605.29517 2026-06-18 cs.IR 版本更新专题 95

FLASH-MAXSIM: IO-Aware Fused Kernels for Late-Interaction Retrieval

FLASH-MAXSIM: 面向IO感知的融合内核用于晚期交互评分

Roi Pony, Daniel Ezer, Adi Raz Goldfarb, Idan Friedman, Oshri Naparstek, Udi Barzelay

专题命中检索器：提出Flash-MaxSim内核加速晚期交互检索，核心是检索器优化。

AI总结提出Flash-MaxSim，一种IO感知的融合GPU内核，通过流式分块和片上SRAM折叠行最大规约，避免物化完整相似度张量，显著降低内存占用并加速晚期交互检索（如ColBERT、ColPali）的MaxSim评分。

URL PDF HTML

2606.18781 2026-06-18 cs.CL 新提交专题 90

Lost in a Single Vector: Improving Long-Document Retrieval with Chunk Evidence Aggregation

迷失在单一向量中：通过分块证据聚合改进长文档检索

Shanshan Lyu, Yiwei Wang, Yujun Cai, Jiafeng Guo, Shenghua Liu

专题命中检索器：改进长文档检索，提出分块证据聚合策略。

AI总结针对长文档检索中单向量编码削弱关键片段证据的问题，提出无训练的分块证据聚合策略DICE，通过独立编码分块并聚合为单一向量，在保持标准接口的同时显著提升检索性能。

Comments Code is available at https://github.com/PunchlineAAAA/DICE

URL PDF HTML

2606.01697 2026-06-18 cs.CL 版本更新专题 90

RCEM: Robust Conversational Search EMbedder in Distributional Shift

RCEM：配备查询重写技能的嵌入器，用于分布偏移下的鲁棒对话搜索

Kilho Son, Paul Hsu, Cha Zhang, Dinei Florencio

专题命中检索器：对话搜索嵌入器，结合LLM查询重写与检索

AI总结提出RCEM模型，通过将LLM的查询重写能力蒸馏到嵌入模型中，实现无需显式重写的上下文感知检索，在分布偏移下提升鲁棒性。

URL PDF HTML

2606.19037 2026-06-18 cs.IR 新提交专题 85

Querit-Reranker: Training Compact Multilingual Rerankers via Efficient Label-Free Distribution Adaptation

Querit-Reranker: 通过高效无标签分布适应训练紧凑型多语言重排序器

Yunfei Zhong, Jun Yang, Wei Huang, Yinqiong Cai, Haosheng Qian, Yixing Fan, Ruqing Zhang, Lixin Su, Daiting Shi, Jiafeng Guo

专题命中检索器：多语言重排序器，用于检索增强。

AI总结提出Querit-Reranker系列多语言交叉编码器重排序模型，采用数据驱动的无标签适应管道，通过合成查询挖掘和教师软标签进行分布适应，并利用球面线性插值合并检查点，在BEIR和MIRACL上显著提升nDCG@10，在MTEB多语言重排序上达到最优性能。

URL PDF HTML

2606.18947 2026-06-18 cs.AI cs.CL cs.IR cs.MA 新提交专题 85

Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents

将搜索与推理解耦：面向LLM Agent的供应商无关的接地架构

Emmanuel Aboah Boateng, Kyle MacDonald, Amardeep Kumar, Siddharth Kodwani, Sudeep Das

专题命中检索器：实现搜索接地与推理解耦，优化检索增强生成

AI总结提出解耦搜索接地（DSG）架构，将搜索接地从推理模型中分离，通过MCP兼容网关实现供应商路由、缓存等控制，在降低成本和延迟的同时保持或提升准确性。

Comments 15 pages, Figure 8

URL PDF HTML

2606.18811 2026-06-18 cs.IR cs.AI 新提交专题 85

Rescaling MLM-Head for Neural Sparse Retrieval

重新缩放MLM头部用于神经稀疏检索

Youngjoon Jang, Seongtae Hong, Jonah Turner, Heuiseok Lim

专题命中检索器：改进SPLADE神经稀疏检索，属于检索器

AI总结针对SPLADE中MLM头部尺度不匹配导致训练不稳定和性能下降的问题，提出初始化时对MLM头部投影进行常数因子重缩放，零成本提升训练稳定性，使大范数骨干网络成为有竞争力的稀疏检索器。

URL PDF HTML

2606.18406 2026-06-18 cs.CL 新提交专题 85

CoreMem: Riemannian Retrieval and Fisher-Guided Distillation for Long-Term Memory in Dialogue Agents

CoreMem: 对话代理中长期记忆的黎曼检索与Fisher引导蒸馏

Jiaqi Chen, Yongqin Zeng, Shaoshen Chen, Yijian Zhang, Hai-Tao Zheng, Chunxia Ma, XiuTeng Zhou

专题命中检索器：提出黎曼检索方法用于对话长期记忆

AI总结提出CoreMem架构，用黎曼检索替代余弦相似度解决高维检索枢纽问题，通过Fisher引导离散令牌蒸馏实现原则性压缩，在8GB显存边缘设备上实现长期记忆对话代理。

Comments 15 pages, 5 figures

URL PDF HTML

2606.18310 2026-06-18 cs.CR cs.AI 新提交专题 85

Conflict-Aware Retriever Editing for Knowledge Injection Attacks on LLM-Based RAG Systems

冲突感知检索器编辑：针对基于LLM的RAG系统的知识注入攻击

Xinru Liu, Xianglong Zhang, Di Cai, Zhumin Chen, Pengfei Hu, Xin Xin

专题命中检索器：提出冲突感知检索器编辑攻击，注入恶意知识到RAG。

AI总结提出冲突感知检索器编辑框架CAREATTACK，通过模型中心攻击将恶意知识注入RAG系统，利用图检测和参数编辑投影解决冲突，并轻量校准保持攻击效果。

URL PDF HTML

2606.15345 2026-06-18 cs.CL cs.IR 新提交专题 85

Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

超越单语言深度研究：用跨语言 BrowseComp-Plus 评估智能体和检索器

Yuheng Lu, Qingcheng Zeng, Heli Qi, Puxuan Yu, Fuheng Zhao, Rui Yang, Hitomi Yanaka, Naoto Yokoya, Weihao Xuan

专题命中检索器：评估跨语言检索和智能体性能

AI总结提出跨语言基准 XBCP，评估深度研究智能体在证据语言与查询不同时的表现，发现检索和智能体端均存在显著性能下降。

Comments Preprint

URL PDF HTML

2606.18801 2026-06-18 cs.IR cs.AI 新提交专题 80

SHIFT: Semantic Harmonization via Index-side Feature Transformation for Multilingual Information Retrieval

SHIFT: 通过索引侧特征变换实现多语言信息检索的语义对齐

Youngjoon Jang, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim

专题命中检索器：多语言密集检索，缓解语言偏差

AI总结提出SHIFT方法，在索引阶段通过平行翻译对估计相对语言向量并修正文档嵌入，以缓解多语言密集检索中的语言偏差，无需训练即可提升检索性能。

URL PDF HTML

2606.12837 2026-06-18 cs.CL 新提交专题 75

LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling

LoHoSearch: 超越人类难度上限的长时域搜索代理基准测试

Jiarui Zhao, Rongzhi Zhang, Lingchuan Liu, Hao Yang, Xunliang Cai, Xi Su

专题命中检索器：基于知识图谱构建复杂搜索问题

AI总结提出LoHoSearch基准，基于700万维基实体知识图谱自动构建544个复杂问题，评估显示最强模型仅34.74%准确率，远超人类难度上限。

URL PDF HTML

2606.18814 2026-06-18 cs.IR 新提交专题 70

LensKit-Auto

LensKit-Auto的改进与增强

Max Breit, Anass Amezian El Idrissi, Rishikesh Giriraj Kulkarni, Luca Quade

专题命中检索器：自动推荐系统框架，与检索相关但非RAG核心

AI总结本文改进了LensKit-Auto框架，使其能自动寻找适合数据集的推荐算法和超参数组合，增强了易用性和可视化功能，并适配了最新版本的LensKit框架。

URL PDF HTML

2606.18878 2026-06-18 cs.DS cs.DB cs.FL 新提交专题 60

Tractable Gap-Constraint Languages for Complex Event Recognition

复杂事件识别的可处理间隙约束语言

Antoine Amarilli, Florin Manea, Tina Ringleb, Markus L. Schmid

专题命中检索器：研究子序列匹配与间隙约束，与复杂事件识别相关，但非核心RAG内容。

AI总结研究带间隙约束的子序列匹配问题，提出左凸语言类，可在O(|D|(|u|+|C|))时间内求解，并用于复杂事件识别中的高效枚举。

Comments 50 pages

URL PDF HTML

2606.18530 2026-06-18 cs.CR cs.CL cs.LG 新提交专题 60

Evaluating Prompting-Based Defenses Against Domain-Camouflaged Injection Attacks

评估基于提示的防御策略对抗领域伪装注入攻击

Aaditya Pai

专题命中检索器：防御检索内容中的注入

AI总结针对领域伪装注入攻击，评估五种基于提示的防御方法（如释义、重点标记等）在三个模型家族和三个部署领域中的有效性，发现释义法最有效，可将伪装攻击成功率降低55-84%。

Comments 9 pages, 4 figures, 4 tables; under review at the AdvML-Frontiers x CoTMA workshop, COLM 2026

URL PDF HTML

2601.08554 2026-06-18 cs.SI cs.DB cs.GR 版本更新专题 60

Maintaining Leiden Communities in Large Dynamic Graphs

维护大规模动态图中的 Leiden 社区

Chunxu Lin, Yumao Xie, Yixiang Fang, Yongmin Hu, Yingqian Hu, Cheng Chen

专题命中检索器：社区检测用于RAG的层次索引，但非核心

AI总结针对现有动态 Leiden 算法在频繁更新下效率低的问题，提出 HIT-Leiden 算法，通过维护连通分量和层次社区结构减少受影响顶点范围，实现高达五个数量级的加速。

URL PDF HTML