arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

RAG / 检索增强生成

检索增强生成、向量检索、知识库问答和面向大模型的搜索系统。

今日/当前日期收录 12 信号源:cs.IR, cs.CL, cs.AI, cs.DB
2606.19396 2026-06-19 q-bio.QM 新提交 专题 90

BioHarness: Substrate-Aware Evidence Assembly for Biomedical Question Answering across Literature, Knowledge Bases, and Biological Atlases

BioHarness:面向生物医学问答的底物感知证据组装——跨文献、知识库和生物图谱

Meng Xiao, Chuan Qin, Jinmiao Chen, Yihang Cheng, Yuanchun Zhou, Hengshu Zhu

专题命中 知识库问答 :生物医学问答中跨文献、知识库和生物图谱的证据组装

AI总结 提出BioHarness,通过级联控制机制在文献检索、知识库和生物图谱间选择性组装证据,提升生物医学问答准确率,在19,302个问答项上得分从65.9提升至71.0。

Comments 14 Pages, 11 Figures, Keywords: biomedical question answering; retrieval-augmented generation; large language models; evidence assembly; biomedical knowledge bases; biological atlases

2606.20359 2026-06-19 cs.LG 新提交 专题 90

Train, Retrieve, or Both? A Four-Arm Head-to-Head for Correct Statutory Citation on the Ontario Residential Tenancies Act

训练、检索,还是两者兼用?针对安大略省住宅租赁法的正确法定引用的四组头对头比较

Ali Asaria, Tony Salomone, Deep Gandhi

专题命中 知识库问答 :SFT+RAG混合模型用于法律条文引用

AI总结 研究自诉租户、房东和帮助台工作人员如何获得正确的法定引用,通过四组实验比较微调、检索及混合方法,发现SFT+RAG混合模型在精确匹配上得分最高且无幻觉引用。

2606.19602 2026-06-19 cs.AI 新提交 专题 90

Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why

可配置的临床信息提取与智能体RAG:什么有效、什么失效及原因

Osman Alperen Çinar-Koraş, Marie Bauer, Sameh Khattab, Merlin Engelke, Moon Kim, Stephan Settelmeier, Shigeyasu Sugawara, Fabian Freisleben, Felix Nensa, Jens Kleesiek

专题命中 知识库问答 :提出ACIE系统,基于智能体RAG进行临床信息提取

AI总结 针对临床文档元数据缺失问题,提出基于智能体RAG的ACIE系统,在埃森大学医学中心部署,通过完整患者上下文推理和源引用验证,在7326次临床判断中实现96.5%的提取接受率。

2606.03367 2026-06-19 cs.IR 版本更新 专题 85

Automating Information Extraction and Retrieval for Industrial Spare Parts Pooling

自动化信息提取与检索用于工业备件池化

Dyuman Bulloni, Rocco Felici, Oliver Avram, Anna Valente

专题命中 知识库问答 :提出PhRAG混合检索增强生成框架用于备件检索。

AI总结 提出PhRAG混合检索增强生成框架,通过命名实体识别结构化异构备件描述并构建虚拟库存池,结合生成式语言模型处理数据稀缺和查询变异性,实现可解释的备件检索。

2606.20041 2026-06-19 econ.GN cs.AI cs.LG q-fin.EC q-fin.GN 新提交 专题 80

AI Economist Agent: An Agentic Framework for Model-Grounded Economic Analysis with RAG, Knowledge Graphs, and Large Language Models

AI经济学家代理:一种基于模型的经济分析代理框架,结合RAG、知识图谱和大语言模型

Masahiro Kato

专题命中 知识库问答 :基于RAG的经济分析,检索证据并生成报告

AI总结 提出一种基于RAG的AI经济学家代理框架,利用知识图谱和大语言模型进行经济情景分析,通过代理规划、检索证据、选择模型并生成报告,提高经济叙事的连贯性和可追溯性。

2606.20369 2026-06-19 cs.CL 新提交 专题 80

CATCH-ME if you RAG: a dataset of Contextually Annotated multi-Turn Counterspeech against Hate and Misinformation Exchanges

CATCH-ME if you RAG:针对仇恨与虚假信息交流的上下文注释多轮对抗言论数据集

Helena Bonaldi, Genoveffa Martone, Marco Guerini

专题命中 知识库问答 :数据集用于RAG系统训练对抗言论模型

AI总结 提出首个大规模、专家策划的多语言对话数据集,覆盖仇恨与虚假信息重叠问题,包含事实核查锚定和跨度标注,支持RAG系统训练更可信的对抗言论模型。

2606.19598 2026-06-19 cs.RO 新提交 专题 80

Fail-RAG : A Retrieval Augmented Generation Informed Framework for Robot Failure Identification

Fail-RAG:一种基于检索增强生成的机器人故障识别框架

Ameya Salvi, Jie Hu

专题命中 知识库问答 :提出Fail-RAG框架,利用RAG检测机器人故障

AI总结 提出Fail-RAG框架,利用检索增强生成和视觉语言模型,通过嵌入故障图像和上下文信息并查询数据库,实现机器人操作故障的高效检测,在仓库自动化任务中平均检测准确率提升25个百分点。

2605.26891 2026-06-19 cs.CL 版本更新 专题 80

Telenor Nordics Customer Service self-help corpus

Telenor Nordics 客户服务自助语料库

Mike Riess

专题命中 知识库问答 :构建多语言客户服务语料库,支持RAG。

AI总结 本文构建了一个包含芬兰语、丹麦语、挪威语和瑞典语的多语言客户服务自助语料库,共1122篇文档,用于支持北欧NLP和信息检索研究。

Comments 8 pages, 2 figures, 5 tables. Submitted to Nordic Machine Intelligence. Dataset: https://zenodo.org/records/19493152

2606.19847 2026-06-19 cs.CL 新提交 专题 70

AtomMem: Building Simple and Effective Memory System for LLM Agents via Atomic Facts

AtomMem: 通过原子事实构建简单有效的LLM智能体记忆系统

Yanyu Yao, Shangze Li, Zhi Zheng, Hui Zheng, Qi Liu, Tong Xu, Enhong Chen

专题命中 知识库问答 :涉及事实提取和层次化事件结构,用于记忆检索。

AI总结 针对现有记忆系统存储粗粒度、更新不稳定的问题,提出AtomMem,通过事实执行器提取高价值原子事实作为高效记忆表示,并组织为层次化事件结构和时间档案,实现价值密集存储和稳定演化,在LoCoMo基准上取得最优性能。

Comments 19 pages, 10 figures, 5 tables

2606.19700 2026-06-19 cs.CL 新提交 专题 70

TerraMARS: A Domain-Adapted Small-Language-Model Pipeline for Mars Terraforming Literature

TerraMARS: 用于火星地球化改造文献的领域自适应小语言模型管道

Jyotsna Singh, Ash Black, Jeff Larsen, Scott R. Saleska

专题命中 知识库问答 :结合检索和分块框架进行信息提取。

AI总结 提出TerraMARS管道,结合领域自适应小语言模型,从火星科学文献中提取结构化信息,支持地球化改造研究。

Comments 16 pages, 1 figure, 4 tables

2605.27864 2026-06-19 cs.AI 版本更新 专题 70

FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research

FundaPod: 一个具有知识图谱记忆的多角色智能体平台,用于AI辅助的基础投资研究

Di Zhu, Lei Nico Zheng, Zihan Chen

专题命中 知识库问答 :知识图谱记忆用于投资研究

AI总结 提出FundaPod平台,通过多角色独立研究、知识图谱记忆和事后裁决机制,支持人类投资经理进行透明、可验证的基础投资决策。

Comments 32 pages; 12 figures

2507.00875 2026-06-19 cs.CL cs.HC cs.MA 版本更新 专题 70

TransLaw: A Large-Scale Dataset and Multi-Agent Benchmark Simulating Professional Translation of Hong Kong Case Law

TransLaw:模拟香港判例法专业翻译的大规模数据集与多智能体基准

Xi Xuan, Chunyu Kit

专题命中 知识库问答 :集成法律词汇库和检索增强生成

AI总结 针对香港判例法英译中资源匮乏、法律术语和格式要求严格的问题,构建了首个大规模句对齐平行语料库HKCFA Judgment 97-22,并提出多智能体框架TransLaw,通过分解翻译任务、集成法律词汇库和检索增强生成,显著提升翻译质量,但仍未达到人类专家的风格自然度。

Comments Accepted at ICML 2026 - AI for Law