AI 大模型
RAG / 检索增强生成
检索增强生成、向量检索、知识库问答和面向大模型的搜索系统。
1. 知识库问答 4 篇
Telenor Nordics Customer Service self-help corpus
Telenor Nordics 客户服务自助语料库
专题命中 知识库问答 :构建多语言客户服务语料库,支持RAG。
AI总结 本文构建了一个包含芬兰语、丹麦语、挪威语和瑞典语的多语言客户服务自助语料库,共1122篇文档,用于支持北欧NLP和信息检索研究。
Comments 8 pages, 2 figures, 5 tables. Submitted to Nordic Machine Intelligence. Dataset: https://zenodo.org/records/19493152
TransLaw: A Large-Scale Dataset and Multi-Agent Benchmark Simulating Professional Translation of Hong Kong Case Law
TransLaw:模拟香港判例法专业翻译的大规模数据集与多智能体基准
专题命中 知识库问答 :集成法律词汇库和检索增强生成
AI总结 针对香港判例法英译中资源匮乏、法律术语和格式要求严格的问题,构建了首个大规模句对齐平行语料库HKCFA Judgment 97-22,并提出多智能体框架TransLaw,通过分解翻译任务、集成法律词汇库和检索增强生成,显著提升翻译质量,但仍未达到人类专家的风格自然度。
Comments Accepted at ICML 2026 - AI for Law
2. 向量检索 1 篇
TSseek: Regular Expression-Based Similarity Search for Distributed Time Series Datasets
TSseek: 基于正则表达式的分布式时间序列数据集相似性搜索
专题命中 向量检索 :时间序列相似性搜索,非传统RAG但涉及检索
AI总结 提出TSseek框架,通过正则表达式查询语言支持趋势、值范围和通配符模式搜索,并构建分布式空间索引TSseek-X实现高效精确匹配。
Comments Extended version with full ablation studies and additional experiments. v3 corrects bibliographic metadata for several references