AI 大模型
RAG / 检索增强生成
检索增强生成、向量检索、知识库问答和面向大模型的搜索系统。
Closing the Calibration Gap in Semantic Caching
缩小语义缓存中的校准差距
专题命中 检索器 :研究语义缓存系统的校准问题,提出新指标。
AI总结 针对语义缓存系统中离线指标与部署性能的差距,提出P-CHR AUC和CRR指标,发现校准差距由训练目标主导,模型选择本质是校准问题。
Comments 23 pages, 2 figures. Source code: https://github.com/aditeyabaral/calibration-gap-semantic-caching ; Models and Datasets: https://huggingface.co/redis
Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio
对Nature Portfolio元分析文章进行LLM代理基准测试
专题命中 检索器 :包含检索和RAG变体的基准测试
AI总结 提出MetaSyn数据集,包含442篇专家策划的元分析,用于评估LLM代理在检索-筛选-综合全流程中的表现,发现当前系统在筛选阶段存在严重瓶颈。
Comments 13 pages, 7 figures, preprint for arXiv, dataset and code available at https://github.com/BFTree/MetaSyn