HybGRAG:在文本和关系知识库上进行混合检索增强生成
孟洁·李、朱琦、科斯塔斯·马夫罗马蒂斯、韩震、索吉·阿德希纳、瓦西里斯·N·约阿尼迪斯、胡泽法·朗瓦拉、克里斯托斯·法洛佐斯 arXiv:2412.16311 [ cs.LG, cs.AI, cs.IR ]
作者:摘要
给定一个半结构化知识库(SKB),其中文本文档通过关系相互连接,我们如何有效地检索相关信息来回答用户问题?检索增强生成(RAG)通过检索文档来辅助大型语言模型(LLM)回答问题;而图RAG(GRAG)则使用结构化知识库作为其知识源。然而,许多问题需要SKB中的文本和关系信息——我们称之为“混合”问题——这使得检索过程复杂化,并强调了需要一种利用这两种信息的混合检索方法。在本文中,通过我们的实证分析,我们识别了关键见解,这些见解表明现有方法在SKB上的混合问题回答(HQA)中可能面临困难。基于这些见解,我们提出了用于HQA的HybGRAG,它由一个检索器库和一个评论模块组成,具有以下优点:(1)代理性,它通过整合评论模块的反馈自动优化输出;(2)适应性,它利用检索器库解决需要文本和关系信息的混合问题;(3)可解释性,它通过直观的优化路径解释决策过程;(4)有效性,它在HQA基准测试中超越了所有基线。在STaRK基准测试的实验中,HybGRAG取得了显著的性能提升,Hit@1的平均相对改进达到51%。