图检索增强生成:一项综述
彭博词, 朱韵, 刘永超, 薄小荷, 施海洲, 洪春涛, 张艳, 汤斯亮 arXiv:2408.08921 [ cs.AI, cs.CL, cs.IR ] github:pengboci/GraphRAG-Survey
作者:摘要
最近,检索增强生成(RAG)在不需重新训练的情况下,成功解决了大型语言模型(LLMs)的挑战。通过引用外部知识库,RAG 改进了 LLM 的输出,有效地缓解了“幻觉”、缺乏领域特定知识和信息过时等问题。然而,数据库中不同实体之间复杂的关系结构给 RAG 系统带来了挑战。为应对此问题,GraphRAG 利用实体之间的结构信息,实现更精确和全面的检索,捕捉关系知识并促进更准确、上下文感知的响应。鉴于 GraphRAG 的新颖性和潜力,对当前技术进行系统综述势在必行。本文首次全面概述了 GraphRAG 方法。我们形式化了 GraphRAG 的工作流程,包括基于图的索引、图引导检索和图增强生成。然后,我们概述了每个阶段的核心技术和训练方法。此外,我们还探讨了 GraphRAG 的下游任务、应用领域、评估方法和工业用例。最后,我们探索了未来的研究方向,以激发该领域的进一步探究和进展。为了追踪该领域的最新进展,我们在 \url{https://github.com/pengboci/GraphRAG-Survey} 上设立了一个存储库。