从局部到全局:一种基于图的RAG方法用于聚焦查询的摘要
Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Dasha Metropolitansky, Robert Osazuwa Ness, Jonathan Larson arXiv:2404.16130 [ cs.CL, cs.AI, cs.IR, H.3.3; I.2.7 ] github:microsoft/graphrag
作者:摘要
使用检索增强生成(RAG)从外部知识源检索相关信息,使大型语言模型(LLM)能够回答关于私有和/或以前未见的文档集合的问题。然而,RAG在针对整个文本语料库的全局性问题上表现不佳,例如“数据集中主要的主题是什么?”,因为这本质上是一个聚焦查询的摘要(QFS)任务,而非明确的检索任务。同时,先前的QFS方法无法扩展到典型的RAG系统所索引的文本量。为了结合这些对比方法的优点,我们提出了GraphRAG,这是一种基于图的方法,用于回答私有文本语料库上的问题,其可扩展性兼顾了用户问题的通用性和源文本的数量。我们的方法使用LLM分两个阶段构建图索引:首先,从源文档中派生实体知识图;然后,预生成所有密切相关实体群体的社区摘要。给定一个问题,每个社区摘要用于生成部分响应,然后所有部分响应再次汇总为对用户的最终响应。对于100万个标记范围内数据集的全局性理解问题,我们表明GraphRAG在生成答案的全面性和多样性方面,比传统的RAG基线有显著改进。