带图的检索增强生成 (GraphRAG)
韩昊宇、王宇、Harry Shomer、郭凯、丁嘉源、雷永佳、Mahantesh Halappanavar、Ryan A. Rossi、Subhabrata Mukherjee、唐先锋、何琪、华志刚、薄龙、赵彤、Neil Shah、Amin Javari、夏英龙、唐纪亮 arXiv:2501.00309 [ cs.IR, cs.CL, cs.LG ] github:Graph-RAG/GraphRAG/
作者:摘要
检索增强生成(RAG)是一种强大的技术,通过从外部源检索额外信息(如知识、技能和工具)来增强下游任务的执行。图,凭借其固有的“节点由边连接”的特性,编码了大量的异构和关系信息,使其成为RAG在众多现实世界应用中的宝贵资源。因此,我们最近见证了RAG与图结合(即GraphRAG)的关注度日益增加。然而,与传统的RAG不同,在传统的RAG中,检索器、生成器和外部数据源可以在神经嵌入空间中统一设计,而图结构数据的独特性,例如多样格式和领域特定的关系知识,在为不同领域设计GraphRAG时带来了独特而重大的挑战。鉴于其广泛的适用性、相关的设计挑战以及GraphRAG最近的兴起,迫切需要对其关键概念和技术进行系统和最新的调查。基于此动机,我们对GraphRAG进行了全面而最新的调查。我们的调查首先通过定义其关键组件,包括查询处理器、检索器、组织器、生成器和数据源,提出了一个整体的GraphRAG框架。此外,认识到不同领域中的图表现出独特的关联模式并需要专门的设计,我们回顾了专门为每个领域量身定制的GraphRAG技术。最后,我们讨论了研究挑战并集思广益,以激发跨学科的机会。我们的调查仓库在 https://github.com/Graph-RAG/GraphRAG/ 公开维护。