跳过内容

带有提取实体和社区摘要的词汇图谱

背景

某些可以对整个数据集提出的问题,不仅与某些分块中存在的事物相关,而且还寻求数据集中普遍存在的整体信息。所有上述模式都不适合回答这类“全局”问题。

图模式

Graph

元素

节点

Document Node 文档节点包含文档名称及其来源。它们可能包含额外的元数据。 Chunk Node 分块节点包含分块的人类可读文本及其向量嵌入。它们可能包含额外的元数据。 Entity Node 实体节点包含实体的名称。此外,它们可能包含实体的描述和向量嵌入(名称和描述的)。它们可能包含额外的元数据。实体节点可以根据提取提示具有额外的标签。 Community Node 社区节点包含与社区相关的所有数据,例如级别、名称、摘要和完整内容。它们可能具有一个权重属性,表示该社区所跨的分块数量。它们可能包含额外的元数据。

关系

PART_OF Relationship PART_OF 关系不需要额外的属性。但是,它们可能包含额外的元数据。 HAS_ENTITY Relationship HAS_ENTITY 关系不需要额外的属性。但是,它们可能包含额外的元数据。 RELATES_TO Relationship RELATES_TO 关系在此处是示例性的。它们可以根据提取提示具有任何类型。它们也可能有一个描述。它们可能包含额外的元数据。 IN_COMMUNITY Relationship IN_COMMUNITY 关系将实体连接到包含摘要的社区节点。这些关系不需要额外的属性。但是,它们可能包含额外的元数据。 PARENT_COMMUNITY Relationship PARENT_COMMUNITY 关系将一个级别的社区连接到它们的更高级别社区节点。这些关系不需要额外的属性。但是,它们可能包含额外的元数据。

描述

除了提取实体及其关系之外,我们还需要在域图中形成分层社区。这可以通过使用 Leiden 算法来完成。对于每个社区,LLM 会将实体和关系信息总结成社区摘要。

GraphRAG 模式

带有提取实体和社区摘要的词汇图用于全局社区摘要检索器本地检索器

我在哪里?
© . This site is unofficial and not affiliated with Microsoft.