知识图谱简介
知识图谱简介
知识图谱模型特别适合表示具有相互连接元素的结构化和非结构化数据。与传统数据库不同,它们不需要严格的模式,而是在数据模型上更加灵活。图模型允许高效地存储、管理、查询和处理现实世界中丰富的信息。在RAG系统中,知识图谱作为LLM语言能力(如总结、翻译和提取)的灵活记忆伙伴。
在知识图谱中,事实和实体被表示为带有属性的**节点**,通过带有限定属性的类型化**关系**连接。这种图模型可以从简单的家谱扩展到公司的完整数字孪生,包括员工、客户、流程、产品、合作伙伴和资源,拥有数百万甚至数十亿的连接。
图结构可以来源于各种来源,从结构化的业务领域、(分层)文档表示到图算法计算出的信号。
当我们深入研究检索模式时,我们注意到最先进的技术都依赖于数据内部的连接。无论是元数据过滤(如按特定作者或特定主题搜索文章),还是父子检索器(它们导航回文本块的父级,为LLM提供广度以获取上下文丰富的答案),这些方法都利用了要检索数据之间的关系。
通常,这些实现严重依赖客户端数据结构和连接不同信息片段的大量Python代码。然而,在图数据库中,建立真实关系并使用简单模式查询它们要高效得多。
在几乎所有模式的图模式中,您都会看到以下类型的实体:
- 表示您的应用领域的实体或领域节点
- 领域关系
- 表示摄入到图中的非结构化文档的文档节点
- 分块节点
它们是大多数GraphRAG模式的基础,并且至少具有以下两个属性:文本和嵌入,其中文本包含分块的人类可读文本字符串,而嵌入包含文本的计算嵌入。
延伸阅读
- 操作指南:分块