父子词汇图谱
背景
将大型文档分块成较小的片段以创建嵌入是很有用的。嵌入是文本的语义表示,捕捉文本的含义。如果给定文本很长且包含太多不同主题,其嵌入的信息价值就会降低。由于来自多个主题的噪音较少,较窄的文本片段将产生比更宽泛的文本片段更有意义的向量表示。然而,如果大型语言模型(LLM)仅接收到非常少量的信息进行答案生成,则该信息可能缺少上下文。检索包含所找到信息的更宽泛的文本片段可以解决这个问题。
此模式是词汇图的演变。
图模式
元素
节点
文档节点包含文档名称及其来源。它们可能包含额外的元数据。
块节点包含块的人类可读文本及其向量嵌入。它们可能包含额外的元数据。
关系
PART_OF 关系不需要额外的属性。但是,它们可能包含额外的元数据。
HAS_CHILD 关系不需要额外的属性。但是,它们可能包含额外的元数据。
描述
在分块文档时,将其分成(较大)的块(即父块),并进一步将这些块分成较小的块(即子块)。使用嵌入模型嵌入子块的文本内容。请注意,父块无需嵌入,因为它们仅用于答案生成,而非相似性搜索。
GraphRAG 模式
父子词汇图用于父子检索器中。