文本分块
文本分块
文本文档可以是短的(社交媒体帖子或评论)也可以是很长的(一本书)。
由于较长的文本文档按顺序涵盖了许多不同的主题(有时带有引用),因此希望将其结构化为语义连贯且专注于一个主题的较小片段。
这种将文档分成较小片段的过程称为分块。
下面列出了许多不同的分块策略。
- 分割:将文档分成大小相等的部分(按字符或令牌计数),并带有可选的重叠(典型大小为 250-500 个令牌,重叠 50-100 个令牌)
- 分层文档分块:沿词汇边界(章节、节、段落)分割文档
- 句子分块:将文档分割成单独的句子
- 语义分块:将文档分割成句子,生成嵌入,并在嵌入向量距离超过某个阈值的边界处进行分割