HybridRAG:整合知识图谱和向量检索增强生成以实现高效信息提取
Bhaskarjit Sarmah、Benika Hall、Rohan Rao、Sunil Patel、Stefano Pasquali、Dhagash Mehta arXiv:2408.04948 [ cs.CL, cs.LG, q-fin.ST, stat.AP, stat.ML ]
作者:摘要
从金融应用中产生的非结构化文本数据(如财报电话会议记录)中提取和解释复杂信息,即使使用当前最佳实践的检索增强生成(RAG)技术(指利用向量数据库进行信息检索的VectorRAG技术),也对大型语言模型(LLMs)构成了巨大挑战,这主要是由于领域特定的术语和文档复杂的格式。我们引入了一种新颖的组合方法,称为HybridRAG,它结合了基于知识图谱(KGs)的RAG技术(称为GraphRAG)和VectorRAG技术,以增强金融文档信息提取的问答(Q&A)系统,并被证明能够生成准确且与上下文相关的答案。通过对一组以问答形式呈现的金融财报电话会议记录文档进行实验,这些文档提供了天然的真实问答对,我们发现HybridRAG通过从向量数据库和知识图谱中检索上下文,在检索准确性和答案生成方面,无论是检索阶段还是生成阶段的评估中,都优于传统的VectorRAG和GraphRAG。所提出的技术具有超越金融领域的应用前景。