医疗图谱 RAG:通过图谱检索增强生成,迈向安全的医疗大型语言模型
Junde Wu、Jiayuan Zhu、Yunli Qi、Jingkun Chen、Min Xu、Filippo Menolascina、Vicente Grau arXiv:2408.04187 [ cs.CV ] github:MedicineToken/Medical-Graph-RAG
作者:摘要
我们引入了一个新颖的、专门为医疗领域设计的基于图谱的检索增强生成(RAG)框架,名为 \textbf{MedGraphRAG}。它旨在增强大型语言模型(LLM)生成基于证据的医疗响应的能力,从而提高处理私人医疗数据时的安全性和可靠性。基于图谱的 RAG(GraphRAG)利用 LLM 将 RAG 数据组织成图谱,在从长篇文档中获取整体洞察方面显示出强大的潜力。然而,其标准实现对于一般使用过于复杂,并且缺乏生成基于证据的响应的能力,这限制了其在医疗领域的有效性。为了将 GraphRAG 的能力扩展到医疗领域,我们提出了独特的“三元图谱构建”和“U型检索”技术。在我们的图谱构建中,我们创建了一个三元链接结构,将用户文档与可信的医疗来源和受控词汇表连接起来。在检索过程中,我们提出了 U型检索,它结合了“自顶向下精确检索”和“自底向上响应精炼”,以平衡全局上下文感知与精确索引。这些努力使得信息源检索和全面的响应生成成为可能。我们的方法在9个医疗问答基准、2个健康事实核查基准和一个收集的长篇生成测试数据集上进行了验证。结果表明,MedGraphRAG 在所有基准测试中始终优于最先进的模型,同时还确保响应包含可信的来源文档和定义。我们的代码已发布于:https://github.com/MedicineToken/Medical-Graph-RAG。