详细介绍
GraphSearch 是一个面向图结构数据的检索增强生成(RAG, Retrieval-Augmented Generation)工作流,旨在将图构建、图检索与生成式推理串联为可复现的流水线。项目整合了多种 GraphRAG 方法(例如 LightRAG、HyperGraphRAG 等)并提供数据集、图构建脚本与示例推理代码,便于在具有复杂关系的文本或领域知识图谱上进行多跳检索与问答研究。
主要特性
- 图构建工具:支持从文本数据构建知识图谱与上下文图索引,包含多种预处理与分片策略。
- 多种 GraphRAG 方法:内置或兼容多种基于图的检索与融合策略,便于比较与扩展。
- 可复现流水线:包含数据集、构建、索引与推理脚本,便于实验复现与方法对比。
- 研究资源:附带论文引用与数据集链接,便于学术复现与对比实验。
使用场景
- 多跳问答与知识问答:在具有复杂实体关系的数据上提升检索准确性与生成质量。
- 专域检索:在法律、医疗、科研等领域知识图谱上进行精细化检索与摘要。
- 方法研发与基线比较:提供流水线与示例,方便研究者实现新方法并进行横向对比。
- 教学与演示:作为演示图检索与 RAG 思路的入门项目。
技术特点
- 语言与依赖:以 Python 为主,包含配套脚本与依赖说明,便于在标准实验环境中运行。
- 架构模块化:将图构建、检索、检索结果融合与生成解耦,便于替换子模块。
- 可扩展数据格式:支持多种文本与图数据输入,方便接入现有语料与知识库。
- 开源许可:项目采用 Apache-2.0/MIT 等开源许可证(详见仓库),便于研究与商业使用。