RAG 流水线总览

本章充当导航:快速把握系统各阶段职责,并指向后续详细章节。核心链路:内容 → 向量化 → 索引 → 检索 → Prompt → 回答。带你快速了解 RAG 流水线的整体架构与各模块分工,帮助建立全局认知。

总体架构流程图

下方列举了 RAG 流水线的主要处理步骤,涵盖从内容接入到答案生成的完整流程:

  1. Markdown 内容
  2. 解析 + Front-matter
  3. 分块 chunkText
  4. 批量嵌入(Gemini/Qwen)
  5. 向量规整/裁剪
  6. 批量 Upsert Vectorize
  7. 检索(查询 + 过滤 + 回退)
  8. 上下文拼装
  9. Prompt 构建
  10. LLM 生成
  11. 引用 + 答案返回

各环节紧密衔接,确保内容高效流转与处理。

模块职责速览

下表简要梳理了各阶段的主要职责及关注点,便于快速定位后续章节:

阶段章节主要职责关键点
分块向量映射Markdown → 标题/句级切分语义保持 + 长度控制
嵌入Qwen 嵌入批量/并发/维度规整成本与吞吐平衡
存储数据结构Schema 最小化 / ID / URL 规范控制容量 + 语言标记
检索检索流程语言优先 + 回退低延迟 + 召回稳健
生成答案生成Prompt 组装 + LLM 调用上下文相关性与引用
维护重建索引全量重建流程与指标模型/策略升级支持

关键参数一览

流水线各环节涉及多个关键参数,以下表格汇总常用配置及示例:

名称描述示例
EMBED_DIM向量维度(索引/模型一致)1024
EMBEDDING_BATCH_SIZE单次嵌入批大小10 (Qwen) / 1 (Gemini)
UPLOAD_BATCH_SIZE/admin/upsert 每批项目数300
MAX_CONCURRENT_FILES文件并行解析上限15
MAX_CONCURRENT_EMBEDDINGS并发嵌入请求上限25
topK检索返回片段数8

合理设置参数有助于提升系统性能与稳定性。

语言策略概述

RAG 流水线支持多语言内容处理,以下简要介绍语言相关的核心策略:

  1. Ingest 写入 language
  2. 查询先 metadata 过滤,失败回退全量
  3. URL 二次过滤(/en/ 前缀)
  4. Prompt 指令与标签双语化
  5. 源链接返回保持原语言路径结构

多语言机制确保检索与生成环节的准确性和一致性。

常见演进路线

系统可持续演进,常见优化方向如下:

  • 引入增量更新(文件 hash / mtime)
  • Rerank 二阶段重排
  • 条件删除接口 & 过期策略
  • 上下文压缩(语义聚合 + 动态裁剪)
  • 多模型路由(按主题/语言切换嵌入提供方)

这些策略有助于提升系统扩展性与灵活性。

小结

通过模块解耦与批量/并发优化,RAG 流水线实现了高效可扩展的端到端处理。后续章节将详细介绍各环节的实现细节与优化策略。

文章导航

独立页面

这是书籍中的独立页面。

书籍首页

评论区