设计决策与方案取舍

本节记录本项目在架构、模型、产品化方向上的关键设计决策与权衡,帮助读者理解“为什么这样做”以及未来可替换空间。决策按照 背景 → 选项 → 评估 → 结论 → 可替代路径 的模板呈现。

为什么选择 Qwen 大模型

背景:需要一个在中英文技术文档、指令遵循、成本与可用性之间平衡的主力 LLM。

候选:GPT-4 系列、Claude、DeepSeek、Qwen、Gemini。

评估维度:中文技术语义、指令稳定性、上下文对齐、延迟、成本、可用性(网络/合规)、配套嵌入一致性。

维度GPT-4ClaudeDeepSeekGeminiQwen
中文技术语义中高
指令稳定性
成本中低
延迟中 ~ 偶高
可用性/网络变量变量稳定需梯子稳定
嵌入协同性

结论:Qwen 在中文语义与嵌入一致性方面具备优势,性价比适合个人与中小规模试验;通过轻量接口抽象保留未来切换余地。

可替代路径:引入“多模型路由”组件,对分类、生成、代码、翻译分流不同模型;或使用蒸馏策略降低高端模型成本。

为什么不直接使用 SaaS(如 kapa.ai)

目标SaaS 适配情况自研价值
深度检索控制限制(不可自由组合 pipeline)可自由混合多路召回/重排/裁剪
数据主权 & 合规需信任第三方全链自控,可本地化部署
快速迭代受厂商发布节奏限制任意模块热替换/灰度
监控细粒度黑盒指标有限可暴露相似度分布、引用命中率、拒答率
成本策略固定阶梯按需选模型/缓存分层/降级策略
创新实验受限引入 rerank、反思链、知识图谱更灵活

结论:自研建立“知识基础设施”能力,长期复利 > 短期集成速度;SaaS 可作为 baseline/对照组存在。

补充:仍可引入通用托管能力(如 API 网关、安全)而不放弃核心检索与生成链路控制权。

自研初衷与核心优势

  1. 知识资产沉淀:个人/社区文档、手册、博客统一结构化 → 可检索、可演化。
  2. 可验证性:答案引用原文块,杜绝“不可追溯权威”。
  3. 迭代弹性:Embedding / Retriever / Reranker / Prompt / LLM 各层可独立优化。
  4. 成本可控:逐步引入缓存、多级模型、动态上下文裁剪。
  5. 教育示范:输出工程化、透明、可复制范式,降低他人入门门槛。
  6. 反馈驱动:基于失败会话回放构建“持续运营”机制。

版本策略与开源差异

发布基线:手册基于仓库 tag v1.0.0 进行讲解,确保内容稳定、步骤可重放。

线上版本:网站运行 main 分支,包含迭代增强(检索调参、结构化日志、Prompt 优化、多语言增强等)。

选择原因main 快速试错降低创新滞后;v1.x 系列维持学习稳定性。

未来可替换模块

模块当前实现可替换方向触发条件
EmbeddingQwen + 维度规整bge-m3 / jina / 自训练召回率瓶颈
检索单向量 + rerank混合 BM25 / MMR / Graph相关性不足或重复高
生成Qwen 主模型多模型路由 / 反思链复杂任务失败率高
约束引用 + 阈值事实回查 / 知识图谱误导性回答残留
监控结构化日志专用指标聚合服务指标规模增长
部署Cloudflare WorkersRegional Edge / 混合本地SLA / 合规提升需求

决策记录模板(建议团队化使用)

# DR-2025-08-XX: <决策标题>

## 背景

<问题描述> + <约束条件>

## 目标

<成功标准>

## 选项

| 方案 | 描述 | 优点 | 缺点 |
|------|------|------|------|

## 评估结论

<做出决策的理由>

## 决策

<选定方案> + <生效时间> + <Owner>

## 回滚条件

<哪些观测指标触发回滚>

## 后续行动

- [ ] <Task1>
- [ ] <Task2>

小结

设计决策透明化让系统演进具备“认知可追溯性”。通过最小可替换接口 + 版本分层 + 度量驱动,我们将 RAG 系统从一次性交付转向持续改进平台。读者可据此裁剪或扩展,构建符合自身约束的解决方案。

文章导航

章节完成

恭喜完成本章节!下一章节即将开始。下一章节:系统架构与设计

章节概览

评论区