设计决策与方案取舍

本节记录本项目在架构、模型、产品化方向上的关键设计决策与权衡，帮助读者理解“为什么这样做”以及未来可替换空间。决策按照 背景 → 选项 → 评估 → 结论 → 可替代路径 的模板呈现。

为什么选择 Qwen 大模型

背景：需要一个在中英文技术文档、指令遵循、成本与可用性之间平衡的主力 LLM。

候选：GPT-4 系列、Claude、DeepSeek、Qwen、Gemini。

评估维度：中文技术语义、指令稳定性、上下文对齐、延迟、成本、可用性（网络/合规）、配套嵌入一致性。

维度	GPT-4	Claude	DeepSeek	Gemini	Qwen
中文技术语义	高	中高	中	中	高
指令稳定性	高	高	中	中	高
成本	高	高	低	中	中低
延迟	中	中 ~ 偶高	中	中	中
可用性/网络	变量	变量	稳定	需梯子	稳定
嵌入协同性	中	中	中	中	高

表 1: 设计决策评估表

结论：Qwen 在中文语义与嵌入一致性方面具备优势，性价比适合个人与中小规模试验；通过轻量接口抽象保留未来切换余地。

可替代路径：引入“多模型路由”组件，对分类、生成、代码、翻译分流不同模型；或使用蒸馏策略降低高端模型成本。

为什么不直接使用 SaaS（如 kapa.ai）

目标	SaaS 适配情况	自研价值
深度检索控制	限制（不可自由组合 pipeline）	可自由混合多路召回/重排/裁剪
数据主权 & 合规	需信任第三方	全链自控，可本地化部署
快速迭代	受厂商发布节奏限制	任意模块热替换/灰度
监控细粒度	黑盒指标有限	可暴露相似度分布、引用命中率、拒答率
成本策略	固定阶梯	按需选模型/缓存分层/降级策略
创新实验	受限	引入 rerank、反思链、知识图谱更灵活

表 2: SaaS 适配情况与自研价值对比

结论：自研建立“知识基础设施”能力，长期复利 > 短期集成速度；SaaS 可作为 baseline/对照组存在。

补充：仍可引入通用托管能力（如 API 网关、安全）而不放弃核心检索与生成链路控制权。

自研初衷与核心优势

知识资产沉淀：个人/社区文档、手册、博客统一结构化 → 可检索、可演化。
可验证性：答案引用原文块，杜绝“不可追溯权威”。
迭代弹性：Embedding / Retriever / Reranker / Prompt / LLM 各层可独立优化。
成本可控：逐步引入缓存、多级模型、动态上下文裁剪。
教育示范：输出工程化、透明、可复制范式，降低他人入门门槛。
反馈驱动：基于失败会话回放构建“持续运营”机制。

版本策略与开源差异

发布基线：手册基于仓库 tag v1.0.0 进行讲解，确保内容稳定、步骤可重放。

线上版本：网站运行 main 分支，包含迭代增强（检索调参、结构化日志、Prompt 优化、多语言增强等）。

选择原因：main 快速试错降低创新滞后；v1.x 系列维持学习稳定性。

未来可替换模块

模块	当前实现	可替换方向	触发条件
Embedding	Qwen + 维度规整	bge-m3 / jina / 自训练	召回率瓶颈
检索	单向量 + rerank	混合 BM25 / MMR / Graph	相关性不足或重复高
生成	Qwen 主模型	多模型路由 / 反思链	复杂任务失败率高
约束	引用 + 阈值	事实回查 / 知识图谱	误导性回答残留
监控	结构化日志	专用指标聚合服务	指标规模增长
部署	Cloudflare Workers	Regional Edge / 混合本地	SLA / 合规提升需求

表 3: 未来可替换模块

决策记录模板（建议团队化使用）

# DR-2025-08-XX: <决策标题>

## 背景

<问题描述> + <约束条件>

## 目标

<成功标准>

## 选项

| 方案 | 描述 | 优点 | 缺点 |
|------|------|------|------|

## 评估结论

<做出决策的理由>

## 决策

<选定方案> + <生效时间> + <Owner>

## 回滚条件

<哪些观测指标触发回滚>

## 后续行动

- [ ] <Task1>
- [ ] <Task2>

小结

设计决策透明化让系统演进具备“认知可追溯性”。通过最小可替换接口 + 版本分层 + 度量驱动，我们将 RAG 系统从一次性交付转向持续改进平台。读者可据此裁剪或扩展，构建符合自身约束的解决方案。