第十届中国开源年会,12月6-7日,北京, 查看详情

arXiv Paper Curator

由 Jam With AI 组织的逐周实战教程,教你构建生产级的检索增强生成(RAG)系统。

详细介绍

arXiv Paper Curator 是 Jam With AI 提供的六周实战课程,面向希望掌握生产级检索增强生成(RAG, Retrieval-Augmented Generation)系统的工程师与研究人员。课程从基础设施与工程实践出发,逐周带学员完成从论文抓取、PDF 解析、OpenSearch/BM25 索引,到智能分块、混合检索、局部 LLM 集成与实时流式生成的完整流水线。更多介绍见 课程页面

主要特性

  • 逐周进阶的教学路径,从基础设施(Docker、FastAPI、PostgreSQL)到生产监控(Langfuse、Redis)。
  • 完整的 RAG 工程实现:BM25 关键词检索为基础,逐步加入向量检索与 RRF 混合策略。
  • 面向生产的实现细节:智能分块、索引优化、流式 SSE 响应与 Gradio 可交互界面。

使用场景

  • 建立学术检索助手:自动抓取 arXiv 论文并按主题索引与检索。
  • 企业级文档检索:将文档库转为可问答的知识库,支持混合检索与来源溯源。
  • 教学与工程实战:作为学习 RAG 系统架构与实施的实操课程与代码样例库。

技术特点

  • 基础检索优先:强调 BM25 与关键词检索作为生产系统的基石,再结合向量检索提升召回。
  • 混合检索与智能分块:章节感知分块策略与 RRF/HYBRID 策略以兼顾精确性与语义能力。
  • 本地化生成与可观测性:支持 Ollama 本地模型、Gradio 前端以及 Langfuse 跟踪与 Redis 缓存以保障性能与可维护性。
arXiv Paper Curator
资源信息
📚 检索增强生成 💾 数据 🛠️ 开发工具 📖 教程 🌱 开源